このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240418となっている論文です。

PDF登録状況(公開日: 20240418)

TitleAuthorsAbstract論文公表日・翻訳日
# 局所ドメインアライメントを用いたタンパク質の機能設計

Functional Protein Design with Local Domain Alignment ( http://arxiv.org/abs/2404.16866v1 )

ライセンス: Link先を確認
Chaohao Yuan, Songyou Li, Geyan Ye, Yikun Zhang, Long-Kai Huang, Wenbing Huang, Wei Liu, Jianhua Yao, Yu Rong, (参考訳) デ・ノボタンパク質の設計の核となる課題は、特定の条件によって誘導される特定の機能や性質を持つタンパク質を作成することである。 現在のモデルでは、機能や性質に関する間接的な条件のみを提供する構造的および進化的ガイダンスを用いてタンパク質の生成を探求している。 しかし、タンパク質のテキストアノテーション、特にタンパク質ドメインのアノテーションは、タンパク質の高レベルな機能、性質、および標的アミノ酸配列との相関を直接記述しており、タンパク質設計タスクの文脈では未解明のままである。 本稿では,タンパク質データベースから抽出したテキストアノテーションを組み込んだマルチモーダルなタンパク質設計フレームワークであるProtein-Annotation Alignment Generation (PAAG)を提案する。 具体的には、マルチレベルアライメントモジュール内でPAAGは、対応するドメインアノテーションに条件付けられた特定のドメインを含むタンパク質を明示的に生成することができ、異なる種類のアノテーションの柔軟な組み合わせで新しいタンパク質を設計することもできる。 実験の結果,PAAGのタンパク質表現が7つの予測タスクよりも優れていることが示された。 さらにPAAGは、既存のモデルと比較して6倍近い世代の成功率(亜鉛指24.7%、免疫グロブリンドメイン54.3%、免疫グロブリンドメイン8.7%)を示す。

The core challenge of de novo protein design lies in creating proteins with specific functions or properties, guided by certain conditions. Current models explore to generate protein using structural and evolutionary guidance, which only provide indirect conditions concerning functions and properties. However, textual annotations of proteins, especially the annotations for protein domains, which directly describe the protein's high-level functionalities, properties, and their correlation with target amino acid sequences, remain unexplored in the context of protein design tasks. In this paper, we propose Protein-Annotation Alignment Generation (PAAG), a multi-modality protein design framework that integrates the textual annotations extracted from protein database for controllable generation in sequence space. Specifically, within a multi-level alignment module, PAAG can explicitly generate proteins containing specific domains conditioned on the corresponding domain annotations, and can even design novel proteins with flexible combinations of different kinds of annotations. Our experimental results underscore the superiority of the aligned protein representations from PAAG over 7 prediction tasks. Furthermore, PAAG demonstrates a nearly sixfold increase in generation success rate (24.7% vs 4.7% in zinc finger, and 54.3% vs 8.7% in the immunoglobulin domain) in comparison to the existing model.
翻訳日:2024-05-05 18:14:01 公開日:2024-04-18
# Transparent AI: 術後合併症を予測するための説明可能なインターフェースの開発

Transparent AI: Developing an Explainable Interface for Predicting Postoperative Complications ( http://arxiv.org/abs/2404.16064v1 )

ライセンス: Link先を確認
Yuanfang Ren, Chirayu Tripathi, Ziyuan Guan, Ruilin Zhu, Victoria Hougha, Yingbo Ma, Zhenhong Hu, Jeremy Balch, Tyler J. Loftus, Parisa Rashidi, Benjamin Shickel, Tezcan Ozrazgat-Baslanti, Azra Bihorac, (参考訳) 外科手術の量と術後死亡率を考えると,外科合併症の評価と管理は公衆衛生上重要な問題となっている。 リスク監視と診断のための既存の人工知能(AI)ツールは、適切な解釈可能性、公正性、再現性に欠けることが多い。 この問題に対処するために、私たちは、なぜ、なぜ、どのように、どのように、何、何、何その他に、AIモデルの説明可能性と透明性を高めるという5つの重要な疑問に答えるために設計された、説明可能なAI(XAI)フレームワークを提案しました。 そこで我々は,LIME(Local Interpretable Model-Agnostic Explanations),SHAP(SHapley Additive ExPlanations),反ファクト的説明,モデルカード,インタラクティブな機能操作インタフェース,類似した患者の識別など,さまざまなテクニックを取り入れた。 術後合併症の予測を目的としたXAIインタフェースの試作について紹介した。 この初期実装は、我々のXAIフレームワークの膨大な説明可能性に関する貴重な洞察を与え、その臨床導入に向けた最初の一歩を示している。

Given the sheer volume of surgical procedures and the significant rate of postoperative fatalities, assessing and managing surgical complications has become a critical public health concern. Existing artificial intelligence (AI) tools for risk surveillance and diagnosis often lack adequate interpretability, fairness, and reproducibility. To address this, we proposed an Explainable AI (XAI) framework designed to answer five critical questions: why, why not, how, what if, and what else, with the goal of enhancing the explainability and transparency of AI models. We incorporated various techniques such as Local Interpretable Model-agnostic Explanations (LIME), SHapley Additive exPlanations (SHAP), counterfactual explanations, model cards, an interactive feature manipulation interface, and the identification of similar patients to address these questions. We showcased an XAI interface prototype that adheres to this framework for predicting major postoperative complications. This initial implementation has provided valuable insights into the vast explanatory potential of our XAI framework and represents an initial step towards its clinical adoption.
翻訳日:2024-04-28 10:36:53 公開日:2024-04-18
# 相互作用と協調の代数

Algebras of Interaction and Cooperation ( http://arxiv.org/abs/2404.15361v1 )

ライセンス: Link先を確認
Ulrich Faigle, (参考訳) 協調と相互作用の系は通常、実あるいは複素ベクトル空間の文脈で研究される。 しかし、そのような系が乗法的構造を持つベクトル空間、すなわち代数で表されるときに、さらなる洞察が得られる。 一方、代数は多項式代数として便利に見なされる。 特に、自然数の基本解釈は自然多項式代数を生み出し、協調と相互作用に関する新たな統一的な見解を提供する。 例えば、ガロア変換の概念と協力ゲームのゼロ分割は、古典的ハーサニー配当の非線形類推として導入される。 さらに、多項式モデルはフーリエ変換の様々なバージョンを統一する。 多項式空間のテンソル積は量子理論との統一モデルを確立し、古典的な協調ゲームは量子論的文脈における相互作用のアクティビティとして研究することができる。

Systems of cooperation and interaction are usually studied in the context of real or complex vector spaces. Additional insight, however, is gained when such systems are represented in vector spaces with multiplicative structures, i.e., in algebras. Algebras, on the other hand, are conveniently viewed as polynomial algebras. In particular, basic interpretations of natural numbers yield natural polynomial algebras and offer a new unifying view on cooperation and interaction. For example, the concept of Galois transforms and zero-dividends of cooperative games is introduced as a nonlinear analogue of the classical Harsanyi dividends. Moreover, the polynomial model unifies various versions of Fourier transforms. Tensor products of polynomial spaces establish a unifying model with quantum theory and allow to study classical cooperative games as interaction activities in a quantum-theoretic context.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-18
# MP-DPD: 広帯域電力増幅器のエネルギー効率の良いディジタル予測のための低複雑混合精度ニューラルネットワーク

MP-DPD: Low-Complexity Mixed-Precision Neural Networks for Energy-Efficient Digital Predistortion of Wideband Power Amplifiers ( http://arxiv.org/abs/2404.15364v1 )

ライセンス: Link先を確認
Yizhuo Wu, Ang Li, Mohammadreza Beikmirza, Gagan Deep Singh, Qinyu Chen, Leo C. N. de Vreede, Morteza Alavi, Chang Gao, (参考訳) Digital Pre-Distortion (DPD)は広帯域RFパワー増幅器(PA)の信号品質を向上させる。 現代の無線システムにおける信号帯域幅の拡大に伴い、PDのエネルギー消費はシステム全体の効率にますます影響を及ぼす。 Deep Neural Networks(DNN)は、PDの有望な進歩を提供するが、その複雑さが高いため、実践的なデプロイメントを妨げている。 本稿では,エネルギー効率の DPD に対して,量子化低精度固定点パラメータを用いたオープンソースの混合精度(MP)ニューラルネットワークを提案する。 このアプローチは計算複雑性とメモリフットプリントを低減し、線形化効率を損なうことなく消費電力を低減させる。 デジタルRF PAの160MHz-BW 1024-QAM OFDM信号に適用すると、MP-DPDは32ビット浮動小数点精度のDPDに対して、アドジャセントチャネル電力比 (ACPR) の-43.75 (L)/-45.27 (R) dBcとエラーベクトルマグニチュード (EVM) の-38.72 dBを達成しながら、性能損失を生じない。 16ビットの固定点精度MP-DPDは推定推論パワーの2.8倍の低減を可能にする。 PyTorchの学習およびテストコードは、 \url{https://github.com/lab-emi/OpenDPD}で公開されている。

Digital Pre-Distortion (DPD) enhances signal quality in wideband RF power amplifiers (PAs). As signal bandwidths expand in modern radio systems, DPD's energy consumption increasingly impacts overall system efficiency. Deep Neural Networks (DNNs) offer promising advancements in DPD, yet their high complexity hinders their practical deployment. This paper introduces open-source mixed-precision (MP) neural networks that employ quantized low-precision fixed-point parameters for energy-efficient DPD. This approach reduces computational complexity and memory footprint, thereby lowering power consumption without compromising linearization efficacy. Applied to a 160MHz-BW 1024-QAM OFDM signal from a digital RF PA, MP-DPD gives no performance loss against 32-bit floating-point precision DPDs, while achieving -43.75 (L)/-45.27 (R) dBc in Adjacent Channel Power Ratio (ACPR) and -38.72 dB in Error Vector Magnitude (EVM). A 16-bit fixed-point-precision MP-DPD enables a 2.8X reduction in estimated inference power. The PyTorch learning and testing code is publicly available at \url{https://github.com/lab-emi/OpenDPD}.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-18
# UIClip: ユーザインターフェース設計を評価するデータ駆動モデル

UIClip: A Data-driven Model for Assessing User Interface Design ( http://arxiv.org/abs/2404.12500v1 )

ライセンス: Link先を確認
Jason Wu, Yi-Hao Peng, Amanda Li, Amanda Swearngin, Jeffrey P. Bigham, Jeffrey Nichols, (参考訳) ユーザインターフェース(UI)設計は、アプリケーションのユーザビリティ、アクセシビリティ、美的品質を保証するため、難しいが重要なタスクである。 本稿では,UIの設計品質と視覚的関連性を評価するためのマシン学習モデル,UIClipを開発した。 UIClipをトレーニングするために、自動クロール、合成拡張、人格評価の組み合わせを使用して、UIの大規模なデータセットを構築し、記述によって照合し、設計品質でランク付けしました。 データセットのトレーニングを通じて、UIClipは、良いデザインと悪いデザインの特性を暗黙的に学習する。 一 UI 設計の関連性及び品質を表す数値スコアを割り当てて 二 設計提案の提供 UIClipや他のベースラインのアウトプットを、12人のデザイナーが評価したUIと比較した結果、UIClipが基幹製品ランキングと最高の合意に達したことが判明した。 最後に、UI設計品質の即時評価に依存するダウンストリームアプリケーションをどのように促進できるかを示す3つの例を示す。 i) UIコード生成 二 UIデザインチップの生成及び 三 品質に配慮したUIの例検索

User interface (UI) design is a difficult yet important task for ensuring the usability, accessibility, and aesthetic qualities of applications. In our paper, we develop a machine-learned model, UIClip, for assessing the design quality and visual relevance of a UI given its screenshot and natural language description. To train UIClip, we used a combination of automated crawling, synthetic augmentation, and human ratings to construct a large-scale dataset of UIs, collated by description and ranked by design quality. Through training on the dataset, UIClip implicitly learns properties of good and bad designs by i) assigning a numerical score that represents a UI design's relevance and quality and ii) providing design suggestions. In an evaluation that compared the outputs of UIClip and other baselines to UIs rated by 12 human designers, we found that UIClip achieved the highest agreement with ground-truth rankings. Finally, we present three example applications that demonstrate how UIClip can facilitate downstream applications that rely on instantaneous assessment of UI design quality: i) UI code generation, ii) UI design tips generation, and iii) quality-aware UI example search.
翻訳日:2024-04-24 18:27:13 公開日:2024-04-18
# 複合ボソンの高調波ポテンシャルにおける解析解を用いた多粒子玩具システム

A multi particle toy system with analytic solutions to investigate composite bosons in a harmonic potential ( http://arxiv.org/abs/2404.14430v1 )

ライセンス: Link先を確認
Detlef Schmicker, (参考訳) 2種類のフェルミオンが複合ボソンを形成する3次元玩具システムを構築した。 彼らはハーモニックなポテンシャルを持っている。 基底関数は内部および外部ガウス関数から構成される。 すべての積分は解析解を持つ。 高対称性は、対称性を持つ波動関数に対して計算される積分の数を減少させる。 内部ガウス関数では、複合ボソンはフェルミオン的非有界な振る舞いからボゾン的有界な振る舞いへと調整することができる。

We construct a three dimensional toy systems with two types of fermions forming a composite boson. They are hold in a harmonic potential. The basis functions are constructed from an internal and an external Gauss function. All integrals have analytical solutions. The high symmetry reduces the number of integrals to be calculated for the symmetrized wave functions. With the internal Gauss function the composite bosons can be tuned from fermionic unbound behavior to bosonic bound behavior.
翻訳日:2024-04-24 18:27:13 公開日:2024-04-18
# 大規模言語モデルを用いた災害時のインフラ設備の監視

Monitoring Critical Infrastructure Facilities During Disasters Using Large Language Models ( http://arxiv.org/abs/2404.14432v1 )

ライセンス: Link先を確認
Abdul Wahab Ziaullah, Ferda Ofli, Muhammad Imran, (参考訳) 医療や交通機関などの重要なインフラ施設(CIF)は、特に大規模緊急事態時に地域社会の機能に欠かせない存在である。 本稿では,大規模言語モデル(LLM)の適用の可能性を探り,自然災害によるCIFの状況を監視する。 この目的のために,2つの異なる国の災害イベントのソーシャルメディアデータを分析し,CIFに対する報告された影響と,その影響の深刻さと運用状況を明らかにする。 我々は最先端のオープンソースLLMを用いて、検索、分類、推論を含む計算タスクを、すべてゼロショット設定で実行します。 広範にわたる実験を通じて,これらの課題の成果を標準評価指標を用いて報告し,LLMの強みと弱みに関する知見を明らかにする。 LLMは分類タスクにおいてよく機能するが、特にコンテキスト/プロンプトが複雑で長い場合、推論タスクの課題に直面することに留意する。 さらに,災害対応タスクへのLLMの導入初期において有用となる,今後の探索に向けた様々な方向性について概説する。

Critical Infrastructure Facilities (CIFs), such as healthcare and transportation facilities, are vital for the functioning of a community, especially during large-scale emergencies. In this paper, we explore a potential application of Large Language Models (LLMs) to monitor the status of CIFs affected by natural disasters through information disseminated in social media networks. To this end, we analyze social media data from two disaster events in two different countries to identify reported impacts to CIFs as well as their impact severity and operational status. We employ state-of-the-art open-source LLMs to perform computational tasks including retrieval, classification, and inference, all in a zero-shot setting. Through extensive experimentation, we report the results of these tasks using standard evaluation metrics and reveal insights into the strengths and weaknesses of LLMs. We note that although LLMs perform well in classification tasks, they encounter challenges with inference tasks, especially when the context/prompt is complex and lengthy. Additionally, we outline various potential directions for future exploration that can be beneficial during the initial adoption phase of LLMs for disaster response tasks.
翻訳日:2024-04-24 18:27:13 公開日:2024-04-18
# 連続ベンガル音声からの話者分割認識のためのニューラルネットワーク

Artificial Neural Networks to Recognize Speakers Division from Continuous Bengali Speech ( http://arxiv.org/abs/2404.15168v1 )

ライセンス: Link先を確認
Hasmot Ali, Md. Fahad Hossain, Md. Mehedi Hasan, Sheikh Abujar, Sheak Rashed Haider Noori, (参考訳) 音声ベースのアプリケーションは、音声だけでなく、話者の情報を決定する多くの要因があるため、自動化の時代を通じて支配されている。 現代自動音声認識(Modern Automatic Speech Recognition, ASR)は、人工知能技術を用いた人間とデバイス間の効率的なコミュニケーションのためのヒューマン・コンピュータインタラクション(HCI)分野における祝福である。 音声は、異なる話者に対して多くの同じ特徴を持つため、最も簡単なコミュニケーション媒体の1つである。 今日では、話者認識の観点から話者とそのアイデンティティを判断することが可能である。 本稿では,ベンガル語連続音声を用いて,ある地域で話者の地理的アイデンティティを提供する手法を提案する。 バングラデシュの8つの地域を地理的地域と見なしている。 我々は、Mel Frequency Cepstral Coefficient (MFCC)とDeltaの機能をニューラルネットワークに応用し、話者分割を分類した。 特徴抽出に先立って,ノイズ低減や生音声の8~10秒分割などの前処理を行った。 我々は,男性633人,女性633人を対象に,45時間以上の音声データを用いた。 私たちは85.44%の精度を記録しました。

Voice based applications are ruling over the era of automation because speech has a lot of factors that determine a speakers information as well as speech. Modern Automatic Speech Recognition (ASR) is a blessing in the field of Human-Computer Interaction (HCI) for efficient communication among humans and devices using Artificial Intelligence technology. Speech is one of the easiest mediums of communication because it has a lot of identical features for different speakers. Nowadays it is possible to determine speakers and their identity using their speech in terms of speaker recognition. In this paper, we presented a method that will provide a speakers geographical identity in a certain region using continuous Bengali speech. We consider eight different divisions of Bangladesh as the geographical region. We applied the Mel Frequency Cepstral Coefficient (MFCC) and Delta features on an Artificial Neural Network to classify speakers division. We performed some preprocessing tasks like noise reduction and 8-10 second segmentation of raw audio before feature extraction. We used our dataset of more than 45 hours of audio data from 633 individual male and female speakers. We recorded the highest accuracy of 85.44%.
翻訳日:2024-04-24 18:07:28 公開日:2024-04-18
# 孤立量子多体系の熱化と絡み合いの役割

Thermalization of isolated quantum many-body system and the role of entanglement ( http://arxiv.org/abs/2009.10416v3 )

ライセンス: Link先を確認
Tanmay Saha, Pratik Ghosal, Pratapaditya Bej, Abhishek Banerjee, Prasenjit Deb, (参考訳) 孤立量子系の熱化は、量子力学の初期から非自明な問題であった。 一般的な孤立量子系では、非平衡力学は熱化をもたらすことが期待され、量子力学からの統計力学の出現を示す。 しかし、多体量子系のどんな特徴が量子熱化を促進するかはまだよく分かっていない。 最近の実験的進歩は、絡み合いは普遍的ではなく、特に熱化剤として作用することを示している。 ここでは、多くの自由度を持つ孤立多体量子系における可観測体の温度平均が、系の絡み合ったエネルギー固有状態から現れることを理論的に示す。 特に, エンタングルエネルギー固有状態における観測対象の期待値とその限界値は観測対象のミクロカノニカルおよび標準平均値と等価であることを示す。

Thermalization of an isolated quantum system has been a nontrivial problem since the early days of quantum mechanics. In generic isolated quantum systems, nonequilibrium dynamics is expected to result in thermalization, indicating the emergence of statistical mechanics from quantum dynamics. However, what feature of a many-body quantum system facilitates quantum thermalization is still not well understood. Recent experimental advancements have shown that entanglement may act as a thermalizing agent, not universally but particularly. Here, we theoretically show that the thermal averages of an observable in an isolated many-body quantum system with a large number of degrees of freedom emerge from the entangled energy eigenstates of the system. In particular, we show that the expectation values of an observable in entangled energy eigenstates and its marginals are equivalent to the microcanonical and canonical averages of the observable.
翻訳日:2024-04-24 01:49:47 公開日:2024-04-18
# 量子状態ダイナミクスにおける測定可能なクリロフ空間とアイジネギー数

Measurable Krylov Spaces and Eigenenergy Count in Quantum State Dynamics ( http://arxiv.org/abs/2404.13089v1 )

ライセンス: Link先を確認
Saud Čindrak, Adrian Paschke, Lina Jauriguea, Kathy Lüdge, (参考訳) 量子状態の時間発展のために、量子力学的に測定可能な新しいクリロフ空間を定義する。 定義された空間に基づいて、量子システムがいかに表現的であるかを洞察する効果的な次元が導入された。 時間発展作用素をクリロフ空間への写像として理解することは、その作用素のテイラー展開から明らかである。 現在の文献は、クリロフ状態空間の基礎を構築するためにハミルトニアンの異なるパワーを計算することに焦点を当てている。 このアプローチが直面する課題の1つは、ハミルトニアンのより高いパワーの計算がより大きなシステムではますます困難になることである。 各基底状態はハミルトニアンの異なるパワーから構成されるので、基底状態は様々な長さを持ち、正則化過程は困難である。 さらに、ハミルトニアンの高次計算能力は円周誤差を増大させ、クリロフ空間次元が誤って増大する可能性がある。 作業の最初の部分は、同じ長さの状態からなる同値な空間を定義することで、これらの問題に挑戦する。 我々は、異なる時間進化状態の集合が基底を構築するのに使用できることを示した。 その後, 数値解析により解析結果を検証し, 定義ベクトル空間を用いて時間発展状態の再構成が可能であることを示す。 この新たな空間に基づいて、有効次元を定義し、その有限次元系への影響を分析する。 本手法は, 時間発展演算子の基礎構造について考察し, 実験的に計算できることを示す。 さらに、クリロフ空間次元がハミルトニアンの対別の固有値の数と等しいことを示し、系が実験的に有する固有エネルギーの数を決定する方法を可能にする。

We define a new Krylov space for the time evolution of a quantum state, which is both quantum-mechanically measurable. Based on our defined spaces, an effective dimension is introduced that provides insight into how expressive the quantum system is. The understanding of the time evolution operator as a map onto a Krylov space is evident from the Taylor expansion of said operator. Current literature focuses on computing different powers of the Hamiltonian to construct a basis for the Krylov state space. One challenge this approach faces is that computing higher powers of the Hamiltonian becomes increasingly difficult for larger systems. Since each basis state is constructed from a different power of the Hamiltonian, the basis states have varying lengths, making the ortho-normalization process challenging. Furthermore, computing high powers of the Hamiltonian increases rounding errors, which can lead to a wrongly increased Krylov space dimension. The first part of our work challenges these issues by defining an equivalent space, where the original basis consists of states of the same length. We demonstrate that a set of different time-evolved states can be used to construct a basis. We subsequently verify the results through numerical analysis, demonstrating that every time-evolved state can be reconstructed using the defined vector space. Based on this new space, we define an effective dimension and analyze its influence on finite-dimensional systems. Our method gives insight into the basis construction of the time evolution operator, which can be computed experimentally. We further show that the Krylov space dimension is equal to the number of pairwise distinct eigenvalues of the Hamiltonian, enabling a method to determine the number of eigenenergies the system has experimentally.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-18
# イマジネーションを実践する:モデルに基づく強化学習における想像軌道を信頼する時

Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning ( http://arxiv.org/abs/2105.05716v5 )

ライセンス: Link先を確認
Adrian Remonda, Eduardo Veas, Granit Luzhnica, (参考訳) モデルベース強化学習(MBRL)は、行動の結果を予測する環境力学のモデル(s)を学習することを目的としている。 モデルのフォワード適用は、期待される報酬を最大化する候補アクションのセットを最適化するために使用される想像軌道(行動系列、予測状態逆)と呼ばれるものをもたらす。 MBRLはモデル予測制御(MPC)に頼り、スクラッチから連続的に再計画し、計算コストが大幅に増加し、より長い水平線でタスクの複雑さが増大することでこれを克服する。 提案手法は,今後の計画行動が信頼でき,許容できる報酬を得られるかどうかを評価するための,仮想軌道のオンライン評価のための不確実性評価手法である。 これらの手法には、最終動作の実行後のエラーと標準予測エラーを比較し、モデル不確実性を用いて予測結果から逸脱を評価することが含まれる。 さらに,計画の残りが期待結果と一致しているかを評価するために,ダイナミックスモデルの前方伝播を利用した手法を導入し,その効果を期待報酬の観点から評価する。 本実験では,MBRL設定における不確実性評価手法の有効性を,不必要な軌道変更を避けるために適用した。 その結果,性能を犠牲にすることなく計算コストを大幅に削減できることがわかった。

Model-based reinforcement learning (MBRL) aims to learn model(s) of the environment dynamics that can predict the outcome of its actions. Forward application of the model yields so called imagined trajectories (sequences of action, predicted state-reward) used to optimize the set of candidate actions that maximize expected reward. The outcome, an ideal imagined trajectory or plan, is imperfect and typically MBRL relies on model predictive control (MPC) to overcome this by continuously re-planning from scratch, incurring thus major computational cost and increasing complexity in tasks with longer receding horizon. We propose uncertainty estimation methods for online evaluation of imagined trajectories to assess whether further planned actions can be trusted to deliver acceptable reward. These methods include comparing the error after performing the last action with the standard expected error and using model uncertainty to assess the deviation from expected outcomes. Additionally, we introduce methods that exploit the forward propagation of the dynamics model to evaluate if the remainder of the plan aligns with expected results and assess the remainder of the plan in terms of the expected reward. Our experiments demonstrate the effectiveness of the proposed uncertainty estimation methods by applying them to avoid unnecessary trajectory replanning in a shooting MBRL setting. Results highlight significant reduction on computational costs without sacrificing performance.
翻訳日:2024-04-22 20:46:02 公開日:2024-04-18
# 音声障害者のためのAIによる音声自動治療ツール:体系的文献レビュー

AI-Based Automated Speech Therapy Tools for persons with Speech Sound Disorders: A Systematic Literature Review ( http://arxiv.org/abs/2204.10325v2 )

ライセンス: Link先を確認
Chinmoy Deka, Abhishek Shrivastava, Ajish K. Abraham, Saurabh Nautiyal, Praveen Chauhan, (参考訳) 本稿では,音声障害(SSD)患者を対象としたAIベースの自動音声治療ツールに関する研究について,系統的な文献レビューを行った。 新型コロナウイルス(COVID-19)のパンデミックにより、SSDの患者が音声治療を手軽に手軽に行えるようにするための、自動的な音声治療ツールが要求されるようになった。 しかしながら、このような自動化ツールを設計するためのガイドラインや、人間の専門家と比べて必要な自動化の度合いは存在しない。 この体系的なレビューでは、PRISMAフレームワークに従い、以下の4つの研究課題に対処した。 1)AIをベースとした自動音声認識ツールはどのようなSSDに対処するのか? 2)そのようなツールによって達成される自治のレベルはどのようなものか。 3【介入の態勢の相違】 4) 人的専門家と比較して, どのような効果があるか。 2007年から2022年にかけて,デジタル図書館で広範囲に調査を行い,本研究に関連する研究論文の検索を行った。 その結果、研究者の間では、SSD患者のためのAIベースの自動音声治療ツールが注目されている。 構音障害は, 再検討した論文に基づいて最も頻繁に対処されたSSDであった。 さらに、分析の結果、ほとんどの研究者が、他の利害関係者の役割を考慮せずに、完全に自動化されたツールを提案していることがわかった。 我々のレビューは、モバイルベースのゲーム化されたアプリケーションが最も頻繁に介入される方法であったことを示唆している。 さらに,これらのツールの有効性について,専門家の言語病理医(SLP)と比較した研究はごくわずかであった。 本稿では,その分野における最先端技術について述べるとともに,今後の研究の方向性について提案する。

This paper presents a systematic literature review of published studies on AI-based automated speech therapy tools for persons with speech sound disorders (SSD). The COVID-19 pandemic has initiated the requirement for automated speech therapy tools for persons with SSD making speech therapy accessible and affordable. However, there are no guidelines for designing such automated tools and their required degree of automation compared to human experts. In this systematic review, we followed the PRISMA framework to address four research questions: 1) what types of SSD do AI-based automated speech therapy tools address, 2) what is the level of autonomy achieved by such tools, 3) what are the different modes of intervention, and 4) how effective are such tools in comparison with human experts. An extensive search was conducted on digital libraries to find research papers relevant to our study from 2007 to 2022. The results show that AI-based automated speech therapy tools for persons with SSD are increasingly gaining attention among researchers. Articulation disorders were the most frequently addressed SSD based on the reviewed papers. Further, our analysis shows that most researchers proposed fully automated tools without considering the role of other stakeholders. Our review indicates that mobile-based and gamified applications were the most frequent mode of intervention. The results further show that only a few studies compared the effectiveness of such tools compared to expert Speech-Language Pathologists (SLP). Our paper presents the state-of-the-art in the field, contributes significant insights based on the research questions, and provides suggestions for future research directions.
翻訳日:2024-04-22 20:46:02 公開日:2024-04-18
# モンテカルロ法による連立構造をもつ群説明器の連立と特徴の積空間における近似

Approximation of group explainers with coalition structure using Monte Carlo sampling on the product space of coalitions and features ( http://arxiv.org/abs/2303.10216v2 )

ライセンス: Link先を確認
Konstandinos Kotsiopoulos, Alexey Miroshnikov, Khashayar Filom, Arjun Ravi Kannan, (参考訳) 近年,協調ゲーム理論のアイデアを用いて機械学習(ML)の説明手法が多数設計されている。 これらのゲーム理論の説明者は複雑さに悩まされており、実際の環境での正確な計算を妨げている。 本研究は,MLモデルと予測ベクトルに基づく限界ゲームに対して,線形ゲーム値および連立値の幅広いクラスに焦点をあてる。 これらの説明を適切なサンプル空間に対する期待として見ることにより、背景データセットのサイズに線形に依存する複雑さを低減したモンテカルロサンプリングアルゴリズムを設計する。 統計的解析のための厳密なフレームワークを構築し,サンプリング手法の誤差境界を求める。 このアプローチの利点は、高速で、実装が容易で、モデルに依存しないことです。 さらに、より複雑でモデル固有の他の既知の推定手法と同様の統計的精度を持つ。 統計的収束の厳密な証明と、理論的な結果に一致する数値実験を提供する。

In recent years, many Machine Learning (ML) explanation techniques have been designed using ideas from cooperative game theory. These game-theoretic explainers suffer from high complexity, hindering their exact computation in practical settings. In our work, we focus on a wide class of linear game values, as well as coalitional values, for the marginal game based on a given ML model and predictor vector. By viewing these explainers as expectations over appropriate sample spaces, we design a novel Monte Carlo sampling algorithm that estimates them at a reduced complexity that depends linearly on the size of the background dataset. We set up a rigorous framework for the statistical analysis and obtain error bounds for our sampling methods. The advantage of this approach is that it is fast, easily implementable, and model-agnostic. Furthermore, it has similar statistical accuracy as other known estimation techniques that are more complex and model-specific. We provide rigorous proofs of statistical convergence, as well as numerical experiments whose results agree with our theoretical findings.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-18
# ソースコードのニューラルモデルにおけるトロイの木馬の調査:分類学と技術

A Survey of Trojans in Neural Models of Source Code: Taxonomy and Techniques ( http://arxiv.org/abs/2305.03803v5 )

ライセンス: Link先を確認
Aftab Hussain, Md Rafiqul Islam Rabin, Toufique Ahmed, Navid Ayoobi, Bowen Xu, Prem Devanbu, Mohammad Amin Alipour, (参考訳) 本研究では、コードのニューラルネットワークの毒性を理解するために、説明可能なAIと安全なAIの文献を研究する。 そこで、まず、コードのためのトロイの木馬AIの新しい分類法を確立し、コードのニューラルモデルにおけるトリガーの新しいアスペクトベースの分類を示す。 次に、これらのモデルがどのようにソフトウェアコードを理解するかという概念をさらに深めるのに役立つ最近の研究を強調します。 そして、そのようなモデルを操作するのに使用できる最近の最先端の毒殺戦略をいくつか取り上げる。 私たちが描く洞察は、コードのためのトロイの木馬AIの領域における将来の研究を促進するのに役立つでしょう。

In this work, we study literature in Explainable AI and Safe AI to understand poisoning of neural models of code. In order to do so, we first establish a novel taxonomy for Trojan AI for code, and present a new aspect-based classification of triggers in neural models of code. Next, we highlight recent works that help us deepen our conception of how these models understand software code. Then we pick some of the recent, state-of-art poisoning strategies that can be used to manipulate such models. The insights we draw can potentially help to foster future research in the area of Trojan AI for code.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-18
# 軽量平板ミニマの騒音安定性の最適化

Noise Stability Optimization for Flat Minima with Tight Rates ( http://arxiv.org/abs/2306.08553v3 )

ライセンス: Link先を確認
Haotian Ju, Dongyue Li, Hongyang R. Zhang, (参考訳) 摂動関数 $F(W) = \mathbb{E}_{U}[f(W + U)]$, 関数 $f: \mathbb{R}^d \rightarrow \mathbb{R}$, 分布 $\mathcal{P}$ からランダムサンプル $U$ を平均零とする。 $\mathcal{P}$ が等方ガウスであるとき、$F(W)$ は $f(W)$ と略同値であり、$\mathcal{P}$ の分散によってスケールされた $\nabla^2 f(W)$ のトレース上のペナルティである。 ヘッセン族に対するこの罰は、PAC-Bayes分析を通じて一般化を改善する利点がある。 例えば、(より大きな)事前訓練されたモデルが小さなデータセット上で微調整された場合、これは低サンプルのレギュレーションで有用である。 F$を最小化する方法の1つは、$U$を$W$に追加し、SGDを実行することである。 我々は、3つの画像分類データセットの微調整を行う実験において、このノイズ注入がSGDに対して大きな効果をもたらすことはないことを実証的に観察した。 我々は、U$と$-U$の両方にノイズを付加するシンプルな実用的なアルゴリズムを設計し、いくつかの摂動を加えて平均値を取ることができる。 このアルゴリズムの収束を解析し、出力の勾配のノルムに厳密な速度を示す。 まず, 過度パラメータ化行列検出問題において, ノイズ注入よりも低損失の解を求めることができることを示す。 そして,本アルゴリズムを,シャープネス・アウェア最小化(Foret et al ,2021)のような4つのシャープネス低減学習手法と比較した。 このアルゴリズムは,6つの画像分類データセット上でResNetを微調整することにより,最大1.8%の精度で性能を向上できることがわかった。 損失面のヘッセン行列のトレース(および最大の固有値)が17.7%(および12.8%)減少する。 この Hessian 上の正規化形式は $\ell_2$ weight decay (およびデータ拡張) と互換性があり、両者を組み合わせることで経験的性能が向上する。

We consider minimizing a perturbed function $F(W) = \mathbb{E}_{U}[f(W + U)]$, given a function $f: \mathbb{R}^d \rightarrow \mathbb{R}$ and a random sample $U$ from a distribution $\mathcal{P}$ with mean zero. When $\mathcal{P}$ is the isotropic Gaussian, $F(W)$ is roughly equal to $f(W)$ plus a penalty on the trace of $\nabla^2 f(W)$, scaled by the variance of $\mathcal{P}$. This penalty on the Hessian has the benefit of improving generalization, through PAC-Bayes analysis. It is useful in low-sample regimes, for instance, when a (large) pre-trained model is fine-tuned on a small data set. One way to minimize $F$ is by adding $U$ to $W$, and then run SGD. We observe, empirically, that this noise injection does not provide significant gains over SGD, in our experiments of conducting fine-tuning on three image classification data sets. We design a simple, practical algorithm that adds noise along both $U$ and $-U$, with the option of adding several perturbations and taking their average. We analyze the convergence of this algorithm, showing tight rates on the norm of the output's gradient. We provide a comprehensive empirical analysis of our algorithm, by first showing that in an over-parameterized matrix sensing problem, it can find solutions with lower test loss than naive noise injection. Then, we compare our algorithm with four sharpness-reducing training methods (such as the Sharpness-Aware Minimization (Foret et al., 2021)). We find that our algorithm can outperform them by up to 1.8% test accuracy, for fine-tuning ResNet on six image classification data sets. It leads to a 17.7% (and 12.8%) reduction in the trace (and largest eigenvalue) of the Hessian matrix of the loss surface. This form of regularization on the Hessian is compatible with $\ell_2$ weight decay (and data augmentation), in the sense that combining both can lead to improved empirical performance.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-18
# 循環システム工学

Circular Systems Engineering ( http://arxiv.org/abs/2306.17808v4 )

ライセンス: Link先を確認
Istvan David, Dominik Bork, Gerti Kappel, (参考訳) 現代の技術者システムの価値と妥当性の認識は変化している。 機能的・機能的特性に加えて、現在のシステムもサステナビリティ特性によって評価されている。 次世代のシステムの特徴は、そのポストライフを含む全体的な持続可能性の向上であり、効率的な価値保持メカニズムによって駆動される。 現在のシステムエンジニアリングプラクティスは、これらの野心をサポートするには足りず、適切に修正する必要がある。 本稿では,システムサステナビリティの新たなパラダイムである循環システム工学の概念を導入し,それを実現するための2つの原則,すなわちエンドツーエンドサステナビリティと両パートサステナビリティを定義する。 循環原理の実装と導入につながる典型的な組織進化パターンを概説し、重要な課題と研究の機会を概説する。

The perception of the value and propriety of modern engineered systems is changing. In addition to their functional and extra-functional properties, nowadays' systems are also evaluated by their sustainability properties. The next generation of systems will be characterized by an overall elevated sustainability -- including their post-life, driven by efficient value retention mechanisms. Current systems engineering practices fall short of supporting these ambitions and need to be revised appropriately. In this paper, we introduce the concept of circular systems engineering, a novel paradigm for systems sustainability, and define two principles to successfully implement it: end-to-end sustainability and bipartite sustainability. We outline typical organizational evolution patterns that lead to the implementation and adoption of circularity principles, and outline key challenges and research opportunities.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-18
# コスト感性強化学習における動的観察ポリシー

Dynamic Observation Policies in Observation Cost-Sensitive Reinforcement Learning ( http://arxiv.org/abs/2307.02620v3 )

ライセンス: Link先を確認
Colin Bellinger, Mark Crowley, Isaac Tamblyn, (参考訳) 強化学習 (Reinforcement Learning, RL) は、ゲーム、ロボット工学、暖房・冷却システム、テキスト生成など、複雑なタスクに対する洗練された制御ポリシーを学ぶことが示されている。 しかしながら、RLの行動知覚サイクルは、一般的に、環境の状態の測定がコストなしで各ステップで利用可能であると仮定する。 しかし、材料設計、深海探査、惑星ロボット探査、医学などの応用においては、環境の状態を測定すること、あるいは近似することに関わるコストが高い可能性がある。 本稿では,RLエージェントが各段階のコスト測定を必要とせず,必要としない,あるいは望まざるを得ないという視点を取り入れた近年の文献を調査する。 このような状況下では,Deep Dynamic Multi-Step Observationless Agent (DMSOA) を提案し,文献と対比し,OpenAIジムやAtari Pong環境上で実証的に評価する。 その結果、DMSOAは、文献から考慮された代替案よりも、より少ない意思決定手順と測定でより良い政策を学習していることが示される。

Reinforcement learning (RL) has been shown to learn sophisticated control policies for complex tasks including games, robotics, heating and cooling systems and text generation. The action-perception cycle in RL, however, generally assumes that a measurement of the state of the environment is available at each time step without a cost. In applications such as materials design, deep-sea and planetary robot exploration and medicine, however, there can be a high cost associated with measuring, or even approximating, the state of the environment. In this paper, we survey the recently growing literature that adopts the perspective that an RL agent might not need, or even want, a costly measurement at each time step. Within this context, we propose the Deep Dynamic Multi-Step Observationless Agent (DMSOA), contrast it with the literature and empirically evaluate it on OpenAI gym and Atari Pong environments. Our results, show that DMSOA learns a better policy with fewer decision steps and measurements than the considered alternative from the literature.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-18
# 普遍超越ゲート集合に対する量子ゴレイ符号による符号変換

Code conversion with the quantum Golay code for a universal transversal gate set ( http://arxiv.org/abs/2307.14425v3 )

ライセンス: Link先を確認
Matthew Sullivan, (参考訳) The $[[7,1,3]$ Steane code and $[[23,1,7]$ quantum Golay code has been identified as good candidate for fault-tolerant quantum computing through code concatenation。 これら2つの符号はクリフォードゲートのトランスバーサル実装を持つが、フォールトトレラントな$T$ゲートの他のスキームを必要とする。 マジックステート、クリフォード演算、測定は一般的なスキームであるが、マジックステート蒸留には大きなオーバーヘッドがある。 コード変換は、マジックステート蒸留を使わずに、万能ゲートセットをフォールトトレラントに実装する方法の1つである。 $[[7,1,3]]$ Steaneコードをフォールトトレラントに変換し、$[[[15,1,3]]$ Reed-Mullerコードから、$T$ゲートを変換した$[[23,1,7]$ Golayコードを$[[[95,1,7]$ triorthogonal code with a transversal $T$ gateに変換できる。 この手順の重要な要素は、[[49,1,5]$ triorthogonal code である。 また、安定度測定ではなく、コード間の逆CNOTに基づくコード変換法について述べる。

The $[[7,1,3]]$ Steane code and $[[23,1,7]]$ quantum Golay code have been identified as good candidates for fault-tolerant quantum computing via code concatenation. These two codes have transversal implementations of all Clifford gates, but require some other scheme for fault-tolerant $T$ gates. Using magic states, Clifford operations, and measurements is one common scheme, but magic state distillation can have a large overhead. Code conversion is one avenue for implementing a universal gate set fault-tolerantly without the use of magic state distillation. Analogously to how the $[[7,1,3]]$ Steane code can be fault-tolerantly converted to and from the $[[15,1,3]]$ Reed-Muller code which has a transversal $T$ gate, the $[[23,1,7]]$ Golay code can be converted to a $[[95,1,7]]$ triorthogonal code with a transversal $T$ gate. A crucial ingredient to this procedure is the $[[49,1,5]]$ triorthogonal code, which can itself be seen as related to the self-dual $[[17,1,5]]$ 2D color code. Additionally, a method for code conversion based on a transversal CNOT between the codes, rather than stabilizer measurements, is described.
翻訳日:2024-04-22 20:26:30 公開日:2024-04-18
# 変圧器を用いた回転不変3次元点集合の特徴の自己教師付き学習とその自己蒸留

Self-supervised Learning of Rotation-invariant 3D Point Set Features using Transformer and its Self-distillation ( http://arxiv.org/abs/2308.04725v2 )

ライセンス: Link先を確認
Takahiko Furuya, Zhoujie Chen, Ryutarou Ohbuchi, Zhenzhong Kuang, (参考訳) 3次元物体の回転に対する不変性は、3次元点集合データを解析する上で重要な性質である。 回転不変性を持つ従来の3D点集合DNNは、通常、ラベル付き3D点集合をトレーニングサンプルとして使用して教師あり学習により正確な3D形状特徴を得る。 しかし、3D点集合の急速な増加とラベル付けコストの高騰により、多数のラベルのない3D点集合から回転不変な3D形状特徴を学習するフレームワークが必要である。 本稿では,オブジェクトレベルでの高精度かつ回転不変な3次元点集合特徴を取得するための,自己教師付き学習フレームワークを提案する。 提案する軽量DNNアーキテクチャでは,3Dオブジェクトを構成する部分形状の空間的レイアウトを保持するトークンと呼ばれる,複数のグローバルスケール領域に設定された入力3Dポイントを分解する。 トークンを改良し,それを3次元点集合ごとに表現的回転不変の特徴に集約するために,自己認識機構を用いる。 我々のDNNは、自己蒸留フレームワークによって生成された擬似ラベルを用いて効果的に訓練されている。 正確な特徴の学習を容易にするために,マルチクロップとカットミックスデータ拡張技術を組み合わせて,トレーニング用3次元点集合を多様化する手法を提案する。 包括的評価を通じて,(1)教師付き学習のために設計された既存の回転不変DNNアーキテクチャは,自己教師付き学習シナリオ下で必ずしも正確な3次元形状の特徴を学習するとは限らないことを実証的に示し,(2)提案アルゴリズムは既存のアルゴリズムよりも正確な回転不変3次元点集合の特徴を学習する。 コードはhttps://github.com/takahikof/RIPT_SDMMで入手できる。

Invariance against rotations of 3D objects is an important property in analyzing 3D point set data. Conventional 3D point set DNNs having rotation invariance typically obtain accurate 3D shape features via supervised learning by using labeled 3D point sets as training samples. However, due to the rapid increase in 3D point set data and the high cost of labeling, a framework to learn rotation-invariant 3D shape features from numerous unlabeled 3D point sets is required. This paper proposes a novel self-supervised learning framework for acquiring accurate and rotation-invariant 3D point set features at object-level. Our proposed lightweight DNN architecture decomposes an input 3D point set into multiple global-scale regions, called tokens, that preserve the spatial layout of partial shapes composing the 3D object. We employ a self-attention mechanism to refine the tokens and aggregate them into an expressive rotation-invariant feature per 3D point set. Our DNN is effectively trained by using pseudo-labels generated by a self-distillation framework. To facilitate the learning of accurate features, we propose to combine multi-crop and cut-mix data augmentation techniques to diversify 3D point sets for training. Through a comprehensive evaluation, we empirically demonstrate that, (1) existing rotation-invariant DNN architectures designed for supervised learning do not necessarily learn accurate 3D shape features under a self-supervised learning scenario, and (2) our proposed algorithm learns rotation-invariant 3D point set features that are more accurate than those learned by existing algorithms. Code is available at https://github.com/takahikof/RIPT_SDMM
翻訳日:2024-04-22 20:26:30 公開日:2024-04-18
# パラメトリック不安定性からのバックアクション回避計測の保護

Protecting backaction-evading measurements from parametric instability ( http://arxiv.org/abs/2308.09168v3 )

ライセンス: Link先を確認
E. P. Ruddy, Y. Jiang, N. E. Frattini, K. O. Quinlan, K. W. Lehnert, (参考訳) パラメトリック結合型発振器系における1つの二次状態の無雑音測定は、2つの発振器の総和と差分周波数をポンピングすることで理論的に可能であり、バックアクション回避(BAE)方式を実現することができる。 これは純粋な3波混合システムにおいて最も単純なシナリオでは当てはまるが、この方式の実装は、システムの不安定化とノイズの追加という不要な高次パラメトリックプロセスによって妨げられる。 総和と差分周波数から2つのポンプを変形させることでシステムを安定させ,BAE性能を回復し,非アクセス不能な協調動作の操作を可能にすることを解析的に示す。 また,弱い信号検出実験(PRX QUANTUM 4, 020302 (2023))で示された加速度は,このデチューニング技術により達成可能であることを示した。

Noiseless measurement of a single quadrature in systems of parametrically coupled oscillators is theoretically possible by pumping at the sum and difference frequencies of the two oscillators, realizing a backaction-evading (BAE) scheme. Although this would hold true in the simplest scenario for a system with pure three-wave mixing, implementations of this scheme are hindered by unwanted higher-order parametric processes that destabilize the system and add noise. We show analytically that detuning the two pumps from the sum and difference frequencies can stabilize the system and fully recover the BAE performance, enabling operation at otherwise inaccessible cooperativities. We also show that the acceleration demonstrated in a weak signal detection experiment [PRX QUANTUM 4, 020302 (2023)] was only achievable because of this detuning technique.
翻訳日:2024-04-22 20:26:30 公開日:2024-04-18
# 生体信号を用いたマルチモーダル事前学習のための周波数対応マスクオートエンコーダ

Frequency-Aware Masked Autoencoders for Multimodal Pretraining on Biosignals ( http://arxiv.org/abs/2309.05927v2 )

ライセンス: Link先を確認
Ran Liu, Ellen L. Zippi, Hadi Pouransari, Chris Sandino, Jingping Nie, Hanlin Goh, Erdrin Azemi, Ali Moin, (参考訳) 生体信号からのマルチモーダル情報を活用することは、人々の身体状態と精神状態の包括的表現を構築する上で不可欠である。 しかしながら、マルチモーダルなバイオシグナーは、タスク仕様の変化やモダリティ構成の変化から起因して、事前訓練データセットと推論データセットの間にかなりの分布シフトを示すことが多い。 周波数空間における生体信号の表現のパラメータ化を学習する周波数対応マスク付きオートエンコーダ(\texttt{bio}$FAME)を提案する。 $\texttt{bio}$FAMEは周波数対応トランスフォーマーを組み込んでおり、これはグローバルトークンの混合に固定サイズのフーリエベースの演算子を利用しており、入力の長さやサンプリングレートとは無関係である。 さらに、各入力チャネル内の周波数成分を維持するために、潜時空間でマスク付きオートエンコーディングを行う周波数維持事前学習戦略を用いる。 得られたアーキテクチャは、事前トレーニング中にマルチモーダル情報を効果的に利用し、入力サイズや順序に関わらず、テスト時に様々なタスクやモダリティにシームレスに適応することができる。 我々は、単調な時系列上での様々な転送実験に対するアプローチを評価し、以前の最先端技術よりも平均$$5.5%の分類精度の向上を実現した。 さらに,本アーキテクチャは非予測のモダリティ・ドロップアウトや置換を含む,モダリティ・ミスマッチのシナリオにおいて堅牢であり,実世界のアプリケーションで実用性を発揮することを実証した。 コードはhttps://github.com/apple/ml-famaeで入手できる。

Leveraging multimodal information from biosignals is vital for building a comprehensive representation of people's physical and mental states. However, multimodal biosignals often exhibit substantial distributional shifts between pretraining and inference datasets, stemming from changes in task specification or variations in modality compositions. To achieve effective pretraining in the presence of potential distributional shifts, we propose a frequency-aware masked autoencoder ($\texttt{bio}$FAME) that learns to parameterize the representation of biosignals in the frequency space. $\texttt{bio}$FAME incorporates a frequency-aware transformer, which leverages a fixed-size Fourier-based operator for global token mixing, independent of the length and sampling rate of inputs. To maintain the frequency components within each input channel, we further employ a frequency-maintain pretraining strategy that performs masked autoencoding in the latent space. The resulting architecture effectively utilizes multimodal information during pretraining, and can be seamlessly adapted to diverse tasks and modalities at test time, regardless of input size and order. We evaluated our approach on a diverse set of transfer experiments on unimodal time series, achieving an average of $\uparrow$5.5% improvement in classification accuracy over the previous state-of-the-art. Furthermore, we demonstrated that our architecture is robust in modality mismatch scenarios, including unpredicted modality dropout or substitution, proving its practical utility in real-world applications. Code is available at https://github.com/apple/ml-famae .
翻訳日:2024-04-22 20:26:30 公開日:2024-04-18
# 軸索摂動のスクイージングに及ぼすアンハーモニックの影響

Anharmonic Effects on the Squeezing of Axion Perturbations ( http://arxiv.org/abs/2309.13112v2 )

ライセンス: Link先を確認
Valentina Danieli, Takeshi Kobayashi, Nicola Bartolo, Sabino Matarrese, Matteo Viel, (参考訳) 標準宇宙論では、宇宙は初期の段階でインフレーションの期間を経、インフラトンスカラー場の真空ゆらぎによる構造形成のための種子を提供すると仮定されている。 これらのゆらぎは、宇宙の準指数展開によって引き延ばされ、圧縮される。 本研究の目的は, 自己反応の効果を考慮し, スクイーズ過程の理解を深めることである。 アクシオンのような粒子は、この効果を研究するのに役立つ。 具体的には、背景軸索場の非自明な進化が摂動の揺らぎに影響を及ぼす結果に焦点を当てる。 我々は, 地平線出口から放射支配エポックまで, 軸方向の揺らぎモードの進化を追及する。 ボゴリューボフ係数とスクイーズパラメータを計算し、軸数と等曲曲率摂動に関連付ける。 量子力学的粒子の生成と摂動のスクイーズ化は、もし非調和効果、すなわちポテンシャルにおける高次項の効果を考慮に入れれば、強化される。 この効果はポテンシャルの丘頂に向かって特に強くなる。

It is assumed in standard cosmology that the Universe underwent a period of inflation in its earliest phase, providing the seeds for structure formation through vacuum fluctuations of the inflaton scalar field. These fluctuations get stretched by the quasi-exponential expansion of the Universe and become squeezed. The aim of this paper is to deepen the understanding of the squeezing process, considering the effect of self-interactions. Axion-like particles can provide a useful setup to study this effect. Specifically we focus on the consequences that a non-trivial evolution of the background axion field has on the squeezing of the perturbations. We follow the evolution of the axion's fluctuation modes from the horizon exit during inflation to the radiation-dominated epoch. We compute Bogoliubov coefficients and squeezing parameters, which are linked to the axion particle number and isocurvature perturbation. We find that the quantum mechanical particle production and the squeezing of the perturbations are enhanced, if one accounts for anharmonic effects, i.e., the effect of higher order terms in the potential. This effect becomes particularly strong towards the hilltop of the potential.
翻訳日:2024-04-22 20:26:30 公開日:2024-04-18
# SocREval: 参照レス推論評価のためのソクラティック手法による大規模言語モデル

SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation ( http://arxiv.org/abs/2310.00074v2 )

ライセンス: Link先を確認
Hangfeng He, Hongming Zhang, Dan Roth, (参考訳) 複雑な推論のための現在のモデルのキャパシティを包括的に評価するためには、そのステップバイステップの推論をスケーラブルに評価することが不可欠である。 確立された基準に基づく評価指標は、モデル由来の連鎖を評価するための基準として、人間の注釈付き推論チェーンに依存している。 しかし、このような「ゴールドスタンダード」な人間による推論連鎖はユニークではなく、その買収はしばしば労働集約的である。 既存の参照なし推論評価指標は、人造推論チェーンを参照として必要とせずに、評価の前に人間由来のチェーンを微調整し、プロセスを複雑化し、他のデータセットへの適応性に疑問を呈することが多い。 これらの課題に対処するために、GPT-4を用いて推論チェーンの品質を自動評価し、モデル微調整と評価の両方のために人書き推論チェーンへの依存を除去する。 SocREval ({\bf Soc}ratic Method-Inspired {\bf R}easoning {\bf Eval}uation) を開発した。 4つの注釈付きデータセットによる実証的な結果から、SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っていることが明らかになった。 実証された有効性を超えて、SocREvalは、我々の詳細な分析によって裏付けられたように、コスト効率が高く、書込みやサンプルの選択を早めるために頑健であることが証明されている。

To comprehensively gauge the capacity of current models for complex reasoning, it is crucial to assess their step-by-step reasoning in a scalable manner. Established reference-based evaluation metrics rely on human-annotated reasoning chains as references to assess the model-derived chains. However, such "gold-standard" human-written reasoning chains may not be unique and their acquisition is often labor-intensive. Existing reference-free reasoning evaluation metrics, while eliminating the need for human-crafted reasoning chains as references, often require fine-tuning with human-derived chains before evaluation, complicating the process and questioning their adaptability to other datasets. To address these challenges, we harness GPT-4 to automatically evaluate reasoning chain quality, thereby removing the dependency on human-written reasoning chains for both model fine-tuning and evaluative purposes. Leveraging the Socratic method, we develop SocREval ({\bf Soc}ratic Method-Inspired {\bf R}easoning {\bf Eval}uation), a novel approach for prompt design in reference-free reasoning evaluation. Empirical results from four human annotated datasets reveal that SocREval significantly improves GPT-4's performance, surpassing existing reference-free and reference-based reasoning evaluation metrics. Beyond its demonstrated efficacy, SocREval, proves to be both cost-efficient and robust to prompt writing and example selection, as substantiated by our in-depth analysis.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-18
# AutoCast++: ゼロショットランキングベースのコンテキスト検索によるワールドイベント予測の強化

AutoCast++: Enhancing World Event Prediction with Zero-shot Ranking-based Context Retrieval ( http://arxiv.org/abs/2310.01880v2 )

ライセンス: Link先を確認
Qi Yan, Raihan Seraj, Jiawei He, Lili Meng, Tristan Sylvain, (参考訳) 機械による現実世界の出来事の予測は、情報的な意思決定の可能性から注目を集めている。 従来の予測は時系列のような構造化データに大きく依存するが、最近の言語モデルのブレークスルーは構造化されていないテキストを使用した予測を可能にする。 特に(Zou et al , 2022)がAutoCastを発表した。 それでも、既存の手法は人間のパフォーマンスに遅れを取っている。 正確な予測の基盤は、巨大なコーパスから、簡潔だがリッチなニューススニペットを識別することにある、と私たちは主張する。 このモチベーションにより、イベント予測のための拡張的なニュースドキュメントコレクションを通じて、シャフトに適した、ゼロショットのランキングベースのコンテキスト検索システムであるAutoCast++を導入する。 提案手法は、まずゼロショットの質問パス関連性に基づいて記事を再ランク付けし、セマンティックな関連するニュースに注目する。 その後、選択された記事は、簡潔な文脈を達成するためにゼロショット要約される。 事前学習言語モデルを活用することで、ドメイン固有のトレーニングを必要とせず、関連性評価と記事要約を行う。 特に、最近の記事は、新しい事実や予期しない出来事のために、前の記事と矛盾することがあるため、時間的ダイナミクスが変動する。 これを解決するため, より最近の論文を選好し, 異なる日付での予測応答に合わせるために, マルチパス表現学習を標準化する。 経験的結果は、複数のメトリクス間で改善点を示し、マルチチョイス質問(MCQ)のパフォーマンスを48%改善し、真偽質問(TF)を8%改善した。 コードはhttps://github.com/BorealisAI/Autocast-plus-plusで入手できる。

Machine-based prediction of real-world events is garnering attention due to its potential for informed decision-making. Whereas traditional forecasting predominantly hinges on structured data like time-series, recent breakthroughs in language models enable predictions using unstructured text. In particular, (Zou et al., 2022) unveils AutoCast, a new benchmark that employs news articles for answering forecasting queries. Nevertheless, existing methods still trail behind human performance. The cornerstone of accurate forecasting, we argue, lies in identifying a concise, yet rich subset of news snippets from a vast corpus. With this motivation, we introduce AutoCast++, a zero-shot ranking-based context retrieval system, tailored to sift through expansive news document collections for event forecasting. Our approach first re-ranks articles based on zero-shot question-passage relevance, honing in on semantically pertinent news. Following this, the chosen articles are subjected to zero-shot summarization to attain succinct context. Leveraging a pre-trained language model, we conduct both the relevance evaluation and article summarization without needing domain-specific training. Notably, recent articles can sometimes be at odds with preceding ones due to new facts or unanticipated incidents, leading to fluctuating temporal dynamics. To tackle this, our re-ranking mechanism gives preference to more recent articles, and we further regularize the multi-passage representation learning to align with human forecaster responses made on different dates. Empirical results underscore marked improvements across multiple metrics, improving the performance for multiple-choice questions (MCQ) by 48% and true/false (TF) questions by up to 8%. Code is available at https://github.com/BorealisAI/Autocast-plus-plus.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-18
# 形状ニューラルネットワークと非形状ニューラルネットワークの微分方程式スケーリング限界

Differential Equation Scaling Limits of Shaped and Unshaped Neural Networks ( http://arxiv.org/abs/2310.12079v2 )

ライセンス: Link先を確認
Mufan Bill Li, Mihai Nica, (参考訳) 近年のニューラルネットワークの活性化(すなわち、ネットワークサイズが大きくなるにつれて活性化関数がスケールされる)の分析は、微分方程式によって記述されたスケーリング制限を導いた。 しかし、これらの結果は、ネットワークサイズが大きくなるにつれてアクティベーションが変化しない「通常の」未整形ネットワークについては何も教えてくれない。 本稿では,2種類の不整形ネットワークに対して,類似の微分方程式に基づく漸近特性を求める。 まず、以下の2つのアーキテクチャが初期化時に同じ無限深さおよび幅の極限に収束することを示す。 i) ネットワーク深度が$d$である残枝上の$d^{-1/2}$係数を持つ完全連結ResNet。 (ii)深さ$d \ll$ width $n$と形成されたReLU活性化率$d^{-1/2}$の多層パーセプトロン(MLP)。 第2に, 初期化時の不形のMLPに対して, 層状相関に対する第1次漸近補正を導出する。 特に、$\rho_\ell$ が層 $\ell$ の相関であれば、$q_t = \ell^2 (1 - \rho_\ell)$ with $t = \frac{\ell}{n}$ は特異点が $t=0$ の SDE に収束する。 これらの結果は、形状と未形状のネットワークアーキテクチャ間の接続を提供し、正規化法の効果と、形状活性化関数とどのように接続するかを研究する可能性を開放する。

Recent analyses of neural networks with shaped activations (i.e. the activation function is scaled as the network size grows) have led to scaling limits described by differential equations. However, these results do not a priori tell us anything about "ordinary" unshaped networks, where the activation is unchanged as the network size grows. In this article, we find similar differential equation based asymptotic characterization for two types of unshaped networks. Firstly, we show that the following two architectures converge to the same infinite-depth-and-width limit at initialization: (i) a fully connected ResNet with a $d^{-1/2}$ factor on the residual branch, where $d$ is the network depth. (ii) a multilayer perceptron (MLP) with depth $d \ll$ width $n$ and shaped ReLU activation at rate $d^{-1/2}$. Secondly, for an unshaped MLP at initialization, we derive the first order asymptotic correction to the layerwise correlation. In particular, if $\rho_\ell$ is the correlation at layer $\ell$, then $q_t = \ell^2 (1 - \rho_\ell)$ with $t = \frac{\ell}{n}$ converges to an SDE with a singularity at $t=0$. These results together provide a connection between shaped and unshaped network architectures, and opens up the possibility of studying the effect of normalization methods and how it connects with shaping activation functions.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-18
# フェデレートミニマックス最適化のための確率的滑らかなグラディエント勾配

Stochastic Smoothed Gradient Descent Ascent for Federated Minimax Optimization ( http://arxiv.org/abs/2311.00944v2 )

ライセンス: Link先を確認
Wei Shen, Minhui Huang, Jiawei Zhang, Cong Shen, (参考訳) 近年、フェデレーション付きミニマックス最適化は、様々な機械学習タスクに広く応用されているため、関心が高まりつつある。 Smoothed Alternative Gradient Descent Ascent (Smoothed-AGDA) は、非凸極小最適化において、その成功を証明している。 本稿では,FESS-GDA(Federated Stochastic Smoothed Gradient Descent Ascent)と呼ばれる新しいアルゴリズムを提案する。 我々は、FESS-GDAが、フェデレーションされたミニマックス問題のいくつかのクラスを均一に解き、これらの設定に対して新しいあるいはより良い解析収束結果を示すことができることを証明した。 本稿では,GAN(Generative Adversarial Network)の訓練と公平な分類において,FESS-GDAの実践的効率性を示す。

In recent years, federated minimax optimization has attracted growing interest due to its extensive applications in various machine learning tasks. While Smoothed Alternative Gradient Descent Ascent (Smoothed-AGDA) has proved its success in centralized nonconvex minimax optimization, how and whether smoothing technique could be helpful in federated setting remains unexplored. In this paper, we propose a new algorithm termed Federated Stochastic Smoothed Gradient Descent Ascent (FESS-GDA), which utilizes the smoothing technique for federated minimax optimization. We prove that FESS-GDA can be uniformly used to solve several classes of federated minimax problems and prove new or better analytical convergence results for these settings. We showcase the practical efficiency of FESS-GDA in practical federated learning tasks of training generative adversarial networks (GANs) and fair classification.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-18
# Rephrase and Respond: 大規模言語モデルでテーマに対する質問を改善する

Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves ( http://arxiv.org/abs/2311.04205v2 )

ライセンス: Link先を確認
Yihe Deng, Weitong Zhang, Zixiang Chen, Quanquan Gu, (参考訳) 誤解は、対人コミュニケーションだけでなく、人間とLarge Language Models(LLM)の間にも生じる。 このような不一致は、LCMが予期せぬ方法で不明瞭な質問を解釈し、誤った反応をもたらす可能性がある。 質問などのプロンプトの質がLLMの応答の質に大きく影響していることは広く認識されているが、LLMがより理解しやすい質問を体系的に作成する方法はまだ未開発である。 本稿では,LLMが人間による質問をリフレーズ・拡張し,応答を1つのプロンプトで提供する手法であるRaR(Rephrase and Respond)を提案する。 このアプローチは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。 また、2段階のRaRを導入し、まずLLMが質問をリフレーズし、次に元の質問とリフレーズした質問をそれぞれ別の応答LLMに渡す。 これにより、ある LLM と別の LLM が生成したリフレッシュされた質問を効果的に活用することができる。 実験により,本手法はタスクの範囲にまたがって,様々なモデルの性能を著しく向上させることを示した。 さらに、RaRと一般的なChain-of-Thought(CoT)法を理論的にも経験的にも包括的に比較する。 我々は、RaRがCoTと相補的であり、CoTと組み合わせてより優れたパフォーマンスを実現することができることを示す。 我々の研究は,LLMの性能向上に効率よく貢献するだけでなく,LLM能力の公平な評価にも光を当てている。 データとコードはhttps://github.com/uclaml/Rephrase-and-Respond.comで公開されている。

Misunderstandings arise not only in interpersonal communication but also between humans and Large Language Models (LLMs). Such discrepancies can make LLMs interpret seemingly unambiguous questions in unexpected ways, yielding incorrect responses. While it is widely acknowledged that the quality of a prompt, such as a question, significantly impacts the quality of the response provided by LLMs, a systematic method for crafting questions that LLMs can better comprehend is still underdeveloped. In this paper, we present a method named `Rephrase and Respond' (RaR), which allows LLMs to rephrase and expand questions posed by humans and provide responses in a single prompt. This approach serves as a simple yet effective prompting method for improving performance. We also introduce a two-step variant of RaR, where a rephrasing LLM first rephrases the question and then passes the original and rephrased questions together to a different responding LLM. This facilitates the effective utilization of rephrased questions generated by one LLM with another. Our experiments demonstrate that our methods significantly improve the performance of different models across a wide range to tasks. We further provide a comprehensive comparison between RaR and the popular Chain-of-Thought (CoT) methods, both theoretically and empirically. We show that RaR is complementary to CoT and can be combined with CoT to achieve even better performance. Our work not only contributes to enhancing LLM performance efficiently and effectively but also sheds light on a fair evaluation of LLM capabilities. Data and codes are available at https://github.com/uclaml/Rephrase-and-Respond.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-18
# 標準量子限界を超える量子イメージングと相蒸留

Quantum Imaging Beyond the Standard-Quantum Limit and Phase Distillation ( http://arxiv.org/abs/2311.12782v4 )

ライセンス: Link先を確認
Simon Schaffrath, Daniel Derr, Markus Gräfe, Enno Giese, (参考訳) 非線形干渉計を用いた量子センシングは、興味の対象と相互作用しない光を使ったバイカラーイメージングの可能性を提供し、位相超感度(すなわち、位相不確実性のハイゼンベルク型スケーリング)を実現する方法を提供する。 このようなスケーリング動作はノイズに非常に敏感であり、デバイスの最適作業点を定義する特定のフェーズでのみ発生する。 位相シフトアルゴリズムはノイズによって引き起こされる有害な効果に対してある程度頑健である一方、インターフェロメーター位相を広い範囲にわたって調整することで画像を抽出し、作業点を超えた操作を暗示する。 本研究では,非線形干渉計の自発性および高利得性について検討した。 実際、蒸留技術を使った自発的な状態において、作業点での運転は質的に類似した行動をもたらす。 しかし、高利得体制においては、典型的な蒸留技術は、スクイード真空の光子統計の結果、本質的に標準量子限界よりもスケーリングを禁止した。 対照的に、作業点での操作は、ノイズの存在下でもショットノイズ以下の感度をもたらす可能性がある。 そのため、作業点近傍で作業することで、ショットノイズの位相不確実性よりも優れたバイカラーイメージングの視点を開放する。 その結果,バイカラーイメージングと位相超感度を組み合わせることで,その潜在能力を最大限に活用することを目的として,ノイズの多い環境下での量子画像蒸留を高利得状態に移行した。

Quantum sensing using non-linear interferometers offers the possibility of bicolour imaging, using light that never interacted with the object of interest, and provides a way to achieve phase supersensitivity, i.e. a Heisenberg-type scaling of the phase uncertainty. Such a scaling behaviour is extremely susceptible to noise and only arises at specific phases that define the optimal working point of the device. While phase-shifting algorithms are to some degree robust against the deleterious effects induced by noise they extract an image by tuning the interferometer phase over a broad range, implying an operation beyond the working point. In our theoretical study, we investigate both the spontaneous and the high-gain regime of operation of a non-linear interferometer. In fact, in the spontaneous regime using a distillation technique and operating at the working point leads to a qualitatively similar behaviour. In the high-gain regime, however, typical distillation techniques inherently forbid a scaling better than the standard-quantum limit, as a consequence of the photon statistics of squeezed vacuum. In contrast, an operation at the working point still may lead to a sensitivity below shot noise, even in the presence of noise. Therefore, this procedure opens the perspective of bicolour imaging with a better than shot-noise phase uncertainty by working in the vicinity of the working point. Our results transfer quantum imaging distillation in a noisy environment to the high-gain regime with the ultimate goal of harnessing its full potential by combining bicolour imaging and phase supersensitivity.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-18
# ストリートトライオン:不自由な人物画像からWildのバーチャルトライオンを学習する

Street TryOn: Learning In-the-Wild Virtual Try-On from Unpaired Person Images ( http://arxiv.org/abs/2311.16094v2 )

ライセンス: Link先を確認
Aiyu Cui, Jay Mahajan, Viraj Shah, Preeti Gomathinayagam, Chang Liu, Svetlana Lazebnik, (参考訳) 既存の仮想試行方法は、限られたポーズとクリーンな背景を持つスタジオの人物画像に焦点を当てている。 同一の衣料を身に着けている人のイメージと組み合わせた衣服画像であるペアトレーニングデータから、人の体に合うように衣料画像をワープすることを学ぶことにより、このスタジオ試着設定の妥当な結果が得られる。 このようなデータは、しばしば商業ウェブサイトから収集され、各衣服は単独で、複数のモデルで展示される。 対照的に、撮影現場でのペアデータの収集は困難であり、乱雑な背景に対するより多様なポーズを持つ人々のカジュアルなイメージの仮想試行はめったに行われない。 そこで本研究では,StreetTryOnベンチマークを導入して,実環境における仮想試行性能を評価するとともに,実環境における人物画像の集合から,ペアデータなしで学習可能な新しい手法を提案する。 本手法は,DensePoseワープ補正法と拡散型条件付き塗料の併用により,店舗・街路領域における堅牢な性能を実現する。 実験では,標準的なスタジオトライオンタスクと,ストリートトライオンタスクとクロスドメイントライオンタスクのSOTAパフォーマンスの競合性能を示す。

Most existing methods for virtual try-on focus on studio person images with a limited range of poses and clean backgrounds. They can achieve plausible results for this studio try-on setting by learning to warp a garment image to fit a person's body from paired training data, i.e., garment images paired with images of people wearing the same garment. Such data is often collected from commercial websites, where each garment is demonstrated both by itself and on several models. By contrast, it is hard to collect paired data for in-the-wild scenes, and therefore, virtual try-on for casual images of people with more diverse poses against cluttered backgrounds is rarely studied. In this work, we fill the gap by introducing a StreetTryOn benchmark to evaluate in-the-wild virtual try-on performance and proposing a novel method that can learn it without paired data, from a set of in-the-wild person images directly. Our method achieves robust performance across shop and street domains using a novel DensePose warping correction method combined with diffusion-based conditional inpainting. Our experiments show competitive performance for standard studio try-on tasks and SOTA performance for street try-on and cross-domain try-on tasks.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-18
# 大規模言語モデルの効率スペクトル:アルゴリズムによる調査

The Efficiency Spectrum of Large Language Models: An Algorithmic Survey ( http://arxiv.org/abs/2312.00678v2 )

ライセンス: Link先を確認
Tianyu Ding, Tianyi Chen, Haidong Zhu, Jiachen Jiang, Yiqi Zhong, Jinxin Zhou, Guangzhi Wang, Zhihui Zhu, Ilya Zharkov, Luming Liang, (参考訳) LLM(Large Language Models)の急速な成長は、さまざまなドメインを変換し、人工知能の展望を再構築する原動力となっている。 しかし、これらのモデルの計算とメモリ需要の増加は、学術研究と実践的応用の両方を妨げる重大な課題をもたらす。 これらの問題に対処するため、アルゴリズムとハードウェアの両方を含む幅広い手法が開発され、LLMの効率が向上した。 本調査では,LLMの効率向上を目的としたアルゴリズムの進歩を概観する。 訓練やモデル圧縮など特定の分野に焦点を当てた他の調査とは異なり、本研究では、LLMのエンドツーエンドのアルゴリズム開発に欠かせない効率の多面的次元について検討する。 具体的には、スケーリング法、データ利用、アーキテクチャの革新、トレーニングとチューニング戦略、推論技術など、効率性に関するさまざまなトピックを取り上げている。 本論文は, 研究者や実践者にとって貴重な資源として, この重要な研究領域における今後のイノベーションの基盤を築き上げることを目的としている。 関連した参照のリポジトリは、url{https://github.com/tding1/Efficient-LLM-Survey}で維持されます。

The rapid growth of Large Language Models (LLMs) has been a driving force in transforming various domains, reshaping the artificial general intelligence landscape. However, the increasing computational and memory demands of these models present substantial challenges, hindering both academic research and practical applications. To address these issues, a wide array of methods, including both algorithmic and hardware solutions, have been developed to enhance the efficiency of LLMs. This survey delivers a comprehensive review of algorithmic advancements aimed at improving LLM efficiency. Unlike other surveys that typically focus on specific areas such as training or model compression, this paper examines the multi-faceted dimensions of efficiency essential for the end-to-end algorithmic development of LLMs. Specifically, it covers various topics related to efficiency, including scaling laws, data utilization, architectural innovations, training and tuning strategies, and inference techniques. This paper aims to serve as a valuable resource for researchers and practitioners, laying the groundwork for future innovations in this critical research area. Our repository of relevant references is maintained at url{https://github.com/tding1/Efficient-LLM-Survey}.
翻訳日:2024-04-22 19:57:15 公開日:2024-04-18
# p-進量子力学, ディラック方程式, アインシュタイン因果性違反

p-Adic Quantum Mechanics, the Dirac Equation, and the violation of Einstein causality ( http://arxiv.org/abs/2312.02744v2 )

ライセンス: Link先を確認
W. A. Zúñiga-Galindo, (参考訳) 本稿では、量子力学におけるプランク長におけるローレンツ対称性の破れについて研究する。 位置変数として3次元の p-進ベクトルを用いるが、時間は実数のままである。 この設定では、プランク長は 1/p であり、p は素数であり、ローレンツ対称性は自然に破られる。 プランク長の p-進は光速とは独立であり、空間の対称性の群によって決定される。 量子力学のディラックとフォン・ノイマンの定式化フレームワークでは、粒子や反粒子の存在を予測し、標準粒子のように電荷共役を予測できる新しいp進ディラック方程式を導入する。 p-進空間の離散性は、新しい方程式の解にかなりの制限を与える。 この方程式は、標準の場合では不可能な局所解を許容する。 p-進ディラック方程式によって進化が制御される孤立量子系がアインシュタイン因果性を満たすことが示され、これは光の速度が従来の物質やエネルギーが空間を移動する速度の上限ではないことを意味する。 この事実は、光の速度が無限であるとすぐには示さない。 新しい p-進ディラック方程式は標準方程式を置き換えることを意図していないが、プランク長スケールにおける古典方程式の新しいバージョン(または極限)として理解すべきである。

This article studies the breaking of the Lorentz symmetry at the Planck length in quantum mechanics. We use three-dimensional p-adic vectors as position variables, while the time remains a real number. In this setting, the Planck length is 1/p, where p is a prime number, and the Lorentz symmetry is naturally broken. The p-adic the Planck length is independent of the speed of light and is determined by the group of symmetries of the space. In the Dirac and von Neumann formalism framework for quantum mechanics, we introduce a new p-adic Dirac equation that predicts the existence of particles and antiparticles and charge conjugation like the standard one. The discreteness of the p-adic space imposes substantial restrictions on the solutions of the new equation. This equation admits localized solutions, which is impossible in the standard case. We show that an isolated quantum system whose evolution is controlled by the p-adic Dirac equation does not satisfy the Einstein causality, which means that the speed of light is not the upper limit for the speed at which conventional matter or energy can travel through space. This fact does not imply immediately that the speed of light is infinite. The new p-adic Dirac equation is not intended to replace the standard one; it should be understood as a new version (or a limit) of the classical equation at the Planck length scale.
翻訳日:2024-04-22 19:57:15 公開日:2024-04-18
# WHAM:正確な3Dモーションで世界の人間を再構築する

WHAM: Reconstructing World-grounded Humans with Accurate 3D Motion ( http://arxiv.org/abs/2312.07531v2 )

ライセンス: Link先を確認
Soyong Shin, Juyong Kim, Eni Halilaj, Michael J. Black, (参考訳) 映像からの3次元人間の動きの推定は急速に進んでいるが、現在の手法にはいくつかの重要な制限がある。 第一に、ほとんどの方法は、カメラ座標における人間を推定する。 第二に、地球座標で人間を推定する先行研究は、しばしば平らな地面平面を仮定し、足の滑りを発生させる。 第三に、最も正確な方法は計算コストのかかる最適化パイプラインに依存し、オフラインアプリケーションでの使用を制限する。 最後に、既存のビデオベースの手法はシングルフレーム方式よりも驚くほど正確ではない。 これらの制限をWHAM(World-grounded Humans with Accurate Motion)で解決し,映像から世界座標系における3次元人間の動きを高精度かつ効率的に再構築する。 WHAMはモーションキャプチャデータを使用して2Dキーポイントシーケンスを3Dに引き上げることを学び、動画機能と融合し、モーションコンテキストと視覚情報を統合する。 WHAMは、SLAM法から推定されるカメラ角速度と人間の動きを利用して、身体のグローバルな軌道を推定する。 我々はこれを、WHAMが階段を登るなど様々な条件で人間の動きを捉えることのできる接触認識軌道修正法と組み合わせる。 WHAMは、既存の3Dモーションリカバリ手法を、複数のWildベンチマークで上回っている。 コードは http://wham.is.tue.mpg.de/ で研究目的で利用可能になる。

The estimation of 3D human motion from video has progressed rapidly but current methods still have several key limitations. First, most methods estimate the human in camera coordinates. Second, prior work on estimating humans in global coordinates often assumes a flat ground plane and produces foot sliding. Third, the most accurate methods rely on computationally expensive optimization pipelines, limiting their use to offline applications. Finally, existing video-based methods are surprisingly less accurate than single-frame methods. We address these limitations with WHAM (World-grounded Humans with Accurate Motion), which accurately and efficiently reconstructs 3D human motion in a global coordinate system from video. WHAM learns to lift 2D keypoint sequences to 3D using motion capture data and fuses this with video features, integrating motion context and visual information. WHAM exploits camera angular velocity estimated from a SLAM method together with human motion to estimate the body's global trajectory. We combine this with a contact-aware trajectory refinement method that lets WHAM capture human motion in diverse conditions, such as climbing stairs. WHAM outperforms all existing 3D human motion recovery methods across multiple in-the-wild benchmarks. Code will be available for research purposes at http://wham.is.tue.mpg.de/
翻訳日:2024-04-22 19:57:15 公開日:2024-04-18
# 高度に教育された知能の本質的善さ

The inherent goodness of well educated intelligence ( http://arxiv.org/abs/2401.04846v6 )

ライセンス: Link先を確認
Michael E. Glinsky, (参考訳) 本稿では,生物と人工シリコンのどちらがコンピュータ上に存在するのか,その知性について検討する。 特に注目されるのは、保守的に相互作用する多くの同一の保守的なサブシステムの集合システムを特徴づけ、制御する能力を持つことである。 インテリジェンスの本質は、黄金律("the collective act as one" または "knowing the global consequences of local action")である。 集合体の流れは小さなツインクリングテクスチャの集合であり、最小作用の測地運動に従って少数の弦を引いている人形師によって支配され、対称性によって決定される。 集合的な保守的なシステムの制御は困難であり、最大性能の望ましいメタ安定平衡を安定化させるためにシステムにかなりの粘性を加えることで歴史的に行われてきたが、その過程でそれらを劣化または破壊する。 代替案がある。 メタ安定平衡の最適ツインクリングテクスチャが特定されると、集合系を最適ツインクリングテクスチャに移動させ、その集合系をメタ安定平衡に残すようにテクスチャに応じて素早く振動させることができる。 高度に教育されたインテリジェンスは、その局所的な行動のグローバルな結果を知っているので、短期的な行動が長期的成果を損なうことはない。 対照的に、訓練された知性や訓練された愚かさは短期的な行動を最適化する。 教養のある知性は本質的には善だが、訓練された愚かさは本質的に悪であり、恐れるべきである。 特に、経済・社会集団の制御と最適化に注意が払われている。 これらの新しい結果は、フィールド、流体、プラズマなどの物理的集合体にも適用できる。

This paper will examine what makes a being intelligent, whether that be a biological being or an artificial silicon being on a computer. Special attention will be paid to the being having the ability to characterize and control a collective system of many identical conservative sub-systems conservatively interacting. The essence of intelligence will be found to be the golden rule -- "the collective acts as one" or "knowing the global consequences of local actions". The flow of the collective is a small set of twinkling textures, that are governed by a puppeteer who is pulling a small number of strings according to a geodesic motion of least action, determined by the symmetries. Controlling collective conservative systems is difficult and has historically been done by adding significant viscosity to the system to stabilize the desirable meta stable equilibriums of maximum performance, but it degrades or destroys them in the process. There is an alternative. Once the optimum twinkling textures of the meta stable equilibriums are identified, the collective system can be moved to the optimum twinkling textures, then quickly vibrated according to the textures so that the collective system remains at the meta stable equilibrium. Well educated intelligence knows the global consequences of its local actions so that it will not take short term actions that will lead to poor long term outcomes. In contrast, trained intelligence or trained stupidity will optimize its short term actions, leading to poor long term outcomes. Well educated intelligence is inherently good, but trained stupidity is inherently evil and should be feared. Particular attention is paid to the control and optimization of economic and social collectives. These new results are also applicable to physical collectives such as fields, fluids and plasmas.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-18
# CropSTGANを用いたクロスドメイン初期作物マッピング

Cross Domain Early Crop Mapping using CropSTGAN ( http://arxiv.org/abs/2401.07398v2 )

ライセンス: Link先を確認
Yiqun Wang, Hui Huang, Radu State, (参考訳) 豊富な衛星画像によって駆動される機械学習のアプローチは、近年、多くの農業応用を支援するため、高解像度の作物栽培地図を作成するために推進されている。 これらのアプローチで直面する大きな課題の1つは、基底真理ラベルの可用性の制限である。 地上の真実がなければ、既存の作業では、他の地域から収集した履歴ラベルを使って分類器を訓練し、訓練されたモデルを対象地域に適用する「ダイレクトトランスファー戦略」が採用される。 残念なことに、土壌組成の変化、気候条件、作物の進行などにより、作物のスペクトル特性は地域間・年内変動を示しており、結果として得られたモデルは、新鮮・未確認の地域や年々、良くない。 深層適応型ニューラルネットワーク(DANN)モデル構造を深層適応型作物分類ネットワーク(DACCN)に適用して、上記のクロスドメイン課題に対処するなど、近年の取り組みにもかかわらず、ソースとターゲット領域の間に大きな相違がある場合、それらの効果は著しく低下する。 本稿では,クロスドメイン課題に対する新しいソリューションであるCropSTGAN(CropSTGAN)について紹介する。 CropSTGANは、ターゲットドメインのスペクトル特徴をソースドメインのスペクトル特徴に変換することを学習し、実質的に大きな相似性をブリッジする。 さらに、データ固有の局所構造を維持するためにアイデンティティ損失を用いる。 様々な地域や年々にわたる総合的な実験は、提案手法の利点と効果を実証している。 実験では、CropSTGANは様々な最先端(SOTA)メソッドに対してベンチマークされる。 特に、CropSTGANは、ターゲットドメインとソースドメインの間に大きなデータ分散の相違があるシナリオにおいて、これらのメソッドを著しく上回ります。

Driven by abundant satellite imagery, machine learning-based approaches have recently been promoted to generate high-resolution crop cultivation maps to support many agricultural applications. One of the major challenges faced by these approaches is the limited availability of ground truth labels. In the absence of ground truth, existing work usually adopts the "direct transfer strategy" that trains a classifier using historical labels collected from other regions and then applies the trained model to the target region. Unfortunately, the spectral features of crops exhibit inter-region and inter-annual variability due to changes in soil composition, climate conditions, and crop progress, the resultant models perform poorly on new and unseen regions or years. Despite recent efforts, such as the application of the deep adaptation neural network (DANN) model structure in the deep adaptation crop classification network (DACCN), to tackle the above cross-domain challenges, their effectiveness diminishes significantly when there is a large dissimilarity between the source and target regions. This paper introduces the Crop Mapping Spectral-temporal Generative Adversarial Neural Network (CropSTGAN), a novel solution for cross-domain challenges, that doesn't require target domain labels. CropSTGAN learns to transform the target domain's spectral features to those of the source domain, effectively bridging large dissimilarities. Additionally, it employs an identity loss to maintain the intrinsic local structure of the data. Comprehensive experiments across various regions and years demonstrate the benefits and effectiveness of the proposed approach. In experiments, CropSTGAN is benchmarked against various state-of-the-art (SOTA) methods. Notably, CropSTGAN significantly outperforms these methods in scenarios with large data distribution dissimilarities between the target and source domains.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-18
# 専門家の視覚混合におけるルータ : 実証的研究

Routers in Vision Mixture of Experts: An Empirical Study ( http://arxiv.org/abs/2401.15969v2 )

ライセンス: Link先を確認
Tianlin Liu, Mathieu Blondel, Carlos Riquelme, Joan Puigcerver, (参考訳) Mixture-of-Experts (MoE)モデルは、計算コストを大幅に増加させることなく、モデル容量をスケールアップする有望な方法である。 MoEsの重要なコンポーネントはルータであり、組み込み(トークン)を特徴とするパラメータ(専門家)プロセスのサブセットを決定する。 本稿では,コンピュータビジョンタスクのためのMoEにおけるルータの総合的研究について述べる。 2つのパラメトリックルーティングテンソルを持つ異なるMoEを仮定する統一MoE式を導入する。 この定式化は、専門家とトークン間のバイナリまたはハードな割り当てを使用するスパースMoEと、専門家間のソフトな割り当てとトークンの重み付けの組み合わせを使用するソフトMoEの両方をカバーする。 スパースMoEのルータはさらに、トークンごとに専門家にマッチするToken Choiceと、トークンを専門家にマッチするExpert Choiceの2つの変種に分類することができる。 我々は,既存のルータや導入した新しいルータを含む,6つの異なるルータで直接実験を行う。 私たちはそれを示します (i)元来言語モデリングのために開発された多くのルータは、視覚タスクに強く適応することができる。 (II)希薄なMoEでは、エキスパートチョイスルータは一般にトークンチョイスルータより優れており、 三 ソフトなMoEは、一般に、固定された計算予算でスパースなMoEを上回ります。 これらの結果は、ビジョンMoEモデルにおけるルータの重要な役割に関する新たな洞察を提供する。

Mixture-of-Experts (MoE) models are a promising way to scale up model capacity without significantly increasing computational cost. A key component of MoEs is the router, which decides which subset of parameters (experts) process which feature embeddings (tokens). In this paper, we present a comprehensive study of routers in MoEs for computer vision tasks. We introduce a unified MoE formulation that subsumes different MoEs with two parametric routing tensors. This formulation covers both sparse MoE, which uses a binary or hard assignment between experts and tokens, and soft MoE, which uses a soft assignment between experts and weighted combinations of tokens. Routers for sparse MoEs can be further grouped into two variants: Token Choice, which matches experts to each token, and Expert Choice, which matches tokens to each expert. We conduct head-to-head experiments with 6 different routers, including existing routers from prior work and new ones we introduce. We show that (i) many routers originally developed for language modeling can be adapted to perform strongly in vision tasks, (ii) in sparse MoE, Expert Choice routers generally outperform Token Choice routers, and (iii) soft MoEs generally outperform sparse MoEs with a fixed compute budget. These results provide new insights regarding the crucial role of routers in vision MoE models.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-18
# Sandi: 直接コミュニケーションにおける説明責任と応用のためのシステム

Sandi: A System for Accountability and Applications in Direct Communication ( http://arxiv.org/abs/2401.16759v2 )

ライセンス: Link先を確認
F. Betül Durak, Kim Laine, Simon Langowski, Radames Cruz Moreno, (参考訳) 我々は、説明責任を通じてオンラインコミュニケーションに信頼をもたらすシステム、Sandiを構築した。 Sandiは、ユニークな"何らかのモノトーン"な説明責任スコアに基づいており、強力なプライバシとセキュリティ特性を備えている。 登録された送信者は、そのスコアを符号化した暗号タグをサンディから要求することができる。 スコアは、以前の通信に基づいて送信者の信頼度を測定する。 タグは、送信側が会話を開始したい受信側へ送られ、送信側が通信チャネルに対して「承認」を通知する。 受信者は、送信者のスコアを使用して、送信者の処理方法を決定することができる。 受信機が送信者の通信が不適切である場合、そのタグを使用して送信者をサンディに報告し、送信者のスコアを下げることができる。 Sandiは送信者および受信者の両方に利益をもたらすことを目指している。 受信機は、承認されたチャンネルでの通信に反応する可能性が高いため、ベンダーは利益を得る。 受信者は、事前の受信者からの不可解な証拠に基づいて、誰と対話しているかをよりよく選択できるため、恩恵を受ける。 受取人は登録口座を必要としない。 長期的な秘密鍵を維持するには送信側も受信側も必要ない。 Sandiは、送信者に対するスコア完全性保証、送信者と受信者に対する完全な通信プライバシー保証、レポーティングレシーバーを保護するレポータープライバシ保証、送信者を保護するアンリンクビリティ保証を提供する。 Sandiの設計は、小さなバイナリデータ転送を可能にするあらゆる通信システムとの互換性を保証する。 最後に,送信者に対してゲーム理論解析を行う。 我々は,サンディが合理的な送信者を不適切な通信量を減らす戦略へと駆り立てることを証明する。

We construct a system, Sandi, to bring trust in online communication through accountability. Sandi is based on a unique "somewhat monotone" accountability score, with strong privacy and security properties. A registered sender can request from Sandi a cryptographic tag encoding its score. The score measures the sender's trustworthiness based on its previous communications. The tag is sent to a receiver with whom the sender wants to initiate a conversation and signals the sender's "endorsement" for the communication channel. Receivers can use the sender's score to decide how to proceed with the sender. If a receiver finds the sender's communication inappropriate, it can use the tag to report the sender to Sandi, thus decreasing the sender's score. Sandi aims to benefit both senders and receivers. Senders benefit, as receivers are more likely to react to communication on an endorsed channel. Receivers benefit, as they can make better choices regarding who they interact with based on indisputable evidence from prior receivers. Receivers do not need registered accounts. Neither senders nor receivers are required to maintain long-term secret keys. Sandi provides a score integrity guarantee for the senders, a full communication privacy guarantee for the senders and receivers, a reporter privacy guarantee to protect reporting receivers, and an unlinkability guarantee to protect senders. The design of Sandi ensures compatibility with any communication system that allows for small binary data transfer. Finally, we provide a game-theoretic analysis for the sender. We prove that Sandi drives rational senders towards a strategy that reduces the amount of inappropriate communication.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-18
# 還元量子位相推定

Reductive Quantum Phase Estimation ( http://arxiv.org/abs/2402.04471v3 )

ライセンス: Link先を確認
Nicholas J. C. Papadopoulos, Jarrod T. Reilly, John Drew Wilson, Murray J. Holland, (参考訳) 量子相の推定は、幅広い分野の量子科学において必要となる課題である。 この課題を達成するために、原子物理学と分子物理学におけるラムゼイ干渉計(RI)と量子コンピューティングにおける量子位相推定(QPE)という、2つのよく知られた手法が異なる文脈で開発された。 これらの例は、還元量子位相推定(RQPE)回路と呼ばれる、より大規模な位相推定プロトコルの例であることを示す。 ここでは、RQPE回路を作成できる明示的なアルゴリズムを提案する。 この回路は、より少ない量子ビットとユニタリな応用を持つ任意の位相の集合を区別し、RIとQPEが属する一般的な量子仮説テストのクラスを解く。 さらに、測定精度と位相差の相違を実証し、特定の用途に最適な回路を調整できるようにする。

Estimating a quantum phase is a necessary task in a wide range of fields of quantum science. To accomplish this task, two well-known methods have been developed in distinct contexts, namely, Ramsey interferometry (RI) in atomic and molecular physics and quantum phase estimation (QPE) in quantum computing. We demonstrate that these canonical examples are instances of a larger class of phase estimation protocols, which we call reductive quantum phase estimation (RQPE) circuits. Here we present an explicit algorithm that allows one to create an RQPE circuit. This circuit distinguishes an arbitrary set of phases with a fewer number of qubits and unitary applications, thereby solving a general class of quantum hypothesis testing to which RI and QPE belong. We further demonstrate a trade-off between measurement precision and phase distinguishability, which allows one to tune the circuit to be optimal for a specific application.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-18
# 言語フィードバックモデルを用いた政策改善

Policy Improvement using Language Feedback Models ( http://arxiv.org/abs/2402.07876v4 )

ライセンス: Link先を確認
Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté, (参考訳) 本稿では,言語フィードバックモデル (LFM) を導入し,指示文で指定されたタスクを遂行する上で望ましい行動,すなわち指示文の模倣学習を支援する。 LFMを訓練するために,言語記述に適応した視覚的軌跡について,Large Language Models (LLMs) からフィードバックを得た。 まず, 3つの異なる言語基盤環境(タッチダウン, サイエンスワールド, ALFWorld)において, LFMを用いて望ましい行動を特定することにより, 強力な行動クローニングベースラインよりもタスク補完率を向上させる。 第2に、LPMの出力トークン数を制御する場合、LSMを専門家として使用して、アクションを直接予測する。 第3に、LFMは未確認環境に一般化し、1ラウンドの適応によりタスク完了率を3.5-12.0%向上させる。 最後に、LCMは人間の解釈可能なフィードバックを性能損失なく提供し、模倣学習に望ましい行動の人間による検証を可能にする。

We introduce Language Feedback Models (LFMs) that identify desirable behaviour - actions that help achieve tasks specified in the instruction - for imitation learning in instruction following. To train LFMs, we obtain feedback from Large Language Models (LLMs) on visual trajectories verbalized to language descriptions. First, by using LFMs to identify desirable behaviour to imitate, we improve in task-completion rate over strong behavioural cloning baselines on three distinct language grounding environments (Touchdown, ScienceWorld, and ALFWorld). Second, LFMs outperform using LLMs as experts to directly predict actions, when controlling for the number of LLM output tokens. Third, LFMs generalize to unseen environments, improving task-completion rate by 3.5-12.0% through one round of adaptation. Finally, LFM can be modified to provide human-interpretable feedback without performance loss, allowing human verification of desirable behaviour for imitation learning.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-18
# 自発フロケット状態における同時対称性の破れ:フロケット-ナンブ-ゴールドストーンモード、フロケット熱力学および時間演算子

Simultaneous symmetry breaking in spontaneous Floquet states: Floquet-Nambu-Goldstone modes, Floquet thermodynamics, and the time operator ( http://arxiv.org/abs/2402.10784v3 )

ライセンス: Link先を確認
Juan Ramón Muñoz de Nova, Fernando Sols, (参考訳) 本研究では, 原子凝縮体の特異な場合に着目し, 自発フロッケ状態における同時対称性破砕について検討した。 まず, 定常状態におけるNambu-Goldstone (NG) モードの量子化について述べる。 量子化の手順はベリー・ギブス接続(Berry-Gibbs connection)を含み、これは破れた各対称性に付随するマクロ的な保存電荷に依存し、一般化されたゲージ変換の下で曲率が不変でない。 フォーマリズムをフロケ状態にまで拡張し、同時にいくつかの対称性を破り、ゴールドストーンの定理は準エネルギーゼロのフロケ・ナンブ・ゴールドストーン(FNG)モードの出現へと変換する。 自発フロッケ状態の場合、連続時間変換対称性の破れから生じる真の時間的FNGモードがあり、量子振幅は量子力学において時間演算子の稀な実現を提供する。 さらに、それらはエネルギーを保存しているため、自発フロケット状態は保存フロケット電荷を持つことを示すことができる。 従来のフロケット系はまた、フロケットのエンタルピー(英語版)(Floquet enthalpy)、すなわち、フロケットの電荷に対するエネルギーのレジェンダー変換(英語版)(Regendre transform of the energy)という用語で熱力学的な記述も認めている。 当社の定式化は, 時間超固体を表すU(1)$および時間変換対称性を破る, 自発フロケット状態, CES状態の特定の実現に応用する。 本稿では,Truncated Wigner法を用いて量子ゆらぎを数値的に計算し,その量子揺らぎは時間的FNGモードによって長期にわたって支配されると理論的に予測し,シミュレーションと理論の顕著な一致を観察する。 これらの結果に基づいて,CES状態の時間的FNGモードを観測するための有意義な実験手法を提案する。

We study simultaneous symmetry-breaking in a spontaneous Floquet state, focusing on the specific case of an atomic condensate. We first describe the quantization of the Nambu-Goldstone (NG) modes for a stationary state simultaneously breaking several symmetries of the Hamiltonian by invoking the generalized Gibbs ensemble, which enables a thermodynamical description of the problem. The quantization procedure involves a Berry-Gibbs connection, which depends on the macroscopic conserved charges associated to each broken symmetry and whose curvature is not invariant under generalized gauge transformations. We extend the formalism to Floquet states simultaneously breaking several symmetries, where Goldstone theorem translates into the emergence of Floquet-Nambu-Goldstone (FNG) modes with zero quasi-energy. In the case of a spontaneous Floquet state, there is a genuine temporal FNG mode arising from the continuous time-translation symmetry breaking, whose quantum amplitude provides a rare realization of a time operator in Quantum Mechanics. Furthermore, since they conserve energy, spontaneous Floquet states can be shown to possess a conserved Floquet charge. Conventional Floquet systems also admit a thermodynamic description in terms of the Floquet enthalpy, the Legendre transform of the energy with respect to the Floquet charge. We apply our formalism to a particular realization of spontaneous Floquet state, the CES state, which breaks $U(1)$ and time-translation symmetries, representing a time supersolid. Using the Truncated Wigner method, we numerically compute its quantum fluctuations, which are theoretically predicted to be dominated by the temporal FNG mode at long times, observing a remarkable agreement between simulation and theory. Based on these results, we propose a feasible experimental scheme to observe the temporal FNG mode of the CES state.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-18
# HR-APR: カメラ再局在のための不確実性推定と階層的リファインメントを備えたAPR非依存フレームワーク

HR-APR: APR-agnostic Framework with Uncertainty Estimation and Hierarchical Refinement for Camera Relocalisation ( http://arxiv.org/abs/2402.14371v2 )

ライセンス: Link先を確認
Changkun Liu, Shuai Chen, Yukun Zhao, Huajian Huang, Victor Prisacariu, Tristan Braud, (参考訳) APR(Absolute Pose Regressors)は、モノクロ画像から直接カメラのポーズを推定するが、その精度は異なるクエリに対して不安定である。 不確かさを意識したAPRは、推定されたポーズに関する不確実な情報を提供し、これらの信頼できない予測の影響を軽減する。 しかし、既存の不確実性モデリング技術は特定のAPRアーキテクチャと結合されることがしばしばあり、その結果、最先端(SOTA)のAPR手法と比較して、準最適性能が得られる。 本研究では,クエリとデータベースの特徴間のコサイン類似度推定として不確実性推定を定式化する新しいAPR非依存フレームワークHR-APRを紹介する。 柔軟性と計算効率のよいAPRネットワークアーキテクチャに依存したり影響しない。 さらに、ポーズ改善の不確実性を利用して、APRの性能を向上させる。 大規模な実験は、我々のフレームワークの有効性を実証し、シングルイメージのAPRにおいてSOTAの精度を維持しながら、7ScenesとCambridge Landmarksデータセットにおける計算オーバーヘッドの27.4\%と15.2\%を削減した。

Absolute Pose Regressors (APRs) directly estimate camera poses from monocular images, but their accuracy is unstable for different queries. Uncertainty-aware APRs provide uncertainty information on the estimated pose, alleviating the impact of these unreliable predictions. However, existing uncertainty modelling techniques are often coupled with a specific APR architecture, resulting in suboptimal performance compared to state-of-the-art (SOTA) APR methods. This work introduces a novel APR-agnostic framework, HR-APR, that formulates uncertainty estimation as cosine similarity estimation between the query and database features. It does not rely on or affect APR network architecture, which is flexible and computationally efficient. In addition, we take advantage of the uncertainty for pose refinement to enhance the performance of APR. The extensive experiments demonstrate the effectiveness of our framework, reducing 27.4\% and 15.2\% of computational overhead on the 7Scenes and Cambridge Landmarks datasets while maintaining the SOTA accuracy in single-image APRs.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-18
# 様々な深度2ニューラルネットに対するリッジレット変換を導出する統一フーリエスライス法

A unified Fourier slice method to derive ridgelet transform for a variety of depth-2 neural networks ( http://arxiv.org/abs/2402.15984v2 )

ライセンス: Link先を確認
Sho Sonoda, Isao Ishikawa, Masahiro Ikeda, (参考訳) ニューラルネットワークパラメータを調べるためには、各ニューロンのパラメータを調べるよりも、パラメータの分布を研究する方が簡単である。 リッジレット変換は、与えられた関数$f$をパラメータ分布$\gamma$にマッピングし、ネットワーク$\matht{NN}[\gamma]$が$f$、すなわち$\matht{NN}[\gamma]=f$を再現する擬逆演算子である。 ユークリッド空間上のディープ2完全連結ネットワークに対して、リッジレット変換は閉形式式まで発見され、パラメータがどのように分散されるかを記述することができる。 しかし、現代のニューラルネットワークアーキテクチャでは、クローズドフォーム表現は知られていない。 本稿では,有限体上のネットワーク $\mathbb{F}_p$,抽象ヒルベルト空間上の群畳み込みネットワーク $\mathcal{H}$,非コンパクト対称空間上の完全連結ネットワーク $G/K$,プール層,あるいは$d$平面リッジレット変換など,様々な現代的なネットワークに対して,フーリエ式を用いてリッジレット変換を導出する体系的手法を説明する。

To investigate neural network parameters, it is easier to study the distribution of parameters than to study the parameters in each neuron. The ridgelet transform is a pseudo-inverse operator that maps a given function $f$ to the parameter distribution $\gamma$ so that a network $\mathtt{NN}[\gamma]$ reproduces $f$, i.e. $\mathtt{NN}[\gamma]=f$. For depth-2 fully-connected networks on a Euclidean space, the ridgelet transform has been discovered up to the closed-form expression, thus we could describe how the parameters are distributed. However, for a variety of modern neural network architectures, the closed-form expression has not been known. In this paper, we explain a systematic method using Fourier expressions to derive ridgelet transforms for a variety of modern networks such as networks on finite fields $\mathbb{F}_p$, group convolutional networks on abstract Hilbert space $\mathcal{H}$, fully-connected networks on noncompact symmetric spaces $G/K$, and pooling layers, or the $d$-plane ridgelet transform.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-18
# Poly Oculus: 同時多視点画像ベース新規ビュー合成

PolyOculus: Simultaneous Multi-view Image-based Novel View Synthesis ( http://arxiv.org/abs/2402.17986v2 )

ライセンス: Link先を確認
Jason J. Yu, Tristan Aumentado-Armstrong, Fereshteh Forghani, Konstantinos G. Derpanis, Marcus A. Brubaker, (参考訳) 本稿では,生成的新規ビュー合成(GNVS)の問題について考察する。 本稿では,複数のビューを同時に生成できるセットベース生成モデルを提案する。 我々のアプローチは一度に1つの画像を生成することに限らず、可変数のビューを条件にすることができる。 その結果、多数のビューを生成する場合、この手法は低次自己回帰生成アプローチに制限されず、大量の画像に対してより優れた画像品質を維持することができる。 我々は、標準NVSデータセット上でモデルを評価し、最先端の画像ベースであるGNVSベースラインよりも優れていることを示す。 さらに,本モデルでは,ループや双眼トラジェクトリのような自然な順序付けのないビューを生成でき,他の手法よりも優れていることを示す。

This paper considers the problem of generative novel view synthesis (GNVS), generating novel, plausible views of a scene given a limited number of known views. Here, we propose a set-based generative model that can simultaneously generate multiple, self-consistent new views, conditioned on any number of views. Our approach is not limited to generating a single image at a time and can condition on a variable number of views. As a result, when generating a large number of views, our method is not restricted to a low-order autoregressive generation approach and is better able to maintain generated image quality over large sets of images. We evaluate our model on standard NVS datasets and show that it outperforms the state-of-the-art image-based GNVS baselines. Further, we show that the model is capable of generating sets of views that have no natural sequential ordering, like loops and binocular trajectories, and significantly outperforms other methods on such tasks.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-18
# D4Cグラブトレイン:概念記述と建築分布によるRPMとボンガードログ問題の解法

D4C Glove-train: Solving the RPM and Bongard-logo Problem by Circumscribing and Building Distribution for Concepts ( http://arxiv.org/abs/2403.03452v5 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan, (参考訳) 本稿では,抽象的推論の領域において,特にRaven's Progressive Matrices (RPM) と Bongard-Logo の課題に対処する上で,注目すべき進歩を実現する。 リコネット(Lico-Net)は,RPM問題に顕著な精度で対処する新しいベースラインモデルである。 この基礎を生かして、我々はD3Cアプローチを推進し、分布を通して抽象的推論問題の根底にある概念を提唱する。 この観点は、Lico-NetとBongard-Logoタスクに優れたベースラインモデルの両方のパフォーマンスを向上させる。 D3Cの計算効率を高めるために,D3C-cosの変種を示す。 さらに,これらの領域における概念的境界を再定義するD2C法を提案する。 最後に、我々の方法論をD4Cに拡張し、さらに概念境界を洗練させ、RPMとBongard-Logoの課題において実質的な改善を示す。 全体として、我々の貢献は抽象的推論の分野における新たな展望と実践的な進歩を示している。

This paper achieves noteworthy progress in the realm of abstract reasoning, particularly in addressing Raven's Progressive Matrices (RPM) and Bongard-Logo challenges. Initially, we introduce Lico-Net, a novel baseline model that resolves RPM problems with remarkable accuracy. Leveraging this foundation, we advance with the D3C approach, which advocates representing the underlying concepts in abstract reasoning problems through distributions. This perspective enhances the performance of both Lico-Net and a baseline model excelling in Bongard-Logo tasks. To bolster the computational efficiency of D3C, we present the D3C-cos variant, offering a streamlined yet precise solution. Furthermore, we propose the D2C method, redefining conceptual boundaries within these domains and bridging the divide between high-level abstractions and their lower-dimensional counterparts. Finally, we extend our methodology to D4C, employing adversarial techniques to refine conceptual boundaries further and demonstrate substantial improvements in both RPM and Bongard-Logo challenges. Overall, our contributions present a fresh outlook and practical advancements in the field of abstract reasoning.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-18
# これが現実なのか? 幻想なのか? LLMとの社会的相互作用のシミュレーションの失敗の成功

Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs ( http://arxiv.org/abs/2403.05020v3 )

ライセンス: Link先を確認
Xuhui Zhou, Zhe Su, Tiwalayo Eisape, Hyunwoo Kim, Maarten Sap, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、より豊かな社会シミュレーションを可能にし、様々な社会現象の研究を可能にしている。 しかし、最近の研究は、これらのシミュレーション(例えば、すべてのインターロケータを生成するために単一のLSM)について、より完全な視点を用いている。 これらの違いを調べるために, 様々な環境下でのLLMとの社会的相互作用をシミュレートする評価フレームワークを開発した。 実験の結果,LLMは非現実的で全知的なシミュレーション環境では優れるが,情報非対称性で現実の状態をより正確に反映する環境では苦戦していることがわかった。 以上の結果から, 情報非対称性への対処は, LLMをベースとしたエージェントにとって依然として根本的な課題であることが示唆された。

Recent advances in large language models (LLM) have enabled richer social simulations, allowing for the study of various social phenomena. However, most recent work has used a more omniscient perspective on these simulations (e.g., single LLM to generate all interlocutors), which is fundamentally at odds with the non-omniscient, information asymmetric interactions that involve humans and AI agents in the real world. To examine these differences, we develop an evaluation framework to simulate social interactions with LLMs in various settings (omniscient, non-omniscient). Our experiments show that LLMs perform better in unrealistic, omniscient simulation settings but struggle in ones that more accurately reflect real-world conditions with information asymmetry. Our findings indicate that addressing information asymmetry remains a fundamental challenge for LLM-based agents.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-18
# 商用LLMを用いた低リソース言語タスクのコストパフォーマンス最適化

Cost-Performance Optimization for Processing Low-Resource Language Tasks Using Commercial LLMs ( http://arxiv.org/abs/2403.05434v2 )

ライセンス: Link先を確認
Arijit Nag, Animesh Mukherjee, Niloy Ganguly, Soumen Chakrabarti, (参考訳) 大規模言語モデル(LLMs)は、高リソース言語(HRLs)に対して、印象的なゼロ/ファウショット推論と生成品質を示す。 いくつかは低リソース言語(LRL)でトレーニングされ、優れたパフォーマンスを実現しています。 LLMのトレーニングの禁止コストのため、通常はネットワークサービスとして使用され、クライアントは入力トークンと出力トークンのカウントによって課金される。 トークンの数は、LLMのサブワード語彙と同様に、スクリプトと言語に強く依存する。 LLM は HRL よりも LRL よりも多くのトークンを生成するため,LRL が価格面で不利であることを示す。 これは、現在広く使われているLLMがHRL語彙に最適化されているためである。 我々の目標は、現代のLLMにおけるLRLの処理コストを低減し、予測的および生成的品質が損なわれないようにすることである。 LLMによって処理されるトークンの数を減少させる手段として、LRLのコード混合、翻訳、HRLへの翻訳を検討する。 IndicXTREME分類と6つの生成タスクデータセットを用いて広範に研究を行い、15のIndicおよび3の言語をカバーし、商業LLMとしてGPT-4(これまでリリースされた最も高価なLCMサービスの一つ)を使用。 トークン数、コスト、品質を含む興味深いパターンを、さまざまな言語やタスクで観察し分析する。 従来のLRLでLLMと通信する場合と比較して,LLMと対話する最善のポリシーを選択することでコストを90%削減できることを示す。

Large Language Models (LLMs) exhibit impressive zero/few-shot inference and generation quality for high-resource languages (HRLs). A few of them have been trained on low-resource languages (LRLs) and give decent performance. Owing to the prohibitive costs of training LLMs, they are usually used as a network service, with the client charged by the count of input and output tokens. The number of tokens strongly depends on the script and language, as well as the LLM's subword vocabulary. We show that LRLs are at a pricing disadvantage, because the well-known LLMs produce more tokens for LRLs than HRLs. This is because most currently popular LLMs are optimized for HRL vocabularies. Our objective is to level the playing field: reduce the cost of processing LRLs in contemporary LLMs while ensuring that predictive and generative qualities are not compromised. As means to reduce the number of tokens processed by the LLM, we consider code-mixing, translation, and transliteration of LRLs to HRLs. We perform an extensive study using the IndicXTREME classification and six generative tasks dataset, covering 15 Indic and 3 other languages, while using GPT-4 (one of the costliest LLM services released so far) as a commercial LLM. We observe and analyze interesting patterns involving token count, cost, and quality across a multitude of languages and tasks. We show that choosing the best policy to interact with the LLM can reduce cost by 90% while giving better or comparable performance compared to communicating with the LLM in the original LRL.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-18
# MM1:マルチモーダルLLM事前学習の方法・分析・洞察

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training ( http://arxiv.org/abs/2403.09611v4 )

ライセンス: Link先を確認
Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Ankur Jain, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang, (参考訳) 本稿では,MLLM(Multimodal Large Language Models)の構築について論じる。 特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。 画像エンコーダ,視覚言語コネクタ,各種事前学習データの選択を慎重にかつ包括的に改善することにより,いくつかの重要な設計の教訓を明らかにした。 例えば、画像キャプチャー、インターリーブド画像テキスト、テキストのみのデータを慎重に組み合わせた大規模マルチモーダル事前学習は、複数のベンチマークで最新のSOTA (State-of-the-art) 数ショット結果を達成するのに不可欠であることを示す。 さらに、画像解像度と画像トークン数とを併用した画像エンコーダは、視覚言語コネクタ設計が比較的重要視されているのに対して、かなりの影響を与えることを示す。 提案したレシピをスケールアップすることにより,厳密なモデルと混合オブエキスパート(MoE)変異を含む最大30BパラメータのマルチモーダルモデルのファミリーであるMM1を構築する。 大規模な事前トレーニングによって、MM1は、強化されたコンテキスト内学習やマルチイメージ推論などの魅力的な特性を享受し、数発のチェーン・オブ・シークレットのプロンプトを可能にしている。

In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, including both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.
翻訳日:2024-04-22 19:18:16 公開日:2024-04-18
# AQM:量子コンピューティング共同設計のための抽象量子ビットモデルの更新

AQM: A Refresh of the Abstract Qubit Model for Quantum Computing Co-design ( http://arxiv.org/abs/2403.11329v2 )

ライセンス: Link先を確認
Chenxu Liu, Samuel A. Stein, Muqing Zheng, James Ang, Ang Li, (参考訳) 量子ビットは量子情報科学と応用の基本的な構成要素であり、その概念は量子物理学と量子計算の両方で広く利用されている。 量子ビットと物理デバイスにおける実装の重要性は広く検討されているが、現在ではこの理解を再考する正しい時期である。 本稿では,高次アルゴリズムとアプリケーションのための数学的枠組みを提供する抽象量子ビットモデル(AQM)を導入し,量子計算を実現するための低次物理機器の基準を設定する。 まず、量子コンピューティングアルゴリズム(ボトムアップサポート)の基本原理である「量子ビット」を包括的に定義し、デバイスに必要な要件(トップダウン需要)について検討する。 そこで我々は,この緩和を相殺するための余分なコストのトレードオフを考慮しつつ,具体的要求を緩和し,デバイスサポートを拡充する可能性を検討する。 最後に、「量子ビット」の部分的なサポートのみを必要とする量子アプリケーションを調べ、AQMの限られたサポートを持つ物理システムについて議論する。 AQMは量子アルゴリズムとデバイスの間の中間インターフェースとして機能し、量子アルゴリズムとデバイスの共同設計を容易にする。

Qubits are the fundamental building blocks of quantum information science and applications, whose concept is widely utilized in both quantum physics and quantum computation. While the significance of qubits and their implementation in physical devices have been extensively examined, now is the right time to revisit this understanding. In this paper, we introduce an abstract qubit model (AQM), offering a mathematical framework for higher-level algorithms and applications, and setting forth criteria for lower-level physical devices to enable quantum computation. We first provide a comprehensive definition of "qubits", regarded as the foundational principle for quantum computing algorithms (bottom-up support), and examine their requisites for devices (top-down demand). We then investigate the feasibility of relaxing specific requirements, thereby broadening device support while considering techniques that tradeoff extra costs to counterbalance this relaxation. Lastly, we delve into the quantum applications that only require partial support of "qubits", and discuss the physical systems with limited support of the AQM but remain valuable in quantum applications. AQM may serve as an intermediate interface between quantum algorithms and devices, facilitating quantum algorithm-device co-design.
翻訳日:2024-04-22 19:18:16 公開日:2024-04-18
# 非負のコントラスト学習

Non-negative Contrastive Learning ( http://arxiv.org/abs/2403.12459v2 )

ライセンス: Link先を確認
Yifei Wang, Qi Zhang, Yaoyu Guo, Yisen Wang, (参考訳) 深い表現は、ブラックボックス方式で下流タスクに転送する際の有望なパフォーマンスを示している。 しかし、それらの解釈可能性の欠如は、人間の理解に不透明なことが多いため、依然として大きな課題である。 本稿では,非負の行列因子化(NMF)の再現性である非負のコントラスト学習(NCL)を提案する。 NCLの力は、NMFがサンプルクラスタと密接に整合する特徴を抽出する能力を思い出させる、特徴に対する非負性制約の実施にある。 NCLは数学的にNMFの目的とよく一致しているだけでなく、NMFの解釈可能性特性も保ち、標準のコントラスト学習(CL)よりも疎密で非絡み合った表現をもたらす。 理論的には、NCLの識別可能性と下流一般化の保証を確立する。 実験的に、これらの利点により、NCLは機能障害、特徴選択、下流分類タスクにおいてCLを大幅に上回ることが示される。 最後に,NCLを他の学習シナリオに拡張し,教師付き学習にも役立てることができることを示す。 コードはhttps://github.com/PKU-ML/non_neg.comで入手できる。

Deep representations have shown promising performance when transferred to downstream tasks in a black-box manner. Yet, their inherent lack of interpretability remains a significant challenge, as these features are often opaque to human understanding. In this paper, we propose Non-negative Contrastive Learning (NCL), a renaissance of Non-negative Matrix Factorization (NMF) aimed at deriving interpretable features. The power of NCL lies in its enforcement of non-negativity constraints on features, reminiscent of NMF's capability to extract features that align closely with sample clusters. NCL not only aligns mathematically well with an NMF objective but also preserves NMF's interpretability attributes, resulting in a more sparse and disentangled representation compared to standard contrastive learning (CL). Theoretically, we establish guarantees on the identifiability and downstream generalization of NCL. Empirically, we show that these advantages enable NCL to outperform CL significantly on feature disentanglement, feature selection, as well as downstream classification tasks. At last, we show that NCL can be easily extended to other learning scenarios and benefit supervised learning as well. Code is available at https://github.com/PKU-ML/non_neg.
翻訳日:2024-04-22 19:18:16 公開日:2024-04-18
# LiDAR拡散モデルによるリアルなシーン生成に向けて

Towards Realistic Scene Generation with LiDAR Diffusion Models ( http://arxiv.org/abs/2404.00815v2 )

ライセンス: Link先を確認
Haoxi Ran, Vitor Guizilini, Yue Wang, (参考訳) 拡散モデル(DM)はフォトリアリスティック画像合成において優れているが、LiDARシーン生成への適応は大きなハードルとなる。 これは主に、点空間で動作しているDMが、その表現力の多くを消費するLiDARシーンの曲線のようなパターンと3D幾何学を保存するのに苦労しているためである。 本稿では,LiDARシーンのリアリズムを学習パイプラインに組み込むことで,LiDARシーンの現実性を捉えるために,LiDAR拡散モデル(LiDM)を提案する。 本手法は,パターンリアリズム,幾何学リアリズム,オブジェクトリアリズムの3つの主要なデシダータを対象とする。 具体的には、実世界のLiDARパターンをシミュレートするための曲線ワイド圧縮、シーン幾何学を学ぶための点ワイド座標調整、フル3Dオブジェクトコンテキストに対するパッチワイド符号化を導入する。 これら3つのコア設計により,64ビームシナリオにおける非条件付きLiDAR生成と条件付きLiDAR生成の最先端化を両立させるとともに,点ベースDMに比べて高い効率(最大107$\times$ faster)を維持しながら,非条件付きLiDAR生成の競争性能を実現する。 さらに、LiDARシーンを潜在空間に圧縮することにより、セマンティックマップ、カメラビュー、テキストプロンプトなどの様々な条件でDMの制御を可能にする。

Diffusion models (DMs) excel in photo-realistic image synthesis, but their adaptation to LiDAR scene generation poses a substantial hurdle. This is primarily because DMs operating in the point space struggle to preserve the curve-like patterns and 3D geometry of LiDAR scenes, which consumes much of their representation power. In this paper, we propose LiDAR Diffusion Models (LiDMs) to generate LiDAR-realistic scenes from a latent space tailored to capture the realism of LiDAR scenes by incorporating geometric priors into the learning pipeline. Our method targets three major desiderata: pattern realism, geometry realism, and object realism. Specifically, we introduce curve-wise compression to simulate real-world LiDAR patterns, point-wise coordinate supervision to learn scene geometry, and patch-wise encoding for a full 3D object context. With these three core designs, our method achieves competitive performance on unconditional LiDAR generation in 64-beam scenario and state of the art on conditional LiDAR generation, while maintaining high efficiency compared to point-based DMs (up to 107$\times$ faster). Furthermore, by compressing LiDAR scenes into a latent space, we enable the controllability of DMs with various conditions such as semantic maps, camera views, and text prompts.
翻訳日:2024-04-22 19:18:16 公開日:2024-04-18
# ソフトプロンプト圧縮による効率的な文脈処理のためのLLMの適応

Adapting LLMs for Efficient Context Processing through Soft Prompt Compression ( http://arxiv.org/abs/2404.04997v2 )

ライセンス: Link先を確認
Cangqing Wang, Yutian Yang, Ruisi Li, Dan Sun, Ruicong Cai, Yuzhu Zhang, Chengqian Fu, Lillian Floyd, (参考訳) LLM(Large Language Models)の急速な進歩は、自然言語処理における変革的エポックを創出し、テキスト生成、理解、文脈の精査において前例のない熟練を育んでいる。 それでも、無数のアプリケーションにとって重要な、広範囲にわたるコンテキストを効果的に扱うことは、モデルのコンテキストウィンドウサイズとそれらの操作にかかわる計算上の負担の内在的な制約により、大きな障害となる。 本研究は, 自然言語要約, ソフトプロンプト圧縮, 拡張実用性保存機構の相乗効果を利用して, LLMを合理的な文脈処理のために戦略的に調整する枠組みを提案する。 我々の手法はSoftPromptCompと呼ばれ、自然言語は動的に生成されたソフトプロンプトで要約手法から抽出され、簡潔だが意味的に頑健な文脈の描写をフォージする。 この描写は、情報保持とその後のタスクの実用性を最適化する重み付け機構によってさらに洗練される。 我々は、我々のフレームワークが計算オーバーヘッドを著しく減らし、様々なベンチマークでLCMの有効性を高めつつ、生成したコンテンツの校正性を維持したり、強化したりすることを確認する。 ソフトプロンプト圧縮を高度に要約することで、SoftPromptCompは長いコンテキストを管理し、モデルのスケーラビリティを確保するという2つの課題に直面します。 我々の研究は、LLMの適用性と効率を向上し、現実の応用においてより多用途で実用的になるための提案的な軌道を向けている。 この研究は、言語モデルの最適化に関する現在進行中の談話を強化し、次世代のNLPソリューションのための重要な手段として、ソフトプロンプトと要約技術の有効性に関する洞察を提供する。

The rapid advancement of Large Language Models (LLMs) has inaugurated a transformative epoch in natural language processing, fostering unprecedented proficiency in text generation, comprehension, and contextual scrutiny. Nevertheless, effectively handling extensive contexts, crucial for myriad applications, poses a formidable obstacle owing to the intrinsic constraints of the models' context window sizes and the computational burdens entailed by their operations. This investigation presents an innovative framework that strategically tailors LLMs for streamlined context processing by harnessing the synergies among natural language summarization, soft prompt compression, and augmented utility preservation mechanisms. Our methodology, dubbed SoftPromptComp, amalgamates natural language prompts extracted from summarization methodologies with dynamically generated soft prompts to forge a concise yet semantically robust depiction of protracted contexts. This depiction undergoes further refinement via a weighting mechanism optimizing information retention and utility for subsequent tasks. We substantiate that our framework markedly diminishes computational overhead and enhances LLMs' efficacy across various benchmarks, while upholding or even augmenting the caliber of the produced content. By amalgamating soft prompt compression with sophisticated summarization, SoftPromptComp confronts the dual challenges of managing lengthy contexts and ensuring model scalability. Our findings point towards a propitious trajectory for augmenting LLMs' applicability and efficiency, rendering them more versatile and pragmatic for real-world applications. This research enriches the ongoing discourse on optimizing language models, providing insights into the potency of soft prompts and summarization techniques as pivotal instruments for the forthcoming generation of NLP solutions.
翻訳日:2024-04-22 17:23:46 公開日:2024-04-18
# 二次バンド退化の不安定性とディラック点の出現

Instability of quadratic band degeneracies and the emergence of Dirac points ( http://arxiv.org/abs/2404.05886v2 )

ライセンス: Link先を確認
Jonah Chaban, Michael I. Weinstein, (参考訳) Schr\"{o}dinger 作用素 $H = -\Delta + V$ を考えると、ポテンシャル $V$ は $\mathbb{Z}^2$-周期的かつ空間反転、複素共役、および $\pi/2$ 回転の下で不変である。 V$の典型的な小さな線形変形の下では、高対称性準同型$\boldsymbol{M}$([24, 25])上の二次バンド縮退点が、摂動準同型$$\boldsymbol{D}^+$と$\boldsymbol{D}^-$の2つの分離縮退点に分割され、これらの縮退点がディラック点であることを示す。 発散したディラック点付近の縮退した分散面の局所的特徴は、傾いた楕円錐体である。 それに対応して、$\boldsymbol{D}^+$ または $\boldsymbol{D}^-$ の近くでスペクトル局在したウェーブパペットの力学は、対流項を持つディラック方程式の系によって支配される。 一般化について論じる。

Consider the Schr\"{o}dinger operator $H = -\Delta + V$, where the potential $V$ is $\mathbb{Z}^2$-periodic and invariant under spatial inversion, complex conjugation, and $\pi/2$ rotation. We show that, under typical small linear deformations of $V$, the quadratic band degeneracy points occurring over the high-symmetry quasimomentum $\boldsymbol{M}$ (see [24, 25]) each split into two separated degeneracies over perturbed quasimomenta $\boldsymbol{D}^+$ and $\boldsymbol{D}^-$, and that these degeneracies are Dirac points. The local character of the degenerate dispersion surfaces about the emergent Dirac points are tilted, elliptical cones. Correspondingly, the dynamics of wavepackets spectrally localized near either $\boldsymbol{D}^+$ or $\boldsymbol{D}^-$ are governed by a system of Dirac equations with an advection term. Generalizations are discussed.
翻訳日:2024-04-22 17:23:46 公開日:2024-04-18
# リーブ・ライニガーガスの熱力学特性の解析

Analytic thermodynamic properties of the Lieb-Liniger gas ( http://arxiv.org/abs/2404.06092v2 )

ライセンス: Link先を確認
M. L. Kerr, G. De Rosi, K. V. Kheruntsyan, (参考訳) 本稿では, 1次元(1D)ボース気体のリーブ・ライニッガー模型の有限温度熱力学量と接触反発相互作用について概説する。 この量子多体理論のパラダイムモデルは、その積分性と、準1次元幾何学に制限された超低温のボゾン原子のアンサンブルを用いた実験的実現により、物理学の多くの領域において重要な役割を果たす。 均一なリーブ・ライニガー気体の熱力学は、1969年にヤンとヤンによって初めて導かれた正確な熱的Bethe ansatz (TBA)法を用いて数値的に得ることができる。 しかし、TBAの数値計算では、リーブ・ライニガー気体の熱力学挙動を有限温度で制御する基礎となる物理機構の深い理解ができない。 この研究は, 閉形式解析結果の透明性から自然に生じる知見によって動機付けられ, ガスの6つの異なる状態から導出され, TBA数値と良好な一致を示す。 本研究は, 局所密度近似における非均一(eg, 調和捕捉)1次元ボースガスの平衡特性を解析し, 基礎となる熱力学方程式に依存する呼吸モード周波数の計算を可能にした。 我々の分析手法は、量子浴、液体ヘリウム-4、超低温ボースガス混合系の不純物を含む他のシステムにも適用できる。

We present a comprehensive review on the state-of-the-art of the approximate analytic approaches describing the finite-temperature thermodynamic quantities of the Lieb-Liniger model of the one-dimensional (1D) Bose gas with contact repulsive interactions. This paradigmatic model of quantum many-body-theory plays an important role in many areas of physics -- thanks to its integrability and possible experimental realization using, e.g., ensembles of ultracold bosonic atoms confined to quasi-1D geometries. The thermodynamics of the uniform Lieb-Liniger gas can be obtained numerically using the exact thermal Bethe ansatz (TBA) method, first derived in 1969 by Yang and Yang. However, the TBA numerical calculations do not allow for the in-depth understanding of the underlying physical mechanisms that govern the thermodynamic behavior of the Lieb-Liniger gas at finite temperature. Our work is then motivated by the insights that emerge naturally from the transparency of closed-form analytic results, which are derived here in six different regimes of the gas and which exhibit an excellent agreement with the TBA numerics. Our findings can be further adopted for characterising the equilibrium properties of inhomogeneous (e.g., harmonically trapped) 1D Bose gases within the local density approximation and for the development of improved hydrodynamic theories, allowing for the calculation of breathing mode frequencies which depend on the underlying thermodynamic equation of state. Our analytic approaches can be applied to other systems including impurities in a quantum bath, liquid helium-4, and ultracold Bose gas mixtures.
翻訳日:2024-04-22 17:23:46 公開日:2024-04-18
# NIR-Assisted Image Denoising: Selective Fusion Approach と Real-World Benchmark Dataset

NIR-Assisted Image Denoising: A Selective Fusion Approach and A Real-World Benchmark Dataset ( http://arxiv.org/abs/2404.08514v3 )

ライセンス: Link先を確認
Rongjian Xu, Zhilu Zhang, Renlong Wu, Wangmeng Zuo, (参考訳) 画像復調の著しい進歩にもかかわらず、特に極低照度環境では、ノイズを取り除きながら微細な細部を復元することは依然として困難である。 近赤外(NIR)画像を活用して視認可能なRGB画像の復調を支援することは、この問題に対処する可能性を示し、有望な技術となった。 それでも、NIR-RGB画像と実世界のペア化データセットの不足との間のコンテンツ不整合のため、既存の作業では、実世界の画像復調に有効なNIR情報の活用に苦慮している。 この問題を軽減するために,提案するSFM (Selective Fusion Module) は,NIR-RGB の深い機能を統合するために,先進的なデノナイズネットワークにプラグイン・アンド・プレイできる。 具体的には, NIR と RGB のグローバル・局所変調を逐次実行し, 2 つの変調特徴を統合する。 さらに,様々なシナリオと様々なノイズレベルをカバーする実世界のNIR支援画像デノイング(Real-NAID)データセットを提案する。 人工と実世界の両方のデータセットに対する大規模な実験により、提案手法は最先端のデータセットよりも優れた結果が得られることを示した。 データセット、コード、事前トレーニングされたモデルは、https://github.com/ronjonxu/NAIDで公開される。

Despite the significant progress in image denoising, it is still challenging to restore fine-scale details while removing noise, especially in extremely low-light environments. Leveraging near-infrared (NIR) images to assist visible RGB image denoising shows the potential to address this issue, becoming a promising technology. Nonetheless, existing works still struggle with taking advantage of NIR information effectively for real-world image denoising, due to the content inconsistency between NIR-RGB images and the scarcity of real-world paired datasets. To alleviate the problem, we propose an efficient Selective Fusion Module (SFM), which can be plug-and-played into the advanced denoising networks to merge the deep NIR-RGB features. Specifically, we sequentially perform the global and local modulation for NIR and RGB features, and then integrate the two modulated features. Furthermore, we present a Real-world NIR-Assisted Image Denoising (Real-NAID) dataset, which covers diverse scenarios as well as various noise levels. Extensive experiments on both synthetic and our real-world datasets demonstrate that the proposed method achieves better results than state-of-the-art ones. The dataset, codes, and pre-trained models will be publicly available at https://github.com/ronjonxu/NAID.
翻訳日:2024-04-22 17:23:46 公開日:2024-04-18
# プロパゲータと経路積分からの星指数

Star exponentials from propagators and path integrals ( http://arxiv.org/abs/2404.08815v2 )

ライセンス: Link先を確認
Jasel Berra-Montiel, Hugo Garcia-Compean, Alberto Molgado, (参考訳) 本稿では、変形量子化形式に現れる星指数と、量子力学におけるプロパゲータに関連するファインマンの経路積分の関係について述べる。 このような関係を得るために、時間発展演算子に対応する記号を用いて、量子プロパゲータを指数関数の積分変換として可視化することから始め、古典的歴史の全てを和として、このプロパゲータのファインマンの経路積分表現を導入する。 このように構成された恒星指数は、変形量子化の文脈でよく理解されるように、形式級数の収束に依存しないという利点がある。 文献で報告された標準結果の回復を図示する基本的な例をいくつか紹介する。 さらに、任意の有限次元系に対して、ここで導入されたスター指数を用いて、ポアソンのシグマモデルに対する量子場論の文脈で遭遇したスター積の特定の表現を見つける。

In this paper we address the relation between the star exponentials emerging within the Deformation Quantization formalism and Feynman's path integrals associated with propagators in quantum dynamics. In order to obtain such a relation, we start by visualizing the quantum propagator as an integral transform of the star exponential by means of the symbol corresponding to the time evolution operator and, thus, we introduce Feynman's path integral representation of the propagator as a sum over all the classical histories. The star exponential thus constructed has the advantage that it does not depend on the convergence of formal series, as commonly understood within the context of Deformation Quantization. We include some basic examples to illustrate our findings, recovering standard results reported in the literature. Further, for an arbitrary finite dimensional system, we use the star exponential introduced here in order to find a particular representation of the star product which resembles the one encountered in the context of the quantum field theory for a Poisson sigma model.
翻訳日:2024-04-22 17:13:50 公開日:2024-04-18
# 自然法則に対する量子重力シード

The quantum gravity seeds for laws of nature ( http://arxiv.org/abs/2404.12248v1 )

ライセンス: Link先を確認
Vincent Lam, Daniele Oriti, (参考訳) 我々は、空間と時間が基本でないかもしれない量子重力の枠組みの中で、標準(ヒューム語と非ヒューム語)の法則が直面する課題について議論する。 本稿では、多くの量子重力アプローチと形式主義をまたいだ中核(メタ)物理特性を特定し、時空間的概念を含まないQG法則を考慮に入れた最新の概念を定式化するための種を提供する。 この目的のために、特に量子エンタングルメント、量子遷移振幅、および量子因果履歴の構成的役割を強調します。 これらの特徴はまた、量子重力と量子情報理論の間の実りある重なり合いを強調している。

We discuss the challenges that the standard (Humean and non-Humean) accounts of laws face within the framework of quantum gravity where space and time may not be fundamental. This paper identifies core (meta)physical features that cut across a number of quantum gravity approaches and formalisms and that provide seeds for articulating updated conceptions that could account for QG laws not involving any spatio-temporal notions. To this aim, we will in particular highlight the constitutive roles of quantum entanglement, quantum transition amplitudes and quantum causal histories. These features also stress the fruitful overlap between quantum gravity and quantum information theory.
翻訳日:2024-04-22 17:13:50 公開日:2024-04-18
# ディープリカレントネットワークによるDIII-Dトカマクのフルショット予測

Full Shot Predictions for the DIII-D Tokamak via Deep Recurrent Networks ( http://arxiv.org/abs/2404.12416v1 )

ライセンス: Link先を確認
Ian Char, Youngseog Chung, Joseph Abbate, Egemen Kolemen, Jeff Schneider, (参考訳) トカマクは核融合をエネルギー源として実現するための最も有望な装置の1つだが、プラズマの力学を理解し制御する上では、依然として重要な障害がある。 そのため、これらの障害を克服するために高品質なモデルを開発することが重要である。 この研究では、そのようなモデルを学ぶために、完全にデータ駆動のアプローチを取ります。 特に、DIII-Dトカマクの歴史的データを用いて、プラズマ放電(または「ショット」)のフルタイム進化を予測することができる深い再帰ネットワークを訓練する。 続いて、異なるトレーニングと推論の手順が、ショット予測の品質とキャリブレーションにどのように影響するかを検討する。

Although tokamaks are one of the most promising devices for realizing nuclear fusion as an energy source, there are still key obstacles when it comes to understanding the dynamics of the plasma and controlling it. As such, it is crucial that high quality models are developed to assist in overcoming these obstacles. In this work, we take an entirely data driven approach to learn such a model. In particular, we use historical data from the DIII-D tokamak to train a deep recurrent network that is able to predict the full time evolution of plasma discharges (or "shots"). Following this, we investigate how different training and inference procedures affect the quality and calibration of the shot predictions.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# グラフアライメント問題:基本極限と効率的なアルゴリズム

The graph alignment problem: fundamental limits and efficient algorithms ( http://arxiv.org/abs/2404.12418v1 )

ライセンス: Link先を確認
Luca Ganassali, (参考訳) この論文は、グラフアライメント問題、グラフ同型問題のノイズバージョンについて研究し、エッジのほとんどを保存する2つのグラフのノード間のマッチングを見つけることを目的としている。 グラフがランダムな植込みバージョンに着目して、この問題の基本的な情報理論的限界を理解することに興味を持ち、データ内の基盤となるアライメントを復元できるアルゴリズムを設計および分析することに興味を持っている。 これらのアルゴリズムに対して、我々は、それらが成功するか失敗する体制に対して、いくつかの高い確率保証を与える。

This thesis studies the graph alignment problem, the noisy version of the graph isomorphism problem, which aims to find a matching between the nodes of two graphs which preserves most of the edges. Focusing on the planted version where the graphs are random, we are interested in understanding the fundamental information-theoretical limits for this problem, as well as designing and analyzing algorithms that are able to recover the underlying alignment in the data. For these algorithms, we give some high probability guarantees on the regime in which they succeed or fail.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# 大きな核スピンを持つ原子に対する効果的な光誘起ハミルトニアン

Effective light-induced Hamiltonian for atoms with large nuclear spin ( http://arxiv.org/abs/2404.12429v1 )

ライセンス: Link先を確認
Domantas Burba, Hubert Dunikowski, Martin Robert-de-Saint-Vincent, Emilia Witkowska, Gediminas Juzeliūnas, (参考訳) 2つの価電子を持つ超低温フェルミオン原子は、核スピンが基底電子状態の電子自由度から切り離される独特の内部状態構造を示す。 その結果、核スピン状態は環境から十分に分離され、これらの原子系は量子計算と量子シミュレーションのためのオポチュンプラットフォームとなる。 外部共鳴光との結合は、核スピン状態の選択的かつコヒーレントに操作するための重要なツールである。 本稿では,超低温フェルミオン原子の核スピン状態に対する有効ハミルトニアンの体系的導出について述べる。 超微細スプリッティングへの線形および二次的寄与を考慮したスカラー,ベクトル,テンソル光シフトのコンパクト表現を得る。 解析はグリーン演算子法を用いて行われ、対応するダイソン方程式を解く。 最後に、核スピンの純粋なスピン軌道結合と同様に、ベクトル光とテンソル光のシフトにつながる様々な光構成のシナリオを分析する。

Ultra-cold fermionic atoms, having two valence electrons, exhibit a distinctive internal state structure, wherein the nuclear spin becomes decoupled from the electronic degrees of freedom in the ground electronic state. Consequently, the nuclear spin states are well isolated from the environment, rendering these atomic systems an opportune platform for quantum computation and quantum simulations. Coupling with off-resonance light is an essential tool to selectively and coherently manipulate the nuclear spin states. In this paper, we present a systematic derivation of the effective Hamiltonian for the nuclear spin states of ultra-cold fermionic atoms due to such an off-resonance light. We obtain compact expressions for the scalar, vector and tensor light shifts taking into account both linear and quadratic contributions to the hyperfine splitting. The analysis has been carried out using the Green operator approach and solving the corresponding Dyson equation. Finally, we analyze different scenarios of light configurations which lead to the vector- and tensor-light shifts, as well as the pure spin-orbit coupling for the nuclear spin.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# 応用対応量子回路のコンパイルに向けて

Towards Application-Aware Quantum Circuit Compilation ( http://arxiv.org/abs/2404.12433v1 )

ライセンス: Link先を確認
Nils Quetschlich, Florian J. Kiwit, Maximilian A. Wolf, Carlos A. Riofrio, Lukas Burgholzer, Andre Luckow, Robert Wille, (参考訳) 量子コンピューティングは、ソフトウェアとハードウェアの両方で大幅に改善され、量子コンピューティングアプリケーションを実現するための学術と産業への関心を喚起した。 この目的のためには、いくつかのステップが必要である: 根底にある問題は量子回路にエンコードされなければならず、適切なデバイスが選択され、それに従ってコンパイルされなければならない。 このコンパイルステップは、結果のソリューションの品質に大きな影響を与えます。 しかし、現在の最先端のコンパイルツールは、量子回路を実際のアプリケーションを考えることなく命令のシーケンスとして扱う。 本研究では、アプリケーションの考慮を明示的に取り入れ、コンパイル時にソリューションの品質を最適化することを目的とした、別のアプローチが検討されている。 最初の結果は、このアプローチの利点を示している: 量子生成モデルの産業的な応用のために、提案されたアプローチは、Qiskitの最も最適化されたコンパイル方式よりも優れ、より良いソリューション品質をもたらした。 したがって、本研究はアプリケーション対応コンパイルへの第一歩となる。

Quantum computing has made tremendous improvements in both software and hardware that have sparked interest in academia and industry to realize quantum computing applications. To this end, several steps are necessary: The underlying problem must be encoded in a quantum circuit, a suitable device must be selected to execute it, and it must be compiled accordingly. This compilation step has a significant influence on the quality of the resulting solution. However, current state-of-the-art compilation tools treat the quantum circuit as a sequence of instructions without considering the actual application it realizes -- wasting a yet untapped potential to increase the solution quality. In this work, a different approach is explored that explicitly incorporates the application considered and aims to optimize its solution quality during compilation. Initial results show the benefits of this approach: For an industry-inspired application of a quantum generative model, the proposed approach outperformed Qiskit's most-optimized compilation scheme and led to better solution quality. Therefore, this work presents a first step towards application-aware compilation.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# 超対称性の探索: ジャイネス・カミングと反ジャイネス・カミングの相互作用可能性

Exploring Supersymmetry: Interchangeability Between Jaynes-Cummings and Anti-Jaynes-Cummings Models ( http://arxiv.org/abs/2404.12438v1 )

ライセンス: Link先を確認
Ivan A. Bocanegra-Garay, Miguel Castillo-Celeita, J. Negro, L. M. Nieto, Fernando J. Gómez-Ruiz, (参考訳) 量子光学におけるJaynes-Cummings (JC) モデルと反Jaynes Cummings (AJC) モデルの間に存在する超対称接続は、完全に証明されていない。 超対称手法を用いてAJCモデルで観測可能な天体の時間的進化を求める新しい手法が提案され、そのダイナミクスの概要と計算を全光子計数統計に拡張する。 このアプローチは一般的であり、初期状態が与えられた高次累積を決定するために適用することができる。 この分析により、AJCモデルにおける原子サブシステムの初期状態と対応する原子周波数を制御することにより、相互作用場の崩壊・復活挙動と量子的性質が工学的に可能であることが明らかになった。 したがって、フォトニック量子技術の文脈における超対称性技術の応用に対する実質的なポテンシャルが示される。

The supersymmetric connection that exists between the Jaynes-Cummings (JC) and anti-Jaynes Cummings (AJC) models in quantum optics is unraveled entirely. A new method is proposed to obtain the temporal evolution of observables in the AJC model using supersymmetric techniques, providing an overview of its dynamics and extending the calculation to full photon counting statistics. The approach is general and can be applied to determine the high-order cumulants given an initial state. The analysis reveals that engineering the collapse-revival behavior and the quantum properties of the interacting field is possible by controlling the initial state of the atomic subsystem and the corresponding atomic frequency in the AJC model. The substantial potential for applications of supersymmetric techniques in the context of photonic quantum technologies is thus demonstrated.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# Spot-Compose: ポイントクラウドにおけるオープン語彙オブジェクト検索と描画操作のためのフレームワーク

Spot-Compose: A Framework for Open-Vocabulary Object Retrieval and Drawer Manipulation in Point Clouds ( http://arxiv.org/abs/2404.12440v1 )

ライセンス: Link先を確認
Oliver Lemke, Zuria Bauer, René Zurbrügg, Marc Pollefeys, Francis Engelmann, Hermann Blum, (参考訳) 近年、ディープラーニングと大規模データセットの現代的な技術は、3Dインスタンスのセグメンテーション、把握ポーズ推定、ロボット工学において顕著な進歩をもたらしている。 これにより、3Dシーンで直接正確な検出、オブジェクトと環境を意識した把握予測、堅牢で反復可能なロボット操作が可能になる。 この研究は、最近の手法を人間中心環境におけるロボットインタラクションと操作のための包括的なフレームワークに統合することを目的としている。 具体的には,コモディティ3Dスキャナーからの3次元再構成を利用してオープン語彙のインスタンスセグメンテーションを行い,グリップポーズ推定を行い,オブジェクトの動的選択と引き出しの開放を実演する。 動的オブジェクト検索と引き出しオープニングを含む実世界の2つの実験において,本モデルの性能とロバスト性を示し,それぞれ51%,82%の成功率を報告した。 フレームワークのコードとビデオは、https://spot-compose.github.io/.com/で公開されている。

In recent years, modern techniques in deep learning and large-scale datasets have led to impressive progress in 3D instance segmentation, grasp pose estimation, and robotics. This allows for accurate detection directly in 3D scenes, object- and environment-aware grasp prediction, as well as robust and repeatable robotic manipulation. This work aims to integrate these recent methods into a comprehensive framework for robotic interaction and manipulation in human-centric environments. Specifically, we leverage 3D reconstructions from a commodity 3D scanner for open-vocabulary instance segmentation, alongside grasp pose estimation, to demonstrate dynamic picking of objects, and opening of drawers. We show the performance and robustness of our model in two sets of real-world experiments including dynamic object retrieval and drawer opening, reporting a 51% and 82% success rate respectively. Code of our framework as well as videos are available on: https://spot-compose.github.io/.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# mOthello:多言語モデルにおける言語間表現アライメントと言語間移動の創出について

mOthello: When Do Cross-Lingual Representation Alignment and Cross-Lingual Transfer Emerge in Multilingual Models? ( http://arxiv.org/abs/2404.12444v1 )

ライセンス: Link先を確認
Tianze Hua, Tian Yun, Ellie Pavlick, (参考訳) 事前訓練された多言語モデルの多くは言語間移動能力を示しており、これは事前訓練中に学習された言語ニュートラル表現に起因することが多い。 しかし、言語ニュートラル表現の学習にどのような要因が寄与するか、学習された言語ニュートラル表現が言語間移動を促進するのに十分であるかどうかは不明である。 本稿では,これら2つの質問を探索するためのテストベッドとして,多言語オセロ(mOthello)という合成タスクを提案する。 多言語事前学習で訓練されたモデルは、すべての入力言語で言語ニュートラル表現を学習することができず、(2)"アンカートークン"(すなわち、言語間で同一の語彙項目)の導入は、言語ニュートラル表現のみの学習は、言語間移動を促進するのに十分ではない。 そこで本研究では,言語ニュートラル表現の学習を誘導し,言語間移動を促進する多言語事前学習手法を提案する。

Many pretrained multilingual models exhibit cross-lingual transfer ability, which is often attributed to a learned language-neutral representation during pretraining. However, it remains unclear what factors contribute to the learning of a language-neutral representation, and whether the learned language-neutral representation suffices to facilitate cross-lingual transfer. We propose a synthetic task, Multilingual Othello (mOthello), as a testbed to delve into these two questions. We find that: (1) models trained with naive multilingual pretraining fail to learn a language-neutral representation across all input languages; (2) the introduction of "anchor tokens" (i.e., lexical items that are identical across languages) helps cross-lingual representation alignment; and (3) the learning of a language-neutral representation alone is not sufficient to facilitate cross-lingual transfer. Based on our findings, we propose a novel approach - multilingual pretraining with unified output space - that both induces the learning of language-neutral representation and facilitates cross-lingual transfer.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# 表現学習を用いた多基準ベイズ最適化を用いた適応触媒発見

Adaptive Catalyst Discovery Using Multicriteria Bayesian Optimization with Representation Learning ( http://arxiv.org/abs/2404.12445v1 )

ライセンス: Link先を確認
Jie Chen, Pengfei Ou, Yuxin Chang, Hengrui Zhang, Xiao-Yan Li, Edward H. Sargent, Wei Chen, (参考訳) 高性能触媒は、持続可能なエネルギー変換と人間の健康に不可欠である。 しかし、触媒の発見は、巨大で高次元の構造と合成空間をナビゲートするための効率的なアプローチが存在しないため、課題に直面している。 本研究では,密度汎関数理論 (DFT) とベイズ最適化 (BO) を組み合わせた高スループット計算触媒スクリーニング手法を提案する。 BOフレームワーク内では、高次元触媒構造から直接自動表現学習が可能で、原理化された不確実性定量化を実現する、不確実性を考慮した原子性機械学習モデルUPNetを提案する。 制約付き改善獲得関数を利用することで、BOフレームワークは複数の評価基準を同時に検討する。 提案手法を用いて,CO2還元反応の触媒発見について検討した。 その結果, 提案手法は高い予測精度を実現し, キャラクタブルな特徴抽出を容易にし, マルチクレーター設計の最適化を実現し, 高速触媒発見における計算能力と時間(DFT計算の10倍)の大幅な削減を実現した。

High-performance catalysts are crucial for sustainable energy conversion and human health. However, the discovery of catalysts faces challenges due to the absence of efficient approaches to navigating vast and high-dimensional structure and composition spaces. In this study, we propose a high-throughput computational catalyst screening approach integrating density functional theory (DFT) and Bayesian Optimization (BO). Within the BO framework, we propose an uncertainty-aware atomistic machine learning model, UPNet, which enables automated representation learning directly from high-dimensional catalyst structures and achieves principled uncertainty quantification. Utilizing a constrained expected improvement acquisition function, our BO framework simultaneously considers multiple evaluation criteria. Using the proposed methods, we explore catalyst discovery for the CO2 reduction reaction. The results demonstrate that our approach achieves high prediction accuracy, facilitates interpretable feature extraction, and enables multicriteria design optimization, leading to significant reduction of computing power and time (10x reduction of required DFT calculations) in high-performance catalyst discovery.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# AmbigDocs: 同じ名前で異なるエンティティに関するドキュメントをまたぐ推論

AmbigDocs: Reasoning across Documents on Different Entities under the Same Name ( http://arxiv.org/abs/2404.12447v1 )

ライセンス: Link先を確認
Yoonsang Lee, Xi Ye, Eunsol Choi, (参考訳) 同じ名前の異なるエンティティを区別することは困難である。 混乱したエンティティの言及を扱うことは、言語モデル(LM)にとって重要なスキルです。 例えば、「マイケル・ジョーダンはどこで教育を受けたのか?」という問いや、マイケル・ジョーダンという名前の異なる人々について議論する一連の文書を考えると、LMはエンティティの言及を区別して、この質問に対する結束的な回答を生成することができるだろうか? この能力をテストするために、新しいベンチマークであるAmbigDocsを導入しました。 ウィキペディアの曖昧なページを利用して、曖昧な名前を共有する異なるエンティティに属する文書の集合を識別する。 これらの文書から、あいまいな名前とそれに対応する答えの集合を含む質問を生成する。 我々の分析によると、現在の最先端モデルは、しばしば曖昧な答えや、異なるエンティティに属する情報を誤ってマージする。 我々は,4種類の不完全な回答と自動評価指標を分類し,それらのカテゴリを同定するオントロジーを確立する。 我々は、曖昧なエンティティを持つ複数のドキュメントをまたがる推論に関する将来の研究の基礎を築いた。

Different entities with the same name can be difficult to distinguish. Handling confusing entity mentions is a crucial skill for language models (LMs). For example, given the question "Where was Michael Jordan educated?" and a set of documents discussing different people named Michael Jordan, can LMs distinguish entity mentions to generate a cohesive answer to the question? To test this ability, we introduce a new benchmark, AmbigDocs. By leveraging Wikipedia's disambiguation pages, we identify a set of documents, belonging to different entities who share an ambiguous name. From these documents, we generate questions containing an ambiguous name and their corresponding sets of answers. Our analysis reveals that current state-of-the-art models often yield ambiguous answers or incorrectly merge information belonging to different entities. We establish an ontology categorizing four types of incomplete answers and automatic evaluation metrics to identify such categories. We lay the foundation for future work on reasoning across multiple documents with ambiguous entities.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# AI診断の強化:半スーパービジョンのディープラーニングによる自律的病変マスキング

Enhancing AI Diagnostics: Autonomous Lesion Masking via Semi-Supervised Deep Learning ( http://arxiv.org/abs/2404.12450v1 )

ライセンス: Link先を確認
Ting-Ruen Wei, Michele Hell, Dang Bich Thuy Le, Aren Vierra, Ran Pang, Mahesh Patel, Young Kang, Yuling Yan, (参考訳) 本研究では,乳房超音波(US)画像における乳房病変の鑑別を目的とした,関心領域(ROI)を自律的に生成することを目的とした,教師なし領域適応手法を提案する。 我々の半教師付き学習アプローチは、真のアノテーションを持つ小さな母乳USデータセットで訓練された原始モデルを利用する。 このモデルはドメイン適応タスクのために反復的に洗練され、当社のプライベートな無注釈乳房データセットに擬似マスクを生成します。 データセットは、パブリックデータセットの2倍の大きさで、画像取得の観点と人口動態の表現にかなりのばらつきを示し、ドメインシフトの課題を呈している。 典型的なドメイン逆行訓練とは異なり、後続の反復において擬似マスクの更新を導くためのベンチマークとして下流分類結果を用いる。 分類精度は、生成したROIの完全性と高い相関性を示し、深層学習分類モデルの説明可能性を促進した。 予備的な知見は、ROIアノテーションプロセスの合理化におけるこのアプローチの有効性と信頼性を示し、より正確かつ解釈可能な診断のために、乳房病変の分類と局在性を高めた。

This study presents an unsupervised domain adaptation method aimed at autonomously generating image masks outlining regions of interest (ROIs) for differentiating breast lesions in breast ultrasound (US) imaging. Our semi-supervised learning approach utilizes a primitive model trained on a small public breast US dataset with true annotations. This model is then iteratively refined for the domain adaptation task, generating pseudo-masks for our private, unannotated breast US dataset. The dataset, twice the size of the public one, exhibits considerable variability in image acquisition perspectives and demographic representation, posing a domain-shift challenge. Unlike typical domain adversarial training, we employ downstream classification outcomes as a benchmark to guide the updating of pseudo-masks in subsequent iterations. We found the classification precision to be highly correlated with the completeness of the generated ROIs, which promotes the explainability of the deep learning classification model. Preliminary findings demonstrate the efficacy and reliability of this approach in streamlining the ROI annotation process, thereby enhancing the classification and localization of breast lesions for more precise and interpretable diagnoses.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# 文脈摂動を用いた理科QAにおけるLLMの留意行動の特徴

Characterizing LLM Abstention Behavior in Science QA with Context Perturbations ( http://arxiv.org/abs/2404.12452v1 )

ライセンス: Link先を確認
Bingbing Wen, Bill Howe, Lucy Lu Wang, (参考訳) 不確実性に直面した正しいモデル応答は、ユーザを誤解させることなく、質問に答えることを禁じることである。 本研究では,LLMが文脈に依存した科学的な質問に,不十分あるいは誤った文脈で答えることを防ぐ能力について検討する。 金のコンテキストを削除し、金のコンテキストを無関係のコンテキストに置き換え、与えられたコンテキストを超える追加のコンテキストを提供する。 4つのLLMを持つ4つのQAデータセットの実験では、提供されたコンテキストの種類や質問タイプによって、モデル間で性能が大きく異なることが示され、特に多くのLCMでは、標準的なQAプロンプトを使用してブール問題の解答を抑えられないように思われる。 また,QAタスクの精度に対する抑止性能の予期せぬ影響についても分析を行った。 いくつかの設定では、金のコンテキストを無関係なコンテキストに置き換えたり、金のコンテキストに無関係なコンテキストを追加することで、タスクのパフォーマンスが向上する。 以上の結果から,QAデータセットの設計と評価において,モデル棄却の正しさと下流への影響をより効果的に評価するために,変更が必要であることが示唆された。

The correct model response in the face of uncertainty is to abstain from answering a question so as not to mislead the user. In this work, we study the ability of LLMs to abstain from answering context-dependent science questions when provided insufficient or incorrect context. We probe model sensitivity in several settings: removing gold context, replacing gold context with irrelevant context, and providing additional context beyond what is given. In experiments on four QA datasets with four LLMs, we show that performance varies greatly across models, across the type of context provided, and also by question type; in particular, many LLMs seem unable to abstain from answering boolean questions using standard QA prompts. Our analysis also highlights the unexpected impact of abstention performance on QA task accuracy. Counter-intuitively, in some settings, replacing gold context with irrelevant context or adding irrelevant context to gold context can improve abstention performance in a way that results in improvements in task performance. Our results imply that changes are needed in QA dataset design and evaluation to more effectively assess the correctness and downstream impacts of model abstention.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# RAGCache: 検索拡張ジェネレーションのための効率的な知識キャッシュ

RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation ( http://arxiv.org/abs/2404.12457v1 )

ライセンス: Link先を確認
Chao Jin, Zili Zhang, Xuanlin Jiang, Fangyue Liu, Xin Liu, Xuanzhe Liu, Xin Jin, (参考訳) Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)と外部知識データベースの強みを統合することで、様々な自然言語処理タスクにおいて大幅に改善されている。 しかし、RAGは長いシーケンス生成を導入し、高い計算とメモリコストをもたらす。 本稿では,RAGに適したマルチレベル動的キャッシュシステムであるThothを提案する。 我々の分析は、現在のRAGシステムのベンチマークを行い、性能ボトルネック(知識注入による長いシーケンス)と最適化機会(知識の中間状態のキャッシュ)を指摘します。 これらの知見に基づいて、検索した知識の中間状態を知識ツリーに整理し、それらをGPUとホストメモリ階層にキャッシュするThothを設計する。 Thoth氏は、LLM推論特性とRAG検索パターンを認識した代替ポリシーを提案する。 また、検索と推論のステップを動的にオーバーラップして、エンドツーエンドのレイテンシを最小限にする。 我々はThothを実装して、最先端のLLM推論システムであるvLLMと、最先端のベクトルデータベースであるFaissで評価する。 実験の結果、ThothはFaisと統合されたvLLMと比較して、最初のトークン(TTFT)までの時間を最大4倍に削減し、スループットを最大2.1倍改善した。

Retrieval-Augmented Generation (RAG) has shown significant improvements in various natural language processing tasks by integrating the strengths of large language models (LLMs) and external knowledge databases. However, RAG introduces long sequence generation and leads to high computation and memory costs. We propose Thoth, a novel multilevel dynamic caching system tailored for RAG. Our analysis benchmarks current RAG systems, pinpointing the performance bottleneck (i.e., long sequence due to knowledge injection) and optimization opportunities (i.e., caching knowledge's intermediate states). Based on these insights, we design Thoth, which organizes the intermediate states of retrieved knowledge in a knowledge tree and caches them in the GPU and host memory hierarchy. Thoth proposes a replacement policy that is aware of LLM inference characteristics and RAG retrieval patterns. It also dynamically overlaps the retrieval and inference steps to minimize the end-to-end latency. We implement Thoth and evaluate it on vLLM, a state-of-the-art LLM inference system and Faiss, a state-of-the-art vector database. The experimental results show that Thoth reduces the time to first token (TTFT) by up to 4x and improves the throughput by up to 2.1x compared to vLLM integrated with Faiss.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# デジタル人文科学研究における生成AIツールの集合的利用と評価:調査に基づく結果

The collective use and evaluation of generative AI tools in digital humanities research: Survey-based results ( http://arxiv.org/abs/2404.12458v1 )

ライセンス: Link先を確認
Meredith Dedema, Rongqian Ma, (参考訳) 生成人工知能(GenAI)技術の出現は、技術進歩に本質的に絡み合う分野であるデジタル人間性(DH)に大きな意味を持つ研究に革命をもたらした。 本稿では、デジタル人文科学研究者が研究プロセスにおいて、ChatGPTなどのGenAI技術をどのように採用し、実践し、そして批判的に評価するかを考察する。 我々は,国際調査から収集した76の回答をもとに,デジタル人文科学研究者のGenAI導入の根拠を探り,さまざまなDH研究課題を支援するためにGenAIを用いた具体的なユースケースと実践を特定し,GenAIのメリット,リスク,DH研究への影響に関する研究者の集団的認識を分析した。 その結果、DH研究コミュニティは、DH奨学金におけるGenAIの価値に対して異なる感情を持っているのに対し、実際の使用法は個人や研究課題によって異なることが示唆された。 我々の調査に基づく分析は、GenAIがDH奨学金の進化に与える影響について、さらなる実証研究の基盤となる可能性がある。

The advent of generative artificial intelligence (GenAI) technologies has revolutionized research, with significant implications for Digital Humanities (DH), a field inherently intertwined with technological progress. This article investigates how digital humanities scholars adopt, practice, as well as critically evaluate, GenAI technologies such as ChatGPT in the research process. Drawing on 76 responses collected from an international survey study, we explored digital humanities scholars' rationale for GenAI adoption in research, identified specific use cases and practices of using GenAI to support various DH research tasks, and analyzed scholars' collective perceptions of GenAI's benefits, risks, and impact on DH research. The survey results suggest that DH research communities hold divisive sentiments towards the value of GenAI in DH scholarship, whereas the actual usage diversifies among individuals and across research tasks. Our survey-based analysis has the potential to serve as a basis for further empirical research on the impact of GenAI on the evolution of DH scholarship.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# レイリー状態における線形偏光平面波に照らされた誘電体粒子の再コイル加熱

Recoil heating of a dielectric particle illuminated by a linearly polarized plane wave within the Rayleigh regime ( http://arxiv.org/abs/2404.12459v1 )

ライセンス: Link先を確認
Mohammad Ali Abbassi, (参考訳) レイリー系における線形偏光平面波と相互作用する誘電体球状粒子が経験するリコイル加熱現象について検討した。 電磁界のゆらぎから生じる粒子に作用するゆらぎ力を導出する。 我々の導出によると、伝播方向に沿って変動する力のスペクトル密度は7,7\hbar \omega_0 P_{\mathrm{scat}}/5c^2$である。 一方、電場と磁場の方向に沿って、それぞれ1,11\hbar \omega_0 P_{\mathrm{scat}}/5c^2$と2,2\hbar \omega_0 P_{\mathrm{scat}}/5c^2$である。 ここで、$P_{\mathrm{scat}}$は粒子が散乱する力を表し、$\hbar\omega_0$は光子のエネルギーを表し、$c$は光の速度を表す。 リコイル加熱は、冷却過程において達成可能な最小温度、系のコヒーレンス時間、力測定の感度を制限し、緩和された光学において基本的な制限を課す。

We investigate the recoil heating phenomenon experienced by a dielectric spherical particle when it interacts with a linearly polarized plane wave within the Rayleigh regime. We derive the fluctuating force acted upon the particle arising from the fluctuations of the electromagnetic fields. Our derivations reveal that the spectral density of the fluctuating force along the propagation direction is $7\hbar \omega_0 P_{\mathrm{scat}}/5c^2$. Meanwhile, along the direction of the electric and magnetic fields, it is $11\hbar \omega_0 P_{\mathrm{scat}}/5c^2$ and $2\hbar \omega_0 P_{\mathrm{scat}}/5c^2$, respectively. Here, $P_{\mathrm{scat}}$ denotes the power scattered by the particle, $\hbar\omega_0$ represents the energy of a photon, and $c$ is the speed of light. Recoil heating imposes fundamental limitations in levitated optomechanics, constraining the minimum temperatures achievable in cooling processes, the coherence time of the system, and the sensitivity of force measurements.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-18
# 変圧器シーケンス・ツー・シーケンスモデルを用いた都市道路網におけるNLP対応軌道地図マッチング

NLP-enabled trajectory map-matching in urban road networks using transformer sequence-to-sequence model ( http://arxiv.org/abs/2404.12460v1 )

ライセンス: Link先を確認
Sevin Mohammadi, Andrew W. Smyth, (参考訳) 接続された車両から取得した大規模位置情報テレマティクスデータは、スマートシティ内の移動インフラや運用システムを大幅に強化する可能性がある。 このデータを効果的に活用するためには、位置情報データを道路セグメントと正確に一致させることが不可欠である。 しかし, このマッチングは, 都市環境におけるマルチパス効果によるサンプリング率の低下や誤差の増大などにより, 容易ではないことが多い。 伝統的に、ドメイン知識をマッチングプロセスに組み込んだHidden-Markovモデルのような統計モデリング技術は、地図マッチングタスクに広く用いられている。 しかし,ルールベースのマップマッチングタスクは,大規模トラジェクトリデータの処理においてノイズに敏感で非効率である。 ディープラーニング技術は、手作りのルールやドメイン知識を必要とせずに、観測データと道路ネットワークの関係を直接データから学習する。 これにより、大規模なデータセットをマップマッチングするための効率的なアプローチとなり、ノイズに対してより堅牢になる。 本稿では、列列から列へのディープラーニングモデル、特にトランスフォーマーベースのエンコーダデコーダモデルを紹介し、マップマッチングアルゴリズムのサロゲートとして実行する。 エンコーダ・デコーダアーキテクチャは、まず一連のノイズの多いGPSポイントを、自動回帰行動とGPSポイント間の空間的相関を自動的にキャプチャする表現に符号化する。 その後、デコーダは、データポイントと道路ネットワークの特徴を関連付け、これらの表現を一連の道路セグメントに変換する。 このモデルは、ニューヨーク州マンハッタンで収集されたGPSトレースを使って訓練され、評価されている。 76%の精度を達成したトランスフォーマーベースのエンコーダデコーダモデルは、自然言語処理に広く用いられている。

Large-scale geolocation telematics data acquired from connected vehicles has the potential to significantly enhance mobility infrastructures and operational systems within smart cities. To effectively utilize this data, it is essential to accurately match the geolocation data to the road segments. However, this matching is often not trivial due to the low sampling rate and errors exacerbated by multipath effects in urban environments. Traditionally, statistical modeling techniques such as Hidden-Markov models incorporating domain knowledge into the matching process have been extensively used for map-matching tasks. However, rule-based map-matching tasks are noise-sensitive and inefficient in processing large-scale trajectory data. Deep learning techniques directly learn the relationship between observed data and road networks from the data, often without the need for hand-crafted rules or domain knowledge. This renders them an efficient approach for map-matching large-scale datasets and makes them more robust to the noise. This paper introduces a sequence-to-sequence deep-learning model, specifically the transformer-based encoder-decoder model, to perform as a surrogate for map-matching algorithms. The encoder-decoder architecture initially encodes the series of noisy GPS points into a representation that automatically captures autoregressive behavior and spatial correlations between GPS points. Subsequently, the decoder associates data points with the road network features and thus transforms these representations into a sequence of road segments. The model is trained and evaluated using GPS traces collected in Manhattan, New York. Achieving an accuracy of 76%, transformer-based encoder-decoder models extensively employed in natural language processing presented a promising performance for translating noisy GPS data to the navigated routes in urban road networks.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# NORMAD: 大規模言語モデルの文化的適応性を評価するベンチマーク

NORMAD: A Benchmark for Measuring the Cultural Adaptability of Large Language Models ( http://arxiv.org/abs/2404.12464v1 )

ライセンス: Link先を確認
Abhinav Rao, Akhila Yerukola, Vishwa Shah, Katharina Reinecke, Maarten Sap, (参考訳) LLMは相互作用をナビゲートし、社会的規範を尊重し、文化的境界を越えることを避けなければならない。 しかし、LLMが生産物を多様な文化規範に適応できるかどうかはまだ不明である。 我々の研究は、この側面に焦点を当てている。 我々は,75カ国の社会的・文化的規範を表す2.6kの物語を含む新しいデータセットであるNormAdを紹介した。 我々の研究は、LLMがすべての文脈の粒度を横断する文化的推論に苦慮していることを示し、グローバル・サウスの文化よりも英語中心の文化に強い適応性を示している。 明示的な社会的規範にもかかわらず、トップパフォーマンスモデルであるMistral-7b-Instructは81.8\%の精度しか達成せず、人間によって達成された95.6\%より遅れている。 NormAdの評価は、LLMが文化全体にわたるギフトギフトを含むストーリーに適応するのに苦労していることをさらに明らかにしている。 固有の合意や梅毒のバイアスのため、LLMは文化規範に従う物語の社会的受容性を評価するのが、彼らから逸脱しているものよりもはるかに容易である。 我々のベンチマークは、LLMの文化的適応性(またはその欠如)を測定し、これらの技術をグローバルな観客にとってより公平で有用なものにする可能性を強調している。

The integration of Large Language Models (LLMs) into various global cultures fundamentally presents a cultural challenge: LLMs must navigate interactions, respect social norms, and avoid transgressing cultural boundaries. However, it is still unclear if LLMs can adapt their outputs to diverse cultural norms. Our study focuses on this aspect. We introduce NormAd, a novel dataset, which includes 2.6k stories that represent social and cultural norms from 75 countries, to assess the ability of LLMs to adapt to different granular levels of socio-cultural contexts such as the country of origin, its associated cultural values, and prevalent social norms. Our study reveals that LLMs struggle with cultural reasoning across all contextual granularities, showing stronger adaptability to English-centric cultures over those from the Global South. Even with explicit social norms, the top-performing model, Mistral-7b-Instruct, achieves only 81.8\% accuracy, lagging behind the 95.6\% achieved by humans. Evaluation on NormAd further reveals that LLMs struggle to adapt to stories involving gift-giving across cultures. Due to inherent agreement or sycophancy biases, LLMs find it considerably easier to assess the social acceptability of stories that adhere to cultural norms than those that deviate from them. Our benchmark measures the cultural adaptability (or lack thereof) of LLMs, emphasizing the potential to make these technologies more equitable and useful for global audiences.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# 量子情報システムとサイバーセキュリティ分類とテストベッド : 早期影響に対する特異な機会の創出

Toward a Quantum Information System Cybersecurity Taxonomy and Testbed: Exploiting a Unique Opportunity for Early Impact ( http://arxiv.org/abs/2404.12465v1 )

ライセンス: Link先を確認
Benjamin Blakely, Joaquin Chung, Alec Poczatek, Ryan Syed, Raj Kettimuthu, (参考訳) どんな人間設計のシステムでも、設計者が想像しなかった方法で活用できる可能性があり、量子コンポーネントを使った情報システムやネットワークは、この現実を逃れることができない。 私たちは、広く展開される前に、量子情報システムの最前線にサイバーセキュリティの懸念をもたらす、ユニークな、そして急速に衰退する機会を提示されます。 しかし、それに必要なリソースと知識は、サイバーセキュリティコミュニティでは一般的ではないかもしれない。 しかし、ネクサスが存在する。 サイバーセキュリティはリスクから始まり、古典的なシステムにはセキュリティの脆弱性や影響に関する優れた分類法がある。 本稿では、量子情報システムの最新の進歩を考慮に入れた、量子サイバーセキュリティの脆弱性に対する予備的な分類法を提案し、十分に確立されたサイバーセキュリティの原則と方法論を組み込まなければならない。 我々は,サイバーセキュリティと量子情報システムの専門家が共同で,物理および仮想量子コンポーネントを含むソフトウェアおよびハードウェアセキュリティの実験的な評価を行うことのできる,特定の目的で設計されたテストベッド環境を構想する。 さらに,オープンサイエンス研究コミュニティのユーザ・ファシリティとして,このようなリソースが利用可能になる可能性が示唆された。

Any human-designed system can potentially be exploited in ways that its designers did not envision, and information systems or networks using quantum components do not escape this reality. We are presented with a unique but quickly waning opportunity to bring cybersecurity concerns to the forefront for quantum information systems before they become widely deployed. The resources and knowledge required to do so, however, may not be common in the cybersecurity community. Yet, a nexus exist. Cybersecurity starts with risk, and there are good taxonomies for security vulnerabilities and impacts in classical systems. In this paper, we propose a preliminary taxonomy for quantum cybersecurity vulnerabilities that accounts for the latest advances in quantum information systems, and must evolve to incorporate well-established cybersecurity principles and methodologies. We envision a testbed environment designed and instrumented with the specific purpose of enabling a broad collaborative community of cybersecurity and quantum information system experts to conduct experimental evaluation of software and hardware security including both physical and virtual quantum components. Furthermore, we envision that such a resource may be available as a user facility to the open science research community.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# フェデレートラーニングにおけるマルチモーダルトランスフォーマー

Towards Multi-modal Transformers in Federated Learning ( http://arxiv.org/abs/2404.12467v1 )

ライセンス: Link先を確認
Guangyu Sun, Matias Mendieta, Aritra Dutta, Xin Li, Chen Chen, (参考訳) マルチモーダルトランスは、異なる領域で顕著な進歩を示すが、サイロ化された高品質なデータは、さらなる改善を妨げる。 これを解決するために、フェデレートラーニング(FL)は、異なるクライアントが保持する生データに直接アクセスすることなく、モデルをトレーニングする上で有望なプライバシー保護パラダイムとして登場した。 その可能性にもかかわらず、未実装のユニモーダルクライアントとFLのトランスフォーマーアーキテクチャに関するかなりの研究の方向性は未解明のままである。 このギャップを埋めるために,クライアントが異なるデータセットに分散した様々なモダリティのデータを保有する視覚言語領域内でのマルチモーダル・フェデレート・ラーニング(MFL)シナリオについて検討する。 我々は,トランスフォーマーアーキテクチャを利用する場合の既存手法の性能を体系的に評価し,クライアント間の非モダリティと相互モダリティのギャップに対処することで,FedCola(Federated modality complementary and collaboration)と呼ばれる新しいフレームワークを導入する。 さまざまなFL設定にわたる広範な実験を通じて、FedColaは従来のアプローチよりも優れたパフォーマンスを示し、将来のマルチモーダルトランスのフェデレーショントレーニングに関する新たな視点を提供する。

Multi-modal transformers mark significant progress in different domains, but siloed high-quality data hinders their further improvement. To remedy this, federated learning (FL) has emerged as a promising privacy-preserving paradigm for training models without direct access to the raw data held by different clients. Despite its potential, a considerable research direction regarding the unpaired uni-modal clients and the transformer architecture in FL remains unexplored. To fill this gap, this paper explores a transfer multi-modal federated learning (MFL) scenario within the vision-language domain, where clients possess data of various modalities distributed across different datasets. We systematically evaluate the performance of existing methods when a transformer architecture is utilized and introduce a novel framework called Federated modality complementary and collaboration (FedCola) by addressing the in-modality and cross-modality gaps among clients. Through extensive experiments across various FL settings, FedCola demonstrates superior performance over previous approaches, offering new perspectives on future federated training of multi-modal transformers.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# 動的およびオンラインマルウェア分類のための説明可能なディープラーニングモデル

Explainable Deep Learning Models for Dynamic and Online Malware Classification ( http://arxiv.org/abs/2404.12473v1 )

ライセンス: Link先を確認
Quincy Card, Daniel Simpson, Kshitiz Aryal, Maanak Gupta, Sheikh Rabiul Islam, (参考訳) 近年では、マルウェア攻撃が大幅に増加し、より高度な予防措置と治療戦略が必要とされる。 成功したAIベースのマルウェア分類アプローチは、静的、動的、オンライン分析に分類されるが、最も成功したAIモデルは、彼らのプロセスに対する容易に解釈可能な決定と説明を欠いている。 本研究の目的は,様々な実行環境(動的・オンラインなど)にまたがる説明可能なマルウェア分類を探索し,それぞれの強み,弱点,共通点を徹底的に分析することである。 このアプローチを評価するために、動的およびオンライン分析環境から得られた特徴に基づいてマルウェアを分類するために、フィードフォワードニューラルネットワーク(FFNN)と畳み込みニューラルネットワーク(CNN)を訓練する。 マルウェア分類の特徴は、説明可能性ツール、SHAP、LIME、Permutation Importanceによって実現されている。 計算されたグローバルおよびローカルな説明の詳細な評価を行い、制限について議論し、最終的にはバランスの取れたアプローチを達成するための推奨事項を提示します。

In recent years, there has been a significant surge in malware attacks, necessitating more advanced preventive measures and remedial strategies. While several successful AI-based malware classification approaches exist categorized into static, dynamic, or online analysis, most successful AI models lack easily interpretable decisions and explanations for their processes. Our paper aims to delve into explainable malware classification across various execution environments (such as dynamic and online), thoroughly analyzing their respective strengths, weaknesses, and commonalities. To evaluate our approach, we train Feed Forward Neural Networks (FFNN) and Convolutional Neural Networks (CNN) to classify malware based on features obtained from dynamic and online analysis environments. The feature attribution for malware classification is performed by explainability tools, SHAP, LIME and Permutation Importance. We perform a detailed evaluation of the calculated global and local explanations from the experiments, discuss limitations and, ultimately, offer recommendations for achieving a balanced approach.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# 車両の不均一プラトンに対する安定で安全な分散フィードバック制御器の学習

Learning a Stable, Safe, Distributed Feedback Controller for a Heterogeneous Platoon of Vehicles ( http://arxiv.org/abs/2404.12474v1 )

ライセンス: Link先を確認
Michael H. Shaham, Taskin Padir, (参考訳) 自動運転車のプラトゥーイングは、高速道路の安全性と燃料効率を高める可能性がある。 小隊の目標は、各車両を(リーダーが設定した)一定の速度で運転させ、隣人から安全な距離を維持することである。 以前の多くの研究は、小隊化のための様々なコントローラ、最も一般的な線形フィードバック、分散モデル予測コントローラを分析してきた。 本研究では,不均一小隊のための安定で安全な分散制御系を学習するためのアルゴリズムを提案する。 我々のアルゴリズムは、ニューラルネットワークの安定性と安全性証明書の学習における最近の進歩に依存している。 シミュレーションで自律小隊を訓練し、4台のF110車両からなる小隊によるハードウェアの性能評価を行う。 次に、100台の小隊によるシミュレーションでさらなる解析を行う。 ニューラルネットワーク制御器の性能を線形フィードバックと分散モデル予測制御器と比較することにより,アルゴリズムと学習制御器の実用性を実証した。

Platooning of autonomous vehicles has the potential to increase safety and fuel efficiency on highways. The goal of platooning is to have each vehicle drive at some speed (set by the leader) while maintaining a safe distance from its neighbors. Many prior works have analyzed various controllers for platooning, most commonly linear feedback and distributed model predictive controllers. In this work, we introduce an algorithm for learning a stable, safe, distributed controller for a heterogeneous platoon. Our algorithm relies on recent developments in learning neural network stability and safety certificates. We train a controller for autonomous platooning in simulation and evaluate its performance on hardware with a platoon of four F1Tenth vehicles. We then perform further analysis in simulation with a platoon of 100 vehicles. Experimental results demonstrate the practicality of the algorithm and the learned controller by comparing the performance of the neural network controller to linear feedback and distributed model predictive controllers.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# 不均質な経験的相関構造に対処するガウス過程の2つの層からなる信頼性とパシモニアスな新しい学習戦略

A New Reliable & Parsimonious Learning Strategy Comprising Two Layers of Gaussian Processes, to Address Inhomogeneous Empirical Correlation Structures ( http://arxiv.org/abs/2404.12478v1 )

ライセンス: Link先を確認
Gargi Roy, Dalia Chakrabarty, (参考訳) 非定常ガウス過程 (GP) のサンプル関数として探索関数をモデル化することにより、利用可能なデータの相関構造における不均一性に対処しながら、変数間の関数関係を学習する新しい戦略を提案する。 実際、非定常カーネルを想定し、各ハイパーパラメータは外部定常GPから引き出されたサンプル関数に依存するように設定され、カーネルが計算される全ての入力値に対して新しいサンプル関数が描画される。 しかし、そのようなモデルを実装できず、(MCMCを介して)実行された推論の平衡段階において更新されるように、与えられたGPから異なるサンプル関数を描画する平均効果が、異なるGPの集合から異なるサンプル関数を描画する平均効果に等しいことを思い出して、これを置き換える。 カーネルは完全に非パラメトリックであり、入力変数の各次元についてGPの層毎のハイパーパラメータを学習するのに十分である。 私たちはこの新たな学習戦略を実際のデータセットで説明します。

We present a new strategy for learning the functional relation between a pair of variables, while addressing inhomogeneities in the correlation structure of the available data, by modelling the sought function as a sample function of a non-stationary Gaussian Process (GP), that nests within itself multiple other GPs, each of which we prove can be stationary, thereby establishing sufficiency of two GP layers. In fact, a non-stationary kernel is envisaged, with each hyperparameter set as dependent on the sample function drawn from the outer non-stationary GP, such that a new sample function is drawn at every pair of input values at which the kernel is computed. However, such a model cannot be implemented, and we substitute this by recalling that the average effect of drawing different sample functions from a given GP is equivalent to that of drawing a sample function from each of a set of GPs that are rendered different, as updated during the equilibrium stage of the undertaken inference (via MCMC). The kernel is fully non-parametric, and it suffices to learn one hyperparameter per layer of GP, for each dimension of the input variable. We illustrate this new learning strategy on a real dataset.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# 微粒バイアス分散解析による最適特徴伝達の理解

Understanding Optimal Feature Transfer via a Fine-Grained Bias-Variance Analysis ( http://arxiv.org/abs/2404.12481v1 )

ライセンス: Link先を確認
Yufan Li, Subhabrata Sen, Ben Adlam, (参考訳) 転送学習パラダイムでは、データ豊富な事前学習段階で有用な表現(または特徴)を学習し、事前訓練された表現を使用して、データスカース下流タスクのモデルパフォーマンスを改善する。 そこで本研究では,下流性能の最適化を目的としたトランスファーラーニングについて検討する。 任意の事前学習された特徴変換を入力として利用する単純な線形モデルを導入する。 我々は、下流のリスクとその微粒な偏差分解の正確な漸近を導出する。 以上の結果から, 地道大成は漸近的リスクの「二重分散」をもたらす可能性が示唆され, 下流性能に必ずしも最適ではないことが示唆された。 次に、下流タスクのアンサンブル上での漸近的下流リスクを最小化することにより、最適事前学習表現を同定する。 分析の結果,データ中のタスク関連特徴や構造を学習することの重要性が明らかとなり,それぞれがバイアス分散の観点から下流リスクの制御にどのように貢献するかが明らかになった。 さらに、最適な事前学習された表現が、関連する特徴のハード選択からソフト選択に遷移する相転移現象を明らかにし、主成分回帰との関係について論じる。

In the transfer learning paradigm models learn useful representations (or features) during a data-rich pretraining stage, and then use the pretrained representation to improve model performance on data-scarce downstream tasks. In this work, we explore transfer learning with the goal of optimizing downstream performance. We introduce a simple linear model that takes as input an arbitrary pretrained feature transform. We derive exact asymptotics of the downstream risk and its fine-grained bias-variance decomposition. Our finding suggests that using the ground-truth featurization can result in "double-divergence" of the asymptotic risk, indicating that it is not necessarily optimal for downstream performance. We then identify the optimal pretrained representation by minimizing the asymptotic downstream risk averaged over an ensemble of downstream tasks. Our analysis reveals the relative importance of learning the task-relevant features and structures in the data covariates and characterizes how each contributes to controlling the downstream risk from a bias-variance perspective. Moreover, we uncover a phase transition phenomenon where the optimal pretrained representation transitions from hard to soft selection of relevant features and discuss its connection to principal component regression.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# Amortizedパラメータ推論のためのニューラルネットワーク

Neural Methods for Amortised Parameter Inference ( http://arxiv.org/abs/2404.12484v1 )

ライセンス: Link先を確認
Andrew Zammit-Mangion, Matthew Sainsbury-Dale, Raphaël Huser, (参考訳) 統計的推論のためのシミュレーションベースの手法は、過去50年間で劇的に進化し、技術進歩のペースを維持している。 ニューラルネットワーク、最適化ライブラリ、およびデータと推論ターゲットの間の複雑なマッピングを学習するためのグラフィクス処理ユニットの表現能力を受け入れることにより、この分野は新たな革命を経験している。 結果として得られるツールは、高速なフィードフォワード操作によって推論を迅速に行うことができるという意味で、償却される。 本稿では, 点推定, 近似ベイズ推定, 要約統計の自動構築, 確率近似の文脈における最近の進歩を概観する。 このレビューでは、利用可能なソフトウェアについても取り上げており、償却推論に利用可能なツールや、最先端のMarkovチェーンであるMonte Carloメソッドに対するメリットを示すための簡単なイラストも紹介されている。 この記事は、関連するトピックの概要と今後の研究方向性の展望で締めくくっている。

Simulation-based methods for making statistical inference have evolved dramatically over the past 50 years, keeping pace with technological advancements. The field is undergoing a new revolution as it embraces the representational capacity of neural networks, optimisation libraries, and graphics processing units for learning complex mappings between data and inferential targets. The resulting tools are amortised, in the sense that they allow inference to be made quickly through fast feedforward operations. In this article we review recent progress made in the context of point estimation, approximate Bayesian inference, the automatic construction of summary statistics, and likelihood approximation. The review also covers available software, and includes a simple illustration to showcase the wide array of tools available for amortised inference and the benefits they offer over state-of-the-art Markov chain Monte Carlo methods. The article concludes with an overview of relevant topics and an outlook on future research directions.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# 分散および複数アドバイザによる契約スケジューリング

Contract Scheduling with Distributional and Multiple Advice ( http://arxiv.org/abs/2404.12485v1 )

ライセンス: Link先を確認
Spyros Angelopoulos, Marcin Bienkowski, Christoph Dürr, Bertrand Simon, (参考訳) 契約スケジューリングは、割り込み可能な機能を持つリアルタイムシステムを設計するための、広く研究されているフレームワークである。 これまでの研究では、割り込み時間の予測が契約ベースのシステムの性能向上に役立つことが示されていたが、決定論的オラクルによって提供される単一の予測に依存していた。 本研究では,予測が確率分布の形で行われる,より汎用的で現実的な学習強化設定を導入し,研究する。 どちらの予測設定でも、予測が正確であれば最適に実行するスケジュールを設計・解析し、同時に予測が逆ならば最悪の性能を保証します。 また,結果が分布設定における誤差の予測に頑健であることを示す。 最後に,理論的な結果を確認する実験的な評価を行い,実際に達成できる性能改善について述べる。

Contract scheduling is a widely studied framework for designing real-time systems with interruptible capabilities. Previous work has showed that a prediction on the interruption time can help improve the performance of contract-based systems, however it has relied on a single prediction that is provided by a deterministic oracle. In this work, we introduce and study more general and realistic learning-augmented settings in which the prediction is in the form of a probability distribution, or it is given as a set of multiple possible interruption times. For both prediction settings, we design and analyze schedules which perform optimally if the prediction is accurate, while simultaneously guaranteeing the best worst-case performance if the prediction is adversarial. We also provide evidence that the resulting system is robust to prediction errors in the distributional setting. Last, we present an experimental evaluation that confirms the theoretical findings, and illustrates the performance improvements that can be attained in practice.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# Follow-Me AI: スマート環境とエネルギー効率の良いユーザインタラクション

Follow-Me AI: Energy-Efficient User Interaction with Smart Environments ( http://arxiv.org/abs/2404.12486v1 )

ライセンス: Link先を確認
Alaa Saleh, Praveen Kumar Donta, Roberto Morabito, Naser Hossein Motlagh, Lauri Lovén, (参考訳) この記事では、Follow-Me AIを紹介します。これは、スマート環境とのユーザインタラクションを強化し、エネルギー使用を最適化し、これらの環境によってキャプチャされたデータに対するより良い制御を提供するように設計されたコンセプトです。 ユーザと同行するAIエージェントを通じて、Follow-Me AIは、ユーザの同意に基づいてデータ管理を交渉し、環境制御とユーザコミュニケーションを整合させ、ユーザ好みの環境で利用可能なリソースを計算し、ユーザの振る舞いを予測して、スマート環境を積極的に調整する。 著者は、このコンセプトを、スマートキャンパス環境でのFollow-Me AIの詳細な例で説明し、最適な快適さと効率のために、建物の管理システムとのインタラクションを詳述している。 最後に、この記事は、Follow-Me AIに関連する課題と機会について考察する。

This article introduces Follow-Me AI, a concept designed to enhance user interactions with smart environments, optimize energy use, and provide better control over data captured by these environments. Through AI agents that accompany users, Follow-Me AI negotiates data management based on user consent, aligns environmental controls as well as user communication and computes resources available in the environment with user preferences, and predicts user behavior to proactively adjust the smart environment. The manuscript illustrates this concept with a detailed example of Follow-Me AI in a smart campus setting, detailing the interactions with the building's management system for optimal comfort and efficiency. Finally, this article looks into the challenges and opportunities related to Follow-Me AI.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# 衛星写真計測の応用:ステレオ・マルチビュー衛星画像から得られた3次元データを用いた地域モデリングと自然環境モニタリングの新しいアプローチ

Advancing Applications of Satellite Photogrammetry: Novel Approaches for Built-up Area Modeling and Natural Environment Monitoring using Stereo/Multi-view Satellite Image-derived 3D Data ( http://arxiv.org/abs/2404.12487v1 )

ライセンス: Link先を確認
Shengxi Gui, (参考訳) 近年のリモートセンシング技術の発展により、空間分解能と空間分解能のサブメーター(WorldviewとPlanetScope)を持つ宇宙用センサーは、ステレオマッチングパイプラインを介して3次元地理空間データを生成するために、かなりの画質を達成している。 これらの成果は3Dにおけるデータアクセシビリティを著しく向上させ、人や自然環境を分析するためにこれらの3D地理空間データを適用する必要がある。 この論文は、立体・多視点衛星画像から得られた3次元地理空間データに基づく新しいアプローチを探求し、ビルディングモデル3D再構築、氷河のダイナミックス追跡、湖沼藻モニタリングなど、構築された地域モデリングと自然環境モニタリングのためのリモートセンシングアプリケーション問題に対処する。 具体的には、衛星由来の3Dデータによる空間的・時間的課題を扱う新しいアプローチの4つの部分を紹介する。 最初の研究は、長方形の3次元幾何学モデルを生成するモデル駆動ワークフローを用いた新しいアプローチで、衛星由来のOrthophotoおよびDSMからのLoD-2ビルディングモデリングを前進させた。 第2に,高密度市街地と非矩形市街地の建物再建の枠組みをさらに強化し,単位レベルセグメンテーションのための深層学習を導入し,高層建築物の多角形合成技術を開発するために,円形建築物のための勾配型円柱再構築を導入した。 第3報では,高時空間分解能PlanetScope衛星画像を用いて中緯度地域での氷河の3次元観測を行った。 最後に, 衛星画像からのクロロフィル-a濃度の定量化を改良し, 衛星観測と現地観測の時間差に対処し, 水中藻量推定の精度を高めることを目的とした「藻行動関数」を提案した。 概して、この論文は、都市や環境問題に対処する衛星フォトグラムの応用の可能性を示している。 さらに、ステレオおよびマルチビューの非常に高解像度衛星由来の3Dデータの適用性を高める革新的な分析手法を示す。 (本文全文参照)

With the development of remote sensing technology in recent decades, spaceborne sensors with sub-meter and meter spatial resolution (Worldview and PlanetScope) have achieved a considerable image quality to generate 3D geospatial data via a stereo matching pipeline. These achievements have significantly increased the data accessibility in 3D, necessitating adapting these 3D geospatial data to analyze human and natural environments. This dissertation explores several novel approaches based on stereo and multi-view satellite image-derived 3D geospatial data, to deal with remote sensing application issues for built-up area modeling and natural environment monitoring, including building model 3D reconstruction, glacier dynamics tracking, and lake algae monitoring. Specifically, the dissertation introduces four parts of novel approaches that deal with the spatial and temporal challenges with satellite-derived 3D data. The first study advances LoD-2 building modeling from satellite-derived Orthophoto and DSMs with a novel approach employing a model-driven workflow that generates building rectangular 3D geometry models. Secondly, we further enhanced our building reconstruction framework for dense urban areas and non-rectangular purposes, we implemented deep learning for unit-level segmentation and introduced a gradient-based circle reconstruction for circular buildings to develop a polygon composition technique for advanced building LoD2 reconstruction. Our third study utilizes high-spatiotemporal resolution PlanetScope satellite imagery for glacier tracking at 3D level in mid-latitude regions. Finally, we proposed a term as "Algal Behavior Function" to refine the quantification of chlorophyll-a concentrations from satellite imagery in water quality monitoring, addressing algae fluctuations and timing discrepancies between satellite observations and field measurements, thus enhancing the precision of underwater algae volume estimates. Overall, this dissertation demonstrates the extensive potential of satellite photogrammetry applications in addressing urban and environmental challenges. It further showcases innovative analytical methodologies that enhance the applicability of adapting stereo and multi-view very high-resolution satellite-derived 3D data. (See full abstract in the document)
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# グローバルカウンターファクトの方向性

Global Counterfactual Directions ( http://arxiv.org/abs/2404.12488v1 )

ライセンス: Link先を確認
Bartlomiej Sobieski, Przemysław Biecek, (参考訳) 視覚的対物的説明を生成する手法の開発が進展しているにもかかわらず、特に近年のデノイング拡散確率モデル(Denoising Diffusion Probabilistic Models)の台頭により、従来の研究はこれらを完全に局所的な手法と見なしていた。 この作業では、それらをグローバル化する第一歩を踏み出します。 具体的には、拡散オートエンコーダの潜伏空間が、与えられた分類器の推論過程を大域的方向の形で符号化することを発見した。 ブラックボックス方式で単一の画像のみを用いて2種類の方向を探索するプロキシベースの新しいアプローチを提案する。 正確には、g方向は画像のデータセット全体において与えられた分類器の決定を反転させることができるが、h方向は説明の多様性をさらに増大させる。 一般的にはGCD(Global Counterfactual Directions)と呼ぶ。 さらに,GCDとLatent Integrated Gradientsを自然に組み合わせることで,新たなブラックボックス属性法が実現でき,同時に対実的説明の理解を深めることができることを示す。 提案手法を既存のベンチマークで検証し,実世界のユースケースに一般化することを示す。

Despite increasing progress in development of methods for generating visual counterfactual explanations, especially with the recent rise of Denoising Diffusion Probabilistic Models, previous works consider them as an entirely local technique. In this work, we take the first step at globalizing them. Specifically, we discover that the latent space of Diffusion Autoencoders encodes the inference process of a given classifier in the form of global directions. We propose a novel proxy-based approach that discovers two types of these directions with the use of only single image in an entirely black-box manner. Precisely, g-directions allow for flipping the decision of a given classifier on an entire dataset of images, while h-directions further increase the diversity of explanations. We refer to them in general as Global Counterfactual Directions (GCDs). Moreover, we show that GCDs can be naturally combined with Latent Integrated Gradients resulting in a new black-box attribution method, while simultaneously enhancing the understanding of counterfactual explanations. We validate our approach on existing benchmarks and show that it generalizes to real-world use-cases.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# 英語学習者によるコード交替文の文法的誤り訂正

Grammatical Error Correction for Code-Switched Sentences by Learners of English ( http://arxiv.org/abs/2404.12489v1 )

ライセンス: Link先を確認
Kelvin Wey Han Chan, Christopher Bryant, Li Nguyen, Andrew Caines, Zheng Yuan, (参考訳) コードスイッチング(英: Code-switching, CSW)は、複数の言語が単一の言説や発話で使用される多言語話者に共通する現象である。 しかし、既存の文法誤り訂正(GEC)システムはモノリンガルデータに基づいて訓練されており、CSWを念頭に置いては開発されていない。 本研究では,CSW テキスト上での GEC システムの利用を初めて検討する。 そこで本研究では,既存のGECコーパス内のテキストを翻訳することで,合成CSW GECデータセットを生成する新しい手法を提案する。 次に、CSW比、スイッチポイント係数、言語制約に基づいてこれらのスパンを選択する様々な方法を検討し、それらがCSWテキスト上でのGECシステムの性能にどのように影響するかを明らかにする。 CSWテストセット3つ(英語、韓国、英語、日本語)の平均1.57ドルF_{0.5}$をモノリンガルデータセット上でのモデルの性能に影響を与えることなく達成する。 さらに、あるCSW言語で訓練されたモデルは、他のCSW言語と比較的よく類似していることがわかった。

Code-switching (CSW) is a common phenomenon among multilingual speakers where multiple languages are used in a single discourse or utterance. Mixed language utterances may still contain grammatical errors however, yet most existing Grammar Error Correction (GEC) systems have been trained on monolingual data and not developed with CSW in mind. In this work, we conduct the first exploration into the use of GEC systems on CSW text. Through this exploration, we propose a novel method of generating synthetic CSW GEC datasets by translating different spans of text within existing GEC corpora. We then investigate different methods of selecting these spans based on CSW ratio, switch-point factor and linguistic constraints, and identify how they affect the performance of GEC systems on CSW text. Our best model achieves an average increase of 1.57 $F_{0.5}$ across 3 CSW test sets (English-Chinese, English-Korean and English-Japanese) without affecting the model's performance on a monolingual dataset. We furthermore discovered that models trained on one CSW language generalise relatively well to other typologically similar CSW languages.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# GraphER:エンティティとリレーショナル抽出のための構造対応テキスト-グラフモデル

GraphER: A Structure-aware Text-to-Graph Model for Entity and Relation Extraction ( http://arxiv.org/abs/2404.12491v1 )

ライセンス: Link先を確認
Urchade Zaratiana, Nadi Tomeh, Niama El Khbir, Pierre Holat, Thierry Charnois, (参考訳) 情報抽出(IE)は自然言語処理(NLP)において重要な課題であり、名前付きエンティティの抽出とその非構造化テキストからの関連性を含む。 本稿では,これをグラフ構造学習 (GSL) として定式化する手法を提案する。 GSLとしてIEを定式化することにより、抽出プロセス中にグラフ構造を動的に洗練・最適化するモデルの能力を高めることができる。 この定式化は、エンティティとリレーショナルの予測のためのより優れた相互作用と構造的インフォームド決定を可能にする。 ジョイントエンティティと関係抽出ベンチマークの最先端ベースラインと比較すると,我々のモデルであるGraphERは競合する結果が得られる。

Information extraction (IE) is an important task in Natural Language Processing (NLP), involving the extraction of named entities and their relationships from unstructured text. In this paper, we propose a novel approach to this task by formulating it as graph structure learning (GSL). By formulating IE as GSL, we enhance the model's ability to dynamically refine and optimize the graph structure during the extraction process. This formulation allows for better interaction and structure-informed decisions for entity and relation prediction, in contrast to previous models that have separate or untied predictions for these tasks. When compared against state-of-the-art baselines on joint entity and relation extraction benchmarks, our model, GraphER, achieves competitive results.
翻訳日:2024-04-22 16:54:13 公開日:2024-04-18
# EnriCo: エンティティと関係抽出のためのリッチ表現とグローバル制約付き推論

EnriCo: Enriched Representation and Globally Constrained Inference for Entity and Relation Extraction ( http://arxiv.org/abs/2404.12493v1 )

ライセンス: Link先を確認
Urchade Zaratiana, Nadi Tomeh, Yann Dauxais, Pierre Holat, Thierry Charnois, (参考訳) 結合実体と関係抽出は、特に知識グラフの構築において、様々な応用において重要な役割を担っている。 最近の進歩にもかかわらず、既存のアプローチは、表現の豊かさと出力構造におけるコヒーレンスという2つの重要な側面で不足することが多い。 これらのモデルは、しばしば計算エンティティや関係表現のために手作りのヒューリスティックに依存しており、重要な情報が失われる可能性がある。 さらに、それらはタスクやデータセット固有の制約を無視し、コヒーレンスを持たない出力構造をもたらす。 本研究では,これらの欠点を緩和するEnriCoを紹介する。 まず,豊かで表現力に富む表現を育成するために,実体と関係性の両方が正確な抽出に必要な関連する情報を動的に決定できるアテンション機構を利用する。 第2に、タスクやデータセット固有の制約を順守しながら、最高のスコアリングソリューションを推論するために設計された一連の復号アルゴリズムを導入し、構造化および一貫性のある出力を促進する。 提案モデルでは,IE データセットをベースラインとして評価した場合と比較して,競争性能が向上することを示す。

Joint entity and relation extraction plays a pivotal role in various applications, notably in the construction of knowledge graphs. Despite recent progress, existing approaches often fall short in two key aspects: richness of representation and coherence in output structure. These models often rely on handcrafted heuristics for computing entity and relation representations, potentially leading to loss of crucial information. Furthermore, they disregard task and/or dataset-specific constraints, resulting in output structures that lack coherence. In our work, we introduce EnriCo, which mitigates these shortcomings. Firstly, to foster rich and expressive representation, our model leverage attention mechanisms that allow both entities and relations to dynamically determine the pertinent information required for accurate extraction. Secondly, we introduce a series of decoding algorithms designed to infer the highest scoring solutions while adhering to task and dataset-specific constraints, thus promoting structured and coherent outputs. Our model demonstrates competitive performance compared to baselines when evaluated on Joint IE datasets.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# BIRD:大規模言語モデルのための信頼できるベイズ推論フレームワーク

BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models ( http://arxiv.org/abs/2404.12494v1 )

ライセンス: Link先を確認
Yu Feng, Ben Zhou, Weidong Lin, Dan Roth, (参考訳) 大規模言語モデルは、主に意思決定の帰納的推論に依存している。 これは、しばしば不完全なコンテキストや条件を示す現実世界のタスクに適用された場合、信頼できない決定をもたらす。 したがって、意思決定の信頼性を高めるためには、正確な確率推定と適切な解釈が必要である。 本稿では,大規模言語モデルに対するBIRDというベイズ推論フレームワークを提案する。 BIRDは、帰納的要因に基づくモデル決定のための制御可能かつ解釈可能な確率推定、LLMエンテーメント、および学習可能な導出的ベイズモデルを提供する。 実験の結果、BIRDはオープンソースのLlamaモデルを用いて、人間の判断と一致した確率を65%以上生成し、最先端のGPT-4を35%上回った。 また,BIRDは実世界の多くのアプリケーションにおいて信頼性の高い意思決定に利用できることを示す。

Large language models primarily rely on inductive reasoning for decision making. This results in unreliable decisions when applied to real-world tasks that often present incomplete contexts and conditions. Thus, accurate probability estimation and appropriate interpretations are required to enhance decision-making reliability. In this paper, we propose a Bayesian inference framework called BIRD for large language models. BIRD provides controllable and interpretable probability estimation for model decisions, based on abductive factors, LLM entailment, as well as learnable deductive Bayesian modeling. Experiments show that BIRD produces probability estimations that align with human judgments over 65% of the time using open-sourced Llama models, outperforming the state-of-the-art GPT-4 by 35%. We also show that BIRD can be directly used for trustworthy decision making on many real-world applications.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# センサ評価のためのオールインワン量子ダイヤモンド顕微鏡

All-in-one Quantum Diamond Microscope for Sensor Characterization ( http://arxiv.org/abs/2404.12495v1 )

ライセンス: Link先を確認
Connor Roncaioli, Connor Hart, Ronald Walsworth, Donald P. Fahey, (参考訳) ダイヤモンド中の窒素空孔(NV)中心は、環境条件下での磁気センシングとイメージングにおいて主要なモダリティである。 しかし、これらのセンサは、常磁性不純物やダイヤモンド結晶格子内の応力領域による劣化性能に悩まされている。 本研究は,NVアンサンブルフォトルミネッセンス(PL)振幅,スピン格子緩和時間(T$_1$),均質で不均一なスピンコヒーレンス寿命(T$_2$およびT$_2^*$)を含むミリスケールNVダイアモンドセンサチップのキー特性の同時マッピングと空間的相関性を示す。

Nitrogen-vacancy (NV) centers in diamond are a leading modality for magnetic sensing and imaging under ambient conditions. However, these sensors suffer from degraded performance due to paramagnetic impurities and regions of stress in the diamond crystal lattice. This work demonstrates a quantum diamond microscope (QDM) for simultaneous mapping and spatial correlation of key properties of a millimeter-scale NV-diamond sensor chip, including: NV ensemble photoluminescence (PL) amplitude, spin-lattice relaxation time (T$_1$), and homogeneous and inhomogeneous spin coherence lifetimes (T$_2$ and T$_2^*$), as well as lattice stress/strain, birefringence magnitude, and birefringence angle of the diamond crystal.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# 重力量子障壁実験による余剰次元の理論の制約

Constraints on extra dimensions theories from gravitational quantum barrier experiments ( http://arxiv.org/abs/2404.12496v1 )

ライセンス: Link先を確認
J. M. Rocha, F. Dahia, (参考訳) 我々は、超低温中性子を含む量子バウンサー実験を、ブレーンワールドのシナリオで論じる。 概して、超次元理論は、短距離での重力相互作用の強化を予測している。 本稿では, 中性子と反射鏡との異常な重力相互作用について, 隠れ次元による検討を行い, 厚いブレーンモデルによる実験結果への影響について検討する。 この分析により、この中性子実験が制限できるこの超次元理論の物理量を特定することができる。 実験データから, モデルの自由パラメータ(高次元の重力定数と, 厚いブレーン内における拘束物質の横幅に関連するパラメータ)に基づいて, 新たに独立な実験境界が発見された。 この新たな境界は、2より大きい任意の余剰次元のシナリオで有効である。 このように、ブレーンの厚さを考慮することで、重力ポテンシャルの非計算可能性の問題により、余次元がほとんどないモデルに限られていたこの話題について、以前の研究を拡張した。

We discuss the quantum-bouncer experiment involving ultracold neutrons in a braneworld scenario. Extra-dimensional theories typically predict the strengthening of gravitational interactions over short distances. In this paper, we specifically study the anomalous gravitational interaction between the bouncing neutron and the reflecting mirror, resulting from hidden dimensions, and its effect on the outcome of this experiment in the context of a thickbrane model. This analysis allows us to identify which physical quantity of this extra-dimensional theory this neutron experiment is capable of constraining. Based on the experimental data, we found a new and independent empirical bound on free parameters of the model: the higher-dimensional gravitational constant and a parameter related to a transverse width of the confined matter inside the thickbrane. This new bound is valid in scenarios with an arbitrary number of extra dimensions greater than two. In this manner, by considering the thickness of the brane, we have been able to extend previous studies on this topic, which were limited to models with few codimensions, due to non-computability problems of power-law corrections of the gravitational potential.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# 持続可能な冷却とML統合のためのPythonic Data Centerモデルの構成

A Configurable Pythonic Data Center Model for Sustainable Cooling and ML Integration ( http://arxiv.org/abs/2404.12498v1 )

ライセンス: Link先を確認
Avisek Naug, Antonio Guillen, Ricardo Luna Gutierrez, Vineet Gundecha, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Soumyendu Sarkar, (参考訳) 企業データセンターの運用炭素フットプリントの推定と削減に関する議論が続いている。 データセンターの設計とインテリジェントな制御は、データセンターのカーボンフットプリントに大きな影響を与える。 本稿では、データセンター設計の極めて高速なプロトタイピングを可能にするPythonライブラリであるPyDCMを紹介し、炭素フットプリント、エネルギー消費、温度ホットスポットの観測といった主要な持続可能性指標を評価することを目的として強化学習可能な制御を適用した。 我々は、PyDCMのこれらの能力を実証し、データセンターをモデリングするためのEnergyPlusの既存の作業と比較する。 PyDCMは、サステナビリティを重視したデータセンタコントロールを示すスタンドアロンのGymnasium環境としても使用できる。

There have been growing discussions on estimating and subsequently reducing the operational carbon footprint of enterprise data centers. The design and intelligent control for data centers have an important impact on data center carbon footprint. In this paper, we showcase PyDCM, a Python library that enables extremely fast prototyping of data center design and applies reinforcement learning-enabled control with the purpose of evaluating key sustainability metrics including carbon footprint, energy consumption, and observing temperature hotspots. We demonstrate these capabilities of PyDCM and compare them to existing works in EnergyPlus for modeling data centers. PyDCM can also be used as a standalone Gymnasium environment for demonstrating sustainability-focused data center control.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# SPIdepth:自己教師型単眼深度推定のための強化ポーズ情報

SPIdepth: Strengthened Pose Information for Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2404.12501v1 )

ライセンス: Link先を確認
Mykola Lavreniuk, (参考訳) 自律走行とロボット工学への応用について、自己監督された単眼深度推定が注目されている。 最近の手法では、Self Query Layer(SQL)のようなテクニックを活用して動きから奥行きを推測する手法が採用されているが、多くの場合、ポーズ情報を強化する可能性を見落としている。 本稿では、ポーズネットワークの強化を優先して深度推定を改善する新しいアプローチであるSPIdepthを紹介する。 SQLによって構築された基盤の上に構築されているSPIdepthは、きめ細かいシーン構造をキャプチャする上で、ポーズ情報の重要性を強調している。 SPIdepthは、ポーズネットワークの能力を高めることにより、シーン理解と深さ推定における顕著な進歩を実現する。 KITTIやCityscapesといったベンチマークデータセットの実験結果は、SPIdepthの最先端のパフォーマンスを示し、従来の手法をかなり上回っている。 特に、SPIdepthのパフォーマンスは教師なしモデルよりも優れており、メトリクスデータを微調整した後、既存のすべての手法よりも優れています。 興味深いことに、SPIdepthは推論のために1つの画像のみを使用してこれらの結果を達成し、推論にビデオシーケンスを利用する方法さえ超え、実世界のアプリケーションにおいてその有効性と効率を実証する。 本手法は, 実世界におけるシーン理解の促進を目的としたポーズ情報強化の重要性を強調し, 自己教師型単眼深度推定における飛躍的な進歩を示す。

Self-supervised monocular depth estimation has garnered considerable attention for its applications in autonomous driving and robotics. While recent methods have made strides in leveraging techniques like the Self Query Layer (SQL) to infer depth from motion, they often overlook the potential of strengthening pose information. In this paper, we introduce SPIdepth, a novel approach that prioritizes enhancing the pose network for improved depth estimation. Building upon the foundation laid by SQL, SPIdepth emphasizes the importance of pose information in capturing fine-grained scene structures. By enhancing the pose network's capabilities, SPIdepth achieves remarkable advancements in scene understanding and depth estimation. Experimental results on benchmark datasets such as KITTI and Cityscapes showcase SPIdepth's state-of-the-art performance, surpassing previous methods by significant margins. Notably, SPIdepth's performance exceeds that of unsupervised models and, after finetuning on metric data, outperforms all existing methods. Remarkably, SPIdepth achieves these results using only a single image for inference, surpassing even methods that utilize video sequences for inference, thus demonstrating its efficacy and efficiency in real-world applications. Our approach represents a significant leap forward in self-supervised monocular depth estimation, underscoring the importance of strengthening pose information for advancing scene understanding in real-world applications.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# 量子フーリエ変換を用いた量子暗号における干渉検出の増大

Increasing Interference Detection in Quantum Cryptography using the Quantum Fourier Transform ( http://arxiv.org/abs/2404.12507v1 )

ライセンス: Link先を確認
Nicholas J. C. Papadopoulos, Kirby Linvill, (参考訳) 量子鍵分布(QKD)と量子メッセージ暗号化プロトコルは、盗聴を検出しながら情報を分散するセキュアな方法を約束する。 しかし、現在のプロトコルは攻撃者によってキュービットのサブセットのみが観察される場合、盗聴保護が著しく低下する可能性がある。 本稿では,量子フーリエ変換(QFT)を利用した2つの量子暗号プロトコルを提案する。 これらのプロトコルの最も重要な点は、QFTのこの効果を活用しつつ、QFTベースのプロトコルよりも実用的な新しいQKD方式であり、特に量子メモリに依存しない。 さらに、既存の量子暗号化手法をQFTベースのアプローチで拡張して、盗聴検出を改善する方法について述べる。 最後に、プロトコル設計者がそれぞれの目的のためにカスタムなスキームを作成できるように、これらのプロトコル内で異なるQFTベースの検出スキームを解析するための方程式を提供する。

Quantum key distribution (QKD) and quantum message encryption protocols promise a secure way to distribute information while detecting eavesdropping. However, current protocols may suffer from significantly reduced eavesdropping protection when only a subset of qubits are observed by an attacker. In this paper, we present two quantum cryptographic protocols leveraging the quantum Fourier transform (QFT) and show their higher effectiveness even when an attacker measures only a subset of the transmitted qubits. The foremost of these protocols is a novel QKD method that leverages this effectiveness of the QFT while being more practical than previously proposed QFT-based protocols, most notably by not relying on quantum memory. We additionally show how existing quantum encryption methods can be augmented with a QFT-based approach to improve eavesdropping detection. Finally, we provide equations to analyze different QFT-based detection schemes within these protocols so that protocol designers can make custom schemes for their purpose.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# 構成型ニューラルテクスチャ

Compositional Neural Textures ( http://arxiv.org/abs/2404.12509v1 )

ライセンス: Link先を確認
Peihan Tu, Li-Yi Wei, Matthias Zwicker, (参考訳) テクスチャーは、実際の写真とコンピュータ生成画像の両方において、視覚的豊かさを高める上で重要な役割を担っている。 しかし、テクスチャを編集する過程には、テクスチャを定義する小さな局所的なパターンであるテクスチャの厳密かつ反復的な手作業による調整が伴うことが多い。 本研究では,テクスチャを表現するために,個々のテキストをキャプチャする合成ニューラルモデルを用いて,テクスチャを表現するための教師なしアプローチを提案する。 我々は,各テキストを,空間的支持がその形状を近似する2次元ガウス関数と,その詳細な外観を符号化する関連する特徴として表現する。 テクスチャをガウス文字の離散的な構成としてモデル化することにより、表現は表現性と編集の容易さの両方を提供する。 テクスチャは、潜伏空間内で構成ガウスを修飾して編集することができ、また、修正ガウスをジェネレータネットワークを介してフィードフォワード的に供給することにより、効率的に新しいテクスチャを合成することができる。 このアプローチは、画像テクスチャから他のイメージへの外観の移動、テクスチャの多様化、テクスチャ補間、テクスチャの変動の明示/修正、編集の伝播、テクスチャアニメーション、ダイレクトテキスト操作など、幅広いアプリケーションを可能にする。 提案手法は, テクスチャ解析, モデリング, 編集技術の進歩に寄与し, テクスチャを制御可能な視覚的に魅力的な画像を作成する新たな可能性を開く。

Texture plays a vital role in enhancing visual richness in both real photographs and computer-generated imagery. However, the process of editing textures often involves laborious and repetitive manual adjustments of textons, which are the small, recurring local patterns that define textures. In this work, we introduce a fully unsupervised approach for representing textures using a compositional neural model that captures individual textons. We represent each texton as a 2D Gaussian function whose spatial support approximates its shape, and an associated feature that encodes its detailed appearance. By modeling a texture as a discrete composition of Gaussian textons, the representation offers both expressiveness and ease of editing. Textures can be edited by modifying the compositional Gaussians within the latent space, and new textures can be efficiently synthesized by feeding the modified Gaussians through a generator network in a feed-forward manner. This approach enables a wide range of applications, including transferring appearance from an image texture to another image, diversifying textures, texture interpolation, revealing/modifying texture variations, edit propagation, texture animation, and direct texton manipulation. The proposed approach contributes to advancing texture analysis, modeling, and editing techniques, and opens up new possibilities for creating visually appealing images with controllable textures.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# シャノンエントロピーとラフセット理論の統合による機械学習評価の一般化

Generalizing Machine Learning Evaluation through the Integration of Shannon Entropy and Rough Set Theory ( http://arxiv.org/abs/2404.12511v1 )

ライセンス: Link先を確認
Olga Cherednichenko, Dmytro Chernyshov, Dmytro Sytnikov, Polina Sytnikova, (参考訳) 本研究では,シャノンエントロピーと粗集合理論の革新的統合を考察し,機械学習における評価手法を一般化するための新しいアプローチを提案する。 エントロピーの従来の応用は、主に情報の不確実性に焦点を当てており、データ固有の構造と機械学習モデルの解釈可能性に関する深い洞察を提供するために、粗い集合理論と組み合わせて拡張されている。 本稿では,粗集合論の粒度とシャノンエントロピーの不確かさの定量化を,機械学習アルゴリズムのスペクトルに適用した包括的フレームワークを提案する。 我々の手法は様々なデータセットで厳密にテストされており、予測性能を評価するだけでなく、基礎となるデータの複雑さとモデルロバスト性を照らす能力を示している。 この結果は、機械学習の評価環境を強化するための統合されたアプローチの有用性を強調し、精度とデータ属性の深い理解とモデルダイナミクスのバランスをとる多面的な視点を提供する。 本稿では、モデル性能の全体像をカプセル化する手法を提案し、モデル選択と応用におけるより深い意思決定を容易にすることを目的とした、機械学習評価に対する画期的な視点を提供する。

This research paper delves into the innovative integration of Shannon entropy and rough set theory, presenting a novel approach to generalize the evaluation approach in machine learning. The conventional application of entropy, primarily focused on information uncertainty, is extended through its combination with rough set theory to offer a deeper insight into data's intrinsic structure and the interpretability of machine learning models. We introduce a comprehensive framework that synergizes the granularity of rough set theory with the uncertainty quantification of Shannon entropy, applied across a spectrum of machine learning algorithms. Our methodology is rigorously tested on various datasets, showcasing its capability to not only assess predictive performance but also to illuminate the underlying data complexity and model robustness. The results underscore the utility of this integrated approach in enhancing the evaluation landscape of machine learning, offering a multi-faceted perspective that balances accuracy with a profound understanding of data attributes and model dynamics. This paper contributes a groundbreaking perspective to machine learning evaluation, proposing a method that encapsulates a holistic view of model performance, thereby facilitating more informed decision-making in model selection and application.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# Proteus: グラフ最適化時のモデルの信頼性を維持する

Proteus: Preserving Model Confidentiality during Graph Optimizations ( http://arxiv.org/abs/2404.12512v1 )

ライセンス: Link先を確認
Yubo Gao, Maryam Haghifam, Christina Giannoula, Renbo Tu, Gennady Pekhimenko, Nandita Vijaykumar, (参考訳) ディープラーニング(DL)モデルは、多くのドメインに革命をもたらしたが、それらを計算効率に最適化することは、依然として困難な試みである。 新しいDLモデルの開発には、通常、モデル開発者とパフォーマンスオプティマイザの2つのパーティがある。 パーティ間のコラボレーションは、しばしばモデル開発者がモデルアーキテクチャと計算グラフをオプティマイザに公開する必要がある。 しかし、モデルアーキテクチャは重要な知的財産であり、その革新にはかなりの投資と専門知識が必要であるため、この露出は望ましくない。 交換の間、モデルはモデル盗難による敵攻撃にも脆弱である。 本稿では,モデルアーキテクチャの機密性を保ちながら,独立当事者によるモデル最適化を可能にする新しいメカニズムであるProteusを提案する。 Proteusは、計算グラフをサブグラフに分割し、各サブグラフを元のものと容易に区別できない生成された現実的なサブグラフの大きなプールに隠すことで、保護されたモデルを難読化する。 我々はProteusを様々なDNNで評価し、性能最適化の機会を損なうことなく機密性を維持する効果を実証した。 Proteusは、モデルアーキテクチャの可能な最大10〜32ドルという選択肢のひとつとして、モデルを効果的に隠蔽し、学習ベースの敵による攻撃に対して耐性がある。 また、ヒューリスティックベースと手動アプローチは、保護されたモデルを特定するのに効果がないことを示す。 私たちの知る限り、Proteusはパフォーマンス最適化中にモデルの機密性に取り組む最初の作品です。 Proteusは、ONNXRuntimeのようなコンパイラと簡単に統合され、直接の使用と実験のためにオープンソースになる。

Deep learning (DL) models have revolutionized numerous domains, yet optimizing them for computational efficiency remains a challenging endeavor. Development of new DL models typically involves two parties: the model developers and performance optimizers. The collaboration between the parties often necessitates the model developers exposing the model architecture and computational graph to the optimizers. However, this exposure is undesirable since the model architecture is an important intellectual property, and its innovations require significant investments and expertise. During the exchange, the model is also vulnerable to adversarial attacks via model stealing. This paper presents Proteus, a novel mechanism that enables model optimization by an independent party while preserving the confidentiality of the model architecture. Proteus obfuscates the protected model by partitioning its computational graph into subgraphs and concealing each subgraph within a large pool of generated realistic subgraphs that cannot be easily distinguished from the original. We evaluate Proteus on a range of DNNs, demonstrating its efficacy in preserving confidentiality without compromising performance optimization opportunities. Proteus effectively hides the model as one alternative among up to $10^{32}$ possible model architectures, and is resilient against attacks with a learning-based adversary. We also demonstrate that heuristic based and manual approaches are ineffective in identifying the protected model. To our knowledge, Proteus is the first work that tackles the challenge of model confidentiality during performance optimization. Proteus will be open-sourced for direct use and experimentation, with easy integration with compilers such as ONNXRuntime.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# 短距離相互作用系における臨界減速によるスケーラブルスピンスクイーズ

Scalable spin squeezing from critical slowing down in short-range interacting systems ( http://arxiv.org/abs/2404.12514v1 )

ライセンス: Link先を確認
Tommaso Roscilde, Filippo Caleca, Adriano Angelone, Fabio Mezzacapo, (参考訳) 長距離スピン-スピン相互作用は、量子スピンアンサンブルの集合スピンをスケーラブルな方法で絞る非平衡ダイナミクスを生成することが知られており、メトロジー的に有用な絡み合いがシステムサイズとともに増大する状態に繋がる。 ここでは、2d U(1)対称系において、平衡が有限温度で長距離秩序をもたらすのではなく、ベレジンスキー-コステリッツ-トゥーレス(英語版)(BKT)臨界相に繋がる相互作用によっても、スケーラブルなスクイージングが生成できることを理論的に示す。 初期状態が簡単な相互作用平面におけるコヒーレントスピン状態であり、そのエネルギーが臨界BKT相の熱状態に対応する場合、非平衡ダイナミクスは時間内の集団磁化の非規則的崩壊に対応する臨界減速を示す。 この緩やかな崩壊はスケーラブルなスクイーズを保護し、そのスケーリングによって磁化の減衰指数が明らかになる。 我々の結果は、量子シミュレーションや情報処理(超低温原子のモット絶縁体や超伝導回路など)の多くの関係するプラットフォームにおいて、潜在的に有意な覚醒状態の巨大な絡み合った状態を実現するための道を開く。

Long-range spin-spin interactions are known to generate non-equilibrium dynamics which can squeeze the collective spin of a quantum spin ensemble in a scalable manner, leading to states whose metrologically useful entanglement grows with system size. Here we show theoretically that scalable squeezing can be produced in 2d U(1)-symmetric systems even by short-range interactions, i.e. interactions that at equilibrium do not lead to long-range order at finite temperatures, but rather to an extended, Berezhinski-Kosterlitz-Thouless (BKT) critical phase. If the initial state is a coherent spin state in the easy plane of interactions, whose energy corresponds to a thermal state in the critical BKT phase, the non-equilibrium dynamics exhibits critical slowing down, corresponding to a power-law decay of the collective magnetization in time. This slow decay protects scalable squeezing, whose scaling reveals in turn the decay exponent of the magnetization. Our results open the path to realizing massive entangled states of potential metrological interest in many relevant platforms of quantum simulation and information processing -- such as Mott insulators of ultracold atoms, or superconducting circuits -- characterized by short-range interactions in planar geometries.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# 電気自動車充電ネットワークの高度制御のための集中型マルチエージェント強化学習

Centralized vs. Decentralized Multi-Agent Reinforcement Learning for Enhanced Control of Electric Vehicle Charging Networks ( http://arxiv.org/abs/2404.12520v1 )

ライセンス: Link先を確認
Amin Shojaeighadikolaei, Zsolt Talata, Morteza Hashemi, (参考訳) 電気自動車(EV)の普及は、特にピーク時の電力需要が大幅に増加する可能性があるため、配電網やスマートグリッドインフラにいくつかの課題をもたらす。 さらに、EVが需要側管理プログラムに参加する場合、リアルタイム価格体系を完全に活用する最適充電制御ポリシーを使用することで、料金を削減できる。 しかし,様々な確率的かつ不確実な環境要因により,EVの最適充電方法や制御戦略の策定は困難である。 現在、ほとんどのEV充電コントローラーは集中型モデルに基づいて動作している。 本稿では,MARL(Multi-Agent Reinforcement Learning)フレームワークを用いた分散・協調型充電戦略の新たなアプローチを提案する。 本手法は,すべてのEVが共用変圧器に接続されている住宅街におけるEV群を対象とした,Deep Deterministic Policy Gradient (DDPG)アルゴリズムに基づいて構築されている。 CTDE-DDPGと呼ばれるこの方法は、集中訓練分散実行(CTDE)アプローチを採用し、訓練期間中にエージェント間の協力を確立すると同時に、実行中の分散およびプライバシ保護操作を保証する。 DDPGに基づくMARL実装における中央集権的・分散的批判者の業績を理論的に検証し,そのトレードオフを実証する。 さらに、中央集権的・分散的な批評家の効率性、スケーラビリティ、性能についても数値的に検討する。 理論的および数値的な結果は,政策勾配のばらつきと訓練の複雑さが高いにもかかわらず,CTDE-DDPGフレームワークは,総変動率を約36パーセント,充電コストを平均9.1程度削減することにより,充電効率を著しく向上することを示している。

The widespread adoption of electric vehicles (EVs) poses several challenges to power distribution networks and smart grid infrastructure due to the possibility of significantly increasing electricity demands, especially during peak hours. Furthermore, when EVs participate in demand-side management programs, charging expenses can be reduced by using optimal charging control policies that fully utilize real-time pricing schemes. However, devising optimal charging methods and control strategies for EVs is challenging due to various stochastic and uncertain environmental factors. Currently, most EV charging controllers operate based on a centralized model. In this paper, we introduce a novel approach for distributed and cooperative charging strategy using a Multi-Agent Reinforcement Learning (MARL) framework. Our method is built upon the Deep Deterministic Policy Gradient (DDPG) algorithm for a group of EVs in a residential community, where all EVs are connected to a shared transformer. This method, referred to as CTDE-DDPG, adopts a Centralized Training Decentralized Execution (CTDE) approach to establish cooperation between agents during the training phase, while ensuring a distributed and privacy-preserving operation during execution. We theoretically examine the performance of centralized and decentralized critics for the DDPG-based MARL implementation and demonstrate their trade-offs. Furthermore, we numerically explore the efficiency, scalability, and performance of centralized and decentralized critics. Our theoretical and numerical results indicate that, despite higher policy gradient variances and training complexity, the CTDE-DDPG framework significantly improves charging efficiency by reducing total variation by approximately %36 and charging cost by around %9.1 on average...
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# 帯域を越えたニューラルアクティブラーニング

Neural Active Learning Beyond Bandits ( http://arxiv.org/abs/2404.12522v1 )

ライセンス: Link先を確認
Yikun Ban, Ishika Agarwal, Ziwei Wu, Yada Zhu, Kommy Weldemariam, Hanghang Tong, Jingrui He, (参考訳) ストリームベースとプールベースの両方のアクティブラーニングをニューラルネットワーク近似を用いて検討する。 近年の一連の研究は、積極的学習を盗賊問題に転換し、理論的および経験的成功を両立させるバンディットに基づくアプローチを提案した。 しかし、これらの手法の性能と計算コストは、この変換により$K$と表されるクラスの数に影響を受けやすい。 そこで,本稿では,「原則探索の利点を維持しつつ,アクティブラーニングにおける性能保証を保証しながら,$K$の悪影響を軽減するにはどうすればよいのか」という問いに答える。 この課題に対処するために、ストリームベースおよびプールベースアクティブラーニングのためのニューラルネットワークを新たに設計したエクスプロイトと探索に基づく2つのアルゴリズムを提案する。 提案手法では, 提案手法に対して, 提案手法のK$に関する誤差増加率が遅いことを実証し, 非パラメトリックな設定で, 両アルゴリズムの理論的性能保証を行う。 我々は、提案アルゴリズムの評価に広範囲な実験を用い、一貫して最先端のベースラインを上回ります。

We study both stream-based and pool-based active learning with neural network approximations. A recent line of works proposed bandit-based approaches that transformed active learning into a bandit problem, achieving both theoretical and empirical success. However, the performance and computational costs of these methods may be susceptible to the number of classes, denoted as $K$, due to this transformation. Therefore, this paper seeks to answer the question: "How can we mitigate the adverse impacts of $K$ while retaining the advantages of principled exploration and provable performance guarantees in active learning?" To tackle this challenge, we propose two algorithms based on the newly designed exploitation and exploration neural networks for stream-based and pool-based active learning. Subsequently, we provide theoretical performance guarantees for both algorithms in a non-parametric setting, demonstrating a slower error-growth rate concerning $K$ for the proposed approaches. We use extensive experiments to evaluate the proposed algorithms, which consistently outperform state-of-the-art baselines.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# DoughNet: 変形可能なオブジェクトのトポロジカル操作のための視覚予測モデル

DoughNet: A Visual Predictive Model for Topological Manipulation of Deformable Objects ( http://arxiv.org/abs/2404.12524v1 )

ライセンス: Link先を確認
Dominik Bauer, Zhenjia Xu, Shuran Song, (参考訳) ドーナツのような弾塑性物体の操作は、しばしば分裂や融合のような位相変化を伴う。 特定の作用が生じる可能性のあるトポロジカルな変化を正確に予測する能力は、弾塑性物体との相互作用を計画するのに重要である。 本稿では2つのコンポーネントからなるトランスフォーマーベースのアーキテクチャであるDoughNetを紹介する。 まず、デノナイジングオートエンコーダは、様々なトポロジの変形可能なオブジェクトを潜在符号の集合として表現する。 第二に、視覚的予測モデルは自己回帰的集合予測を行い、横方向の幾何学的変形と位相的変化を潜時空間で純粋に決定する。 部分的な初期状態と所望の操作軌跡が与えられた場合、各ステップで得られる全てのオブジェクトジオメトリとトポロジーを推測する。 そこでDoughNetは、ロボット操作の計画を可能にし、ロボットや人間が作った目標を再現するために、適切なツール、ポーズ、開口幅を選択する。 シミュレーションおよび実環境における実験により,DoughNetは,変形を幾何学的変化としてのみ考慮する関連するアプローチを著しく上回っていることが示された。

Manipulation of elastoplastic objects like dough often involves topological changes such as splitting and merging. The ability to accurately predict these topological changes that a specific action might incur is critical for planning interactions with elastoplastic objects. We present DoughNet, a Transformer-based architecture for handling these challenges, consisting of two components. First, a denoising autoencoder represents deformable objects of varying topology as sets of latent codes. Second, a visual predictive model performs autoregressive set prediction to determine long-horizon geometrical deformation and topological changes purely in latent space. Given a partial initial state and desired manipulation trajectories, it infers all resulting object geometries and topologies at each step. DoughNet thereby allows to plan robotic manipulation; selecting a suited tool, its pose and opening width to recreate robot- or human-made goals. Our experiments in simulated and real environments show that DoughNet is able to significantly outperform related approaches that consider deformation only as geometrical change.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# 連続学習のための適応記憶再生

Adaptive Memory Replay for Continual Learning ( http://arxiv.org/abs/2404.12526v1 )

ライセンス: Link先を確認
James Seale Smith, Lazar Valkov, Shaunak Halbe, Vyshnavi Gutta, Rogerio Feris, Zsolt Kira, Leonid Karlinsky, (参考訳) ファンデーションモデル(FM)は現代のAIの目玉となっているが、これらのモデルは大量のデータに基づいて訓練されており、経済的に高価なトレーニングにつながっている。 しかし、新しいデータが利用可能になるにつれて、FMの更新は「破滅的な忘れ」につながる可能性がある。 この連続学習(CL)現象は広範に研究されてきたが、主に少量の過去のデータしか保存できない環境で研究されている。 我々は、メモリが豊富なパラダイムを提唱し、以前のデータをすべて保持できるが、計算資源は限られている。 この設定では、従来のリプレイベースのCLアプローチは、ランダムに選択された過去のデータを一様に再生する単純なベースラインにより、パフォーマンスが向上し、新しいアプローチが必要であることを示す。 我々は,過去データのサンプリングをマルチアームバンディット問題として表現する,連続学習のための適応型メモリリプレイの枠組みを導入することで,この問題に対処する。 本研究では,Bolzmann サンプリングを用いて過去のデータを動的に選択し,全データアクセスを仮定し,トレーニング効率を強調する手法を提案する。 視力と言語事前学習タスクの両面での広範な評価を通じて,学習効率を犠牲にすることなく,最大10%の遅延を低減しつつ,高い性能を維持する手法の有効性を実証した。

Foundation Models (FMs) have become the hallmark of modern AI, however, these models are trained on massive data, leading to financially expensive training. Updating FMs as new data becomes available is important, however, can lead to `catastrophic forgetting', where models underperform on tasks related to data sub-populations observed too long ago. This continual learning (CL) phenomenon has been extensively studied, but primarily in a setting where only a small amount of past data can be stored. We advocate for the paradigm where memory is abundant, allowing us to keep all previous data, but computational resources are limited. In this setting, traditional replay-based CL approaches are outperformed by a simple baseline which replays past data selected uniformly at random, indicating that this setting necessitates a new approach. We address this by introducing a framework of adaptive memory replay for continual learning, where sampling of past data is phrased as a multi-armed bandit problem. We utilize Bolzmann sampling to derive a method which dynamically selects past data for training conditioned on the current task, assuming full data access and emphasizing training efficiency. Through extensive evaluations on both vision and language pre-training tasks, we demonstrate the effectiveness of our approach, which maintains high performance while reducing forgetting by up to 10% at no training efficiency cost.
翻訳日:2024-04-22 16:44:29 公開日:2024-04-18
# TrajDeleter: オフライン強化学習エージェントにおける軌道フォーミングの実現

TrajDeleter: Enabling Trajectory Forgetting in Offline Reinforcement Learning Agents ( http://arxiv.org/abs/2404.12530v1 )

ライセンス: Link先を確認
Chen Gong, Kecen Li, Jin Yao, Tianhao Wang, (参考訳) 強化学習(RL)は、環境と相互作用する経験からエージェントを訓練する。 オンラインインタラクションが現実的でないシナリオでは、事前にコンパイルされたデータセットを使用してエージェントをトレーニングするオフラインRLが人気を集めている。 この新しいパラダイムは、医療やエネルギー管理など、さまざまな現実世界の領域で顕著な効果を示す一方で、トレーニングデータセットとトレーニングされたエージェントの両方からの特定のトラジェクトリの影響を、エージェントが迅速かつ完全に排除する必要性が高まっている。 この問題に対処するために、オフラインRLエージェントの軌道未学習のための最初の実践的アプローチであるTrajdeleterを提唱する。 Trajdeleterのキーとなるアイデアは、エージェントを誘導して、未学習の軌跡に関連する状態に遭遇した際のパフォーマンス低下を示すことである。 同時に、他のトラジェクトリに直面するとき、エージェントが元のパフォーマンスレベルを維持する。 さらに、TrajdeleterがオフラインのRLエージェントから影響の特定の軌跡をうまく除去するかどうかを簡易かつ効率的な評価方法であるTrajauditorを導入する。 6つのオフラインRLアルゴリズムと3つのタスクで実施された大規模な実験は、トラジデレターがスクラッチから再トレーニングするのに必要な時間の約1.5%しか必要としていないことを示した。 目標軌道の94.8%を効果的に解き放つが、未学習の後も実際の環境相互作用は良好である。 レプリケーションパッケージとエージェントパラメータはオンラインで利用できる。

Reinforcement learning (RL) trains an agent from experiences interacting with the environment. In scenarios where online interactions are impractical, offline RL, which trains the agent using pre-collected datasets, has become popular. While this new paradigm presents remarkable effectiveness across various real-world domains, like healthcare and energy management, there is a growing demand to enable agents to rapidly and completely eliminate the influence of specific trajectories from both the training dataset and the trained agents. To meet this problem, this paper advocates Trajdeleter, the first practical approach to trajectory unlearning for offline RL agents. The key idea of Trajdeleter is to guide the agent to demonstrate deteriorating performance when it encounters states associated with unlearning trajectories. Simultaneously, it ensures the agent maintains its original performance level when facing other remaining trajectories. Additionally, we introduce Trajauditor, a simple yet efficient method to evaluate whether Trajdeleter successfully eliminates the specific trajectories of influence from the offline RL agent. Extensive experiments conducted on six offline RL algorithms and three tasks demonstrate that Trajdeleter requires only about 1.5% of the time needed for retraining from scratch. It effectively unlearns an average of 94.8% of the targeted trajectories yet still performs well in actual environment interactions after unlearning. The replication package and agent parameters are available online.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-18
# リーンにおける定理証明のコパイロットとしての大規模言語モデルを目指して

Towards Large Language Models as Copilots for Theorem Proving in Lean ( http://arxiv.org/abs/2404.12534v1 )

ライセンス: Link先を確認
Peiyang Song, Kaiyu Yang, Anima Anandkumar, (参考訳) 定理証明は大きな言語モデル(LLM)にとって重要な課題であり、形式的な証明はリーンのような証明アシスタントによって厳格にチェックでき、幻覚の余地は残っていない。 既存のLLMベースのプローバーは、人間の介入なしに完全に自律的な方法で定理を証明しようとする。 このモードでは、人間の洞察が批判的な、斬新で挑戦的な定理に苦しむ。 本稿では,LLMを人間による定理証明を支援するコピロとして探索する。 リーンでLLM推論を実行するためのフレームワークであるLean Copilotを紹介します。 プログラマは、リーンユーザのワークフローにシームレスに統合する、さまざまなLCMベースの証明自動化ツールを構築できる。 Lean Copilotを使用することで、証明ステップ(戦術的提案)の提案、中間的証明目標(防御探索)の完了、LLMを使用して関連する前提(前提選択)を選択するためのツールを構築します。 トレーニング済みのモデルを使用したり、ローカルで(GPUの有無に関わらず)あるいはクラウド上で実行する独自のモデルを持ってくることができる。 実験の結果,従来のリーンのルールベースの証明自動化と比較して,人間の支援や定理証明プロセスの自動化に本手法の有効性が示された。 我々は、さらなる研究を促進するために、寛容なMITライセンスの下ですべてのコードをオープンソースにしています。

Theorem proving is an important challenge for large language models (LLMs), as formal proofs can be checked rigorously by proof assistants such as Lean, leaving no room for hallucination. Existing LLM-based provers try to prove theorems in a fully autonomous mode without human intervention. In this mode, they struggle with novel and challenging theorems, for which human insights may be critical. In this paper, we explore LLMs as copilots that assist humans in proving theorems. We introduce Lean Copilot, a framework for running LLM inference in Lean. It enables programmers to build various LLM-based proof automation tools that integrate seamlessly into the workflow of Lean users. Using Lean Copilot, we build tools for suggesting proof steps (tactic suggestion), completing intermediate proof goals (proof search), and selecting relevant premises (premise selection) using LLMs. Users can use our pretrained models or bring their own ones that run either locally (with or without GPUs) or on the cloud. Experimental results demonstrate the effectiveness of our method in assisting humans and automating theorem proving process compared to existing rule-based proof automation in Lean. We open source all codes under a permissive MIT license to facilitate further research.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-18
# HalluciBot:そんなに悪い質問はないのか?

HalluciBot: Is There No Such Thing as a Bad Question? ( http://arxiv.org/abs/2404.12535v1 )

ライセンス: Link先を確認
William Watson, Nicole Cho, (参考訳) 幻覚は、LLM(Large Language Models)の制度導入における最も重要な課題の1つであり続けている。 この文脈では、多くの研究がポストジェネレーションフェーズの分析に焦点を当てており、フィードバックによるアウトプットの精製、ロジットのアウトプットの値の分析、あるいはアウトプットのアーティファクトによる手がかりの抽出である。 LLMに課される任意のクエリに対して、幻覚の確率を$\textbf{before generation}$で予測するモデルであるHaluciBotを提案する。 本質的に、HaluciBotは推論中に何世代も起動しない。 HalluciBotの実証的なエビデンスを導出するために、Query Perturbator を用いてマルチエージェントモンテカルロシミュレーションを用いて、列車の時間にクエリ毎に$n$のバリエーションを作成できる。 Query Perturbatorの構築は、新しい幻覚の定義($\textit{truthful hallucination}$)の導入によって動機づけられます。 トレーニング手法は,13の多様なデータセットと3つの質問応答シナリオにまたがる,369,837のクエリからなるトレーニングコーパスに対して,2,219,022の見積を作成した。 HalluciBotは、幻覚のバイナリとマルチクラスの両方の確率を予測し、幻覚の確率に関してクエリの品質を判断する手段を可能にする。 したがって、HaluciBotは、生成前のクエリを修正またはキャンセルする方法と、それに続く計算浪費を舗装する。 さらに、幻覚的クエリのユーザ説明可能性を測定するルーシックな手段を提供する。

Hallucination continues to be one of the most critical challenges in the institutional adoption journey of Large Language Models (LLMs). In this context, an overwhelming number of studies have focused on analyzing the post-generation phase - refining outputs via feedback, analyzing logit output values, or deriving clues via the outputs' artifacts. We propose HalluciBot, a model that predicts the probability of hallucination $\textbf{before generation}$, for any query imposed to an LLM. In essence, HalluciBot does not invoke any generation during inference. To derive empirical evidence for HalluciBot, we employ a Multi-Agent Monte Carlo Simulation using a Query Perturbator to craft $n$ variations per query at train time. The construction of our Query Perturbator is motivated by our introduction of a new definition of hallucination - $\textit{truthful hallucination}$. Our training methodology generated 2,219,022 estimates for a training corpus of 369,837 queries, spanning 13 diverse datasets and 3 question-answering scenarios. HalluciBot predicts both binary and multi-class probabilities of hallucination, enabling a means to judge the query's quality with regards to its propensity to hallucinate. Therefore, HalluciBot paves the way to revise or cancel a query before generation and the ensuing computational waste. Moreover, it provides a lucid means to measure user accountability for hallucinatory queries.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-18
# TrACT:ロングテール軌道予測のためのコントラスト学習フレームワークを意識したトレーニングダイナミクス

TrACT: A Training Dynamics Aware Contrastive Learning Framework for Long-tail Trajectory Prediction ( http://arxiv.org/abs/2404.12538v1 )

ライセンス: Link先を確認
Junrui Zhang, Mozhgan Pourkeshavarz, Amir Rasouli, (参考訳) 安全クリティカルタスクとして、自律走行には、特に困難な状況下での安全な運動計画のために、道路利用者の将来の軌跡を正確に予測する必要がある。 しかし、近年のディープラーニング手法の多くは、これらのシナリオがトレーニングデータにあまり現れないために、難易度の高いシナリオのパフォーマンス低下に悩まされている。 このような長い課題に対処するため、既存の手法では、トレーニング中に機能領域のシナリオをより緊密に組み合わせて、より堅牢な学習のために情報共有をトリガーする。 しかし、これらの手法は主にシナリオを特徴づける動きパターンに依存しており、インタラクションやシーンレイアウトといったより情報に富む情報を省略している。 このような情報を活用することで、予測精度が向上するだけでなく、生成された軌道のシーンコンプライアンスも向上する、と我々は主張する。 本稿では,よりリッチなトレーニングダイナミックス情報を原型的コントラスト学習フレームワークに組み込むことを提案する。 具体的には,2段階のプロセスを提案する。 まず、ベースラインエンコーダデコーダフレームワークを用いて、リッチなコンテキスト特徴を生成する。 これらの機能は、トレーニングダイナミクス情報を使用して、モデルの出力エラーに基づいてクラスタに分割され、各クラスタ内でプロトタイプが計算される。 第二に、比較学習フレームワークでプロトタイプを用いてモデルを再訓練する。 提案手法は,2つの大規模自然主義的データセットを用いて提案手法の実証評価を行い,提案手法の精度向上とロングテールサンプルのシーンコンプライアンスの実現により,最先端の性能を実現することを示す。 さらに、トレーニングバイアスを減らすためのアプローチのさらなるメリットを強調するために、クラスタのサブセットで実験を行います。

As a safety critical task, autonomous driving requires accurate predictions of road users' future trajectories for safe motion planning, particularly under challenging conditions. Yet, many recent deep learning methods suffer from a degraded performance on the challenging scenarios, mainly because these scenarios appear less frequently in the training data. To address such a long-tail issue, existing methods force challenging scenarios closer together in the feature space during training to trigger information sharing among them for more robust learning. These methods, however, primarily rely on the motion patterns to characterize scenarios, omitting more informative contextual information, such as interactions and scene layout. We argue that exploiting such information not only improves prediction accuracy but also scene compliance of the generated trajectories. In this paper, we propose to incorporate richer training dynamics information into a prototypical contrastive learning framework. More specifically, we propose a two-stage process. First, we generate rich contextual features using a baseline encoder-decoder framework. These features are split into clusters based on the model's output errors, using the training dynamics information, and a prototype is computed within each cluster. Second, we retrain the model using the prototypes in a contrastive learning framework. We conduct empirical evaluations of our approach using two large-scale naturalistic datasets and show that our method achieves state-of-the-art performance by improving accuracy and scene compliance on the long-tail samples. Furthermore, we perform experiments on a subset of the clusters to highlight the additional benefit of our approach in reducing training bias.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-18
# GenVideo:T2I拡散モデルを用いたワンショットターゲット画像と形状認識ビデオ編集

GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models ( http://arxiv.org/abs/2404.12541v1 )

ライセンス: Link先を確認
Sai Sree Harsha, Ambareesh Revanur, Dhwanit Agarwal, Shradha Agrawal, (参考訳) テキストプロンプトのみに依存する拡散モデルに基づくビデオ編集手法は、テキストプロンプトの限られた表現力によって妨げられる。 これにより、参照対象画像をビジュアルガイドとして組み込むことで、編集の精密な制御が可能となる。 また、既存のほとんどの手法では、対象画像中のオブジェクトの形状と大きさがソースオブジェクトと異なる場合、ビデオの正確な編集に苦労する。 これらの課題に対処するため,ターゲット画像認識型T2Iモデルを利用したビデオ編集のためのGenVideoを提案する。 本手法は,新しいターゲットと形状認識型InvEditマスクを用いて,編集の時間的一貫性を維持しつつ,形状や大きさの異なるターゲットオブジェクトで編集を処理する。 さらに,編集の時間的整合性を改善するために,推論中の新たな目標画像認識潜時雑音補正戦略を提案する。 実験的分析によると、GenVideoは既存のアプローチが失敗する様々な形状のオブジェクトで編集を効果的に処理できる。

Video editing methods based on diffusion models that rely solely on a text prompt for the edit are hindered by the limited expressive power of text prompts. Thus, incorporating a reference target image as a visual guide becomes desirable for precise control over edit. Also, most existing methods struggle to accurately edit a video when the shape and size of the object in the target image differ from the source object. To address these challenges, we propose "GenVideo" for editing videos leveraging target-image aware T2I models. Our approach handles edits with target objects of varying shapes and sizes while maintaining the temporal consistency of the edit using our novel target and shape aware InvEdit masks. Further, we propose a novel target-image aware latent noise correction strategy during inference to improve the temporal consistency of the edits. Experimental analyses indicate that GenVideo can effectively handle edits with objects of varying shapes, where existing approaches fail.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-18
# 開発を超えて - 構造工学アプリケーションのための機械学習モデルをデプロイする上での課題

Beyond development: Challenges in deploying machine learning models for structural engineering applications ( http://arxiv.org/abs/2404.12544v1 )

ライセンス: Link先を確認
Mohsen Zaker Esteghamati, Brennan Bean, Henry V. Burton, M. Z. Naser, (参考訳) 機械学習(ML)ベースのソリューションは、構造工学を含む多くの分野のランドスケープを急速に変化させています。 期待できる性能にもかかわらず、これらのアプローチは通常、構造工学における概念実証としてのみ実証され、現実世界のアプリケーションにデプロイされることは滅多にない。 本稿では,2つの具体例を通して,デプロイメントに適したMLモデルを開発する上での課題について述べる。 様々な落とし穴の中で、提示された議論は、モデルの過度な適合と過小評価、トレーニングデータ代表性、変数の欠落バイアス、およびクロスバリデーションに焦点を当てている。 その結果,適応サンプリングによる厳密なモデル検証手法の実装の重要性,物理インフォームド特徴選択の注意,モデルの複雑さと一般化可能性の両面について考察した。

Machine learning (ML)-based solutions are rapidly changing the landscape of many fields, including structural engineering. Despite their promising performance, these approaches are usually only demonstrated as proof-of-concept in structural engineering, and are rarely deployed for real-world applications. This paper aims to illustrate the challenges of developing ML models suitable for deployment through two illustrative examples. Among various pitfalls, the presented discussion focuses on model overfitting and underspecification, training data representativeness, variable omission bias, and cross-validation. The results highlight the importance of implementing rigorous model validation techniques through adaptive sampling, careful physics-informed feature selection, and considerations of both model complexity and generalizability.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-18
# NLPモデルの潜在概念に基づく説明

Latent Concept-based Explanation of NLP Models ( http://arxiv.org/abs/2404.12545v1 )

ライセンス: Link先を確認
Xuemin Yu, Fahim Dalvi, Nadir Durrani, Hassan Sajjad, (参考訳) ディープラーニングモデルによる予測の解釈と理解は、本質的に不透明な性質のため、非常に難しい課題となる。 これらの予測を説明することを目的とした以前の取り組みの多くは、入力機能、特にNLPモデル内の単語に依存していた。 しかし、これらの説明は、これらの単語の離散的な性質と文脈的冗長性の欠如により、あまり意味を示さないことが多い。 この制限に対処するために、潜伏概念に基づく予測のための説明を生成するLACOAT(Latent Concept Attribution Method)を導入する。 私たちの創始した直感は、単語が使われる文脈に基づいて複数の面を表現できるということです。 したがって、文脈において単語が与えられた場合、トレーニングプロセスから派生した潜在空間はその単語の特定の面を反映する。 LACOATは、有能な入力語の表現をトレーニング潜在空間にマッピングすることで機能し、この潜在空間内の文脈に基づく説明を予測できる。

Interpreting and understanding the predictions made by deep learning models poses a formidable challenge due to their inherently opaque nature. Many previous efforts aimed at explaining these predictions rely on input features, specifically, the words within NLP models. However, such explanations are often less informative due to the discrete nature of these words and their lack of contextual verbosity. To address this limitation, we introduce the Latent Concept Attribution method (LACOAT), which generates explanations for predictions based on latent concepts. Our founding intuition is that a word can exhibit multiple facets, contingent upon the context in which it is used. Therefore, given a word in context, the latent space derived from our training process reflects a specific facet of that word. LACOAT functions by mapping the representations of salient input words into the training latent space, allowing it to provide predictions with context-based explanations within this latent space.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-18
# ガウススティングはSFM初期化を必要とするか?

Does Gaussian Splatting need SFM Initialization? ( http://arxiv.org/abs/2404.12547v1 )

ライセンス: Link先を確認
Yalda Foroutan, Daniel Rebain, Kwang Moo Yi, Andrea Tagliasacchi, (参考訳) 3Dガウススプラッティングは, 高品質な結果とハードウェアのラスタ化との整合性から, シーン再構成と新しいビュー合成の汎用的で効果的な手法として近年採用されている。 その利点にも拘わらず、Structure-from-Motion (SFM)アルゴリズムによる高品質の点雲初期化への依存は克服すべき重要な限界である。 そこで我々は, ニューラルレイディアンスフィールド(NeRF)からの体積再構成を用いて, SFMデータへの依存を回避し, ガウシアン・スティングの様々な初期化戦略について検討した。 提案手法は, 改良された初期化戦略と低コストNeRFモデルによる構造蒸留を組み合わせることで, SFMの初期化結果と同等, あるいはそれ以上に優れた結果が得られることを示した。

3D Gaussian Splatting has recently been embraced as a versatile and effective method for scene reconstruction and novel view synthesis, owing to its high-quality results and compatibility with hardware rasterization. Despite its advantages, Gaussian Splatting's reliance on high-quality point cloud initialization by Structure-from-Motion (SFM) algorithms is a significant limitation to be overcome. To this end, we investigate various initialization strategies for Gaussian Splatting and delve into how volumetric reconstructions from Neural Radiance Fields (NeRF) can be utilized to bypass the dependency on SFM data. Our findings demonstrate that random initialization can perform much better if carefully designed and that by employing a combination of improved initialization strategies and structure distillation from low-cost NeRF models, it is possible to achieve equivalent results, or at times even superior, to those obtained from SFM initialization.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-18
# 線形二次レギュレータのサンプル複雑さ:強化学習レンズ

Sample Complexity of the Linear Quadratic Regulator: A Reinforcement Learning Lens ( http://arxiv.org/abs/2404.10851v2 )

ライセンス: Link先を確認
Amirreza Neshaei Moghaddam, Alex Olshevsky, Bahman Gharesifard, (参考訳) 未知パラメータを持つ離散時間LQR問題の関数評価を2点勾配推定に頼らずに,$\widetilde{\mathcal{O}}(1/\varepsilon)$$$\varepsilon$-optimalityを実現した最初のアルゴリズムを提供する。 これらの推定は多くの設定において非現実的であることが知られており、それらは2つの異なるポリシーに対してランダムに選択される全く同じ初期化を使用することに依存している。 我々の結果は、2点勾配推定の領域外にある既存の文献を著しく改善し、$\widetilde{\mathcal{O}}(1/\varepsilon^2)$レートに導かれるか、安定性の仮定に強く依存する。

We provide the first known algorithm that provably achieves $\varepsilon$-optimality within $\widetilde{\mathcal{O}}(1/\varepsilon)$ function evaluations for the discounted discrete-time LQR problem with unknown parameters, without relying on two-point gradient estimates. These estimates are known to be unrealistic in many settings, as they depend on using the exact same initialization, which is to be selected randomly, for two different policies. Our results substantially improve upon the existing literature outside the realm of two-point gradient estimates, which either leads to $\widetilde{\mathcal{O}}(1/\varepsilon^2)$ rates or heavily relies on stability assumptions.
翻訳日:2024-04-22 12:21:28 公開日:2024-04-18
# 行動理論と機械学習による人間の意思決定予測

Predicting human decisions with behavioral theories and machine learning ( http://arxiv.org/abs/1904.06866v2 )

ライセンス: Link先を確認
Ori Plonsky, Reut Apel, Eyal Ert, Moshe Tennenholtz, David Bourgin, Joshua C. Peterson, Daniel Reichman, Thomas L. Griffiths, Stuart J. Russell, Evan C. Carter, James F. Cavanagh, Ido Erev, (参考訳) リスクと不確実性の下で人間の意思決定を予測することは、経済学、心理学、および関連する分野にまたがる重要な課題である。 何十年もの研究努力にもかかわらず、宝くじの選択のような最もスタイリングされたタスクであっても、人間の選択を正確に記述し、予測するモデルが存在しない。 本稿では,ビヘイビア理論,特にBEASTモデルと機械学習技術を組み合わせた新しいハイブリッドモデルであるBEAST Gradient Boosting(BEAST-GB)を紹介する。 まず、BEAST-GBが勝利したリスクと不確実性の下での人間の意思決定を予測するオープンコンペティションであるCPC18について、BEAST-GBの有効性を示す。 第2に、人間のリスク選択の最も広く公開されているデータセットに対して、最先端のパフォーマンスを実現し、純粋にデータ駆動型ニューラルネットワークよりも優れており、大規模データの存在におけるBEAST理論的洞察の継続的な関連性を示している。 第3に、BEAST-GBの優れた予測力について、BEASTモデルが単独でフェールする選択実験で示し、複雑な慣用的行動データの解釈において機械学習が不可欠であることを示す。 最後に、BEAST-GBは、訓練されていない新しい実験コンテキストにおける選択の振る舞いを効果的に予測するので、堅牢なドメイン一般化機能も示しています。 これらの結果は、ドメイン固有の理論フレームワークと機械学習を組み合わせることの可能性を確認し、様々な環境でのモデリング決定に幅広い意味を持つ方法論的な進歩を裏付けるものである。

Predicting human decision-making under risk and uncertainty represents a quintessential challenge that spans economics, psychology, and related disciplines. Despite decades of research effort, no model can be said to accurately describe and predict human choice even for the most stylized tasks like choice between lotteries. Here, we introduce BEAST Gradient Boosting (BEAST-GB), a novel hybrid model that synergizes behavioral theories, specifically the model BEAST, with machine learning techniques. First, we show the effectiveness of BEAST-GB by describing CPC18, an open competition for prediction of human decision making under risk and uncertainty, in which BEAST-GB won. Second, we show that it achieves state-of-the-art performance on the largest publicly available dataset of human risky choice, outperforming purely data-driven neural networks, indicating the continued relevance of BEAST theoretical insights in the presence of large data. Third, we demonstrate BEAST-GB's superior predictive power in an ensemble of choice experiments in which the BEAST model alone falters, underscoring the indispensable role of machine learning in interpreting complex idiosyncratic behavioral data. Finally, we show BEAST-GB also displays robust domain generalization capabilities as it effectively predicts choice behavior in new experimental contexts that it was not trained on. These results confirm the potency of combining domain-specific theoretical frameworks with machine learning, underscoring a methodological advance with broad implications for modeling decisions in diverse environments.
翻訳日:2024-04-21 20:17:43 公開日:2024-04-18
# StackGenVis:パフォーマンスメトリクスを使用したスタックングアンサンブル学習のためのデータ、アルゴリズム、モデルのアライメント

StackGenVis: Alignment of Data, Algorithms, and Models for Stacking Ensemble Learning Using Performance Metrics ( http://arxiv.org/abs/2005.01575v9 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Rafael M. Martins, Kostiantyn Kucher, Andreas Kerren, (参考訳) 機械学習(ML)では、バッグング、ブースティング、スタックングといったアンサンブル手法が広く確立されており、トップノートの予測性能を定期的に達成している。 スタック化(スタック一般化、stacked generalization)は、少なくとも一つの層に配置された異種基底モデルを組み合わせて、それらのモデルの予測を要約するために別のメタモデルを使用するアンサンブル法である。 これは、MLの予測性能を高めるための非常に効果的なアプローチかもしれないが、スクラッチからモデルのスタックを生成することは、面倒な試行錯誤プロセスである。 この課題は、トレーニングに使用できるさまざまなデータインスタンスと機能、選択するアルゴリズム、さまざまなパラメータ(モデルなど)を使用してこれらのアルゴリズムをインスタンス化するなど、利用可能なソリューションの膨大なスペースに起因している。 本研究では,可視化によるアンサンブル学習を支援する知識生成モデルと,積み重ね一般化のための視覚解析システムを提案する。 当社のシステムであるStackGenVisは、パフォーマンスメトリクスの動的適応、データインスタンスの管理、データセットの最も重要な機能の選択、トップパフォーマンスと多様なアルゴリズムのセットの選択、予測パフォーマンスの測定を支援する。 その結果,提案ツールにより,異なるモデルを決定するとともに,過剰生産モデルや過小評価モデルを取り除き,結果のスタックの複雑さを低減することができる。 StackGenVisの適用性と有効性は、2つのユースケースで実証されている。 最後に、このツールは3人のML専門家とのインタビューを通じて評価されている。

In machine learning (ML), ensemble methods such as bagging, boosting, and stacking are widely-established approaches that regularly achieve top-notch predictive performance. Stacking (also called "stacked generalization") is an ensemble method that combines heterogeneous base models, arranged in at least one layer, and then employs another metamodel to summarize the predictions of those models. Although it may be a highly-effective approach for increasing the predictive performance of ML, generating a stack of models from scratch can be a cumbersome trial-and-error process. This challenge stems from the enormous space of available solutions, with different sets of data instances and features that could be used for training, several algorithms to choose from, and instantiations of these algorithms using diverse parameters (i.e., models) that perform differently according to various metrics. In this work, we present a knowledge generation model, which supports ensemble learning with the use of visualization, and a visual analytics system for stacked generalization. Our system, StackGenVis, assists users in dynamically adapting performance metrics, managing data instances, selecting the most important features for a given data set, choosing a set of top-performant and diverse algorithms, and measuring the predictive performance. In consequence, our proposed tool helps users to decide between distinct models and to reduce the complexity of the resulting stack by removing overpromising and underperforming models. The applicability and effectiveness of StackGenVis are demonstrated with two use cases: a real-world healthcare data set and a collection of data related to sentiment/stance detection in texts. Finally, the tool has been evaluated through interviews with three ML experts.
翻訳日:2024-04-21 20:14:16 公開日:2024-04-18
# FeatureEnVi: ステップワイズ選択と半自動抽出アプローチを用いた機能エンジニアリングのためのビジュアル分析

FeatureEnVi: Visual Analytics for Feature Engineering Using Stepwise Selection and Semi-Automatic Extraction Approaches ( http://arxiv.org/abs/2103.14539v4 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Rafael M. Martins, Kostiantyn Kucher, Andreas Kerren, (参考訳) 機械学習(ML)のライフサイクルは、複雑な特徴エンジニアリングプロセスを含むデータの効率的な収集と準備から、プレゼンテーションと結果の改善に至るまで、さまざまなステップから選択するアルゴリズムを含む一連の反復的なステップを含む。 特に機能エンジニアリングはMLにとって非常に有益であり、予測結果を向上し、計算時間を短縮し、過度なノイズを低減し、トレーニング中に行われた決定の背後にある透明性を高めるなど、多くの改善がもたらされる。 それにもかかわらず、MLライフサイクルのさまざまなステージ(特にデータとアルゴリズムに関連するもの)を監視し制御するための視覚分析ツールがいくつか存在するが、機能エンジニアリングのサポートは依然として不十分である。 本稿では,機能工学プロセスを支援するために設計された視覚分析システムであるFeatureEnViを提案する。 提案システムは,ユーザが最も重要な機能を選択し,元の機能を強力な代替品に転換し,異なる機能生成の組み合わせを試すのに役立つ。 さらに、データ空間スライシングにより、ユーザーはローカルとグローバルの両方のスケールで機能の影響を調べることができる。 FeatureEnViは複数の自動機能選択技術を使用し、さらに、各機能(または機能のサブセット)の影響に関する統計的証拠を視覚的にユーザに案内する。 最終的な成果は、複数のバリデーションメトリクスによって評価される、高度にエンジニアリングされた機能の抽出である。 FeatureEnViの有用性と適用性は2つのユースケースと1つのケーススタディで実証された。 また,2人のML専門家と,システムの有効性を評価する可視化研究者とのインタビューから,フィードバックを報告する。

The machine learning (ML) life cycle involves a series of iterative steps, from the effective gathering and preparation of the data, including complex feature engineering processes, to the presentation and improvement of results, with various algorithms to choose from in every step. Feature engineering in particular can be very beneficial for ML, leading to numerous improvements such as boosting the predictive results, decreasing computational times, reducing excessive noise, and increasing the transparency behind the decisions taken during the training. Despite that, while several visual analytics tools exist to monitor and control the different stages of the ML life cycle (especially those related to data and algorithms), feature engineering support remains inadequate. In this paper, we present FeatureEnVi, a visual analytics system specifically designed to assist with the feature engineering process. Our proposed system helps users to choose the most important feature, to transform the original features into powerful alternatives, and to experiment with different feature generation combinations. Additionally, data space slicing allows users to explore the impact of features on both local and global scales. FeatureEnVi utilizes multiple automatic feature selection techniques; furthermore, it visually guides users with statistical evidence about the influence of each feature (or subsets of features). The final outcome is the extraction of heavily engineered features, evaluated by multiple validation metrics. The usefulness and applicability of FeatureEnVi are demonstrated with two use cases and a case study. We also report feedback from interviews with two ML experts and a visualization researcher who assessed the effectiveness of our system.
翻訳日:2024-04-21 20:14:16 公開日:2024-04-18
# 超対称性系の複雑性とコホモロジー問題

Complexity of Supersymmetric Systems and the Cohomology Problem ( http://arxiv.org/abs/2107.00011v2 )

ライセンス: Link先を確認
Chris Cade, P. Marcos Crichigno, (参考訳) 我々は、局所ハミルトニアン問題の複雑性を$\mathcal N=2 $ 超対称性を持つフェルミオンハミルトニアンの文脈で考慮し、その問題が$\mathsf{QMA}$-完全であることを示す。 これを研究する主な動機は、超対称系の基底状態エネルギーがちょうどゼロであることと、あるコホモロジー群が非自明であることである。 このことは、代数トポロジー、代数幾何学、群論などの問題を含むホモロジー代数で生じる多くのアルゴリズム問題の計算複雑性を研究するためにハミルトンの複雑さのツールをもたらすための扉を開く。 k$-局所コホモロジー問題を導入して、それが$\mathsf{QMA}_1$-hardであることを示し、大規模なインスタンスに対して、$\mathsf{QMA}$に含まれることを示す。 次に、正規化されたベティ数の推定の複雑さを考察し、この問題が量子複雑性クラス $\mathsf{DQC}1$ にとって困難であることを示し、また、大規模なインスタンスのクラスは $\mathsf{BQP}$ に含まれる。 これらの結果を踏まえて、超対称フェルミオン系の基底状態を見つけるという観点から、これらのホモロジー問題の多くをフレーム化するのは自然であると主張する。 この視点の図解として、グラフ上のハードコアフェルミオンからなるフェンドリー、シューテンス、ド・ボアのモデルについて、基底状態構造はグラフの独立複素体に$l$次元の穴を符号化する。 これは、トポロジカルデータ分析のための既存の量子アルゴリズムの新しい視点を提供し、新しいものを提案する。

We consider the complexity of the local Hamiltonian problem in the context of fermionic Hamiltonians with $\mathcal N=2 $ supersymmetry and show that the problem remains $\mathsf{QMA}$-complete. Our main motivation for studying this is the well-known fact that the ground state energy of a supersymmetric system is exactly zero if and only if a certain cohomology group is nontrivial. This opens the door to bringing the tools of Hamiltonian complexity to study the computational complexity of a large number of algorithmic problems that arise in homological algebra, including problems in algebraic topology, algebraic geometry, and group theory. We take the first steps in this direction by introducing the $k$-local Cohomology problem and showing that it is $\mathsf{QMA}_1$-hard and, for a large class of instances, is contained in $\mathsf{QMA}$. We then consider the complexity of estimating normalized Betti numbers and show that this problem is hard for the quantum complexity class $\mathsf{DQC}1$, and for a large class of instances is contained in $\mathsf{BQP}$. In light of these results, we argue that it is natural to frame many of these homological problems in terms of finding ground states of supersymmetric fermionic systems. As an illustration of this perspective we discuss in some detail the model of Fendley, Schoutens, and de Boer consisting of hard-core fermions on a graph, whose ground state structure encodes $l$-dimensional holes in the independence complex of the graph. This offers a new perspective on existing quantum algorithms for topological data analysis and suggests new ones.
翻訳日:2024-04-21 20:14:16 公開日:2024-04-18
# CogME: ストーリー理解のための認知型多次元評価指標

CogME: A Cognition-Inspired Multi-Dimensional Evaluation Metric for Story Understanding ( http://arxiv.org/abs/2107.09847v2 )

ライセンス: Link先を確認
Minjung Shin, Seongho Choi, Yu-Jung Heo, Minsu Lee, Byoung-Tak Zhang, Jeh-Kwang Ryu, (参考訳) 本稿では,物語理解に着目したAIモデルを対象とした認知型多次元評価指標であるCogMEを紹介する。 CogMEは、人間の思考戦略とストーリー理解を含むストーリー要素に基づくフレームワークである。 質問の具体的なブレークダウンによって、このアプローチは、AIモデルの特定の長所と短所だけでなく、ベンチマークデータセットの特性も明らかにする、微妙な評価を提供する。 DramaQAデータセットを用いたケーススタディでは、モデルとベンチマークデータセットの洗練された分析が示されている。 我々は,タスクの性質を理解することに基づくメトリクスの必要性を論じ,人間の認知過程と密接に整合するように設計されている。 このアプローチは、従来の全体的なスコアを超えて洞察を提供し、より高い認知機能をターゲットにしたより洗練されたAI開発のための道を開く。

We introduce CogME, a cognition-inspired, multi-dimensional evaluation metric designed for AI models focusing on story understanding. CogME is a framework grounded in human thinking strategies and story elements that involve story understanding. With a specific breakdown of the questions, this approach provides a nuanced assessment revealing not only AI models' particular strengths and weaknesses but also the characteristics of the benchmark dataset. Our case study with the DramaQA dataset demonstrates a refined analysis of the model and the benchmark dataset. We argue the need for metrics based on understanding the nature of tasks and designed to align closely with human cognitive processes. This approach provides insights beyond traditional overall scores and paves the way for more sophisticated AI development targeting higher cognitive functions.
翻訳日:2024-04-21 20:14:16 公開日:2024-04-18
# HardVis:アンダーサンプリングとオーバーサンプリング技術を使ってインスタンスのハードネスを処理するビジュアルアナリティクス

HardVis: Visual Analytics to Handle Instance Hardness Using Undersampling and Oversampling Techniques ( http://arxiv.org/abs/2203.15753v4 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Fernando V. Paulovich, Andreas Kerren, (参考訳) 機械学習(ML)の飛躍的な進歩にもかかわらず、不均衡なデータによるトレーニングは、多くの現実世界のアプリケーションで依然として課題となっている。 この問題を解決するための様々な手法の中で、サンプリングアルゴリズムは効率的な解であると見なされている。 しかし、この問題はより根本的なものであり、多くの研究がインスタンスの硬さの重要性を強調している。 この問題は、分類が不十分なパフォーマンスの根本原因となりやすい、安全でないインスタンスや、潜在的にノイズの多いインスタンスを管理することの重要性を指す。 本稿では、主に不均衡な分類シナリオにおいて、インスタンスの硬さを扱うために設計された視覚分析システムであるHardVisを紹介する。 提案システムでは,データ型の異なる分布を視覚的に比較し,後にアクティブサンプリング法によって影響を受ける局所的な特徴に基づいてインスタンスの種類を選択し,アンダーサンプリングやオーバーサンプリングによる提案がMLモデルに有用であるかどうかを検証する。 さらに、特定のクラスを一様にアンサンプ/オーバーサンプリングする代わりに、ユーザーは簡単にサンプルを見つけることができ、すべてのクラスからトレーニングインスタンスを分類することは困難です。 ユーザは異なる視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。一方、HardVisはステップを追跡し、テストセットでモデルの予測パフォーマンスを別々に評価する。 最終的な結果は、MLモデルの予測能力を高めるためのバランスのとれたデータセットである。 HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。 最後に、MLの専門家から受け取ったフィードバックに基づいて、私たちのシステムがいかに有用かについても調べる。

Despite the tremendous advances in machine learning (ML), training with imbalanced data still poses challenges in many real-world applications. Among a series of diverse techniques to solve this problem, sampling algorithms are regarded as an efficient solution. However, the problem is more fundamental, with many works emphasizing the importance of instance hardness. This issue refers to the significance of managing unsafe or potentially noisy instances that are more likely to be misclassified and serve as the root cause of poor classification performance. This paper introduces HardVis, a visual analytics system designed to handle instance hardness mainly in imbalanced classification scenarios. Our proposed system assists users in visually comparing different distributions of data types, selecting types of instances based on local characteristics that will later be affected by the active sampling method, and validating which suggestions from undersampling or oversampling techniques are beneficial for the ML model. Additionally, rather than uniformly undersampling/oversampling a specific class, we allow users to find and sample easy and difficult to classify training instances from all classes. Users can explore subsets of data from different perspectives to decide all those parameters, while HardVis keeps track of their steps and evaluates the model's predictive performance in a test set separately. The end result is a well-balanced data set that boosts the predictive power of the ML model. The efficacy and effectiveness of HardVis are demonstrated with a hypothetical usage scenario and a use case. Finally, we also look at how useful our system is based on feedback we received from ML experts.
翻訳日:2024-04-21 20:14:16 公開日:2024-04-18
# t-viSNE: t-SNE射影の相互評価と解釈

t-viSNE: Interactive Assessment and Interpretation of t-SNE Projections ( http://arxiv.org/abs/2002.06910v5 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Rafael M. Martins, Andreas Kerren, (参考訳) t-Distributed Stochastic Neighbor Embedding (t-SNE) for the visualization of multidimensional data has been proven to be popular approach, with successful application in wide range of domain。 その有用性にもかかわらず、t-SNEプロジェクションは解釈しにくいり、誤解を招くこともあるため、結果の信頼性を損なう。 t-SNE自体の詳細と出力中の特定のパターンの背後にある理由を理解することは、特に次元減少の非専門家にとって、大変な作業である可能性がある。 本研究では,T-SNEプロジェクションを視覚的に探索するためのインタラクティブツールであるt-viSNEを提案する。このプロジェクションは,ハイパーパラメータの影響,距離と周辺保存,特定近傍の密度とコスト,次元と視覚パターンの相関など,分析者がそれぞれの精度と意味の異なる側面を検査することができる。 本稿では, t-SNEプロジェクションの可視化のために, 一貫性があり, アクセスしやすく, 統合された様々なビューの集合を提案する。 t-viSNEの適用性とユーザビリティは,実データを用いた仮説的利用シナリオを通じて実証される。 最後に,ツールの有効性が評価されたユーザスタディの結果を示す。 t-SNEを実行した後、通常失われるであろう光情報をもたらすことで、t-SNEの使用をアナリストに支援し、その結果をより理解しやすくしたいと考えています。

t-Distributed Stochastic Neighbor Embedding (t-SNE) for the visualization of multidimensional data has proven to be a popular approach, with successful applications in a wide range of domains. Despite their usefulness, t-SNE projections can be hard to interpret or even misleading, which hurts the trustworthiness of the results. Understanding the details of t-SNE itself and the reasons behind specific patterns in its output may be a daunting task, especially for non-experts in dimensionality reduction. In this work, we present t-viSNE, an interactive tool for the visual exploration of t-SNE projections that enables analysts to inspect different aspects of their accuracy and meaning, such as the effects of hyper-parameters, distance and neighborhood preservation, densities and costs of specific neighborhoods, and the correlations between dimensions and visual patterns. We propose a coherent, accessible, and well-integrated collection of different views for the visualization of t-SNE projections. The applicability and usability of t-viSNE are demonstrated through hypothetical usage scenarios with real data sets. Finally, we present the results of a user study where the tool's effectiveness was evaluated. By bringing to light information that would normally be lost after running t-SNE, we hope to support analysts in using t-SNE and making its results better understandable.
翻訳日:2024-04-19 21:05:42 公開日:2024-04-18
# VisEvol:進化的最適化を通じてハイパーパラメータ検索をサポートするビジュアルアナリティクス

VisEvol: Visual Analytics to Support Hyperparameter Search through Evolutionary Optimization ( http://arxiv.org/abs/2012.01205v4 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Rafael M. Martins, Kostiantyn Kucher, Andreas Kerren, (参考訳) 機械学習(ML)モデルのトレーニングフェーズでは、通常、いくつかのハイパーパラメータを設定する必要がある。 このプロセスは計算集約的で、与えられた問題に対して最適なハイパーパラメータセットを推測するために広範囲な探索が必要である。 この課題は、ほとんどのMLモデルは内部的に複雑であり、トレーニングには、予測結果に著しく影響を及ぼす可能性のある試行錯誤プロセスが含まれるという事実によって悪化する。 さらに、MLアルゴリズムの各ハイパーパラメータは他のパラメータと相互に絡み合う可能性があり、変更は残りのハイパーパラメータに予期せぬ影響をもたらす可能性がある。 進化的最適化はこれらの問題に対処するための有望な方法である。 この方法によれば、パフォーマンスモデルが格納され、残りのモデルは遺伝的アルゴリズムにインスパイアされたクロスオーバーおよび突然変異プロセスによって改善される。 本稿では,ハイパーパラメータのインタラクティブな探索と,この進化過程への介入を支援する視覚解析ツールVisEvolを紹介する。 要約して,提案手法は,ユーザが進化を通じて新しいモデルを生成するのに役立ち,最終的には広範囲のハイパーパラメータ空間の多様な領域において,強力なハイパーパラメータの組み合わせを探索する。 結果は(平等な権利を持つ)投票のアンサンブルであり、最終的な予測性能を高める。 VisEvolの実用性と適用性は,2つのユースケースと,ツールの有効性を評価するML専門家へのインタビューで実証された。

During the training phase of machine learning (ML) models, it is usually necessary to configure several hyperparameters. This process is computationally intensive and requires an extensive search to infer the best hyperparameter set for the given problem. The challenge is exacerbated by the fact that most ML models are complex internally, and training involves trial-and-error processes that could remarkably affect the predictive result. Moreover, each hyperparameter of an ML algorithm is potentially intertwined with the others, and changing it might result in unforeseeable impacts on the remaining hyperparameters. Evolutionary optimization is a promising method to try and address those issues. According to this method, performant models are stored, while the remainder are improved through crossover and mutation processes inspired by genetic algorithms. We present VisEvol, a visual analytics tool that supports interactive exploration of hyperparameters and intervention in this evolutionary procedure. In summary, our proposed tool helps the user to generate new models through evolution and eventually explore powerful hyperparameter combinations in diverse regions of the extensive hyperparameter space. The outcome is a voting ensemble (with equal rights) that boosts the final predictive performance. The utility and applicability of VisEvol are demonstrated with two use cases and interviews with ML experts who evaluated the effectiveness of the tool.
翻訳日:2024-04-19 21:05:42 公開日:2024-04-18
# 相関平衡メタソルバーを用いたゼロサムを超えるマルチエージェントトレーニング

Multi-Agent Training beyond Zero-Sum with Correlated Equilibrium Meta-Solvers ( http://arxiv.org/abs/2106.09435v3 )

ライセンス: Link先を確認
Luke Marris, Paul Muller, Marc Lanctot, Karl Tuyls, Thore Graepel, (参考訳) 2人のプレイヤーによるコンスタントサムゲームは文献でよく研究されているが、この設定以外では限定的な進展が見られた。 我々は,n-player, general-sum extensive form gameにおけるエージェントのトレーニングアルゴリズムであるJoint Policy-Space Response Oracles (JPSRO)を提案する。 さらに, メタ溶媒として相関平衡 (CE) を提案するとともに, 相関平衡選択問題の解法として, 原理的かつ計算学的に効率的な解の族である最大ギニ相関平衡 (MGCE) を新たに提案する。 JPSROのためのCEメタソルバを用いていくつかの実験を行い、n-player, general-sumゲーム上で収束を示す。

Two-player, constant-sum games are well studied in the literature, but there has been limited progress outside of this setting. We propose Joint Policy-Space Response Oracles (JPSRO), an algorithm for training agents in n-player, general-sum extensive form games, which provably converges to an equilibrium. We further suggest correlated equilibria (CE) as promising meta-solvers, and propose a novel solution concept Maximum Gini Correlated Equilibrium (MGCE), a principled and computationally efficient family of solutions for solving the correlated equilibrium selection problem. We conduct several experiments using CE meta-solvers for JPSRO and demonstrate convergence on n-player, general-sum games.
翻訳日:2024-04-19 21:05:42 公開日:2024-04-18
# VisRuler: タグ付きおよびブーストされた決定木から決定ルールを抽出するビジュアル分析

VisRuler: Visual Analytics for Extracting Decision Rules from Bagged and Boosted Decision Trees ( http://arxiv.org/abs/2112.00334v5 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Rafael M. Martins, Andreas Kerren, (参考訳) バッグングとブースティングは、機械学習(ML)において、多くの個別決定木を生成する2つの一般的なアンサンブル手法である。 これらの手法の固有のアンサンブル特性のため、予測性能において単一の決定木や他のMLモデルよりも優れる。 しかし、決定木ごとに多くの決定経路が生成され、モデル全体の複雑さが増大し、金融、社会医療、医療などの信頼できる説明可能な決定を必要とする領域での使用が妨げられる。 したがって、ランダムフォレストやアダプティブ・ブーピングのようなバッグングとブースティングアルゴリズムの解釈可能性は、決定数が増加するにつれて低下する。 本稿では,ユーザによるMLモデルからの意思決定の抽出を支援するビジュアル分析ツールを提案する。このツールは,堅牢で多様なモデル(異なるアンサンブル学習アルゴリズムから派生したもの)を選択し,グローバルなコントリビューションに応じて重要な特徴を選択し,グローバルな説明(あるいは特定のケースに対して,どの決定が必須であるかを判断する。 結果は、いくつかのモデルのクラス合意と、ユーザがエクスポートした手作業による決定に基づいて、最終的な決定となる。 ユースケース,利用シナリオ,ユーザスタディを通じて,VisRulerの適用性と有効性を評価した。 評価の結果,ほとんどのユーザが意思決定ルールを視覚的に探索し,提案したタスクを実行し,満足な方法で質問に答えることに成功していることがわかった。

Bagging and boosting are two popular ensemble methods in machine learning (ML) that produce many individual decision trees. Due to the inherent ensemble characteristic of these methods, they typically outperform single decision trees or other ML models in predictive performance. However, numerous decision paths are generated for each decision tree, increasing the overall complexity of the model and hindering its use in domains that require trustworthy and explainable decisions, such as finance, social care, and health care. Thus, the interpretability of bagging and boosting algorithms, such as random forest and adaptive boosting, reduces as the number of decisions rises. In this paper, we propose a visual analytics tool that aims to assist users in extracting decisions from such ML models via a thorough visual inspection workflow that includes selecting a set of robust and diverse models (originating from different ensemble learning algorithms), choosing important features according to their global contribution, and deciding which decisions are essential for global explanation (or locally, for specific cases). The outcome is a final decision based on the class agreement of several models and the explored manual decisions exported by users. We evaluated the applicability and effectiveness of VisRuler via a use case, a usage scenario, and a user study. The evaluation revealed that most users managed to successfully use our system to explore decision rules visually, performing the proposed tasks and answering the given questions in a satisfying way.
翻訳日:2024-04-19 21:05:42 公開日:2024-04-18
# FuSeBMC v4: BMC、ファジング、静的解析によるスマートシードによるコードカバレッジの改善

FuSeBMC v4: Improving code coverage with smart seeds via BMC, fuzzing and static analysis ( http://arxiv.org/abs/2206.14068v4 )

ライセンス: Link先を確認
Kaled M. Alshmrany, Mohannad Aldughaim, Ahmed Bhayat, Lucas C. Cordeiro, (参考訳) 境界モデルチェック(BMC)とファジィング(fuzzing)は、ソフトウェアにおけるエラーやセキュリティの脆弱性を検出する最も効果的な方法の一つである。 しかし、対象コードの広い範囲をカバーする既存の手法が不可能であるため、これらの誤りを検出するには依然として欠点がある。 そこで我々は,FuSeBMC v4を提案する。FuSeBMC v4は,種を有用な特性で合成するテストジェネレータで,これをスマートシードと呼び,ハイブリッドファザの性能を向上させることにより,高いCプログラムカバレッジを実現する。 FuSeBMCは、最初に目標ラベルを与えられたCプログラムにインクリメンタルにインジェクションして、BMCとEvolutionary Fuzzingエンジンを誘導する。 その後、エンジンは初期の期間、いわゆるスマートシードを製造するために使用される。 最後に、エンジンは再び実行され、これらのスマートシードをスタートシードとして、コードカバレッジの最大化とバグの発見を試みている。 シード生成と通常の実行の両方において、エンジン間の調整はTracerサブシステムによって支援される。 このサブシステムは、追加のカバレッジ分析を実行し、これまでカバーされた目標に関する情報と共に共有メモリを更新する。 さらに、Tracerはテストケースを動的に評価し、その後のテストファズリングのためにケースをシードに変換する。 したがって、BMCエンジンはファジングエンジンが複雑な数学的ガード(例えば入力検証)をバイパスできるシードを提供することができる。 その結果,第4回国際ソフトウェアテストコンペティション(Test-Comp 2022)に参加して3つの賞を受賞した。

Bounded model checking (BMC) and fuzzing techniques are among the most effective methods for detecting errors and security vulnerabilities in software. However, there are still shortcomings in detecting these errors due to the inability of existent methods to cover large areas in target code. We propose FuSeBMC v4, a test generator that synthesizes seeds with useful properties, that we refer to as smart seeds, to improve the performance of its hybrid fuzzer thereby achieving high C program coverage. FuSeBMC works by first analyzing and incrementally injecting goal labels into the given C program to guide BMC and Evolutionary Fuzzing engines. After that, the engines are employed for an initial period to produce the so-called smart seeds. Finally, the engines are run again, with these smart seeds as starting seeds, in an attempt to achieve maximum code coverage / find bugs. During both seed generation and normal running, coordination between the engines is aided by the Tracer subsystem. This subsystem carries out additional coverage analysis and updates a shared memory with information on goals covered so far. Furthermore, the Tracer evaluates test cases dynamically to convert cases into seeds for subsequent test fuzzing. Thus, the BMC engine can provide the seed that allows the fuzzing engine to bypass complex mathematical guards (e.g., input validation). As a result, we received three awards for participation in the fourth international competition in software testing (Test-Comp 2022), outperforming all state-of-the-art tools in every category, including the coverage category.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-18
# 検索に基づくソフトウェアマイクロベンチマーク優先順位付けの評価

Evaluating Search-Based Software Microbenchmark Prioritization ( http://arxiv.org/abs/2211.13525v4 )

ライセンス: Link先を確認
Christoph Laaber, Tao Yue, Shaukat Ali, (参考訳) コード変更が最優先であることから、ソフトウェアパフォーマンスが低下しないことを保証する。 解決策は、(機能的な)ユニットテストに似たパフォーマンステスト技術であるソフトウェアマイクロベンチマークを定期的に実行することです。 この課題に対処するため、テストケース優先順位付け(TCP)のような回帰テスト手法を調査し、マイクロベンチマークスイート内での実行を順序付けして、より早くより大きなパフォーマンス変化を検出する。 このような技術は単体テストのために設計され、マイクロベンチマークでサブパーを実行するか、複雑なパフォーマンスモデルを必要とする。 本稿では,単目的検索および多目的検索に基づくマイクロベンチマーク優先順位付け手法を実証的に評価し,それらがgreedy, coverage-based techniqueよりも効率的かつ効率的であるかどうかを明らかにする。 そこで我々は,最大化のためのカバレッジ,最小化のためのカバレッジオーバーラップ,最大化のための過去のパフォーマンス変化検出という,3つの探索目標を考案した。 検索アルゴリズム(SA)は競争力があるばかりでなく、最高の欲求、カバレッジベースのベースラインを上回りません。 しかし、パフォーマンス変更履歴のみを利用する単純な欲求的手法(カバレッジ情報なしで)は、最高のカバレッジベースの手法と同等かそれ以上に効果的であるが、実行時のオーバーヘッドは1%未満である。 これらの結果は、単純な非カバレッジベースのテクニックは、複雑なカバレッジベースのテクニックよりもマイクロベンチマークに適していることを示している。

Ensuring that software performance does not degrade after a code change is paramount. A solution is to regularly execute software microbenchmarks, a performance testing technique similar to (functional) unit tests, which, however, often becomes infeasible due to extensive runtimes. To address that challenge, research has investigated regression testing techniques, such as test case prioritization (TCP), which reorder the execution within a microbenchmark suite to detect larger performance changes sooner. Such techniques are either designed for unit tests and perform sub-par on microbenchmarks or require complex performance models, drastically reducing their potential application. In this paper, we empirically evaluate single- and multi-objective search-based microbenchmark prioritization techniques to understand whether they are more effective and efficient than greedy, coverage-based techniques. For this, we devise three search objectives, i.e., coverage to maximize, coverage overlap to minimize, and historical performance change detection to maximize. We find that search algorithms (SAs) are only competitive with but do not outperform the best greedy, coverage-based baselines. However, a simple greedy technique utilizing solely the performance change history (without coverage information) is equally or more effective than the best coverage-based techniques while being considerably more efficient, with a runtime overhead of less than 1%. These results show that simple, non-coverage-based techniques are a better fit for microbenchmarks than complex coverage-based techniques.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-18
# MetaStackVis: メタモデルのパフォーマンス評価を視覚的に支援する

MetaStackVis: Visually-Assisted Performance Evaluation of Metamodels ( http://arxiv.org/abs/2212.03539v3 )

ライセンス: Link先を確認
Ilya Ploshchik, Angelos Chatzimparmpas, Andreas Kerren, (参考訳) スタック化(スタックド・ジェネレーション)とは、複数のベースモデルが元のデータセットで訓練されているにもかかわらず、少なくとも1つの余分な層に配置された1つ以上のメタモデルの入力データとしてさらに使用されるアンサンブル学習法である。 モデルのスタックを構成することで高性能な結果が得られるが、通常は試行錯誤のプロセスが伴う。 そこで,これまで開発したビジュアル分析システムStackGenVisは,ユーザによる予測性能の測定により,最高のパフォーマンスと多様なモデルの選択を支援するように設計された。 しかし、単一のロジスティック回帰メタモデルのみを使用する。 本稿では,メタStackVisと呼ばれる新しい可視化ツールを用いて,代替メタモデルがアンサンブルの積み重ね性能に与える影響について検討する。 我々のインタラクティブツールは、ユーザが予測可能な確率と複数のバリデーションメトリクスに応じて、異なる特異点とペアのメタモデルを視覚的に探索し、特定の問題のあるデータインスタンスを予測するのに役立つ。 MetaStackVisは、医療データセットと専門家インタビューによる利用シナリオで評価された。

Stacking (or stacked generalization) is an ensemble learning method with one main distinctiveness from the rest: even though several base models are trained on the original data set, their predictions are further used as input data for one or more metamodels arranged in at least one extra layer. Composing a stack of models can produce high-performance outcomes, but it usually involves a trial-and-error process. Therefore, our previously developed visual analytics system, StackGenVis, was mainly designed to assist users in choosing a set of top-performing and diverse models by measuring their predictive performance. However, it only employs a single logistic regression metamodel. In this paper, we investigate the impact of alternative metamodels on the performance of stacking ensembles using a novel visualization tool, called MetaStackVis. Our interactive tool helps users to visually explore different singular and pairs of metamodels according to their predictive probabilities and multiple validation metrics, as well as their ability to predict specific problematic data instances. MetaStackVis was evaluated with a usage scenario based on a medical data set and via expert interviews.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-18
# 可視化を用いた機械学習モデルにおける信頼を高める技術の現状

The State of the Art in Enhancing Trust in Machine Learning Models with the Use of Visualizations ( http://arxiv.org/abs/2212.11737v2 )

ライセンス: Link先を確認
A. Chatzimparmpas, R. Martins, I. Jusufi, K. Kucher, Fabrice Rossi, A. Kerren, (参考訳) 機械学習(ML)モデルは、医学、バイオインフォマティクス、その他の科学など、様々な分野の複雑な応用で使われている。 しかし、ブラックボックスの性質のため、それらが提供する結果を理解し、信頼することは難しいこともある。 これにより、MLモデルの信頼性向上に関連する信頼性の高い視覚化ツールの需要が増大し、この数十年、可視化コミュニティにおける研究の目玉となった。 このトピックに関する現在の研究のフロンティアを概観するとともに,インタラクティブな可視化によるMLモデルの信頼性向上に関するState-of-the-Art Report(STAR)を提示する。 トピックの背景を定義し,その目的を達成するための可視化手法の分類を導入し,今後の研究方向性に対する洞察と機会について論じる。 私たちの貢献は、インタラクティブMLのさまざまな側面に対する信頼の分類であり、以前の研究から拡張および改善されています。 我々の研究結果は、異なる分析的視点から研究されている。 (a)統計的概要を提供する (b)重要な発見を要約すること (c)話題分析を行い、 (d) 対話型Webベースのサーベイブラウザのサポートにより,個々の論文で使用されるデータセットを探索する。 この調査は、MLモデルをより信頼できるものにすることに関心のある視覚化研究者や、他の分野の研究者や実践者が、タスクを信頼性を持って解決し、データに意味を伝えるのに適した効果的な視覚化手法を探索する上で有益である。

Machine learning (ML) models are nowadays used in complex applications in various domains, such as medicine, bioinformatics, and other sciences. Due to their black box nature, however, it may sometimes be hard to understand and trust the results they provide. This has increased the demand for reliable visualization tools related to enhancing trust in ML models, which has become a prominent topic of research in the visualization community over the past decades. To provide an overview and present the frontiers of current research on the topic, we present a State-of-the-Art Report (STAR) on enhancing trust in ML models with the use of interactive visualization. We define and describe the background of the topic, introduce a categorization for visualization techniques that aim to accomplish this goal, and discuss insights and opportunities for future research directions. Among our contributions is a categorization of trust against different facets of interactive ML, expanded and improved from previous research. Our results are investigated from different analytical perspectives: (a) providing a statistical overview, (b) summarizing key findings, (c) performing topic analyses, and (d) exploring the data sets used in the individual papers, all with the support of an interactive web-based survey browser. We intend this survey to be beneficial for visualization researchers whose interests involve making ML models more trustworthy, as well as researchers and practitioners from other disciplines in their search for effective visualization techniques suitable for solving their tasks with confidence and conveying meaning to their data.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-18
# COMET:ニューラルコストモデル記述フレームワーク

COMET: Neural Cost Model Explanation Framework ( http://arxiv.org/abs/2302.06836v3 )

ライセンス: Link先を確認
Isha Chaudhary, Alex Renda, Charith Mendis, Gagandeep Singh, (参考訳) コストモデルは、特定のマイクロアーキテクチャ上で所定のアセンブリコードの基本ブロックを実行するコストを予測する。 近年、ニューラルネットワークのコストモデルはかなり正確で構築が容易であることが示されている。 メインストリームのコンパイラワークフローで使用される分析コストモデルを置き換えることができる。 しかし、ブラックボックスの性質は採用を妨げている。 本研究では,ニューラルコストモデルに対する忠実で汎用的で直感的な説明を生成するための最初のフレームワークであるCOMETを開発する。 我々は、一般的なニューラルネットワークコストモデルであるIthemalに対するCOMETの説明を、正確なCPUシミュレーションベースのコストモデルであるuiCAに対して生成し、比較する。 Ithemal と uiCA の予測誤差とCOMET の説明における基本ブロック特徴の粒度との間には逆相関がみられ,iCA に関して Ithemal の誤差が高い可能性が示唆された。

Cost models predict the cost of executing given assembly code basic blocks on a specific microarchitecture. Recently, neural cost models have been shown to be fairly accurate and easy to construct. They can replace heavily engineered analytical cost models used in mainstream compiler workflows. However, their black-box nature discourages their adoption. In this work, we develop the first framework, COMET, for generating faithful, generalizable, and intuitive explanations for neural cost models. We generate and compare COMET's explanations for the popular neural cost model, Ithemal against those for an accurate CPU simulation-based cost model, uiCA. Our empirical findings show an inverse correlation between the prediction errors of Ithemal and uiCA and the granularity of basic block features in COMET's explanations for them, thus indicating potential reasons for the higher error of Ithemal with respect to uiCA.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-18
# ニューラルネットワークによるヘッジによるアメリカのオプション価格の同時上・下限

Simultaneous upper and lower bounds of American option prices with hedging via neural networks ( http://arxiv.org/abs/2302.12439v2 )

ライセンス: Link先を確認
Ivan Guo, Nicolas Langrené, Jiahao Wu, (参考訳) 本稿では,ニューラルネットワークを用いて,アメリカンスタイルのオプション価格問題と,その2つの形式を同時に解くための2つの方法を提案する。 ネストしたモンテカルロを適用することなく、第1の方法は一連のニューラルネットワークを使用してオプション価格の下限と上限の両方を同時に計算し、第2の方法は1つのグローバルネットワークで同じ目標を達成する。 得られた数値実験で示すように、余剰シミュレーションの回避とニューラルネットワークの使用により計算の複雑さが大幅に減少し、高次元での頻繁な運動機会を持つベルムダンオプションの価格設定が可能になる。 副産物として、これらの方法はオプションのヘッジ戦略を導出し、分散低減のための制御変数としても使用できる。

In this paper, we introduce two methods to solve the American-style option pricing problem and its dual form at the same time using neural networks. Without applying nested Monte Carlo, the first method uses a series of neural networks to simultaneously compute both the lower and upper bounds of the option price, and the second one accomplishes the same goal with one global network. The avoidance of extra simulations and the use of neural networks significantly reduce the computational complexity and allow us to price Bermudan options with frequent exercise opportunities in high dimensions, as illustrated by the provided numerical experiments. As a by-product, these methods also derive a hedging strategy for the option, which can also be used as a control variate for variance reduction.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-18
# ディープラーニングに基づくコード生成手法:文献レビュー

Deep Learning Based Code Generation Methods: Literature Review ( http://arxiv.org/abs/2303.01056v2 )

ライセンス: Link先を確認
Zezhou Yang, Sirong Chen, Cuiyun Gao, Zhenhao Li, Ge Li, Michael Lyu, (参考訳) 本稿では、自然言語記述に従って関連するコードフラグメントを生成することを目的としたコード生成タスクに焦点を当てる。 ソフトウェア開発のプロセスでは、開発者は2つのシナリオに遭遇することが多い。 共通機能を実装するために、大量の反復的かつ低技術的なコードを書くように要求される。 もう1つは、特定のタスク要求に依存するコードを書くことであり、ドキュメントや他のツールのような外部リソースの使用を必要とする可能性がある。 そのため、コード生成は、コーディングの開発者を支援するために、学界や業界で多くの注目を集めています。 実際、これはソフトウェア工学の分野における重要な関心事の1つであり、マシンがユーザーの要求を理解し、自分でプログラムを書くようにしている。 近年のディープラーニング技術の発達、特に事前学習モデルにより、コード生成タスクは有望なパフォーマンスを達成することができる。 本稿では,ディープラーニングベースのコード生成に関する現在の研究を体系的にレビューし,現在のディープラーニングベースのコード生成手法を,コード特徴に基づく方法,検索に組み込まれた方法,後処理に組み込んだ方法の3つのカテゴリに分類する。 第1のカテゴリは、コード特徴に基づくコード生成にディープラーニングアルゴリズムを使用するメソッドを指し、第2のカテゴリと第3のカテゴリは、第1のカテゴリにおけるメソッドのパフォーマンスを改善する。 本稿では,各カテゴリの既存研究成果を体系的にレビューし,要約し,コメントする。 さらに、既存のコード生成作業で使用されるコーパスと一般的な評価指標を要約し分析する。 最後に,本論文の総合的な文献レビューを要約し,今後の研究の方向性について考察する。

This paper focuses on Code Generation task that aims at generating relevant code fragments according to given natural language descriptions. In the process of software development, developers often encounter two scenarios. One is requested to write a large amount of repetitive and low-technical code for implementing common functionalities. The other is writing code that depends on specific task requirements, which may necessitate the use of external resources such as documentation or other tools. Therefore, code generation has received a lot of attention among academia and industry for assisting developers in coding. In fact, it has also been one of the key concerns in the field of software engineering to make machines understand users' requirements and write programs on their own. The recent development of deep learning techniques especially pre-training models make the code generation task achieve promising performance. In this paper, we systematically review the current work on deep learning-based code generation and classify the current deep learning-based code generation methods into three categories: methods based on code features, methods incorporated with retrieval, and methods incorporated with post-processing. The first category refers to the methods that use deep learning algorithms for code generation based on code features, and the second and third categories of methods improve the performance of the methods in the first category. In this paper, the existing research results of each category of methods are systematically reviewed, summarized and commented. Besides, the paper summarizes and analyzes the corpus and the popular evaluation metrics used in the existing code generation work. Finally, the paper summarizes the overall literature review and provides a prospect on future research directions worthy of attention.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-18
# デンストグラフ問題とその変数に関する調査

A Survey on the Densest Subgraph Problem and Its Variants ( http://arxiv.org/abs/2303.14467v2 )

ライセンス: Link先を確認
Tommaso Lanciano, Atsushi Miyauchi, Adriano Fazzone, Francesco Bonchi, (参考訳) デンストグラフ問題は、与えられたグラフにおいて、誘導された部分グラフが密度の測度を最大化する頂点の部分集合を見つける必要がある。 この問題は1970年代初頭からアルゴリズム文学において大きな注目を集めており、多くの変種が提案され、この基本的定義に基づいて多くのアプリケーションが構築された。 近年では、2022年と2023年に発表されたいくつかの画期的な成果を含むいくつかの重要な貢献により、この問題に対する研究の関心が復活するのを目撃している。 本調査は,本文献で提案されている多くの変種について概説し,最新の結果に特に注目する。 この調査はまた、アプリケーションの概要を包括的に紹介し、この常緑的研究トピックに関する興味深いオープンな問題について論じている。

The Densest Subgraph Problem requires to find, in a given graph, a subset of vertices whose induced subgraph maximizes a measure of density. The problem has received a great deal of attention in the algorithmic literature since the early 1970s, with many variants proposed and many applications built on top of this basic definition. Recent years have witnessed a revival of research interest in this problem with several important contributions, including some groundbreaking results, published in 2022 and 2023. This survey provides a deep overview of the fundamental results and an exhaustive coverage of the many variants proposed in the literature, with a special attention to the most recent results. The survey also presents a comprehensive overview of applications and discusses some interesting open problems for this evergreen research topic.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-18
# 要求工学におけるレプリケーション - REの場合のNLP-

Replication in Requirements Engineering: the NLP for RE Case ( http://arxiv.org/abs/2304.10265v2 )

ライセンス: Link先を確認
Sallam Abualhaija, F. BaŞAk Aydemir, Fabiano Dalpiaz, Davide Dell'Anna, Alessio Ferrari, Xavier Franch, Davide Fucci, (参考訳) [Context]} 自然言語処理(NLP)技術は,分類やあいまいさ検出などのタスクを支援するために,要求工学(RE)分野に広く応用されている。 経験的な職業にもかかわらず、RE研究はRE研究のためのNLPの複製に限定的に注意を向けている。 複製は、研究の文脈的特異性、NLPに関わるタスクの不均一性、タスク固有の毛髪、そして、不均一な報告構造など、いくつかの要因によって妨げられている。 [ソリューション]これらの課題に対処するため、複製関連情報を強調した研究論文の構造化要約を提供することを目標とするIDカードと呼ばれる新しいアーティファクトを提案する。 我々は,設計科学に基づく構造化,反復的なプロセスによりIDカードを構築する。 結果]本論文では, (i)複製の経験について報告する。 (II) 現状を概観し, 複製関連情報を抽出する。 3) 焦点グループを通して、データアノテーションとツール再構築という2つの典型的な複製の側面にまたがる課題を識別する。 (4) 特定課題を軽減するため,IDカードの概念と構造を提示する。 [コントリビューション]本研究は,REのためのNLPにおける複製の意識を高めることを目的としている。 本稿では,学習の複製を促進することを目的としたIDカードを提案する。

[Context]} Natural language processing (NLP) techniques have been widely applied in the requirements engineering (RE) field to support tasks such as classification and ambiguity detection. Despite its empirical vocation, RE research has given limited attention to replication of NLP for RE studies. Replication is hampered by several factors, including the context specificity of the studies, the heterogeneity of the tasks involving NLP, the tasks' inherent hairiness, and, in turn, the heterogeneous reporting structure. [Solution] To address these issues, we propose a new artifact, referred to as ID-Card, whose goal is to provide a structured summary of research papers emphasizing replication-relevant information. We construct the ID-Card through a structured, iterative process based on design science. [Results] In this paper: (i) we report on hands-on experiences of replication, (ii) we review the state-of-the-art and extract replication-relevant information, (iii) we identify, through focus groups, challenges across two typical dimensions of replication: data annotation and tool reconstruction, and (iv) we present the concept and structure of the ID-Card to mitigate the identified challenges. [Contribution] This study aims to create awareness of replication in NLP for RE. We propose an ID-Card that is intended to foster study replication, but can also be used in other contexts, e.g., for educational purposes.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-18
# 軽量画像再生のための相互注意混合変圧器

Reciprocal Attention Mixing Transformer for Lightweight Image Restoration ( http://arxiv.org/abs/2305.11474v4 )

ライセンス: Link先を確認
Haram Choi, Cheolwoong Na, Jihyeon Oh, Seungjae Lee, Jinseop Kim, Subeen Choe, Jeongmin Lee, Taehoon Kim, Jihoon Yang, (参考訳) 近年、画像修復(IR)分野における進歩は数多く行われているが、しばしば過剰な数のパラメータに悩まされている。 もうひとつの問題は、ほとんどのTransformerベースのIRメソッドがローカルまたはグローバルな機能にのみ焦点をあてていることだ。 これらの問題に対処するために、軽量IRネットワークであるRAMiTを提案する。 提案手法は,2次元(空間およびチャネル)自己アテンションを異なる数のマルチヘッドに並列に計算するD-RAMiTブロックを用いた。 二次元の注意は互いの欠点を補うのに役立ち、その後混合される。 さらに、画素レベルの情報損失を補償し、効率的な階層構造を維持しつつ意味情報を利用する階層的相互注意混合(H-RAMi)層を導入する。 さらに、提案するコンポーネントに効率的な畳み込みを付加するために、MobileNet V1とV2を再検討し、修正する。 実験の結果,RAMiTは高分解能,カラーデノナイジング,グレースケールデノナイジング,低照度エンハンスメント,デラナイジングなど,複数の軽量IRタスクにおける最先端性能を実現していることが示された。 コードはhttps://github.com/rami0205/RAMiTで入手できる。

Although many recent works have made advancements in the image restoration (IR) field, they often suffer from an excessive number of parameters. Another issue is that most Transformer-based IR methods focus only on either local or global features, leading to limited receptive fields or deficient parameter issues. To address these problems, we propose a lightweight IR network, Reciprocal Attention Mixing Transformer (RAMiT). It employs our proposed dimensional reciprocal attention mixing Transformer (D-RAMiT) blocks, which compute bi-dimensional (spatial and channel) self-attentions in parallel with different numbers of multi-heads. The bi-dimensional attentions help each other to complement their counterpart's drawbacks and are then mixed. Additionally, we introduce a hierarchical reciprocal attention mixing (H-RAMi) layer that compensates for pixel-level information losses and utilizes semantic information while maintaining an efficient hierarchical structure. Furthermore, we revisit and modify MobileNet V1 and V2 to attach efficient convolutions to our proposed components. The experimental results demonstrate that RAMiT achieves state-of-the-art performance on multiple lightweight IR tasks, including super-resolution, color denoising, grayscale denoising, low-light enhancement, and deraining. Codes are available at https://github.com/rami0205/RAMiT.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-18
# InstructIE:バイリンガルインストラクションに基づく情報抽出データセット

InstructIE: A Bilingual Instruction-based Information Extraction Dataset ( http://arxiv.org/abs/2305.11527v3 )

ライセンス: Link先を確認
Honghao Gui, Shuofei Qiao, Jintian Zhang, Hongbin Ye, Mengshu Sun, Lei Liang, Jeff Z. Pan, Huajun Chen, Ningyu Zhang, (参考訳) 大規模言語モデルは、一般的な自然言語処理でうまく機能するが、その有効性は情報抽出に最適ではない。 最近の研究は、情報抽出命令に関する広範なデータがないことが主な理由であることを示している。 既存の情報抽出命令のデータセットは、カバー範囲が限られているだけでなく、建設コストも高いことに注意。 この問題に対処するために,12のドメインをカバーするバイリンガル命令に基づく情報抽出データセットであるInstructIEを紹介する。 具体的には、これらのデータセットの自動生成に特化したフレームワークであるKG2Instructionを提案する。 InstructIEで訓練した大規模言語モデルでは,情報抽出能力の向上だけでなく,ベースラインに比べてゼロショット性能の向上が期待できる。

Large language models can perform well on general natural language tasks, but their effectiveness is still not optimal for information extraction. Recent works indicate that the main reason lies in the lack of extensive data on information extraction instructions. Note that the existing datasets on information extraction instructions not only have limited coverage but also involve high construction costs. To address this issue, we introduce InstructIE, a bilingual instruction-based information extraction dataset, which covers 12 diverse domains. Specifically, we propose KG2Instruction, a framework specifically for the automatic generation of such datasets. Experimental results demonstrate that large language models trained with InstructIE can not only obtain better information extraction capabilities but also enhance zero-shot performance compared with baselines.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# 自己政治:問題修正による大規模言語モデルの推論

Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement ( http://arxiv.org/abs/2305.14497v2 )

ライセンス: Link先を確認
Zhiheng Xi, Senjie Jin, Yuhao Zhou, Rui Zheng, Songyang Gao, Tao Gui, Qi Zhang, Xuanjing Huang, (参考訳) 大規模言語モデルの多段階推論能力を高めるために、研究者は、特に人間のような有理性を明示するChain-of-Thought(CoT)法について広範囲に研究してきた。 しかし、彼らは、高品質の問題を定式化することによってモデル推論性能を向上させる可能性を見落としている。 本研究は,問題側から始め,与えられた問題を段階的に洗練し,より理解し,解き易いものにすることで,モデルの推論を促進する新しい手法であるセルフ・ポリッシュ(SP)を提案する。 また、いくつかの自動的促進変数についても検討し、コミュニティ向けのセルフ・ポリッシュ・プロンプトバンクを提案する。 SPはCoTのような応答/推論の他のすべての方法と直交しており、最先端技術とのシームレスな統合を可能にし、さらなる改善を可能にしている。 より詳細な実験により, 提案手法は, 異なるモデルにまたがる5つの推論ベンチマークにおいて, 顕著かつ一貫した有効性が得られることを示した。 さらに,ロバスト性評価に優れた性能を示す。 コードとプロンプトはhttps://github.com/WooooDyy/Self-Polish.comで入手できる。

To enhance the multi-step reasoning capabilities of large language models, researchers have extensively explored prompting methods, notably the Chain-of-Thought (CoT) method which explicitly elicits human-like rationales. However, they have inadvertently overlooked the potential of enhancing model reasoning performance by formulating higher-quality problems. In this work, we start from the problem side and propose Self-Polish (SP), a novel method that facilitates the model's reasoning by guiding it to progressively refine the given problems to be more comprehensible and solvable. We also explore several automatic prompting varients and propose the Self-Polish prompt bank for the community. SP is orthogonal to all other prompting methods of answer/reasoning side like CoT, allowing for seamless integration with state-of-the-art techniques for further improvement. Thorough experiments show that the proposed method attains notable and consistent effectiveness on five reasoning benchmarks across different models. Furthermore, our method also showcases impressive performance on robustness evaluation. Codes and prompts are available at https://github.com/WooooDyy/Self-Polish.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# デジタル双極子開発・保守・運用の現状 : インタビュー研究

Current Trends in Digital Twin Development, Maintenance, and Operation: An Interview Study ( http://arxiv.org/abs/2306.10085v4 )

ライセンス: Link先を確認
Hossain Muhammad Muctadir, David A. Manrique Negrin, Raghavendran Gunasekaran, Loek Cleophas, Mark van den Brand, Boudewijn R. Haverkort, (参考訳) デジタルツイン(DT)は、しばしば物理エンティティと対応する仮想エンティティ(VE)のペアリングとして定義され、ユースケースによっては前者の特定の側面を模倣する。 近年、この概念は、設計から検証、大規模および小規模のハイテクシステムの予測保守まで、数多くのユースケースを促進している。 このようなシステムには多種多様なクロスドメインモデルが不可欠であり、モデル駆動工学はこれらのモデルの設計、開発、保守において重要な役割を果たす。 私たちは、モデルとモデル駆動エンジニアリングがDTのVEのコンテキストにおいて同様に重要な役割を果たすと信じています。 DTが急速に普及し、さまざまなドメインやユースケースで使用されているため、対応するVEを設計、開発、保守するための方法論、ツール、プラクティスは大きく異なる。 これらの相違点と類似点をよりよく理解するため,デジタル双生児のライフサイクルステージに密接な関係を持つ産業・学界の専門家19名を対象に,半構造化インタビュー調査を行った。 本稿では,7つの研究課題に基づき,本研究から得られた分析と知見について述べる。 概して,デジタル双生児の理解における統一性の欠如と,対応するVEの開発と維持のためのツール,技術,方法論の活用について検討した。 さらに、デジタルツインがソフトウェア集約システムであることを考えると、デジタルツインのライフサイクルのさまざまな段階において、より多くのソフトウェアエンジニアリングプラクティス、プロセス、専門知識を採用するための大きな成長可能性を認識します。

Digital twins (DT) are often defined as a pairing of a physical entity and a corresponding virtual entity (VE), mimicking certain aspects of the former depending on the use-case. In recent years, this concept has facilitated numerous use-cases ranging from design to validation and predictive maintenance of large and small high-tech systems. Various heterogeneous cross-domain models are essential for such systems and model-driven engineering plays a pivotal role in the design, development, and maintenance of these models. We believe models and model-driven engineering play a similarly crucial role in the context of a VE of a DT. Due to the rapidly growing popularity of DTs and their use in diverse domains and use-cases, the methodologies, tools, and practices for designing, developing, and maintaining the corresponding VEs differ vastly. To better understand these differences and similarities, we performed a semi-structured interview research with 19 professionals from industry and academia who are closely associated with different lifecycle stages of digital twins. In this paper, we present our analysis and findings from this study, which is based on seven research questions. In general, we identified an overall lack of uniformity in terms of the understanding of digital twins and used tools, techniques, and methodologies for the development and maintenance of the corresponding VEs. Furthermore, considering that digital twins are software intensive systems, we recognize a significant growth potential for adopting more software engineering practices, processes, and expertise in various stages of a digital twin's lifecycle.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# 低リソース環境における数発の単語学習の視覚的基盤化

Visually grounded few-shot word learning in low-resource settings ( http://arxiv.org/abs/2306.11371v3 )

ライセンス: Link先を確認
Leanne Nortje, Dan Oneata, Herman Kamper, (参考訳) 本稿では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。 テスト画像と音声クエリのセットが与えられた場合、どの画像がクエリワードを表現しているかをモデルに尋ねる。 従来の作業は、桁のワードイメージ対を持つ人工的な設定を使用するか、クラス毎に多数のサンプルを使用することによって、この数発の学習問題を単純化した。 さらに、過去のすべての研究は、英語の音声画像データを用いて行われた。 より少ない例、すなわち少ないショットで自然な単語イメージ対に作用するアプローチを提案し、そのアプローチが実際の低リソース言語であるYor\ub\'aにおけるマルチモーダルな複数ショット学習にどのように適用できるかを説明する。 提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。 さらに、単語と画像の類似性を決定するために、単語と画像の注意機構を使用する。 この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを実現している。 モデルの間違いの多くは、視覚概念の混同によるものである。 Yor\`ub\'aの実験は、より大きな英語の音声画像データに基づいて訓練されたマルチモーダルモデルから知識を伝達する利点を示している。

We propose a visually grounded speech model that learns new words and their visual depictions from just a few word-image example pairs. Given a set of test images and a spoken query, we ask the model which image depicts the query word. Previous work has simplified this few-shot learning problem by either using an artificial setting with digit word-image pairs or by using a large number of examples per class. Moreover, all previous studies were performed using English speech-image data. We propose an approach that can work on natural word-image pairs but with less examples, i.e. fewer shots, and then illustrate how this approach can be applied for multimodal few-shot learning in a real low-resource language, Yor\`ub\'a. Our approach involves using the given word-image example pairs to mine new unsupervised word-image training pairs from large collections of unlabelled speech and images. Additionally, we use a word-to-image attention mechanism to determine word-image similarity. With this new model, we achieve better performance with fewer shots than previous approaches on an existing English benchmark. Many of the model's mistakes are due to confusion between visual concepts co-occurring in similar contexts. The experiments on Yor\`ub\'a show the benefit of transferring knowledge from a multimodal model trained on a larger set of English speech-image data.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# 凸解析とODEを用いた安定ニューラルネットワークの設計

Designing Stable Neural Networks using Convex Analysis and ODEs ( http://arxiv.org/abs/2306.17332v2 )

ライセンス: Link先を確認
Ferdia Sherry, Elena Celledoni, Matthias J. Ehrhardt, Davide Murari, Brynjulf Owren, Carola-Bibiane Schönlieb, (参考訳) 通常の微分方程式の数値積分に関する古典的な研究により、重みのスペクトルノルムが適切に制約されている限り、非膨張(1-Lipschitz)作用素を符号化するResNetスタイルのニューラルネットワークアーキテクチャを提案する。 これは、たとえ重みのスペクトルノルムが制約されているとしても、最悪の場合、ネットワークの深さとともに指数関数的に成長するリプシッツ定数を持つ通常のResNetアーキテクチャとは対照的である。 提案アーキテクチャのさらなる解析により,ネットワークが平均演算子であることを保証するため,重みのスペクトルノルムがさらに制約されることが示され,Plug-and-Playアルゴリズムにおいて学習されたデノイザの自然な候補となる。 スペクトルノルム制約を適応的に強制する新しい手法を用いて,これらの制約を伴っても,性能ネットワークを訓練することは可能であることを示す。 提案手法は, 逆向きに頑健な画像分類問題, 画像のデノイング問題, そして逆のデブロアリング問題に適用される。

Motivated by classical work on the numerical integration of ordinary differential equations we present a ResNet-styled neural network architecture that encodes non-expansive (1-Lipschitz) operators, as long as the spectral norms of the weights are appropriately constrained. This is to be contrasted with the ordinary ResNet architecture which, even if the spectral norms of the weights are constrained, has a Lipschitz constant that, in the worst case, grows exponentially with the depth of the network. Further analysis of the proposed architecture shows that the spectral norms of the weights can be further constrained to ensure that the network is an averaged operator, making it a natural candidate for a learned denoiser in Plug-and-Play algorithms. Using a novel adaptive way of enforcing the spectral norm constraints, we show that, even with these constraints, it is possible to train performant networks. The proposed architecture is applied to the problem of adversarially robust image classification, to image denoising, and finally to the inverse problem of deblurring.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# Vesper: 音声認識のためのコンパクトで効果的な事前学習モデル

Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition ( http://arxiv.org/abs/2307.10757v2 )

ライセンス: Link先を確認
Weidong Chen, Xiaofen Xing, Peihao Chen, Xiangmin Xu, (参考訳) 本稿では,一般的な大規模事前学習モデル(PTM)を音声感情認識タスクに適用するパラダイムを提案する。 PTMは、人工知能に新たな光を当てているが、それらは一般的なタスクを念頭に構築されており、特定のタスクに対する有効性をさらに向上することができる。 さらに、実用アプリケーションにPTMを採用することは、その相当なサイズのために困難である可能性がある。 上述の制限は、大規模PTMを特定のタスクに最適化し、コンパクトかつ効果的にタスク固有のPTMを生成するという別の研究方向を生み出します。 本稿では,音声感情認識タスクに着目し,Vesperと呼ばれる感情固有の事前学習エンコーダの改良を提案する。 Vesperは、WavLMに基づく音声データセットで事前訓練され、感情的特徴を考慮に入れている。 感情情報に対する感受性を高めるため、ヴェスパーは感情誘導マスキング戦略を採用し、マスキングが必要な地域を特定する。 その後、ヴェスパーは、感情認識に不可欠である音響的・意味的な表現を捉える能力を改善するために階層的・横断的な自己スーパービジョンを採用している。 IEMOCAP、MELD、CREMA-Dデータセットの実験結果によると、4層のVesperは12層でWavLM Baseを上回り、12層のVesperは24層でWavLM Largeを上回ります。

This paper presents a paradigm that adapts general large-scale pretrained models (PTMs) to speech emotion recognition task. Although PTMs shed new light on artificial general intelligence, they are constructed with general tasks in mind, and thus, their efficacy for specific tasks can be further improved. Additionally, employing PTMs in practical applications can be challenging due to their considerable size. Above limitations spawn another research direction, namely, optimizing large-scale PTMs for specific tasks to generate task-specific PTMs that are both compact and effective. In this paper, we focus on the speech emotion recognition task and propose an improved emotion-specific pretrained encoder called Vesper. Vesper is pretrained on a speech dataset based on WavLM and takes into account emotional characteristics. To enhance sensitivity to emotional information, Vesper employs an emotion-guided masking strategy to identify the regions that need masking. Subsequently, Vesper employs hierarchical and cross-layer self-supervision to improve its ability to capture acoustic and semantic representations, both of which are crucial for emotion recognition. Experimental results on the IEMOCAP, MELD, and CREMA-D datasets demonstrate that Vesper with 4 layers outperforms WavLM Base with 12 layers, and the performance of Vesper with 12 layers surpasses that of WavLM Large with 24 layers.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# 信頼度ランキング

Confident Feature Ranking ( http://arxiv.org/abs/2307.15361v2 )

ライセンス: Link先を確認
Bitya Neuhof, Yuval Benjamini, (参考訳) 機械学習モデルは様々な分野に広く応用されている。 ステークホルダは、しばしば、モデルの予測に対する入力特徴の貢献をよりよく理解するために、ポストホックな機能重要度メソッドを使用する。 これらの手法によって提供される重要値の解釈は、重要値そのものではなく、特徴(それらのランク)の相対的な順序に基づいて行われることが多い。 順序が不安定である可能性があるので、グローバルな重要性値の不確実性を定量化する枠組みを提案する。 本稿では,特徴重要値のフレームワークとペア比較に基づく特徴重要値のポストホックな解釈法を提案する。 本手法は,「真」(無限のサンプル)のランクを高い確率で含む特徴のランクに対する同時信頼区間を生成し,上位kの重要特徴の集合の選択を可能にする。

Machine learning models are widely applied in various fields. Stakeholders often use post-hoc feature importance methods to better understand the input features' contribution to the models' predictions. The interpretation of the importance values provided by these methods is frequently based on the relative order of the features (their ranking) rather than the importance values themselves. Since the order may be unstable, we present a framework for quantifying the uncertainty in global importance values. We propose a novel method for the post-hoc interpretation of feature importance values that is based on the framework and pairwise comparisons of the feature importance values. This method produces simultaneous confidence intervals for the features' ranks, which include the ``true'' (infinite sample) ranks with high probability, and enables the selection of the set of the top-k important features.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# 窒化ケイ素マイクロリング共振器の分極絡み量子周波数コム

Polarization-entangled quantum frequency comb from a silicon nitride microring resonator ( http://arxiv.org/abs/2309.01181v2 )

ライセンス: Link先を確認
Wenjun Wen, Wenhan Yan, Chi Lu, Liangliang Lu, Xiaoyu Wu, Yanqing Lu, Shining Zhu, Xiao-song Ma, (参考訳) 集積マイクロ共振器は量子周波数コム(QFC)の実現を容易にし、ブロードバンドスペクトル範囲と狭い線幅を持つ多数の離散周波数モードを提供する。 しかし、これまでのすべての実験は、QFCからエネルギー時間または時間ビンの絡み合った光子の生成に焦点を当ててきた。 量子力学と量子情報応用の基礎研究のための重要な資源である分極共役量子周波数コムの実現は依然として困難である。 ここでは, 窒化ケイ素マイクロ共振器とサニャック干渉計を組み合わせたブロードバンド分極結合量子周波数コムを初めて示す。 約99 GHzのスペクトル範囲と190 MHzの幅の狭い光子対が22 個の分極共役光子対と、全通信Cバンドをカバーする周波数を提供する。 全22対の絡み合い係数は81%以上であり、うち17対は90%以上である。 我々の実証は、CMOS技術と標準密度波長分割多重化技術を用いて、量子ネットワークにおける分極共役量子周波数コムの活用の道を開くものである。

Integrated microresonator facilitates the realization of quantum frequency comb (QFC), which provides a large number of discrete frequency modes with broadband spectral range and narrow linewidth. However, all previous demonstrations have focused on the generation of energy-time or time-bin entangled photons from QFC. Realizing polarization-entangled quantum frequency comb, which is the important resource for fundamental study of quantum mechanics and quantum information applications, remains challenging. Here, we demonstrate, for the first time, a broadband polarization-entangled quantum frequency comb by combining an integrated silicon nitride micro-resonator with a Sagnac interferometer. With a free spectral range of about 99 GHz and a narrow linewidth of about 190 MHz, our source provides 22 polarization entangled photons pairs with frequency covering the whole telecom C-band. The entanglement fidelities for all 22 pairs are above 81%, including 17 pairs with fidelities higher than 90%. Our demonstration paves the way for employing the polarization-entangled quantum frequency comb in quantum network using CMOS technology as well as standard dense wavelength division multiplexing technology.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# 協調拡散回復様相によるエネルギーモデル学習

Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood ( http://arxiv.org/abs/2309.05153v4 )

ライセンス: Link先を確認
Yaxuan Zhu, Jianwen Xie, Yingnian Wu, Ruiqi Gao, (参考訳) 高次元データ上でのエネルギーベースモデル(EBM)の訓練は困難かつ時間を要する可能性がある。 拡散回復率(DRL)を最大化してESMを学習する最近の取り組みに触発されて,このギャップを埋めるため,各ESMの初期化モデルと組み合わせて,ますます騒々しいバージョンのデータセット上で定義された一連のESMから効果的に学習し,サンプルを抽出する,協調拡散回復可能性(CDRL)を提案する。 各ノイズレベルにおいて、2つのモデルが協調的なトレーニングフレームワーク内で共同で推定される:初期化器からのサンプルは、EMMからのいくつかのMCMCサンプリングステップによって洗練される出発点として機能する。 EBMは回収可能性の最大化により最適化され、イニシャライザモデルは精製試料と初期試料の差から学習することで最適化される。 さらに,ESMトレーニングの実践的な設計を行い,サンプルの品質をさらに向上させた。 CIFAR-10 および ImageNet データセット上の既存の EBM 手法と比較して,これらの進歩と組み合わせることで生成性能が大幅に向上する。 また,分類器フリーガイド生成,構成生成,画像インペイント,アウト・オブ・ディストリビューション検出など,下流タスクにおけるモデルの有効性を実証した。

Training energy-based models (EBMs) on high-dimensional data can be both challenging and time-consuming, and there exists a noticeable gap in sample quality between EBMs and other generative frameworks like GANs and diffusion models. To close this gap, inspired by the recent efforts of learning EBMs by maximizing diffusion recovery likelihood (DRL), we propose cooperative diffusion recovery likelihood (CDRL), an effective approach to tractably learn and sample from a series of EBMs defined on increasingly noisy versions of a dataset, paired with an initializer model for each EBM. At each noise level, the two models are jointly estimated within a cooperative training framework: samples from the initializer serve as starting points that are refined by a few MCMC sampling steps from the EBM. The EBM is then optimized by maximizing recovery likelihood, while the initializer model is optimized by learning from the difference between the refined samples and the initial samples. In addition, we made several practical designs for EBM training to further improve the sample quality. Combining these advances, our approach significantly boost the generation performance compared to existing EBM methods on CIFAR-10 and ImageNet datasets. We also demonstrate the effectiveness of our models for several downstream tasks, including classifier-free guided generation, compositional generation, image inpainting and out-of-distribution detection.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# SCT:Salient Channelsを用いたパラメータ効率の良いファインチューニングのための簡易ベースライン

SCT: A Simple Baseline for Parameter-Efficient Fine-Tuning via Salient Channels ( http://arxiv.org/abs/2309.08513v3 )

ライセンス: Link先を確認
Henry Hengyuan Zhao, Pichao Wang, Yuyang Zhao, Hao Luo, Fan Wang, Mike Zheng Shou, (参考訳) 事前学習された視覚変換器は、様々な下流タスクに強力な表現上の利点がある。 近年,多くのパラメータ効率細調整法が提案されており,その実験により,低データのリソースシナリオにおいて,パラメータの1%しか調整できないことが示されている。 しかし、これらの手法は、様々な下流タスクを微調整する際、タスク固有の情報を見落としている。 本稿では,SCT(Salient Channel Tuning)と呼ばれる簡易かつ効果的な手法を提案する。タスクイメージをモデルに転送し,特徴マップ内の部分的なチャネルを選択することで,パラメータコストを大幅に低減する1/8チャネルのみをチューニングできる。 実験はVTAB-1Kベンチマークの19タスク中18タスクにおいて、完全な微調整よりも780倍少ないVT-Bの0.11Mパラメータを追加することで、完全な微調整を達成している。 さらに,パラメータコストの低い他のPEFT手法を超越した領域一般化と少数ショット学習の実験を行い,提案手法の高機能化と低データ方式の有効性を実証した。

Pre-trained vision transformers have strong representation benefits to various downstream tasks. Recently, many parameter-efficient fine-tuning (PEFT) methods have been proposed, and their experiments demonstrate that tuning only 1% of extra parameters could surpass full fine-tuning in low-data resource scenarios. However, these methods overlook the task-specific information when fine-tuning diverse downstream tasks. In this paper, we propose a simple yet effective method called "Salient Channel Tuning" (SCT) to leverage the task-specific information by forwarding the model with the task images to select partial channels in a feature map that enables us to tune only 1/8 channels leading to significantly lower parameter costs. Experiments outperform full fine-tuning on 18 out of 19 tasks in the VTAB-1K benchmark by adding only 0.11M parameters of the ViT-B, which is 780x fewer than its full fine-tuning counterpart. Furthermore, experiments on domain generalization and few-shot learning surpass other PEFT methods with lower parameter costs, demonstrating our proposed tuning technique's strong capability and effectiveness in the low-data regime.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# 拡張LFTSformer:高度な特徴工学とDSエンコーダインフォーマアーキテクチャを用いた長期金融時系列予測モデル

Enhanced LFTSformer: A Novel Long-Term Financial Time Series Prediction Model Using Advanced Feature Engineering and the DS Encoder Informer Architecture ( http://arxiv.org/abs/2310.01884v2 )

ライセンス: Link先を確認
Jianan Zhang, Hongyi Duan, (参考訳) 本研究では,拡張LFTSformerと呼ばれる長期金融時系列の予測モデルを提案する。 1)VMD-MIC+FE機能エンジニアリング: 高度な機能エンジニアリング技術、特に変分モード分解(VMD)、最大情報係数(MIC)、機能エンジニアリング(FE)メソッドの統合により、複雑で可変な財務データセットからの深い機能の包括的認識と抽出を可能にする。 2) DSエンコーダインコーダ: オリジナルのインコーダのアーキテクチャは,エンコーダにスタック型インコーダ構造を採用し,分散インコーダと呼ばれるマルチヘッド分散スパースアテンション機構の革新的導入によって変更されている。 この変更により、注意ブロックの数が減少し、トレーニングの精度と速度が向上した。 (3)GC強化Adam \&Dynamic Loss Function: グラディエント・クリッピング強化Adam最適化アルゴリズムと動的損失関数のデプロイは、金融時系列予測の分野における先駆的なアプローチである。 この新しい手法は、モデルの性能を最適化し、進化するデータパターンによりダイナミックに適応する。 さまざまなベンチマークストックマーケットデータセットに関するシステマティックな実験は、強化LFTSformerが予測精度、適応性、一般性の観点から、従来の機械学習モデルや他のInformerベースのアーキテクチャよりも優れていることを示している。 さらに,今後の発展への道筋を明らかにするとともに,重要な出来事やニュースの特定と定量化に焦点をあてる。 これは、モデルの予測効率をさらに改善することを目的としている。

This study presents a groundbreaking model for forecasting long-term financial time series, termed the Enhanced LFTSformer. The model distinguishes itself through several significant innovations: (1) VMD-MIC+FE Feature Engineering: The incorporation of sophisticated feature engineering techniques, specifically through the integration of Variational Mode Decomposition (VMD), Maximal Information Coefficient (MIC), and feature engineering (FE) methods, enables comprehensive perception and extraction of deep-level features from complex and variable financial datasets. (2) DS Encoder Informer: The architecture of the original Informer has been modified by adopting a Stacked Informer structure in the encoder, and an innovative introduction of a multi-head decentralized sparse attention mechanism, referred to as the Distributed Informer. This modification has led to a reduction in the number of attention blocks, thereby enhancing both the training accuracy and speed. (3) GC Enhanced Adam \& Dynamic Loss Function: The deployment of a Gradient Clipping-enhanced Adam optimization algorithm and a dynamic loss function represents a pioneering approach within the domain of financial time series prediction. This novel methodology optimizes model performance and adapts more dynamically to evolving data patterns. Systematic experimentation on a range of benchmark stock market datasets demonstrates that the Enhanced LFTSformer outperforms traditional machine learning models and other Informer-based architectures in terms of prediction accuracy, adaptability, and generality. Furthermore, the paper identifies potential avenues for future enhancements, with a particular focus on the identification and quantification of pivotal impacting events and news. This is aimed at further refining the predictive efficacy of the model.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# 一般化シュレーディンガー橋整合

Generalized Schrödinger Bridge Matching ( http://arxiv.org/abs/2310.02233v2 )

ライセンス: Link先を確認
Guan-Horng Liu, Yaron Lipman, Maximilian Nickel, Brian Karrer, Evangelos A. Theodorou, Ricky T. Q. Chen, (参考訳) 拡散モデルや流れモデルを訓練するための現代の分布マッチングアルゴリズムは、2つの境界分布間の境界分布の時間的発展を直接規定する。 本研究では,これらの限界をタスク固有の目的関数の解として暗黙的に記述する,一般化された分布マッチング機構について考察する。 Generalized Schr\"odinger Bridge (GSB) として知られるこの問題は、機械学習の内外を問わず、多くの科学分野に広く見られる。 我々は、最近の進歩にインスパイアされた新しいマッチングアルゴリズムであるGeneralized Schr\"odinger Bridge Matching (GSBM)を提案する。 このような一般化は条件確率的最適制御の解法として、効率的な変分近似を利用でき、さらに経路積分理論の助けを借りてデバイアス化できることを示す。 従来のGSB問題の解法と比較して、GSBMアルゴリズムはトレーニングを通して境界分布間の実現可能なトランスポートマップをよりよく保存し、安定した収束を可能にし、スケーラビリティを著しく向上させる。 我々は,観衆のナビゲーション,意見の非分極化,LiDAR多様体,画像領域の転送など,幅広い実験環境において,我々の主張を実証的に検証した。 我々の研究は、タスク固有の最適性構造で強化された拡散モデルのトレーニングのための新しいアルゴリズムの機会をもたらす。 https://github.com/facebookresearch/ generalized-schrodinger-bridge-matching

Modern distribution matching algorithms for training diffusion or flow models directly prescribe the time evolution of the marginal distributions between two boundary distributions. In this work, we consider a generalized distribution matching setup, where these marginals are only implicitly described as a solution to some task-specific objective function. The problem setup, known as the Generalized Schr\"odinger Bridge (GSB), appears prevalently in many scientific areas both within and without machine learning. We propose Generalized Schr\"odinger Bridge Matching (GSBM), a new matching algorithm inspired by recent advances, generalizing them beyond kinetic energy minimization and to account for task-specific state costs. We show that such a generalization can be cast as solving conditional stochastic optimal control, for which efficient variational approximations can be used, and further debiased with the aid of path integral theory. Compared to prior methods for solving GSB problems, our GSBM algorithm better preserves a feasible transport map between the boundary distributions throughout training, thereby enabling stable convergence and significantly improved scalability. We empirically validate our claims on an extensive suite of experimental setups, including crowd navigation, opinion depolarization, LiDAR manifolds, and image domain transfer. Our work brings new algorithmic opportunities for training diffusion models enhanced with task-specific optimality structures. Code available at https://github.com/facebookresearch/generalized-schrodinger-bridge-matching
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# ストリーミングアンカー損失:時間的意味を持つスーパービジョンの増大

Streaming Anchor Loss: Augmenting Supervision with Temporal Significance ( http://arxiv.org/abs/2310.05886v2 )

ライセンス: Link先を確認
Utkarsh Oggy Sarawgi, John Berkowitz, Vineet Garg, Arnav Kundu, Minsik Cho, Sai Srujana Buddi, Saurabh Adya, Ahmed Tewfik, (参考訳) 様々な音声や知覚信号に対する高速なフレームワイズ応答のためのストリーミングニューラルネットワークモデルは、リソース制約のあるプラットフォームで広く採用されている。 したがって、予測能力を向上させるために、そのようなストリーミングモデルの学習能力(すなわち、より多くのパラメータを追加することで)を増大させることは、現実世界のタスクでは不可能である。 本研究では,学習能力の向上を目的とした新たな損失SAL(Streaming Anchor Loss)を提案する。 より具体的には、我々のSALとその焦点変動は、対応するフレームの重要度に基づいてフレーム単位のクロスエントロピー損失を動的に変調し、セマンティッククリティカルイベントの時間的近接におけるフレームにより高い損失ペナルティを割り当てる。 したがって、モデルトレーニングが比較的稀だがタスク関連フレームの予測に重点を置いていることが保証される。 3つの異なる音声ベース検出タスクにおける標準的な軽量畳み込みおよび繰り返しストリーミングネットワークによる実験結果から、SALは、追加のデータやモデルパラメータ、アーキテクチャの変更なしに、精度とレイテンシを改善して、モデルが全体的なタスクをより効率的に学習できることを示した。

Streaming neural network models for fast frame-wise responses to various speech and sensory signals are widely adopted on resource-constrained platforms. Hence, increasing the learning capacity of such streaming models (i.e., by adding more parameters) to improve the predictive power may not be viable for real-world tasks. In this work, we propose a new loss, Streaming Anchor Loss (SAL), to better utilize the given learning capacity by encouraging the model to learn more from essential frames. More specifically, our SAL and its focal variations dynamically modulate the frame-wise cross entropy loss based on the importance of the corresponding frames so that a higher loss penalty is assigned for frames within the temporal proximity of semantically critical events. Therefore, our loss ensures that the model training focuses on predicting the relatively rare but task-relevant frames. Experimental results with standard lightweight convolutional and recurrent streaming networks on three different speech based detection tasks demonstrate that SAL enables the model to learn the overall task more effectively with improved accuracy and latency, without any additional data, model parameters, or architectural changes.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# XIMAGENET-12: モデルロバストネス評価のための説明可能なAIベンチマークデータセット

XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness Evaluation ( http://arxiv.org/abs/2310.08182v2 )

ライセンス: Link先を確認
Qiang Li, Dan Zhang, Shengzhao Lei, Xun Zhao, Porawit Kamnoedboon, WeiWei Li, Junhao Dong, Shuyan Li, (参考訳) 既存のビジュアルモデルが公的なベンチマークで有望なパフォーマンスを保っているにもかかわらず、現実のアプリケーションに対する堅牢性に対する批判的な評価は、現在も進行中の課題である。 このギャップを埋めるために、視覚モデルの堅牢性を評価するために、説明可能なビジュアルデータセットXIMAGENET-12を提案する。 XIMAGENET-12は、200K以上の画像と15,410のマニュアルセマンティックアノテーションで構成されている。 具体的には、ImageNetから12のカテゴリを意図的に選択し、実際に遭遇するオブジェクトを表現した。 現実世界の状況をシミュレートするために、オーバー露光、ぼやけ、色の変化など、さまざまなシナリオを6つ取り入れました。 さらに、ロバスト性評価のための定量的基準を開発し、特に背景に関して、様々な条件下で視覚モデルがどのように機能するかの微妙な理解を可能にする。 我々は XIMAGENET-12 データセットとその対応するコードを \url{https://sites.google.com/view/ximagenet-12/home} で公開しています。 XIMAGENET-12データセットの導入により、研究者は困難条件下での視覚モデルの堅牢性を徹底的に評価できるようになると期待している。

Despite the promising performance of existing visual models on public benchmarks, the critical assessment of their robustness for real-world applications remains an ongoing challenge. To bridge this gap, we propose an explainable visual dataset, XIMAGENET-12, to evaluate the robustness of visual models. XIMAGENET-12 consists of over 200K images with 15,410 manual semantic annotations. Specifically, we deliberately selected 12 categories from ImageNet, representing objects commonly encountered in practical life. To simulate real-world situations, we incorporated six diverse scenarios, such as overexposure, blurring, and color changes, etc. We further develop a quantitative criterion for robustness assessment, allowing for a nuanced understanding of how visual models perform under varying conditions, notably in relation to the background. We make the XIMAGENET-12 dataset and its corresponding code openly accessible at \url{https://sites.google.com/view/ximagenet-12/home}. We expect the introduction of the XIMAGENET-12 dataset will empower researchers to thoroughly evaluate the robustness of their visual models under challenging conditions.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# マルチモーダル大言語モデルの編集は可能か?

Can We Edit Multimodal Large Language Models? ( http://arxiv.org/abs/2310.08475v5 )

ライセンス: Link先を確認
Siyuan Cheng, Bozhong Tian, Qingbin Liu, Xi Chen, Yongheng Wang, Huajun Chen, Ningyu Zhang, (参考訳) 本稿では,MLLM(Multimodal Large Language Models)の編集に焦点をあてる。 単一モードLLMの編集に比べ、マルチモーダルモデル編集はより困難であり、編集プロセスにおいてより高度な精査と慎重な考慮が必要である。 そこで本研究では,マルチモーダル LLM の編集と評価のための革新的な指標のスイートを構築するため,MMEdit という新しいベンチマークを構築した。 各種モデル編集ベースラインの包括的実験を行い、多モードLLMにおける様々なコンポーネントの編集の影響を分析した。 経験的に、以前のベースラインはある程度はマルチモーダル LLM の編集を実装できるが、その効果はいまだに十分であり、この課題の潜在的な難しさを示している。 私たちの研究がNLPコミュニティに洞察を与えてくれることを願っています。 コードとデータセットはhttps://github.com/zjunlp/EasyEditで入手できる。

In this paper, we focus on editing Multimodal Large Language Models (MLLMs). Compared to editing single-modal LLMs, multimodal model editing is more challenging, which demands a higher level of scrutiny and careful consideration in the editing process. To facilitate research in this area, we construct a new benchmark, dubbed MMEdit, for editing multimodal LLMs and establishing a suite of innovative metrics for evaluation. We conduct comprehensive experiments involving various model editing baselines and analyze the impact of editing different components for multimodal LLMs. Empirically, we notice that previous baselines can implement editing multimodal LLMs to some extent, but the effect is still barely satisfactory, indicating the potential difficulty of this task. We hope that our work can provide the NLP community with insights. Code and dataset are available in https://github.com/zjunlp/EasyEdit.
翻訳日:2024-04-19 20:49:22 公開日:2024-04-18
# ドメイン固有の質問応答におけるLLMの知識的選好アライメント

Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering ( http://arxiv.org/abs/2311.06503v2 )

ライセンス: Link先を確認
Yichi Zhang, Zhuo Chen, Yin Fang, Yanxi Lu, Fangming Li, Wen Zhang, Huajun Chen, (参考訳) 大規模言語モデル(LLM)をドメイン固有の質問応答(QA)の実際のシナリオにデプロイすることは、LLMアプリケーションにとって重要な推進力であり、特に応答がユーザ要求に適合し、ドメイン固有の知識ベースを適切に活用することを保証する上で、多くの課題を引き起こす。 バニラファインチューニングはアドレス処理に不足するため、LLMアプリケーションには2つの大きな困難がある。 これらの要件を組み合わせることで、モデルを人間と調和させるためのモデル優先の要件とみなす。 そこで我々は,この2つの問題に対処するための2種類の選好セットを構築するKnowPAT(KnowPAT)を提案する。 さらに,実世界のドメイン固有のQA設定におけるLLM性能を最適化することを目的として,LLM選好を異なる人間の選好と均一に整合させる新たなアライメント目的を設計する。 実験と15のベースライン手法との総合的な比較は、我々のKnowPATが実シナリオドメイン固有のQAとLLMの優れたパイプラインであることを示している。

Deploying large language models (LLMs) to real scenarios for domain-specific question answering (QA) is a key thrust for LLM applications, which poses numerous challenges, especially in ensuring that responses are both accommodating to user requirements and appropriately leveraging domain-specific knowledge bases. They are the two major difficulties for LLM application as vanilla fine-tuning falls short of addressing. Combining these requirements, we conceive of them as the requirement for the model's preference to be harmoniously aligned with humans'. Thus, we introduce Knowledgeable Preference AlignmenT (KnowPAT), which constructs two kinds of preference sets to tackle the two issues. Besides, we design a new alignment objective to align the LLM preference with different human preferences uniformly, aiming to optimize LLM performance in real-world, domain-specific QA settings. Adequate experiments and comprehensive comparisons with 15 baseline methods illustrate that our KnowPAT is a superior pipeline for real-scenario domain-specific QA with LLMs.
翻訳日:2024-04-19 20:39:38 公開日:2024-04-18
# Back to Basics: 反復アルゴリズムの高速化

Back to Basics: Fast Denoising Iterative Algorithm ( http://arxiv.org/abs/2311.06634v2 )

ライセンス: Link先を確認
Deborah Pereg, (参考訳) ノイズ低減のための高速反復アルゴリズムであるBack to Basics (BTB)を紹介する。 提案手法は計算効率が高く,訓練や真実データを必要としないため,ノイズレベルが不明な相関性(コヒーレント)ノイズの存在下でも適用可能である。 光コヒーレンス・トモグラフィ(OCT)における白色ガウス雑音の存在下での自然像,ポアソン分布画像デノイング,スペックル抑制の3症例について検討した。 実験結果から,提案手法は画像品質を効果的に向上しうることを示す。 収束安定性に関する理論的保証が提供される。

We introduce Back to Basics (BTB), a fast iterative algorithm for noise reduction. Our method is computationally efficient, does not require training or ground truth data, and can be applied in the presence of independent noise, as well as correlated (coherent) noise, where the noise level is unknown. We examine three study cases: natural image denoising in the presence of additive white Gaussian noise, Poisson-distributed image denoising, and speckle suppression in optical coherence tomography (OCT). Experimental results demonstrate that the proposed approach can effectively improve image quality, in challenging noise settings. Theoretical guarantees are provided for convergence stability.
翻訳日:2024-04-19 20:39:38 公開日:2024-04-18
# LLMのオンライン化 - 機会と課題

Online Advertisements with LLMs: Opportunities and Challenges ( http://arxiv.org/abs/2311.07601v3 )

ライセンス: Link先を確認
Soheil Feizi, MohammadTaghi Hajiaghayi, Keivan Rezaei, Suho Shin, (参考訳) 本稿では,オンライン広告システムにおけるLarge Language Models(LLM)の活用の可能性について検討する。 プライバシー、レイテンシ、信頼性、そしてそのようなシステムが満たさなければならないユーザや広告主の満足度など、基本的な要件を探求します。 さらに,修正,入札,予測,オークションモジュールからなるLCM広告の一般的なフレームワークを紹介する。 各モジュールに対する異なる設計上の考慮事項が提示される。 これらの設計の実用性、効率性、実装に関する基本的な疑問が今後の研究のために提起される。 最後に,ユーザへの広告の魅力を著しく向上させる手段として,LLMに基づく動的創造的最適化の可能性を探り,今後の課題について論じる。

This paper explores the potential for leveraging Large Language Models (LLM) in the realm of online advertising systems. We delve into essential requirements including privacy, latency, reliability as well as the satisfaction of users and advertisers that such a system must fulfill. We further introduce a general framework for LLM advertisement, consisting of modification, bidding, prediction, and auction modules. Different design considerations for each module are presented. Fundamental questions regarding practicality, efficiency, and implementation challenges of these designs are raised for future research. Finally, we explore the prospect of LLM-based dynamic creative optimization as a means to significantly enhance the appeal of advertisements to users and discuss its additional challenges.
翻訳日:2024-04-19 20:39:38 公開日:2024-04-18
# MARformer:歯科用CBCT画像のための効率的な金属アーチファクト低減トランス

MARformer: An Efficient Metal Artifact Reduction Transformer for Dental CBCT Images ( http://arxiv.org/abs/2311.09590v2 )

ライセンス: Link先を確認
Yuxuan Shi, Jun Xu, Dinggang Shen, (参考訳) Cone Beam Computed Tomography (CBCT) は歯科診断と手術において重要な役割を担っている。 しかし、歯のインプラントはCBCTイメージングの過程で、診断や歯のセグメンテーションなどの下流処理を妨害して、迷惑な金属加工物をもたらす可能性がある。 本稿では歯科用CBCT画像から金属アーチファクト低減(MAR)を実現するための効率的なトランスフォーマーを開発する。 提案したMAR変換器(MARformer)は、CBCT画像がグローバルに類似した構造を持つことに基づいて、新しいDmension-Reduced Self-Attention (DRSA)モジュールにより、マルチヘッド自己アテンションの計算複雑性を低減する。 P2FFN (Patch-wise Perceptive Feed Forward Network) も提案されている。 人工的および実世界の金属加工品を用いたCBCT画像実験の結果, 我々のMARフォーマは, 従来のMAR法と2つの復元トランスフォーマよりも効率的で優れていたことが判明した。

Cone Beam Computed Tomography (CBCT) plays a key role in dental diagnosis and surgery. However, the metal teeth implants could bring annoying metal artifacts during the CBCT imaging process, interfering diagnosis and downstream processing such as tooth segmentation. In this paper, we develop an efficient Transformer to perform metal artifacts reduction (MAR) from dental CBCT images. The proposed MAR Transformer (MARformer) reduces computation complexity in the multihead self-attention by a new Dimension-Reduced Self-Attention (DRSA) module, based on that the CBCT images have globally similar structure. A Patch-wise Perceptive Feed Forward Network (P2FFN) is also proposed to perceive local image information for fine-grained restoration. Experimental results on CBCT images with synthetic and real-world metal artifacts show that our MARformer is efficient and outperforms previous MAR methods and two restoration Transformers.
翻訳日:2024-04-19 20:39:38 公開日:2024-04-18
# クリロフとニールセンの複雑性の関係

A relation between Krylov and Nielsen complexity ( http://arxiv.org/abs/2311.18401v2 )

ライセンス: Link先を確認
Ben Craps, Oleg Evnin, Gabriele Pascuzzi, (参考訳) クリロフ複雑性とニールセン複雑性は、量子進化の複雑さを定量化するために成功したアプローチであり、この2つの研究の境界線の間にはあまり接触することなく活発に追求されてきた。 この2つの量は、それぞれ量子カオスと量子計算によって動機付けられ、関連する数学は、曲線多様体上の行列対角化アルゴリズムや測地流と同等に異なる。 これらの違いにもかかわらず、この2つの量の間には関係があることを実証する。 すなわち、状態進化のクリロフ複雑性の時間平均は、ある行列のトレースとして表すことができ、これはまた、クリロフ基底に適応した特定のカスタマイズされたペナルティスケジュールでニールセン複雑性の上限を制御している。

Krylov complexity and Nielsen complexity are successful approaches to quantifying quantum evolution complexity that have been actively pursued without much contact between the two lines of research. The two quantities are motivated by quantum chaos and quantum computation, respectively, while the relevant mathematics is as different as matrix diagonalization algorithms and geodesic flows on curved manifolds. We demonstrate that, despite these differences, there is a relation between the two quantities. Namely, the time average of Krylov complexity of state evolution can be expressed as a trace of a certain matrix, which also controls an upper bound on Nielsen complexity with a specific custom-tailored penalty schedule adapted to the Krylov basis.
翻訳日:2024-04-19 20:39:38 公開日:2024-04-18
# 人間のデータを超えた: 言語モデルによる問題解決のための自己学習のスケーリング

Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models ( http://arxiv.org/abs/2312.06585v4 )

ライセンス: Link先を確認
Avi Singh, John D. Co-Reyes, Rishabh Agarwal, Ankesh Anand, Piyush Patil, Xavier Garcia, Peter J. Liu, James Harrison, Jaehoon Lee, Kelvin Xu, Aaron Parisi, Abhishek Kumar, Alex Alemi, Alex Rizkowsky, Azade Nova, Ben Adlam, Bernd Bohnet, Gamaleldin Elsayed, Hanie Sedghi, Igor Mordatch, Isabelle Simpson, Izzeddin Gur, Jasper Snoek, Jeffrey Pennington, Jiri Hron, Kathleen Kenealy, Kevin Swersky, Kshiteej Mahajan, Laura Culp, Lechao Xiao, Maxwell L. Bileschi, Noah Constant, Roman Novak, Rosanne Liu, Tris Warkentin, Yundi Qian, Yamini Bansal, Ethan Dyer, Behnam Neyshabur, Jascha Sohl-Dickstein, Noah Fiedel, (参考訳) 人為的なデータに基づく微調整言語モデル~(LM)は、現在でも一般的である。 しかし、そのようなモデルの性能は、高品質な人間のデータの量と多様性によって制限されることが多い。 本稿では,スカラーフィードバックにアクセスできるタスク,例えば正当性を検証できる数学問題において,人間のデータを超えることができるかどうかを考察する。 そこでは,(1)モデルからサンプルを生成し,バイナリフィードバックを用いてフィルタし,(2)モデルに微調整を行い,(3)このプロセスを数回繰り返す。 PaLM-2モデルを用いた高度なMATH推論とAPPS符号化ベンチマークを用いて、ReST$^{EM}$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っている。 以上の結果から,フィードバックによる自己学習は,人為的データへの依存を大幅に減らすことが示唆された。

Fine-tuning language models~(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReST$^{EM}$, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReST$^{EM}$ scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.
翻訳日:2024-04-19 20:39:38 公開日:2024-04-18
# DualFluidNet:FLuidシミュレーションのための注意型デュアルパイプネットワーク

DualFluidNet: an Attention-based Dual-pipeline Network for FLuid Simulation ( http://arxiv.org/abs/2312.16867v2 )

ライセンス: Link先を確認
Yu Chen, Shuai Zheng, Menglong Jin, Yan Chang, Nianyi Wang, (参考訳) 流体運動は、SPH法を用いる場合、点雲変換とみなすことができる。 従来の数値解析手法と比較して、物理シミュレーションの学習に機械学習を用いると、ほぼ正確な結果が得られるが、効率は著しく向上する。 本稿では,アテンションをベースとしたデュアルパイプネットワークを用いた3次元流体シミュレーションのための革新的な手法を提案する。 グローバルな流体制御と物理法則のトレードオフが難しい従来の方法とは異なり、よく設計された二重パイプ方式でこれらの2つの重要な側面のバランスを改善する方法を見つける。 さらに,異なる種類の粒子を適応的に認識し,その後に機能融合を行うタイプアウェア入力モジュールの設計を行った。 さらに,より複雑なシーンを扱うネットワークの能力をさらに探求する新たなデータセットであるTurton3Dを提案する。 実験により,本手法は様々な指標の定量化に成功し,最先端の手法を超越するだけでなく,物理法則に忠実に固執することで,ニューラルネットワークに基づくシミュレーションの質的な飛躍を示すことが示された。 コードとビデオのデモはhttps://github.com/chenyu-xjtu/DualFluidNet.comで公開されている。

Fluid motion can be considered as a point cloud transformation when using the SPH method. Compared to traditional numerical analysis methods, using machine learning techniques to learn physics simulations can achieve near-accurate results, while significantly increasing efficiency. In this paper, we propose an innovative approach for 3D fluid simulations utilizing an Attention-based Dual-pipeline Network, which employs a dual-pipeline architecture, seamlessly integrated with an Attention-based Feature Fusion Module. Unlike previous methods, which often make difficult trade-offs between global fluid control and physical law constraints, we find a way to achieve a better balance between these two crucial aspects with a well-designed dual-pipeline approach. Additionally, we design a Type-aware Input Module to adaptively recognize particles of different types and perform feature fusion afterward, such that fluid-solid coupling issues can be better dealt with. Furthermore, we propose a new dataset, Tank3D, to further explore the network's ability to handle more complicated scenes. The experiments demonstrate that our approach not only attains a quantitative enhancement in various metrics, surpassing the state-of-the-art methods but also signifies a qualitative leap in neural network-based simulation by faithfully adhering to the physical laws. Code and video demonstrations are available at https://github.com/chenyu-xjtu/DualFluidNet.
翻訳日:2024-04-19 20:39:38 公開日:2024-04-18
# HgTe/CdTe量子井戸の量子回復と位相相転移

Quantum revivals in HgTe/CdTe quantum wells and topological phase transitions ( http://arxiv.org/abs/2401.03884v2 )

ライセンス: Link先を確認
A. Mayorgas, M. Calixto, N. A. Cordero, E. Romera, O. Castaños, (参考訳) 波状パケットの時間進化は、グラフェンやシリセンのような2次元ディラック材料のトポロジカル相転移を検出するツールである。 ここでは、解析をHgTe/CdTe量子井戸に拡張し、2次元有効ディラックハミルトニアンと異なる層厚を用いて、電子電流波パケットの進化を研究する。 この時間的進化に現れる2つの異なる周期性は、システムが通常の状態から逆状態へと変化する臨界厚さ付近で最小となることを示す。 さらに、電子電流振幅の最大値は、層厚によって変化し、電流の最大値が臨界厚さでより高い値に達することを特定する。 したがって、電子電流の周期性と振幅の観点から位相相転移を特徴づけることができる。

The time evolution of a wave packet is a tool to detect topological phase transitions in two-dimensional Dirac materials, such as graphene and silicene. Here we extend the analysis to HgTe/CdTe quantum wells and study the evolution of their electron current wave packet, using 2D effective Dirac Hamiltonians and different layer thicknesses. We show that the two different periodicities that appear in this temporal evolution reach a minimum near the critical thickness, where the system goes from normal to inverted regime. Moreover, the maximum of the electron current amplitude changes with the layer thickness, identifying that current maxima reach their higher value at the critical thickness. Thus, we can characterize the topological phase transitions in terms of the periodicity and amplitude of the electron currents.
翻訳日:2024-04-19 20:39:38 公開日:2024-04-18
# 対実的説明のためのグラフ編集:比較研究

Graph Edits for Counterfactual Explanations: A comparative study ( http://arxiv.org/abs/2401.11609v3 )

ライセンス: Link先を確認
Angeliki Dimitriou, Nikolaos Chaidos, Maria Lymperaiou, Giorgos Stamou, (参考訳) ファクトファクトは、最小限の編集のセットを利用して分類器の予測を変更する一般的な説明可能性手法として確立されている。 画像上の概念上の反事実を考える場合、要求された編集は入力データに存在する健全な概念に対応するべきである。 同時に、概念距離は知識グラフによって定義され、概念編集の最適性を保証する。 本研究では,教師付きグラフニューラルネット(GNN)アプローチと教師なしグラフニューラルネット(GNN)アプローチの両方を含む比較研究を行うことにより,グラフ編集における過去の取り組みを,対実的な説明として拡張する。 この目的のために、我々は入力データをグラフとして表現すべきかという重要な研究課題を提起する。これは、ブラックボックス画像分類器に対する最小限かつ有意義な反実的説明を生成するために、性能と時間効率の観点から最適なGNNアプローチである。

Counterfactuals have been established as a popular explainability technique which leverages a set of minimal edits to alter the prediction of a classifier. When considering conceptual counterfactuals on images, the edits requested should correspond to salient concepts present in the input data. At the same time, conceptual distances are defined by knowledge graphs, ensuring the optimality of conceptual edits. In this work, we extend previous endeavors on graph edits as counterfactual explanations by conducting a comparative study which encompasses both supervised and unsupervised Graph Neural Network (GNN) approaches. To this end, we pose the following significant research question: should we represent input data as graphs, which is the optimal GNN approach in terms of performance and time efficiency to generate minimal and meaningful counterfactual explanations for black-box image classifiers?
翻訳日:2024-04-19 20:39:38 公開日:2024-04-18
# 神経放射場の新規な視線合成品質向上のための方法と戦略

Methods and strategies for improving the novel view synthesis quality of neural radiation field ( http://arxiv.org/abs/2401.12451v2 )

ライセンス: Link先を確認
Shun Fang, Ming Cui, Xing Feng, Yanna Lv, (参考訳) ニューラル放射線場(NeRF)技術は、2次元画像からシーンの3次元暗黙モデルを学び、現実的な新しいビューイメージを合成することができる。 この技術は業界から広く注目を集めており、応用可能性も高い。 NeRF画像のレンダリング品質を改善する必要があるという問題に対して、多くの研究者が過去3年間のレンダリング品質を改善するための様々な方法を提案している。 関連論文を分類・レビューし、品質改善の背景にある技術的原則を分析し、品質改善手法の今後の発展方向について論じる。 この研究は、研究者がこの分野における現在の技術状況と進化の文脈を素早く理解するのに役立ち、より効率的なアルゴリズムの開発を促し、関連する分野におけるNeRF技術の適用を促進するのに役立つ。

Neural Radiation Field (NeRF) technology can learn a 3D implicit model of a scene from 2D images and synthesize realistic novel view images. This technology has received widespread attention from the industry and has good application prospects. In response to the problem that the rendering quality of NeRF images needs to be improved, many researchers have proposed various methods to improve the rendering quality in the past three years. The latest relevant papers are classified and reviewed, the technical principles behind quality improvement are analyzed, and the future evolution direction of quality improvement methods is discussed. This study can help researchers quickly understand the current state and evolutionary context of technology in this field, which is helpful in inspiring the development of more efficient algorithms and promoting the application of NeRF technology in related fields.
翻訳日:2024-04-19 20:39:38 公開日:2024-04-18
# CT再構成のための低分解能予備平衡網

Low-resolution Prior Equilibrium Network for CT Reconstruction ( http://arxiv.org/abs/2401.15663v2 )

ライセンス: Link先を確認
Yijie Yang, Qifeng Gao, Yuping Duan, (参考訳) X線CTにおける変分モデル学習のためのアンローリング法について検討した。 しかし, 勾配降下による正則化モデルを直接解き放つと, 良好な結果が得られないことがわかった。 本稿では,低解像度画像を導入し,ネットワークのロバスト性を改善するための効果的な正規化項を得る,新しい深層学習型CT再構成モデルを提案する。 提案手法では, 深い平衡構造を用いて実現したアルゴリズムの展開により, バックボーンネットワークアーキテクチャを構築する。 理論的には,提案した低分解能先行平衡モデルの収束を議論し,収束を保証する条件を提供する。 狭角化と狭角化の両問題を実験的に検討し, ノイズ低減, コントラスト・ツー・ノイズ比, エッジ細部保存の両面において, エンド・ツー・エンドの低分解能事前平衡モデルが他の最先端手法よりも優れていることを示した。

The unrolling method has been investigated for learning variational models in X-ray computed tomography. However, it has been observed that directly unrolling the regularization model through gradient descent does not produce satisfactory results. In this paper, we present a novel deep learning-based CT reconstruction model, where the low-resolution image is introduced to obtain an effective regularization term for improving the network`s robustness. Our approach involves constructing the backbone network architecture by algorithm unrolling that is realized using the deep equilibrium architecture. We theoretically discuss the convergence of the proposed low-resolution prior equilibrium model and provide the conditions to guarantee convergence. Experimental results on both sparse-view and limited-angle reconstruction problems are provided, demonstrating that our end-to-end low-resolution prior equilibrium model outperforms other state-of-the-art methods in terms of noise reduction, contrast-to-noise ratio, and preservation of edge details.
翻訳日:2024-04-19 20:29:53 公開日:2024-04-18
# Mobile-Agent:視覚認識による自律型マルチモーダルモバイルデバイスエージェント

Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception ( http://arxiv.org/abs/2401.16158v2 )

ライセンス: Link先を確認
Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang, (参考訳) MLLM(Multimodal Large Language Models)に基づくモバイルデバイスエージェントが普及しつつある。 本稿では,自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。 Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。 認識された視覚コンテキストに基づいて、複雑な操作タスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。 アプリやモバイルシステムのメタデータのXMLファイルに依存する以前のソリューションとは違って、Mobile-Agentは視覚中心の方法で多様なモバイル環境にまたがる適応性を向上し、システム固有のカスタマイズの必要性を排除します。 モバイルエージェントの性能を評価するため,モバイルデバイス操作評価のベンチマークであるMobile-Evalを導入した。 Mobile-Evalに基づいて,Mobile-Agentの総合評価を行った。 実験結果から,Mobile-Agentは驚くほどの精度と完成率を達成したことが示唆された。 マルチアプリ操作のような困難な命令であっても、Mobile-Agentは要件を完了することができる。 コードとモデルはhttps://github.com/X-PLUG/MobileAgent.comでオープンソース化される。

Mobile device agent based on Multimodal Large Language Models (MLLM) is becoming a popular application. In this paper, we introduce Mobile-Agent, an autonomous multi-modal mobile device agent. Mobile-Agent first leverages visual perception tools to accurately identify and locate both the visual and textual elements within the app's front-end interface. Based on the perceived vision context, it then autonomously plans and decomposes the complex operation task, and navigates the mobile Apps through operations step by step. Different from previous solutions that rely on XML files of Apps or mobile system metadata, Mobile-Agent allows for greater adaptability across diverse mobile operating environments in a vision-centric way, thereby eliminating the necessity for system-specific customizations. To assess the performance of Mobile-Agent, we introduced Mobile-Eval, a benchmark for evaluating mobile device operations. Based on Mobile-Eval, we conducted a comprehensive evaluation of Mobile-Agent. The experimental results indicate that Mobile-Agent achieved remarkable accuracy and completion rates. Even with challenging instructions, such as multi-app operations, Mobile-Agent can still complete the requirements. Code and model will be open-sourced at https://github.com/X-PLUG/MobileAgent.
翻訳日:2024-04-19 20:29:53 公開日:2024-04-18
# SelectLLM: LLMはアノテーションに重要な命令を選択できるか?

SelectLLM: Can LLMs Select Important Instructions to Annotate? ( http://arxiv.org/abs/2401.16553v5 )

ライセンス: Link先を確認
Ritik Sachin Parkar, Jaehyung Kim, Jong Inn Park, Dongyeop Kang, (参考訳) インストラクションチューニングは、大規模で多様なデータセットから恩恵を受けるが、そのようなデータセットを作成するには、人間のラベル付けのコストが高い。 大規模言語モデル(LLM)によって生成された合成データセットはこの問題を部分的に解決しているが、低品質のデータを含んでいることが多い。 効果的な解決策の1つは、特にラベルなしの命令やテキストを様々なソースから比較的容易に取得できることを考えると、ラベルなしの命令を選択的に注釈付けすることである。 しかし、特にLLMの文脈では、乱れのない命令をどうやって選択するかはよく研究されていない。 さらに、入力埋め込み空間密度に依存する従来のデータ選択手法は、命令サンプルの複雑さを過小評価する傾向があるが、モデル予測の不確実性に基づくものは、しばしば合成ラベルの品質に悩まされる。 そこで本稿では,ラベルなし命令をより効果的に選択するための LLM の機能を活用した代替フレームワークである SelectLLM を紹介する。 SelectLLMは2つの重要なステップで構成されている。コアセットベースのクラスタリングは、多様性のための非ラベリング命令であり、LLMに各クラスタ内で最も有益な命令を特定するよう促す。 我々の実験では、SelectLLMは命令チューニングベンチマークにおいて、他の最先端の手法と一致し、性能が良くなることを示した。 DollyデータでトレーニングされたクリーンなAlpacaテストセットの10%のパフォーマンス向上によって証明されたように、人間と合成データセット間の顕著な一貫性と、クロスデータセットの一般化が向上している。 すべてのコードとデータが公開されている(https://github.com/minnesotanlp/select-llm)。

Instruction tuning benefits from large and diverse datasets, however creating such datasets involves a high cost of human labeling. While synthetic datasets generated by large language models (LLMs) have partly solved this issue, they often contain low-quality data. One effective solution is selectively annotating unlabelled instructions, especially given the relative ease of acquiring unlabeled instructions or texts from various sources. However, how to select unlabelled instructions is not well-explored, especially in the context of LLMs. Further, traditional data selection methods, relying on input embedding space density, tend to underestimate instruction sample complexity, whereas those based on model prediction uncertainty often struggle with synthetic label quality. Therefore, we introduce SelectLLM, an alternative framework that leverages the capabilities of LLMs to more effectively select unlabeled instructions. SelectLLM consists of two key steps: Coreset-based clustering of unlabelled instructions for diversity and then prompting a LLM to identify the most beneficial instructions within each cluster. Our experiments demonstrate that SelectLLM matches or outperforms other state-of-the-art methods in instruction tuning benchmarks. It exhibits remarkable consistency across human and synthetic datasets, along with better cross-dataset generalization, as evidenced by a 10% performance improvement on the Cleaned Alpaca test set when trained on Dolly data. All code and data are publicly available (https://github.com/minnesotanlp/select-llm).
翻訳日:2024-04-19 20:29:53 公開日:2024-04-18
# LLMは構造化グラフ推論を実行できるか?

Can LLMs perform structured graph reasoning? ( http://arxiv.org/abs/2402.01805v3 )

ライセンス: Link先を確認
Palaash Agrawal, Shavak Vasania, Cheston Tan, (参考訳) 事前訓練された大規模言語モデル(LLM)は、言語ベースのプロンプトだけで、特に非構造化タスク設定(純粋に言語意味論に基づくタスク)において、様々な推論能力を示している。 しかし、LLMは入力表現の固有の非互換性のため、しばしば構造化されたタスクと競合する。 構造化されたタスクを一次元の言語セマンティクスに還元することは、しばしば問題を簡単なものにする。 本稿では,LLMとの互換性と構造複雑性を念頭に置いて,様々なグラフ推論タスクを半構造化タスクのプロキシとして設計する。 特に,グラフトラバーサルの10の異なる問題を設計し,それぞれが複雑性のレベルを表わすとともに,上記のタスクに対して5つの異なるインストラクトファイントゥンドLLM(GPT-4,GPT-3.5,Claude-2,Llama-2,Palm-2)をベンチマークする。 さらに、グラフのサイズやkショットプロンプトの形式など、さまざまな設定でモデルの性能を分析する。 例えば、グラフ内のノード毎のトラバース自由度の平均値に対する逆関係、グラフ推論タスクにおけるkショットの全体的な負の影響、LLMが有効な解の欠如を識別するのを防ぐ正の応答バイアスなどである。 最後に,グラフトラバーサルタスク(PathCompare)に特化して設計された新しいプロンプト技術を導入し,Chain-of-Thought(CoT)などの標準プロンプト技術と比較してLCMの性能が顕著に向上したことを示す。

Pretrained Large Language Models (LLMs) have demonstrated various reasoning capabilities through language-based prompts alone, particularly in unstructured task settings (tasks purely based on language semantics). However, LLMs often struggle with structured tasks, because of the inherent incompatibility of input representation. Reducing structured tasks to uni-dimensional language semantics often renders the problem trivial. Keeping the trade-off between LLM compatibility and structure complexity in mind, we design various graph reasoning tasks as a proxy to semi-structured tasks in this paper, in order to test the ability to navigate through representations beyond plain text in various LLMs. Particularly, we design 10 distinct problems of graph traversal, each representing increasing levels of complexity, and benchmark 5 different instruct-finetuned LLMs (GPT-4, GPT-3.5, Claude-2, Llama-2 and Palm-2) on the aforementioned tasks. Further, we analyse the performance of models across various settings such as varying sizes of graphs as well as different forms of k-shot prompting. We highlight various limitations, biases and properties of LLMs through this benchmarking process, such as an inverse relation to the average degrees of freedom of traversal per node in graphs, the overall negative impact of k-shot prompting on graph reasoning tasks, and a positive response bias which prevents LLMs from identifying the absence of a valid solution. Finally, we introduce a new prompting technique specially designed for graph traversal tasks (PathCompare), which demonstrates a notable increase in the performance of LLMs in comparison to standard prompting techniques such as Chain-of-Thought (CoT).
翻訳日:2024-04-19 20:29:53 公開日:2024-04-18
# 大規模マルチモーダルモデルを用いた生成モデルの潜在表現について

Explaining latent representations of generative models with large multimodal models ( http://arxiv.org/abs/2402.01858v3 )

ライセンス: Link先を確認
Mengdan Zhu, Zhenke Liu, Bo Pan, Abhinav Angirekula, Liang Zhao, (参考訳) データ生成潜在因子の解釈可能な表現を学習することは、人工知能の発展にとって重要なトピックである。 大規模なマルチモーダルモデルの台頭により、画像とテキストをアライメントして回答を生成することができる。 本研究では,大規模マルチモーダルモデルを用いた生成モデルにおいて,各潜伏変数を包括的に記述するフレームワークを提案する。 さらに、生成した説明の不確実性を測定し、複数の大規模マルチモーダルモデル間の説明生成性能を定量的に評価し、各潜伏変数の変動を定性的に可視化し、異なる生成モデルが説明に絡み合う影響を学習する。 最後に、最先端の大規模マルチモーダルモデルの説明能力と限界について論じる。

Learning interpretable representations of data generative latent factors is an important topic for the development of artificial intelligence. With the rise of the large multimodal model, it can align images with text to generate answers. In this work, we propose a framework to comprehensively explain each latent variable in the generative models using a large multimodal model. We further measure the uncertainty of our generated explanations, quantitatively evaluate the performance of explanation generation among multiple large multimodal models, and qualitatively visualize the variations of each latent variable to learn the disentanglement effects of different generative models on explanations. Finally, we discuss the explanatory capabilities and limitations of state-of-the-art large multimodal models.
翻訳日:2024-04-19 20:29:53 公開日:2024-04-18
# ViGoR:細粒リワードモデリングによる大規模視覚言語モデルの視覚的グラウンド化の改善

ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling ( http://arxiv.org/abs/2402.06118v2 )

ライセンス: Link先を確認
Siming Yan, Min Bai, Weifeng Chen, Xiong Zhou, Qixing Huang, Li Erran Li, (参考訳) 自然言語理解,生成能力,大規模言語モデルの知識を画像認識と組み合わせることで,近年の大規模視覚言語モデル(LVLM)は前例のない視覚的推論能力を示した。 しかし、生成したテキストは、視覚入力における不正確な接地に悩まされることが多く、結果として、存在しないシーン要素の幻覚、シーンの重要な部分の欠如、オブジェクト間の不正確な属性や関係の推測などのエラーが発生する。 これらの課題に対処するために, 微粒な報酬モデルを用いて, 事前学習ベースライン上でのLVLMの視覚的グラウンド化を著しく向上する新しいフレームワーク, ViGoR(Visual Grounding Through Fine-Grained Reward Modeling)を導入する。 この改善は、完全な監督ではなく、はるかに安価な人的評価と自動化手法によって効率よく達成される。 様々な評価手法とベンチマークを用いて,本手法の有効性を示す。 さらに,約16,000枚の画像と詳細な評価を伴うテキストペアを作成した人間のアノテーションを公開し,コミュニティの関連研究に貢献する予定である。

By combining natural language understanding, generation capabilities, and breadth of knowledge of large language models with image perception, recent large vision language models (LVLMs) have shown unprecedented visual reasoning capabilities. However, the generated text often suffers from inaccurate grounding in the visual input, resulting in errors such as hallucination of nonexistent scene elements, missing significant parts of the scene, and inferring incorrect attributes of and relationships between objects. To address these issues, we introduce a novel framework, ViGoR(Visual Grounding Through Fine-Grained Reward Modeling) that utilizes fine-grained reward modeling to significantly enhance the visual grounding of LVLMs over pre-trained baselines. This improvement is efficiently achieved using much cheaper human evaluations instead of full supervisions, as well as automated methods. We show the effectiveness of our approach through a variety of evaluation methods and benchmarks. Additionally, we plan to release our human annotation comprising approximately 16,000 images and generated text pairs with fine-grained evaluations to contribute to related research in the community.
翻訳日:2024-04-19 20:29:53 公開日:2024-04-18
# モーダリティを考慮したマルチモーダルロバストネスの定量化と向上

Quantifying and Enhancing Multi-modal Robustness with Modality Preference ( http://arxiv.org/abs/2402.06244v2 )

ライセンス: Link先を確認
Zequn Yang, Yake Wei, Ce Liang, Di Hu, (参考訳) マルチモーダルモデルは、様々なソースからの情報を効果的に統合する有望な能力を示しているが、一方、ユニモーダル攻撃や欠落状態のような広汎な摂動に弱いことが判明している。 これらの摂動に対処するため、頑健なマルチモーダル表現が期待され、それは差別的なマルチモーダル決定境界からかなり離れた位置にある。 本稿では,従来の実証研究とは違って,一般的な多モーダルフレームワークに着目し,より大きな一様表現マージンとより信頼性の高いモダリティの統合が,より高いロバスト性を達成する上で不可欠な要素であることを理論的に発見する。 この発見は、マルチモーダルロバスト性の限界と、マルチモーダルモデルが特定のモダリティに対する攻撃に対して脆弱であることの現象をさらに説明できる。 さらに,本研究では,モデルがモダリティの嗜好が異なること,本質的な構成要素に影響を与えることでマルチモーダルロバスト性を制限し,特定のモダリティに対する攻撃を効果的に行なえる可能性を明らかにする。 理論的な発見から着想を得て,モダリティの嗜好からこの影響を緩和し,本質的な構成要素を明示的に規制し,認証方法の堅牢性を大幅に向上させる,Certifiable Robust Multi-modal Training (CRMT) と呼ばれるトレーニング手順を導入する。 提案手法は,既存手法と比較して,性能と堅牢性を大幅に向上したことを示す。 さらに、トレーニング手順を簡単に拡張して、他の堅牢なトレーニング戦略を強化し、信頼性と柔軟性を強調します。

Multi-modal models have shown a promising capability to effectively integrate information from various sources, yet meanwhile, they are found vulnerable to pervasive perturbations, such as uni-modal attacks and missing conditions. To counter these perturbations, robust multi-modal representations are highly expected, which are positioned well away from the discriminative multi-modal decision boundary. In this paper, different from conventional empirical studies, we focus on a commonly used joint multi-modal framework and theoretically discover that larger uni-modal representation margins and more reliable integration for modalities are essential components for achieving higher robustness. This discovery can further explain the limitation of multi-modal robustness and the phenomenon that multi-modal models are often vulnerable to attacks on the specific modality. Moreover, our analysis reveals how the widespread issue, that the model has different preferences for modalities, limits the multi-modal robustness by influencing the essential components and could lead to attacks on the specific modality highly effective. Inspired by our theoretical finding, we introduce a training procedure called Certifiable Robust Multi-modal Training (CRMT), which can alleviate this influence from modality preference and explicitly regulate essential components to significantly improve robustness in a certifiable manner. Our method demonstrates substantial improvements in performance and robustness compared with existing methods. Furthermore, our training procedure can be easily extended to enhance other robust training strategies, highlighting its credibility and flexibility.
翻訳日:2024-04-19 20:29:53 公開日:2024-04-18
# CigaR:LLMによる費用効率の高いプログラム修復

CigaR: Cost-efficient Program Repair with LLMs ( http://arxiv.org/abs/2402.06598v2 )

ライセンス: Link先を確認
Dávid Hidvégi, Khashayar Etemadi, Sofia Bobadilla, Martin Monperrus, (参考訳) 大規模言語モデル(LLM)は自動プログラム修復(APR)に有効であることが証明されている。 しかし、LSMを使うことはコストがかかり、企業はトークンの数によってユーザを呼び出します。 本稿では,修復コストの最小化に焦点をあてた最初のLCMベースのAPRツールであるCigaRを提案する。 CigaRは、2つの主要なステップで機能する。 CigaRはプロンプトとプロンプト設定を最適化し、最小限のトークン数を用いてLLMに与えられる情報を最大化する。 広く使用されているDefects4JとHumanEval-Javaデータセットの429のバグに関する実験は、CigaRがトークンコストを73%削減したことを示している。 平均して、CigaRはバグ毎のトークンに127k、ベースラインはバグ毎のトークンに467kを使用する。 どちらも修正されたバグのサブセットでは、ベースラインが608kトークンを使用しており、コストの削減は96%である。 大規模な実験により,CigaRは低コストのLCMベースのプログラム修復ツールであり,少ない数のトークンを用いてパッチを自動的に生成することがわかった。

Large language models (LLM) have proven to be effective at automated program repair (APR). However, using LLMs can be costly, with companies invoicing users by the number of tokens. In this paper, we propose CigaR, the first LLM-based APR tool that focuses on minimizing the repair cost. CigaR works in two major steps: generating a first plausible patch and multiplying plausible patches. CigaR optimizes the prompts and the prompt setting to maximize the information given to LLMs using the smallest possible number of tokens. Our experiments on 429 bugs from the widely used Defects4J and HumanEval-Java datasets shows that CigaR reduces the token cost by 73%. On average, CigaR spends 127k tokens per bug while the baseline uses 467k tokens per bug. On the subset of bugs that are fixed by both, CigaR spends 20k per bug while the baseline uses 608k tokens, a cost saving of 96%. Our extensive experiments show that CigaR is a cost-effective LLM-based program repair tool that uses a low number of tokens to automatically generate patches.
翻訳日:2024-04-19 20:29:53 公開日:2024-04-18
# SynFAC-EDIT : 臨床要約におけるファクチュアルアライメントのための合成模倣編集フィードバック

SYNFAC-EDIT: Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization ( http://arxiv.org/abs/2402.13919v3 )

ライセンス: Link先を確認
Prakamya Mishra, Zonghai Yao, Parth Vashisht, Feiyun Ouyang, Beining Wang, Vidhi Dhaval Mody, Hong Yu, (参考訳) GPTやLlamaのような大規模言語モデル(LLM)は、要約タスクにおいて重要な成果を示したが、実際的不正確さに苦慮している。 本研究は,GPT-3.5やGPT-4のような100BパラメータのGPT-3.5やGPT-4といったGPTの変種を利用して,臨床ノート要約における事実整合性向上を目的とした高品質な合成フィードバックを生成する革新的なパイプラインを提案する。 我々の研究は、人間のアノテーションを付加せずにこれらの合成フィードバックの専門家が生成したフィードバックの編集、医療専門家がAIシステムの出力を洗練する実践シナリオのミラーリングと最適化に重点を置いている。 このような100B以上のパラメータ GPT 変種は、医学ライセンス試験のような様々な臨床NLPタスクにおける専門性を示すことが証明されているが、臨床領域におけるGPT-2 (1.5B) や Llama 2 (7B) のような、より弱い (10B のパラメータ) LLM の生成品質を改善するために、合成フィードバックの専門家として機能し、専門家レベルの編集フィードバックを提供する能力について精査されている。 そこで本研究では,100B以上のGPT変種を利用して,専門家レベルの編集フィードバックを提供する合成フィードバック専門家として機能し,幻覚の低減と,2つの異なるアライメントアルゴリズム(DPOとSALT)を用いた医学的事実との整合(10Bパラメータ)を図る。 このことは、臨床事実の整合性を高めるためのLLMベースの合成編集のかなりの可能性を強調している。

Large Language Models (LLMs) such as GPT & Llama have demonstrated significant achievements in summarization tasks but struggle with factual inaccuracies, a critical issue in clinical NLP applications where errors could lead to serious consequences. To counter the high costs and limited availability of expert-annotated data for factual alignment, this study introduces an innovative pipeline that utilizes >100B parameter GPT variants like GPT-3.5 & GPT-4 to act as synthetic experts to generate high-quality synthetics feedback aimed at enhancing factual consistency in clinical note summarization. Our research primarily focuses on edit feedback generated by these synthetic feedback experts without additional human annotations, mirroring and optimizing the practical scenario in which medical professionals refine AI system outputs. Although such 100B+ parameter GPT variants have proven to demonstrate expertise in various clinical NLP tasks, such as the Medical Licensing Examination, there is scant research on their capacity to act as synthetic feedback experts and deliver expert-level edit feedback for improving the generation quality of weaker (<10B parameter) LLMs like GPT-2 (1.5B) & Llama 2 (7B) in clinical domain. So in this work, we leverage 100B+ GPT variants to act as synthetic feedback experts offering expert-level edit feedback, that is used to reduce hallucinations and align weaker (<10B parameter) LLMs with medical facts using two distinct alignment algorithms (DPO & SALT), endeavoring to narrow the divide between AI-generated content and factual accuracy. This highlights the substantial potential of LLM-based synthetic edits in enhancing the alignment of clinical factuality.
翻訳日:2024-04-19 20:29:53 公開日:2024-04-18
# RLHFにおける効率的なリワードモデリングのためのドメイン知識の活用:E-Commerce Opinion Summarizationにおける事例研究

Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A Case-Study in E-Commerce Opinion Summarization ( http://arxiv.org/abs/2402.15473v2 )

ライセンス: Link先を確認
Swaroop Nath, Tejpalsingh Siledar, Sankara Sri Raghava Ravindra Muddu, Rupasai Rangaraju, Harshad Khadilkar, Pushpak Bhattacharyya, Suman Banerjee, Amey Patil, Sudhanshu Shekhar Singh, Muthusamy Chelliah, Nikesh Garera, (参考訳) RLHF(Reinforcement Learning from Human Feedback)は、言語モデル(LM)と人間の価値/ゴールの整合において支配的な戦略となっている。 この戦略の鍵は報酬モデル(\varphi$)を学ぶことだ。 この戦略は有効であることが証明されているが、トレーニング手法には、$\varphi$をトレーニングするためには、多くの人間の好みアノテーション(通常、数万の順序で)が必要である。 このような大規模なアノテーションは、一度の取り組みであれば正当化でき、報酬モデルは普遍的に適用できます。 しかし、人間のゴールは主観的であり、タスクに依存し、タスク固有の嗜好アノテーションを必要とする。 この課題に対処するために、ドメイン知識を$\varphi$に注入する新しいアプローチを提案する。 私たちは、SOTA(\sim4$ point ROUGE-L improvement, 6,8\%$)を推進しながら、データセットサイズを(わずか940ドルのサンプルまで)大幅に削減し、Eコマースオピニオンの要約におけるアプローチを検証する。 コントリビューションには、新しいReward Modelingテクニックと、PromptOpinSumm(オピニオン・サマリゼーションのための教師付きデータ)とOpinPref(ゴールドスタンダードの人間の嗜好データセット)という、2つの新しいデータセットが含まれています。 提案手法は、効率的なRLHFの道を開き、人的価値の異なるアプリケーションに適応できるようにする。 アーティファクト(Code: github.com/efficient-rlhf. PromptOpinSumm: hf.co/prompt-opin-summ. OpinPref: hf.co/opin-pref)をMITライセンス下で使用するためにリリースしています。

Reinforcement Learning from Human Feedback (RLHF) has become a dominating strategy in aligning Language Models (LMs) with human values/goals. The key to the strategy is learning a reward model ($\varphi$), which can reflect the latent reward model of humans. While this strategy has proven effective, the training methodology requires a lot of human preference annotation (usually in the order of tens of thousands) to train $\varphi$. Such a large-scale annotation is justifiable when it's a one-time effort, and the reward model is universally applicable. However, human goals are subjective and depend on the task, requiring task-specific preference annotations, which can be impractical to fulfill. To address this challenge, we propose a novel approach to infuse domain knowledge into $\varphi$, which reduces the amount of preference annotation required ($21\times$), omits Alignment Tax, and provides some interpretability. We validate our approach in E-Commerce Opinion Summarization, with a significant reduction in dataset size (to just $940$ samples) while advancing the SOTA ($\sim4$ point ROUGE-L improvement, $68\%$ of times preferred by humans over SOTA). Our contributions include a novel Reward Modeling technique and two new datasets: PromptOpinSumm (supervised data for Opinion Summarization) and OpinPref (a gold-standard human preference dataset). The proposed methodology opens up avenues for efficient RLHF, making it more adaptable to applications with varying human values. We release the artifacts (Code: github.com/efficient-rlhf. PromptOpinSumm: hf.co/prompt-opin-summ. OpinPref: hf.co/opin-pref) for usage under MIT License.
翻訳日:2024-04-19 20:29:53 公開日:2024-04-18
# イベントカメラのための状態空間モデル

State Space Models for Event Cameras ( http://arxiv.org/abs/2402.15584v3 )

ライセンス: Link先を確認
Nikola Zubić, Mathias Gehrig, Davide Scaramuzza, (参考訳) 今日、イベントカメラデータを処理する最先端のディープニューラルネットワークは、イベントの時間的ウィンドウを、グリッドのような密度の高い入力表現に変換する。 そのため、トレーニングされたものよりも高い推論周波数(すなわち、より小さい時間窓)でデプロイされた場合の一般化性は低い。 我々は、イベントベースのビジョンに学習可能な時間スケールパラメータを持つ状態空間モデル(SSM)を導入することで、この問題に対処する。 この設計は、異なる周波数でネットワークを再トレーニングすることなく、様々な周波数に適応する。 さらに, 高周波数でモデルを展開する場合, エイリアス効果に対処する2つの手法について検討する。 我々は、RNNおよびTransformerアーキテクチャに基づく既存手法に対するアプローチを、Gen1および1 Mpxイベントカメラデータセットを含む様々なベンチマークで包括的に評価する。 以上の結果から,SSMモデルではトレーニングが33%高速化され,トレーニング入力よりも高い周波数でテストした場合の性能劣化が最小限に抑えられることがわかった。 従来のRNNとTransformerモデルは20mAP以上の性能低下を示し、SSMは3.76mAPの低下を示し、イベントベースの視覚タスクにおけるSSMの有効性を強調している。

Today, state-of-the-art deep neural networks that process event-camera data first convert a temporal window of events into dense, grid-like input representations. As such, they exhibit poor generalizability when deployed at higher inference frequencies (i.e., smaller temporal windows) than the ones they were trained on. We address this challenge by introducing state-space models (SSMs) with learnable timescale parameters to event-based vision. This design adapts to varying frequencies without the need to retrain the network at different frequencies. Additionally, we investigate two strategies to counteract aliasing effects when deploying the model at higher frequencies. We comprehensively evaluate our approach against existing methods based on RNN and Transformer architectures across various benchmarks, including Gen1 and 1 Mpx event camera datasets. Our results demonstrate that SSM-based models train 33% faster and also exhibit minimal performance degradation when tested at higher frequencies than the training input. Traditional RNN and Transformer models exhibit performance drops of more than 20 mAP, with SSMs having a drop of 3.76 mAP, highlighting the effectiveness of SSMs in event-based vision tasks.
翻訳日:2024-04-19 20:29:53 公開日:2024-04-18
# Chimera: すべてのトークンを融合して大規模言語モデル推論を高速化するロスレスデコーディング手法

Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens ( http://arxiv.org/abs/2402.15758v2 )

ライセンス: Link先を確認
Ziqian Zeng, Jiahong Yu, Qianshi Pang, Zihao Wang, Huiping Zhuang, Hongen Shao, Xiaofeng Zou, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示している。 しかし、それらの応用はリソース集約的な復号化プロセスによって妨げられている。 この課題に対処するため、現在のアプローチでは、複数の後続トークンの並列予測を可能にするために、追加の復号ヘッドが組み込まれており、推論アクセラレーションが達成されている。 それでも、これらの復号ヘッドの精度は自己回帰復号法に劣る。 これらの制約を考慮して,投機的サンプリングに特化して設計された新しいフレームワークであるChimeraを提案する。 このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。 精度と効率の両立を図るため,軽量なドラフトモデルに2つの戦略を提示する。 まず、下位層での短距離依存関係のキャプチャに重点を置いています。 次に、Vicuna と LlaMA-2 シリーズでの実証的な評価から、Chimera は、Vicuna と LlaMA-2 シリーズにおいて、バニラ自己回帰復号法と比較して平均2.7倍の遅延速度向上率を達成するという印象的な結果を示した。 このことは、デコードプロセスにおける大規模言語モデルの効率を大幅に改善する上で、提案するフレームワークの可能性を強調します。

Large language models (LLMs) have demonstrated remarkable capabilities across various tasks. However, their widespread application is hindered by the resource-intensive decoding process. To address this challenge, current approaches have incorporated additional decoding heads to enable parallel prediction of multiple subsequent tokens, thereby achieving inference acceleration. Nevertheless, the accuracy of these decoding heads falls short of the auto-regressive decoding approach. In light of these limitations, we propose Chimera, a novel framework specifically designed for speculative sampling. Within this framework, we introduce a lightweight draft model that effectively utilizes previously generated tokens to predict subsequent words. To ensure both accuracy and efficiency, we present two strategies within the lightweight draft model. Firstly, we focus on capturing short-range dependencies at the bottom layer. Secondly, we leverage the readily available representations from the original LLM.Through empirical evaluation on the Vicuna and LlaMA-2 series, Chimera demonstrates impressive results, achieving an average latency speedup ratio of 2.7x compared to the vanilla auto-regressive decoding approach. This highlights the potential of our proposed framework in significantly improving the efficiency of large language models during the decoding process.
翻訳日:2024-04-19 20:29:53 公開日:2024-04-18
# 時空間表現を超えて:時間グラフのためのフーリエ変換を進化させる

Beyond Spatio-Temporal Representations: Evolving Fourier Transform for Temporal Graphs ( http://arxiv.org/abs/2402.16078v2 )

ライセンス: Link先を確認
Anson Bastos, Kuldeep Singh, Abhishek Nadgeri, Manish Singh, Toyotaro Suzumura, (参考訳) Evolving Graph Fourier Transform (EFT) は、時間グラフ上の進化的表現をキャプチャする最初の可逆スペクトル変換である。 我々は,グラフ頂点領域とともに時間的側面から計算的にコストがかかるグラフスペクトルを捕捉する既存の手法の不十分さによって,我々の研究を動機付けている。 この問題を連続時間動的グラフのラプラシアンの最適化とみなす。 さらに,変換過程を分解する擬似スペクトル緩和法を提案し,高い計算効率を実現する。 EFT法は、進化するグラフの構造的および位置的特性を積極的にキャプチャし、進化するグラフの下流タスクに有効である。 したがって、参照実装として、進化するグラフスペクトルをキャプチャするためのETTで誘導される単純なニューラルモデルを開発する。 我々は,多数の大規模および標準時相グラフベンチマークに関する理論的知見を実証的に検証し,我々のモデルが最先端の性能を達成することを実証した。

We present the Evolving Graph Fourier Transform (EFT), the first invertible spectral transform that captures evolving representations on temporal graphs. We motivate our work by the inadequacy of existing methods for capturing the evolving graph spectra, which are also computationally expensive due to the temporal aspect along with the graph vertex domain. We view the problem as an optimization over the Laplacian of the continuous time dynamic graph. Additionally, we propose pseudo-spectrum relaxations that decompose the transformation process, making it highly computationally efficient. The EFT method adeptly captures the evolving graph's structural and positional properties, making it effective for downstream tasks on evolving graphs. Hence, as a reference implementation, we develop a simple neural model induced with EFT for capturing evolving graph spectra. We empirically validate our theoretical findings on a number of large-scale and standard temporal graph benchmarks and demonstrate that our model achieves state-of-the-art performance.
翻訳日:2024-04-19 20:29:53 公開日:2024-04-18
# 高度な深層学習手法を用いた音声認識:サーベイ

Automatic Speech Recognition using Advanced Deep Learning Approaches: A survey ( http://arxiv.org/abs/2403.01255v2 )

ライセンス: Link先を確認
Hamza Kheddar, Mustapha Hemis, Yassine Himeur, (参考訳) 近年のディープラーニング(DL)の進歩は,自動音声認識(ASR)にとって大きな課題となっている。 ASRは、秘密のデータセットを含む広範なトレーニングデータセットに依存しており、かなりの計算とストレージリソースを必要としている。 適応システムの導入により、動的環境におけるASRの性能が向上する。 DL技術は、トレーニングとテストのデータが同じドメインに由来すると仮定するが、それは必ずしも真実ではない。 ディープトランスファーラーニング(DTL)、フェデレーションラーニング(FL)、強化ラーニング(RL)といった高度なDL技術はこれらの問題に対処する。 DTLは、小さいが関連するデータセットを使用して高性能なモデルを可能にし、FLはデータセットを所有せずに機密データのトレーニングを可能にし、RLは動的環境における意思決定を最適化し、計算コストを削減している。 この調査は、DTL、FL、RLベースのASRフレームワークの包括的なレビューを提供し、最新の開発に関する洞察を提供することと、現在の課題を理解する研究者や専門家を支援することを目的としている。 さらに,提案するASRフレームワークで多用される高度なDL技術であるトランスフォーマーについて,入力ASRシーケンスの広範囲な依存関係をキャプチャする能力について検討した。 論文は、DTL、FL、RL、Transformersの背景を提示し、次に、最先端のアプローチを概説するために、よく設計された分類法を採用することから始まる。 その後、それぞれのフレームワークの長所と短所を特定するために、批判的な分析を行う。 さらに、既存の課題を浮き彫りにして、将来の研究機会への道を開くために比較研究が提示されている。

Recent advancements in deep learning (DL) have posed a significant challenge for automatic speech recognition (ASR). ASR relies on extensive training datasets, including confidential ones, and demands substantial computational and storage resources. Enabling adaptive systems improves ASR performance in dynamic environments. DL techniques assume training and testing data originate from the same domain, which is not always true. Advanced DL techniques like deep transfer learning (DTL), federated learning (FL), and reinforcement learning (RL) address these issues. DTL allows high-performance models using small yet related datasets, FL enables training on confidential data without dataset possession, and RL optimizes decision-making in dynamic environments, reducing computation costs. This survey offers a comprehensive review of DTL, FL, and RL-based ASR frameworks, aiming to provide insights into the latest developments and aid researchers and professionals in understanding the current challenges. Additionally, transformers, which are advanced DL techniques heavily used in proposed ASR frameworks, are considered in this survey for their ability to capture extensive dependencies in the input ASR sequence. The paper starts by presenting the background of DTL, FL, RL, and Transformers and then adopts a well-designed taxonomy to outline the state-of-the-art approaches. Subsequently, a critical analysis is conducted to identify the strengths and weaknesses of each framework. Additionally, a comparative study is presented to highlight the existing challenges, paving the way for future research opportunities.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-18
# ゼロコストベンチマークによる非同期多相最適化の高速ベンチマーク

Fast Benchmarking of Asynchronous Multi-Fidelity Optimization on Zero-Cost Benchmarks ( http://arxiv.org/abs/2403.01888v2 )

ライセンス: Link先を確認
Shuhei Watanabe, Neeratyoy Mallik, Edward Bergman, Frank Hutter, (参考訳) 深層学習は多くの成功を祝っているが、その結果はしばしばHP(Hyperparameters)の細心の注意を払っている。 しかし、ディープラーニングトレーニングの時間を要する性質により、HP最適化(HPO)はコストのかかる取り組みとなり、効率的なHPOツールの開発が遅くなる。 実際のトレーニングなしでパフォーマンスとランタイムを提供するゼロコストベンチマークは、非並列セットアップのソリューションを提供するが、各ワーカーがクエリされたランタイムを通信して正確な順序で評価を返す必要があるため、並列セットアップでは不足している。 この作業は、ゼロコストベンチマークによる効率的な並列HPOを容易にする、ユーザフレンドリなPythonパッケージを導入することで、この問題に対処する。 提案手法は,ファイルシステムに格納された情報に基づいて正確な返却順序を算出し,待ち時間の短縮とHPO評価の高速化を実現する。 6つのHPOライブラリによる実験は、多様なライブラリに適用可能であり、従来のアプローチと比較して1000倍以上のスピードアップを実現する能力を示している。 私たちのパッケージは pip install mfhpo-simulator でインストールできます。

While deep learning has celebrated many successes, its results often hinge on the meticulous selection of hyperparameters (HPs). However, the time-consuming nature of deep learning training makes HP optimization (HPO) a costly endeavor, slowing down the development of efficient HPO tools. While zero-cost benchmarks, which provide performance and runtime without actual training, offer a solution for non-parallel setups, they fall short in parallel setups as each worker must communicate its queried runtime to return its evaluation in the exact order. This work addresses this challenge by introducing a user-friendly Python package that facilitates efficient parallel HPO with zero-cost benchmarks. Our approach calculates the exact return order based on the information stored in file system, eliminating the need for long waiting times and enabling much faster HPO evaluations. We first verify the correctness of our approach through extensive testing and the experiments with 6 popular HPO libraries show its applicability to diverse libraries and its ability to achieve over 1000x speedup compared to a traditional approach. Our package can be installed via pip install mfhpo-simulator.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-18
# 機械学習における信頼の可視化:2023年のフィールドの現状

Visualization for Trust in Machine Learning Revisited: The State of the Field in 2023 ( http://arxiv.org/abs/2403.12005v2 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Kostiantyn Kucher, Andreas Kerren, (参考訳) 説明可能な信頼性のある機械学習のための可視化は、医療、金融、バイオインフォマティクスなど、さまざまな応用分野における情報可視化と視覚分析において、最も重要な研究分野の1つである。 2020年、200のテクニックからなる最先端のレポートの後、可視化技術に関する査読された論文を継続的に収集し、119のカテゴリからなる以前に確立された分類スキーマに基づいて分類し、オンラインサーベイブラウザで542のテクニックの収集を行った。 本稿では,2023年秋以降のこのデータセットの新たな分析結果について報告し,機械学習における可視化利用に関するトレンド,洞察,8つのオープン課題について論じる。 我々の結果は、過去3年間に機械学習モデルの信頼性を高めるための可視化技術の急成長傾向を裏付けるもので、可視化は一般的なモデル説明可能性の手法の改善や、新しいディープラーニングアーキテクチャのチェックに役立ちます。

Visualization for explainable and trustworthy machine learning remains one of the most important and heavily researched fields within information visualization and visual analytics with various application domains, such as medicine, finance, and bioinformatics. After our 2020 state-of-the-art report comprising 200 techniques, we have persistently collected peer-reviewed articles describing visualization techniques, categorized them based on the previously established categorization schema consisting of 119 categories, and provided the resulting collection of 542 techniques in an online survey browser. In this survey article, we present the updated findings of new analyses of this dataset as of fall 2023 and discuss trends, insights, and eight open challenges for using visualizations in machine learning. Our results corroborate the rapidly growing trend of visualization techniques for increasing trust in machine learning models in the past three years, with visualization found to help improve popular model explainability methods and check new deep learning architectures, for instance.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-18
# 2乗和によるプライベートグラフオン推定

Private graphon estimation via sum-of-squares ( http://arxiv.org/abs/2403.12213v2 )

ライセンス: Link先を確認
Hongjie Chen, Jingqiu Ding, Tommaso d'Orsi, Yiding Hua, Chih-Hung Liu, David Steurer, (参考訳) 確率ブロックモデルを学習し,任意のブロック数の多項式ランニング時間を用いたグラフトン推定のための,最初の純ノード微分プライベートアルゴリズムを開発した。 統計的効用は、これらの問題に対する以前の最良の情報理論(指数時間)ノードプライド機構のそれと一致することを保証している。 このアルゴリズムは、ブロック数に依存する2乗緩和の和で定義されるスコア関数の指数的なメカニズムに基づいている。 結果の主な要素は,(1)2つの確率行列のポリトープ上の2次最適化によるブロックグラモン間距離の特徴づけ,(2)任意のポリトープ上の多項式最適化のための2次収束結果の一般化,(3)総和2乗アルゴリズムパラダイムの一部としてスコア関数のリプシッツ拡張を実行するための一般アプローチである。

We develop the first pure node-differentially-private algorithms for learning stochastic block models and for graphon estimation with polynomial running time for any constant number of blocks. The statistical utility guarantees match those of the previous best information-theoretic (exponential-time) node-private mechanisms for these problems. The algorithm is based on an exponential mechanism for a score function defined in terms of a sum-of-squares relaxation whose level depends on the number of blocks. The key ingredients of our results are (1) a characterization of the distance between the block graphons in terms of a quadratic optimization over the polytope of doubly stochastic matrices, (2) a general sum-of-squares convergence result for polynomial optimization over arbitrary polytopes, and (3) a general approach to perform Lipschitz extensions of score functions as part of the sum-of-squares algorithmic paradigm.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-18
# グラフ最大復号情報を用いたクラスタリング手法

A Clustering Method with Graph Maximum Decoding Information ( http://arxiv.org/abs/2403.13846v2 )

ライセンス: Link先を確認
Xinrun Xu, Manying Lv, Zhanbiao Lian, Yurong Wu, Jin Yan, Shan Jiang, Zhiming Ding, (参考訳) グラフモデルに基づくクラスタリング手法は,様々な知識領域にまたがる適用性に注目が集まっている。 他の関連するアプリケーションとシームレスに統合する適応性は、グラフモデルに基づくクラスタリング分析に、データセット内で「自然な関連」や「グラフ構造」を堅牢に抽出する能力を与え、データポイント間の関係のモデリングを容易にする。 その有効性にもかかわらず、グラフベースモデルを用いた現在のクラスタリング手法は、ノード間のランダムウォークアクセスとデータ内の組込み構造情報に関連する不確実性を見落としている。 このギャップに対処するために, CMDI と呼ばれるグラフベースモデル内でのデコード情報の最大化のためのクラスタリング手法を提案する。 CMDIは、グラフ構造抽出とグラフ頂点分割という2つのフェーズからなるクラスタリングプロセスに、2次元構造情報理論を革新的に組み入れている。 CMDI内では、グラフ分割は抽象的なクラスタリング問題として再構成され、最大復号情報を利用して、頂点へのランダムな訪問に関連する不確実性を最小限に抑える。 3つの実世界のデータセットに対する実証的な評価は、CMDIが古典的ベースライン法よりも優れており、より優れた復号化情報比(DI-R)を示すことを示している。 さらにCMDIは,特に事前知識(PK)を考慮した場合,高い効率性を示す。 これらの結果から,デコード情報の品質と計算効率を向上させるCMDIの有効性が示され,グラフベースのクラスタリング解析において貴重なツールとして位置づけられた。

The clustering method based on graph models has garnered increased attention for its widespread applicability across various knowledge domains. Its adaptability to integrate seamlessly with other relevant applications endows the graph model-based clustering analysis with the ability to robustly extract "natural associations" or "graph structures" within datasets, facilitating the modelling of relationships between data points. Despite its efficacy, the current clustering method utilizing the graph-based model overlooks the uncertainty associated with random walk access between nodes and the embedded structural information in the data. To address this gap, we present a novel Clustering method for Maximizing Decoding Information within graph-based models, named CMDI. CMDI innovatively incorporates two-dimensional structural information theory into the clustering process, consisting of two phases: graph structure extraction and graph vertex partitioning. Within CMDI, graph partitioning is reformulated as an abstract clustering problem, leveraging maximum decoding information to minimize uncertainty associated with random visits to vertices. Empirical evaluations on three real-world datasets demonstrate that CMDI outperforms classical baseline methods, exhibiting a superior decoding information ratio (DI-R). Furthermore, CMDI showcases heightened efficiency, particularly when considering prior knowledge (PK). These findings underscore the effectiveness of CMDI in enhancing decoding information quality and computational efficiency, positioning it as a valuable tool in graph-based clustering analyses.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-18
# 身体活動レベルモニタリングのためのマルチモーダルIoTシステムにおける情報融合

Information Fusion in Multimodal IoT Systems for physical activity level monitoring ( http://arxiv.org/abs/2403.14707v2 )

ライセンス: Link先を確認
Mohsen Shirali, Zahra Ahmadi, Carlos Fernández-Llatas, Jose-Luis Bayo-Monton, (参考訳) 本研究は、IoTシステムにおける情報融合を利用して、クラスタリング手法を用いて、各クラスタ内の振る舞いとキー特性の類似性を識別する。 このアプローチは行動変化の早期発見を促進し、継続的な健康モニタリングのための行動ルーチンをより深く理解する。

This study exploits information fusion in IoT systems and uses a clustering method to identify similarities in behaviours and key characteristics within each cluster. This approach facilitates early detection of behaviour changes and provides a more in-depth understanding of behaviour routines for continuous health monitoring.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-18
# 多体物理学におけるドープ安定化状態とその発見方法

Doped stabilizer states in many-body physics and where to find them ( http://arxiv.org/abs/2403.14912v2 )

ライセンス: Link先を確認
Andi Gu, Salvatore F. E. Oliviero, Lorenzo Leone, (参考訳) この研究は、ドープ安定化状態、量子情報理論の概念、摂動多体量子系における固有状態の構造の基本的な関係を明らかにする。 我々は、可換なパウリ作用素(すなわち、安定なハミルトニアン)の和と、限られた数の任意のパウリ項からなる摂動からなるハミルトニアンに対して、固有状態は、小さな安定化子零性を持つドープ安定化状態として表すことができることを証明した。 この結果により、高度に絡み合った状態であっても、多体系の幅広いクラスに安定化器技術を適用することができる。 これに基づいて,低エネルギー固有状態の探索,クエンチダイナミクスのシミュレーション,ギブス状態の生成,およびこれらのシステムにおけるエンタングルメントエントロピーの計算といったタスクのための効率的な古典的アルゴリズムを開発した。 我々の研究は、トポロジカル秩序の堅牢性と摂動下の多体系の力学を理解するための新たな可能性を開き、量子情報、絡み合い、多体系の相互作用に関する新しい洞察の道を開く。

This work uncovers a fundamental connection between doped stabilizer states, a concept from quantum information theory, and the structure of eigenstates in perturbed many-body quantum systems. We prove that for Hamiltonians consisting of a sum of commuting Pauli operators (i.e., stabilizer Hamiltonians) and a perturbation composed of a limited number of arbitrary Pauli terms, the eigenstates can be represented as doped stabilizer states with small stabilizer nullity. This result enables the application of stabilizer techniques to a broad class of many-body systems, even in highly entangled regimes. Building on this, we develop efficient classical algorithms for tasks such as finding low-energy eigenstates, simulating quench dynamics, preparing Gibbs states, and computing entanglement entropies in these systems. Our work opens up new possibilities for understanding the robustness of topological order and the dynamics of many-body systems under perturbations, paving the way for novel insights into the interplay of quantum information, entanglement, and many-body systems.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-18
# PDE-CNN: 軸論的導出と応用

PDE-CNNs: Axiomatic Derivations and Applications ( http://arxiv.org/abs/2403.15182v2 )

ライセンス: Link先を確認
Gijs Bellaard, Sei Sakata, Bart M. N. Smets, Remco Duits, (参考訳) PDEに基づくグループ畳み込みニューラルネットワーク (Group Convolutional Neural Networks, PDE-G-CNNs) は、幾何学的に意味のある進化PDEの解法を、G-CNNの従来のコンポーネントの代用として利用する。 PDE-G-CNNは、パラメータの削減、固有の等価性、より良い性能、データ効率、幾何学的解釈可能性など、いくつかの重要な利点を同時に提供する。 本稿では, ユークリッド同変 PDE-G-CNN に焦点をあてる。 私たちはこのフレームワークをPDE-CNNと呼んでいる。 機械学習の観点からは、実用的に望ましいいくつかの公理をリストアップし、PDEがPDE-CNNで使用されるべきであることに由来する。 ここでは、PDEによる幾何学的学習へのアプローチは、半場評価信号を導入して一般化した古典線形および形態的スケール空間理論の公理に着想を得たものである。 さらに,PDE-CNNはパラメータが少なく,性能が向上し,CNNと比較してデータ効率が良くなる小ネットワークを実験的に検証した。 また、異なるセミフィールドの使用がモデルの性能に与える影響についても検討する。

PDE-based Group Convolutional Neural Networks (PDE-G-CNNs) utilize solvers of geometrically meaningful evolution PDEs as substitutes for the conventional components in G-CNNs. PDE-G-CNNs offer several key benefits all at once: fewer parameters, inherent equivariance, better performance, data efficiency, and geometric interpretability. In this article we focus on Euclidean equivariant PDE-G-CNNs where the feature maps are two dimensional throughout. We call this variant of the framework a PDE-CNN. From a machine learning perspective, we list several practically desirable axioms and derive from these which PDEs should be used in a PDE-CNN. Here our approach to geometric learning via PDEs is inspired by the axioms of classical linear and morphological scale-space theory, which we generalize by introducing semifield-valued signals. Furthermore, we experimentally confirm for small networks that PDE-CNNs offer fewer parameters, increased performance, and better data efficiency when compared to CNNs. We also investigate what effect the use of different semifields has on the performance of the models.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-18
# ボソンサンプリング強化量子化学

Boson sampling enhanced quantum chemistry ( http://arxiv.org/abs/2403.16698v2 )

ライセンス: Link先を確認
Zhong-Xia Shang, Han-Sen Zhong, Yu-Kun Zhang, Cheng-Cheng Yu, Xiao Yuan, Chao-Yang Lu, Jian-Wei Pan, Ming-Cheng Chen, (参考訳) 本研究では、線形量子光学系のみを用いて分子の電子構造問題を解くためのハイブリッド量子古典アルゴリズムを提案する。 我々が提案した変分アンサッツは、非相互作用ボソン力学と古典的な計算化学法、特にハートリー・フォック法と構成相互作用法のハイブリッドである。 ボソン部は、従来のVQEの量子ゲートからなるよく知られたユニタリカップリングクラスタ(UCC)アンサッツよりも容易に実現可能な線形光干渉計で構築され、古典的な部分はハミルトンに作用する古典的な処理である。 このようなアンサーゼをBoson Sampling-Classic (BS-C) と呼ぶ。 ボソン部分の永久体の出現は、古典的な方法で一般的に用いられる単一、二重、高励起から化学量子状態の探索へのUCCアンサッツまで、様々な種類の資源を提供する物理的な直観を持っている。 このようなリソースは、古典的な部分で使われるメソッドの精度を高めるのに役立つ。 本稿では,光子損失誤差を緩和する本質的な能力を有するエネルギー値を評価するための,スケーラブルなハイブリッドホモダインおよび光子数測定手法を提案し,ボソンズのノー・パウリ排除原理によって引き起こされる余分な測定コストについて検討する。 提案手法を実証するために、いくつかの分子で数値実験を行い、そのポテンシャルエネルギー曲線を化学的精度に到達させる。

In this work, we give a hybrid quantum-classical algorithm for solving electronic structure problems of molecules using only linear quantum optical systems. The variational ansatz we proposed is a hybrid of non-interacting Boson dynamics and classical computational chemistry methods, specifically, the Hartree-Fock method and the Configuration Interaction method. The Boson part is built by a linear optical interferometer which is easier to realize compared with the well-known Unitary Coupled Cluster (UCC) ansatz composed of quantum gates in conventional VQE and the classical part is merely classical processing acting on the Hamiltonian. We called such ansatzes Boson Sampling-Classic (BS-C). The appearance of permanents in the Boson part has its physical intuition to provide different kinds of resources from commonly used single-, double-, and higher-excitations in classical methods and the UCC ansatz to exploring chemical quantum states. Such resources can help enhance the accuracy of methods used in the classical parts. We give a scalable hybrid homodyne and photon number measurement procedure for evaluating the energy value which has intrinsic abilities to mitigate photon loss errors and discuss the extra measurement cost induced by the no Pauli exclusion principle for Bosons with its solutions. To demonstrate our proposal, we run numerical experiments on several molecules and obtain their potential energy curves reaching chemical accuracy.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-18
# AID:テキスト・画像拡散の注意補間

AID: Attention Interpolation of Text-to-Image Diffusion ( http://arxiv.org/abs/2403.17924v2 )

ライセンス: Link先を確認
Qiyuan He, Jinghao Wang, Ziwei Liu, Angela Yao, (参考訳) 条件付き拡散モデルは、様々な設定で見えない画像を生成し、画像補間を支援する。 潜在空間における補間はよく研究されているが、テキストやポーズといった特定の条件との補間は理解されていない。 条件空間における線形補間のような単純なアプローチは、一貫性、滑らかさ、忠実さに欠けるイメージをもたらすことが多い。 そこで本研究では,Diffusion (AID) による注意補間(Attention Interpolation) という,新たなトレーニングフリー手法を提案する。 主な貢献は 1)インナー/インナー/インナー補間注意層の提案 2 補間された注意を自己注意と融合して忠実性を高めること。 3) 選別にベータ分布を適用して滑らかさを高めた。 また,Pmpt-Guided Attention Interpolation via Diffusion (PAID) を条件依存型生成プロセスとして検討した。 この方法では、一貫性、滑らか性、効率性が向上した新しい画像の作成が可能であり、補間の正確な経路を制御できる。 提案手法は,概念的および空間的補間の有効性を示す。 コードとデモはhttps://github.com/QY-H00/attention-interpolation-diffusionで公開されている。

Conditional diffusion models can create unseen images in various settings, aiding image interpolation. Interpolation in latent spaces is well-studied, but interpolation with specific conditions like text or poses is less understood. Simple approaches, such as linear interpolation in the space of conditions, often result in images that lack consistency, smoothness, and fidelity. To that end, we introduce a novel training-free technique named Attention Interpolation via Diffusion (AID). Our key contributions include 1) proposing an inner/outer interpolated attention layer; 2) fusing the interpolated attention with self-attention to boost fidelity; and 3) applying beta distribution to selection to increase smoothness. We also present a variant, Prompt-guided Attention Interpolation via Diffusion (PAID), that considers interpolation as a condition-dependent generative process. This method enables the creation of new images with greater consistency, smoothness, and efficiency, and offers control over the exact path of interpolation. Our approach demonstrates effectiveness for conceptual and spatial interpolation. Code and demo are available at https://github.com/QY-H00/attention-interpolation-diffusion.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-18
# NeRF-MAE:ニューラルネットワーク分野の自己教師付き3次元表現学習のためのマスク付きオートエンコーダ

NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields ( http://arxiv.org/abs/2404.01300v2 )

ライセンス: Link先を確認
Muhammad Zubair Irshad, Sergey Zakahrov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus, (参考訳) ニューラルネットワークはコンピュータビジョンやロボット工学において、セマンティクス、幾何学、ダイナミクスを推論するといった3次元視覚世界を理解する能力によって優れている。 2D画像から3Dシーンを密に表現するニューラルネットワークの能力を考えると、我々は疑問を呈する: マスク付きオートエンコーダを使って、自己教師付き事前訓練を拡大して、ポーズされたRGB画像から効果的な3D表現を生成することができるか? トランスを新しいデータモダリティに拡張するという驚くべき成功により、我々は標準の3Dビジョン変換器を用いて、NeRFのユニークな定式化に適合する。 我々はNeRFの体積格子を変換器への高密度入力として利用し、情報密度が不均一な点雲のような他の3次元表現と対比し、その表現は不規則である。 マスク付きオートエンコーダをNeRFなどの暗黙の表現に適用することの難しさから,サンプリングにカメラトラジェクトリを用いることで,ドメイン間のシーンを標準化する明示的な表現を抽出することを選んだ。 我々の目標は、NeRFの放射率と密度グリッドからランダムなパッチをマスキングし、標準的な3Dスウィントランスを用いてマスクされたパッチを再構築することである。 そうすることで、モデルは完全なシーンの意味的構造と空間的構造を学ぶことができる。 我々は、この表現を、提案した擬似RGBデータに基づいて大規模に事前訓練し、合計で1.6万枚以上の画像を生成する。 事前訓練後、エンコーダは効果的な3D転送学習に使用される。 我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。 ラベル付けされていない2Dデータを事前トレーニングに利用することにより、NeRF-MAEはFront3DおよびScanNetデータセットにおける自己教師付き3D事前トレーニングとNeRFシーン理解ベースラインを著しく上回り、3Dオブジェクト検出のための20% AP50と8% AP25の絶対的なパフォーマンス向上を実現した。

Neural fields excel in computer vision and robotics due to their ability to understand the 3D visual world such as inferring semantics, geometry, and dynamics. Given the capabilities of neural fields in densely representing a 3D scene from 2D images, we ask the question: Can we scale their self-supervised pretraining, specifically using masked autoencoders, to generate effective 3D representations from posed RGB images. Owing to the astounding success of extending transformers to novel data modalities, we employ standard 3D Vision Transformers to suit the unique formulation of NeRFs. We leverage NeRF's volumetric grid as a dense input to the transformer, contrasting it with other 3D representations such as pointclouds where the information density can be uneven, and the representation is irregular. Due to the difficulty of applying masked autoencoders to an implicit representation, such as NeRF, we opt for extracting an explicit representation that canonicalizes scenes across domains by employing the camera trajectory for sampling. Our goal is made possible by masking random patches from NeRF's radiance and density grid and employing a standard 3D Swin Transformer to reconstruct the masked patches. In doing so, the model can learn the semantic and spatial structure of complete scenes. We pretrain this representation at scale on our proposed curated posed-RGB data, totaling over 1.6 million images. Once pretrained, the encoder is used for effective 3D transfer learning. Our novel self-supervised pretraining for NeRFs, NeRF-MAE, scales remarkably well and improves performance on various challenging 3D tasks. Utilizing unlabeled posed 2D data for pretraining, NeRF-MAE significantly outperforms self-supervised 3D pretraining and NeRF scene understanding baselines on Front3D and ScanNet datasets with an absolute performance improvement of over 20% AP50 and 8% AP25 for 3D object detection.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-18
# 大規模言語モデルの社会的ノルムの測定

Measuring Social Norms of Large Language Models ( http://arxiv.org/abs/2404.02491v3 )

ライセンス: Link先を確認
Ye Yuan, Kexin Tang, Jianhao Shen, Ming Zhang, Chenguang Wang, (参考訳) 本稿では,大規模言語モデルが社会規範を理解するかどうかを検証するための新たな課題を提案する。 既存のデータセットとは対照的に、私たちのデータセットは解決すべき社会的規範を根本的に理解する必要があります。 我々のデータセットは、402のスキルと12,383の質問からなり、意見や議論から文化や法律まで幅広い社会的規範をカバーしている。 K-12のカリキュラムに従ってデータセットを設計する。 これにより、大きな言語モデルの社会的理解を直接人間、具体的には小学生と直接比較することができる。 GPT3.5-Turbo や LLaMA2-Chat といった最近の大規模言語モデルでは,従来のベンチマークではほとんどランダムな精度が得られなかった。 次に,大規模言語モデルに基づくマルチエージェントフレームワークを提案する。 この方法は、人間に匹敵する大きな言語モデルをさらに改善する。 現実世界のアプリケーションにおける大規模言語モデルの採用が増加していることを考えると、我々の発見は特に重要であり、将来の改善に向けたユニークな方向性を示している。 提案されたメソッドとデータセットはhttps://huggingface.co/datasets/socialdataset2024/social.comで利用可能である。

We present a new challenge to examine whether large language models understand social norms. In contrast to existing datasets, our dataset requires a fundamental understanding of social norms to solve. Our dataset features the largest set of social norm skills, consisting of 402 skills and 12,383 questions covering a wide set of social norms ranging from opinions and arguments to culture and laws. We design our dataset according to the K-12 curriculum. This enables the direct comparison of the social understanding of large language models to humans, more specifically, elementary students. While prior work generates nearly random accuracy on our benchmark, recent large language models such as GPT3.5-Turbo and LLaMA2-Chat are able to improve the performance significantly, only slightly below human performance. We then propose a multi-agent framework based on large language models to improve the models' ability to understand social norms. This method further improves large language models to be on par with humans. Given the increasing adoption of large language models in real-world applications, our finding is particularly important and presents a unique direction for future improvements. The proposed method and dataset are available in https://huggingface.co/datasets/socialdataset2024/social.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-18
# JailBreakV-28K: ジェイルブレイク攻撃に対するマルチモーダル大言語モデルのロバスト性を評価するベンチマーク

JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks ( http://arxiv.org/abs/2404.03027v2 )

ライセンス: Link先を確認
Weidi Luo, Siyuan Ma, Xiaogeng Liu, Xiaoyu Guo, Chaowei Xiao, (参考訳) MLLM(Multimodal Large Language Models)の急速な進歩に伴い、これらのモデルが悪意ある入力に対して安全でありながら、それらを人間の価値と整合させることが重要な課題となっている。 本稿では,Large Language Models (LLM) を成功させる手法が,MLLMのジェイルブレイクに等しく有効であるかどうか,重要かつ未解明の課題について検討する。 そこで本研究では,MLLMのジェイルブレイクテクニックのMLLMへの転送性を評価するための先駆的ベンチマークであるJailBreakV-28Kを紹介し,さまざまなジェイルブレイク攻撃に対するMLLMの堅牢性を評価する。 この論文でも提案されている2,000の悪意のあるクエリのデータセットを利用して、LSMの高度なジェイルブレイク攻撃を使用して、20,000のテキストベースのジェイルブレイクプロンプトを生成し、最近のMLLMのジェイルブレイク攻撃からの8,000の画像ベースのジェイルブレイクインプットに加えて、当社の包括的なデータセットには、さまざまなシナリオを対象とした28,000のテストケースが含まれています。 10個のオープンソースMLLMを評価したところ、LSMから転送された攻撃に対する攻撃成功率(ASR)が顕著に高く、テキスト処理能力に起因したMLLMの重大な脆弱性が明らかとなった。 本研究は,テキスト入力と視覚入力の両方からMLLMのアライメント脆弱性に対処するための,今後の研究の必要性を浮き彫りにするものである。

With the rapid advancements in Multimodal Large Language Models (MLLMs), securing these models against malicious inputs while aligning them with human values has emerged as a critical challenge. In this paper, we investigate an important and unexplored question of whether techniques that successfully jailbreak Large Language Models (LLMs) can be equally effective in jailbreaking MLLMs. To explore this issue, we introduce JailBreakV-28K, a pioneering benchmark designed to assess the transferability of LLM jailbreak techniques to MLLMs, thereby evaluating the robustness of MLLMs against diverse jailbreak attacks. Utilizing a dataset of 2, 000 malicious queries that is also proposed in this paper, we generate 20, 000 text-based jailbreak prompts using advanced jailbreak attacks on LLMs, alongside 8, 000 image-based jailbreak inputs from recent MLLMs jailbreak attacks, our comprehensive dataset includes 28, 000 test cases across a spectrum of adversarial scenarios. Our evaluation of 10 open-source MLLMs reveals a notably high Attack Success Rate (ASR) for attacks transferred from LLMs, highlighting a critical vulnerability in MLLMs that stems from their text-processing capabilities. Our findings underscore the urgent need for future research to address alignment vulnerabilities in MLLMs from both textual and visual inputs.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-18
# $μ$-transferの大規模探索

A Large-Scale Exploration of $μ$-Transfer ( http://arxiv.org/abs/2404.05728v3 )

ライセンス: Link先を確認
Lucas Lingle, (参考訳) 大規模ニューラルネットワークモデルは、自然言語処理とコンピュータビジョンの主要な基盤となっているが、その初期化と学習率は、紙から紙、モデルサイズから次のモデルまで様々に、大きくヒューリスティックな方法で設定されている。 この$\mu$-Parameterization($\mu$P)は、これらの課題に対する潜在的な解決策を提供し、モデルの初期化と学習率のスケーリングルールを与え、さまざまなケースで小さなモデルから大きなモデルへのゼロショットハイパーパラメータ転送を可能にすると伝えられている。 明らかな約束にもかかわらず、$\mu$Pのスケーリングルールはまだ広く採用されていない。 本研究は,ユビキタストランスフォーマーアーキテクチャに着目して,実証的に$\mu$Pを調査し,簡単な質問に答えることを目的としている。 最大10Bパラメータと最大190Bトークンのトレーニング予算を持つモデルについて調べると、$\mu$-Transferは重要なケースの大多数を意図したものとして機能しますが、そうでないケースもいくつかあります。 実験コードベースはhttps://github.com/lucaslingle/mu_transformer/で公開しています。

Large neural network models have become a mainstay of natural language processing and computer vision, yet their initialization and learning rates are set in a largely heuristic fashion, potentially varying from paper to paper and one model size to the next. The $\mu$-Parameterization ($\mu$P) offers a potential solution to these challenges, yielding scaling rules for model initialization and learning rates, and reportedly enabling zero-shot hyperparameter transfer from small to large models in a variety of cases. Despite the evident promise, the $\mu$P scaling rules are not yet widely adopted, perhaps due to higher implementation complexity, many variations, or complex theoretical background. This work investigates $\mu$P empirically, focusing on the ubiquitous transformer architecture, and aims to answer a simple question: does $\mu$-Transfer yield optimal learning rates in practice? Studying models with up to 10B parameters and training budgets of up to 190B tokens, we find $\mu$-Transfer works as intended for the majority of important cases, yet also identify a few cases where it may not. Our experiment codebase is available at https://github.com/lucaslingle/mu_transformer/
翻訳日:2024-04-19 20:10:25 公開日:2024-04-18
# Llama-VITS:意味的認識によるTS合成の強化

Llama-VITS: Enhancing TTS Synthesis with Semantic Awareness ( http://arxiv.org/abs/2404.06714v3 )

ライセンス: Link先を確認
Xincan Feng, Akifumi Yoshimoto, (参考訳) 自然言語処理(NLP)の最近の進歩は、様々な目的のために高品質なテキストを生成するために、大規模言語モデル(LLM)が優れている。 特に,テキスト音声合成システム(TTS)では,セマンティックトークン生成のためのBERTの統合が,コヒーレント音声出力の生成において意味内容の重要性を強調している。 それにもかかわらず、TS合成の強化におけるLSMの具体的な用途は依然としてかなり限られている。 本研究は,LLMを用いてテキストのセマンティックコンテンツを充実させることにより,TS合成を向上させる,革新的なアプローチであるLlama-VITSを紹介する。 Llama-VITSは、Llama2からのセマンティック埋め込みと、主要なエンドツーエンドTTSフレームワークであるVITSモデルを統合する。 Llama2を一次音声合成プロセスに利用することにより、Llama-VITSが元のVITS(ORI-VITS)とBERT(BERT-VITS)の自然性にマッチすることを示した。 さらに,EmoV_DB_bea_semデータセットの感情的表現性を著しく向上させ,感情的一貫した音声をEmoV_DBデータセットからキュレートし,動機的音声を生成する可能性を強調した。

Recent advancements in Natural Language Processing (NLP) have seen Large-scale Language Models (LLMs) excel at producing high-quality text for various purposes. Notably, in Text-To-Speech (TTS) systems, the integration of BERT for semantic token generation has underscored the importance of semantic content in producing coherent speech outputs. Despite this, the specific utility of LLMs in enhancing TTS synthesis remains considerably limited. This research introduces an innovative approach, Llama-VITS, which enhances TTS synthesis by enriching the semantic content of text using LLM. Llama-VITS integrates semantic embeddings from Llama2 with the VITS model, a leading end-to-end TTS framework. By leveraging Llama2 for the primary speech synthesis process, our experiments demonstrate that Llama-VITS matches the naturalness of the original VITS (ORI-VITS) and those incorporate BERT (BERT-VITS), on the LJSpeech dataset, a substantial collection of neutral, clear speech. Moreover, our method significantly enhances emotive expressiveness on the EmoV_DB_bea_sem dataset, a curated selection of emotionally consistent speech from the EmoV_DB dataset, highlighting its potential to generate emotive speech.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-18
# 言語不均衡は言語間の一般化を促進する

Language Imbalance Can Boost Cross-lingual Generalisation ( http://arxiv.org/abs/2404.07982v2 )

ライセンス: Link先を確認
Anton Schäfer, Shauli Ravfogel, Thomas Hofmann, Tiago Pimentel, Imanol Schlag, (参考訳) 言語モデリングの最近の進歩を多様な言語コミュニティに拡張するために、多言語性は不可欠である。 複数の言語を表現しながら高いパフォーマンスを維持するために、多言語モデルは表現を理想的に整列させ、ある言語で学んだことを他の言語に一般化させる。 先行研究は、このようなアライメントの鍵となる要素として、並列データと共有語彙要素の重要性を強調してきた。 本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。 完全同値なクローン言語に関する制御実験では、トレーニング中の支配的な言語の存在が、あまり頻度の低い言語の性能を高め、言語間のモデル表現の整合性を高めることが観察された。 さらに、この傾向は規模によって増幅されていることが判明した: 十分に大きなモデルや十分なトレーニングがある場合、90/10言語分割によるバイリンガルトレーニングデータがバランスの取れた50/50言語分割よりも、両言語のパフォーマンスが向上する。 これらの知見に基づいて、トレーニングデータを変更することなく、すべてのクローン言語のパフォーマンスを向上させるトレーニングスキームを設計する。 しかし、言語不均衡が言語間の一般化を引き起こすか否かは決定的ではない。

Multilinguality is crucial for extending recent advancements in language modelling to diverse linguistic communities. To maintain high performance while representing multiple languages, multilingual models ideally align representations, allowing what is learned in one language to generalise to others. Prior research has emphasised the importance of parallel data and shared vocabulary elements as key factors for such alignment. In this study, we investigate an unintuitive novel driver of cross-lingual generalisation: language imbalance. In controlled experiments on perfectly equivalent cloned languages, we observe that the existence of a predominant language during training boosts the performance of less frequent languages and leads to stronger alignment of model representations across languages. Furthermore, we find that this trend is amplified with scale: with large enough models or long enough training, we observe that bilingual training data with a 90/10 language split yields better performance on both languages than a balanced 50/50 split. Building on these insights, we design training schemes that can improve performance in all cloned languages, even without altering the training data. As we extend our analysis to real languages, we find that infrequent languages still benefit from frequent ones, yet whether language imbalance causes cross-lingual generalisation there is not conclusive.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-18
# SNP:注意スコアの保存を目的とした構造化ニューロンレベルのプルーニング

SNP: Structured Neuron-level Pruning to Preserve Attention Scores ( http://arxiv.org/abs/2404.11630v1 )

ライセンス: Link先を確認
Kyunghwan Shim, Jaewoong Yun, Shinkook Choi, (参考訳) マルチヘッド自己注意(Multi-head Self-attention、MSA)は視覚変換器(ViT)の重要なコンポーネントであり、様々な視覚タスクで大きな成功を収めた。 しかし、その高い計算コストとメモリフットプリントは、リソースに制約のあるデバイスへの展開を妨げる。 従来のプルーニング手法では、頭部は原子単位ではないが、ヘッドプルーニングを用いてMSAモジュールを圧縮・加速できる。 この問題に対処するために,新しいグラフ対応ニューロンレベルプルーニング手法であるStructured Neuron-level Pruning (SNP)を提案する。 SNPは情報的注意スコアの少ない神経細胞をプルーネし、頭部の冗長性を排除している。 具体的には、グラフィカルに接続されたクエリと、全体的な注意スコアを維持しながら、最も情報に乏しい注意スコアを持つキーレイヤを具現化する。 独立してプルーニングできるバリューレイヤは、ヘッド間の冗長性を排除するためにプルーニングされる。 提案手法は,エッジデバイスとサーバプロセッサの両方において,Transformerベースのモデルを効果的に圧縮・高速化する。 例えば、SNP付きDeiT-Smallは、オリジナルのモデルよりも3.1$\times$速く、21.94\%、DeiT-Tinyより1.12\%高いパフォーマンスを達成する。 さらに、SNPは従来のヘッドまたはブロックプルーニングアプローチとうまく結合する。 ヘッドプルーニングのSNPは、パラメータと計算コストの80%をDeiT-Baseに圧縮し、RTX3090では3.85$\times$、Jetson Nanoでは4.93$\times$を達成した。

Multi-head self-attention (MSA) is a key component of Vision Transformers (ViTs), which have achieved great success in various vision tasks. However, their high computational cost and memory footprint hinder their deployment on resource-constrained devices. Conventional pruning approaches can only compress and accelerate the MSA module using head pruning, although the head is not an atomic unit. To address this issue, we propose a novel graph-aware neuron-level pruning method, Structured Neuron-level Pruning (SNP). SNP prunes neurons with less informative attention scores and eliminates redundancy among heads. Specifically, it prunes graphically connected query and key layers having the least informative attention scores while preserving the overall attention scores. Value layers, which can be pruned independently, are pruned to eliminate inter-head redundancy. Our proposed method effectively compresses and accelerates Transformer-based models for both edge devices and server processors. For instance, the DeiT-Small with SNP runs 3.1$\times$ faster than the original model and achieves performance that is 21.94\% faster and 1.12\% higher than the DeiT-Tiny. Additionally, SNP combine successfully with conventional head or block pruning approaches. SNP with head pruning could compress the DeiT-Base by 80\% of the parameters and computational costs and achieve 3.85$\times$ faster inference speed on RTX3090 and 4.93$\times$ on Jetson Nano.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-18
# 複合空間における知識グラフ埋め込みの共役による共有パラメータ

Sharing Parameter by Conjugation for Knowledge Graph Embeddings in Complex Space ( http://arxiv.org/abs/2404.11809v1 )

ライセンス: Link先を確認
Xincan Feng, Zhi Qu, Yuchang Cheng, Taro Watanabe, Nobuhiro Yugami, (参考訳) 知識グラフ(英: Knowledge Graph, KG)は、現実世界における実体と関係の図形表現である。 KGは知識を必要とする様々な自然言語処理(NLP)タスクに適用できる。 KGのスケールアップと完了の必要性は、メモリとトレーニング時間消費の問題に悩まされている浅い機械学習モデルであるKGE(Knowledge Graph Embedding)を自動的に生成する。 計算負荷を軽減するために,KGEモデルで用いられる複素数に対する共役パラメータを用いたパラメータ共有手法を提案する。 本手法は,最先端の非共役モデルに匹敵する性能を高速かつ少なくとも同等の訓練時間で達成しつつ,メモリ効率を2倍に向上させる。 我々は,5つのベンチマークデータセット上で,最高性能のKGEモデルである5^{\bigstar}\mathrm{E}$と$\mathrm{ComplEx}$の2つのKGEモデルに対して,本手法の一般化性を実証した。

A Knowledge Graph (KG) is the directed graphical representation of entities and relations in the real world. KG can be applied in diverse Natural Language Processing (NLP) tasks where knowledge is required. The need to scale up and complete KG automatically yields Knowledge Graph Embedding (KGE), a shallow machine learning model that is suffering from memory and training time consumption issues. To mitigate the computational load, we propose a parameter-sharing method, i.e., using conjugate parameters for complex numbers employed in KGE models. Our method improves memory efficiency by 2x in relation embedding while achieving comparable performance to the state-of-the-art non-conjugate models, with faster, or at least comparable, training time. We demonstrated the generalizability of our method on two best-performing KGE models $5^{\bigstar}\mathrm{E}$ and $\mathrm{ComplEx}$ on five benchmark datasets.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-18
# 医用医用画像分割のためのクロスモデル相互学習

Cross-model Mutual Learning for Exemplar-based Medical Image Segmentation ( http://arxiv.org/abs/2404.11812v1 )

ライセンス: Link先を確認
Qing En, Yuhong Guo, (参考訳) 医用画像のセグメンテーションは、一般的に、時間と技術の両方がかかるモデルトレーニングのために、広範囲に密集したアノテーションを必要とする。 この負担を軽減するために、1つの注釈付き画像のみを用いた効果的なトレーニングを実現するために、模範的な医用画像分割法が導入された。 本稿では,複数の粒度でラベルのないデータから暗黙的な情報を相互に抽出するために2つのモデルを利用する,Exemplar-based Medical Image Segmentation (CMEMS) のためのクロスモデル相互学習フレームワークを提案する。 CMEMSは、確認バイアスを排除し、モデル間で異なる粒度で一貫性を強制することにより、協調トレーニングによって相補的な情報を学ぶことができる。 具体的には、弱い摂動画像を用いて高信頼の擬似ラベルを生成し、モデルを横断する強摂動画像の予測を監督することにより、相互学習に基づくクロスモデル画像摂動を考案する。 このアプローチは、画像の粒度の予測一貫性を共同で追求することを可能にする。 さらに, 相互学習を用いた相互学習では, 擬似ラベルが異なる解像度の摂動多段階特徴から予測を監督し, 摂動空間を拡大し, フレームワークの堅牢性を高めることができる。 CMEMSは、典型的なデータ、合成データ、ラベルなしデータをエンドツーエンドで共同で訓練する。 2つの医用画像データセットによる実験結果から,提案したCMEMSは,最先端のセグメンテーション手法よりも極めて限られた監督力で優れていたことが示唆された。

Medical image segmentation typically demands extensive dense annotations for model training, which is both time-consuming and skill-intensive. To mitigate this burden, exemplar-based medical image segmentation methods have been introduced to achieve effective training with only one annotated image. In this paper, we introduce a novel Cross-model Mutual learning framework for Exemplar-based Medical image Segmentation (CMEMS), which leverages two models to mutually excavate implicit information from unlabeled data at multiple granularities. CMEMS can eliminate confirmation bias and enable collaborative training to learn complementary information by enforcing consistency at different granularities across models. Concretely, cross-model image perturbation based mutual learning is devised by using weakly perturbed images to generate high-confidence pseudo-labels, supervising predictions of strongly perturbed images across models. This approach enables joint pursuit of prediction consistency at the image granularity. Moreover, cross-model multi-level feature perturbation based mutual learning is designed by letting pseudo-labels supervise predictions from perturbed multi-level features with different resolutions, which can broaden the perturbation space and enhance the robustness of our framework. CMEMS is jointly trained using exemplar data, synthetic data, and unlabeled data in an end-to-end manner. Experimental results on two medical image datasets indicate that the proposed CMEMS outperforms the state-of-the-art segmentation methods with extremely limited supervision.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-18
# スムースエアフォイル設計のための生成的対向ネットワークの試作

Tailoring Generative Adversarial Networks for Smooth Airfoil Design ( http://arxiv.org/abs/2404.11816v1 )

ライセンス: Link先を確認
Joyjit Chattoraj, Jian Cheng Wong, Zhang Zexuan, Manna Dai, Xia Yingzhi, Li Jichao, Xu Xinxing, Ooi Chin Chun, Yang Feng, Dao My Ha, Liu Yong, (参考訳) 航空宇宙設計の分野では、特に翼のような物体を作る場合、滑らかな曲線を達成することが最重要である。 汎用AI技術であるGAN(Generative Adversarial Network)は、翼の設計を合成するための道具であることが証明されている。 しかし、GANの共通的な制限は、生成された翼面の滑らかさの固有の欠如である。 この問題に対処するために,シームレスに整合した翼を設計するためのカスタマイズされた損失関数を備えたGANモデルを提案する。 さらに,本モデルでは,ポストプロセッシングスムースティングフィルタを付加した従来のGANに比べて,設計の多様性が著しく向上していることを示す。

In the realm of aerospace design, achieving smooth curves is paramount, particularly when crafting objects such as airfoils. Generative Adversarial Network (GAN), a widely employed generative AI technique, has proven instrumental in synthesizing airfoil designs. However, a common limitation of GAN is the inherent lack of smoothness in the generated airfoil surfaces. To address this issue, we present a GAN model featuring a customized loss function built to produce seamlessly contoured airfoil designs. Additionally, our model demonstrates a substantial increase in design diversity compared to a conventional GAN augmented with a post-processing smoothing filter.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-18
# サンプリング効率を考慮したハイパーグラフ自己教師型学習

Hypergraph Self-supervised Learning with Sampling-efficient Signals ( http://arxiv.org/abs/2404.11825v1 )

ライセンス: Link先を確認
Fan Li, Xiaoyang Wang, Dawei Cheng, Wenjie Zhang, Ying Zhang, Xuemin Lin, (参考訳) 自己教師付き学習(SSL)は、高額なラベルなしでハイパーグラフ上で表現学習を行うための有望な代替手段を提供する。 しかし、既存のハイパーグラフSSLモデルは、主にインスタンスレベルの識別戦略と対照的な手法に基づいており、(1) 負のサンプルを任意に選択するが、これは類似したペアと異種ペアを決定できないため、トレーニングバイアスを引き起こす。 2) 大量の負のサンプルを必要とすることが多く、計算コストがかかる。 以上の課題に対処するため,3つのサンプリング効率の高い自己教師型信号を用いたハイパーグラフSSLフレームワークSE-HSSLを提案する。 具体的には,正準相関解析をノードレベルおよびグループレベルの自己教師信号として活用する2つのサンプリングフリーな目的を提案する。 さらに,ハイパーグラフのカスケード重なり関係によって動機付けられた新しい階層型メンバシップレベルのコントラストを考案し,メンバシップサンプリングバイアスをさらに低減し,サンプル利用効率を向上させる。 7つの実世界のハイパーグラフに関する包括的実験を通じて, 有効性と効率の両面から, 最先端手法に対するアプローチの優位性を実証した。

Self-supervised learning (SSL) provides a promising alternative for representation learning on hypergraphs without costly labels. However, existing hypergraph SSL models are mostly based on contrastive methods with the instance-level discrimination strategy, suffering from two significant limitations: (1) They select negative samples arbitrarily, which is unreliable in deciding similar and dissimilar pairs, causing training bias. (2) They often require a large number of negative samples, resulting in expensive computational costs. To address the above issues, we propose SE-HSSL, a hypergraph SSL framework with three sampling-efficient self-supervised signals. Specifically, we introduce two sampling-free objectives leveraging the canonical correlation analysis as the node-level and group-level self-supervised signals. Additionally, we develop a novel hierarchical membership-level contrast objective motivated by the cascading overlap relationship in hypergraphs, which can further reduce membership sampling bias and improve the efficiency of sample utilization. Through comprehensive experiments on 7 real-world hypergraphs, we demonstrate the superiority of our approach over the state-of-the-art method in terms of both effectiveness and efficiency.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-18
# フェーズド・アクターを用いたアクター・クリティカル強化学習

Actor-Critic Reinforcement Learning with Phased Actor ( http://arxiv.org/abs/2404.11834v1 )

ライセンス: Link先を確認
Ruofan Wu, Junmin Zhong, Jennie Si, (参考訳) アクター批判強化学習(RL)における政策勾配法は、おそらく、継続的な最適制御問題の解法において最も有望なアプローチである。 しかし、RLの試行錯誤の性質と解近似に関連した固有のランダム性は、学習された最適値とポリシーのバリエーションを引き起こす。 これにより、制御応答が動的パフォーマンス基準を決定論的に満たす必要がある現実のアプリケーションにおける、彼らの成功を著しく妨げている。 本稿では、ポリシー勾配推定の改善と制御ポリシーの品質向上を目的とした、アクター・クリティカル(PAAC)手法における新しい段階的アクターを提案する。 具体的には、PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。 我々はPAACの質的特性を,システム力学の値と方針の収束,解の最適性,安定性の学習のために証明する。 さらに,政策勾配推定におけるばらつきの低減を示す。 本研究では,DeepMind Control Suite (DMC)を用いてPAAC性能を定量的に評価した。 その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。 一般政策勾配学習フレームワークにPAACを組み込むことができるため、直接ヒューリスティック動的プログラミング(dHDP)、Deep Deterministic Policy gradient(DDPG)などのよく知られた手法を選択し、PAACの有効性を実証する。 したがって、これらの関連するポリシー勾配アルゴリズムについて統一的な見解を提供する。

Policy gradient methods in actor-critic reinforcement learning (RL) have become perhaps the most promising approaches to solving continuous optimal control problems. However, the trial-and-error nature of RL and the inherent randomness associated with solution approximations cause variations in the learned optimal values and policies. This has significantly hindered their successful deployment in real life applications where control responses need to meet dynamic performance criteria deterministically. Here we propose a novel phased actor in actor-critic (PAAC) method, aiming at improving policy gradient estimation and thus the quality of the control policy. Specifically, PAAC accounts for both $Q$ value and TD error in its actor update. We prove qualitative properties of PAAC for learning convergence of the value and policy, solution optimality, and stability of system dynamics. Additionally, we show variance reduction in policy gradient estimation. PAAC performance is systematically and quantitatively evaluated in this study using DeepMind Control Suite (DMC). Results show that PAAC leads to significant performance improvement measured by total cost, learning variance, robustness, learning speed and success rate. As PAAC can be piggybacked onto general policy gradient learning frameworks, we select well-known methods such as direct heuristic dynamic programming (dHDP), deep deterministic policy gradient (DDPG) and their variants to demonstrate the effectiveness of PAAC. Consequently we provide a unified view on these related policy gradient algorithms.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-18
# 行動モデルによる違法ドライバ置換活性のあるタクシーの発見

Finding A Taxi with Illegal Driver Substitution Activity via Behavior Modelings ( http://arxiv.org/abs/2404.11844v1 )

ライセンス: Link先を確認
Junbiao Pang, Muhammad Ayub Sabir, Zhuyun Wang, Anjing Hu, Xue Yang, Haitao Yu, Qingming Huang, (参考訳) 我々の都市生活では、タクシーのIllegal Driver Substitution(IDS)活動は、タクシー業界において重大な交通事故や社会的な反動を引き起こしている。 現在、IDSの活動は法執行機関によって手動で監督されており、すなわち、法執行機関は経験的にタクシーを選択して検査している。 この計画の押し付け問題は、限られた数の法執行員と大量のタクシーの間のジレンマである。 本稿では,この問題を動機として,法執行機関がIDS活動を行う傾向にあるタクシーを効率的に見つけるのに役立つ計算手法を提案する。 まず,IDS活動の識別を教師付き学習タスクに変換する。 次に,2種類のタクシー運転手行動,すなわち睡眠時間と位置情報(STL)行動とピックアップアップ(PU)行動を提案する。 第3に、自己相似性に基づく多重スケールプーリングが提案され、個々の振る舞いを全タクシーの普遍的な特徴にエンコードする。 最後に,マルチコンポーネント・マルチ・インスタンス・ラーニング(MC-MIL)手法を提案する。 実世界のデータセットに対する大規模な実験により,提案した挙動特徴は異なる分類器間で優れた一般化能力を示し,提案したMC-MIL法はベースライン法を抑圧する。

In our urban life, Illegal Driver Substitution (IDS) activity for a taxi is a grave unlawful activity in the taxi industry, possibly causing severe traffic accidents and painful social repercussions. Currently, the IDS activity is manually supervised by law enforcers, i.e., law enforcers empirically choose a taxi and inspect it. The pressing problem of this scheme is the dilemma between the limited number of law-enforcers and the large volume of taxis. In this paper, motivated by this problem, we propose a computational method that helps law enforcers efficiently find the taxis which tend to have the IDS activity. Firstly, our method converts the identification of the IDS activity to a supervised learning task. Secondly, two kinds of taxi driver behaviors, i.e., the Sleeping Time and Location (STL) behavior and the Pick-Up (PU) behavior are proposed. Thirdly, the multiple scale pooling on self-similarity is proposed to encode the individual behaviors into the universal features for all taxis. Finally, a Multiple Component- Multiple Instance Learning (MC-MIL) method is proposed to handle the deficiency of the behavior features and to align the behavior features simultaneously. Extensive experiments on a real-world data set shows that the proposed behavior features have a good generalization ability across different classifiers, and the proposed MC-MIL method suppresses the baseline methods.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-18
# 対立する性ステレオタイプ:自動対人ステレオタイプの有効性に関する研究

Challenging Negative Gender Stereotypes: A Study on the Effectiveness of Automated Counter-Stereotypes ( http://arxiv.org/abs/2404.11845v1 )

ライセンス: Link先を確認
Isar Nejadgholi, Kathleen C. Fraser, Anna Kerkhof, Svetlana Kiritchenko, (参考訳) ジェンダーのステレオタイプは、社会的態度、行動、機会を形作る上で重要な役割を果たす性別に基づく個人についての広汎な信念である。 本研究は,特にオンラインコミュニケーションにおいて,ジェンダーステレオタイプに否定的な意味があることを認識し,これらの視点に対抗し,挑戦するための11の戦略について検討する。 我々は, 性別に基づくカウンターステレオタイプを, 男女共同研究参加者に提示し, 攻撃性, 妥当性, 潜在的有効性を評価する。 カウンターファクトの戦略と普遍性の拡大(すなわち、グループメンバーによらず誰でも特性を持つことができること)は最も堅牢なアプローチとして現れ、一方、ユーモア、視点取り、反例、共感は、話者に対する効果が低かった。 また, 評価の差異は, ラッカーの性別の違いよりも, 目標のステレオタイプに対して顕著であった。 異常に多くのAI生成の反ステレオタイプが攻撃的または/または不可解であると認識された。 我々の分析と収集したデータセットは、オンラインインタラクションにおけるジェンダーステレオタイプに効果的に挑戦する戦略を開発するための今後の取り組みを導く、反ステレオタイプ生成に関する基礎的な洞察を提供する。

Gender stereotypes are pervasive beliefs about individuals based on their gender that play a significant role in shaping societal attitudes, behaviours, and even opportunities. Recognizing the negative implications of gender stereotypes, particularly in online communications, this study investigates eleven strategies to automatically counter-act and challenge these views. We present AI-generated gender-based counter-stereotypes to (self-identified) male and female study participants and ask them to assess their offensiveness, plausibility, and potential effectiveness. The strategies of counter-facts and broadening universals (i.e., stating that anyone can have a trait regardless of group membership) emerged as the most robust approaches, while humour, perspective-taking, counter-examples, and empathy for the speaker were perceived as less effective. Also, the differences in ratings were more pronounced for stereotypes about the different targets than between the genders of the raters. Alarmingly, many AI-generated counter-stereotypes were perceived as offensive and/or implausible. Our analysis and the collected dataset offer foundational insight into counter-stereotype generation, guiding future efforts to develop strategies that effectively challenge gender stereotypes in online interactions.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-18
# パラメトリック制御によるフラクソニウムのマイクロ波-フォトニック界面

Parametrically-controlled microwave-photonic interface for the fluxonium ( http://arxiv.org/abs/2404.11847v1 )

ライセンス: Link先を確認
Ke Nie, Aayam Bista, Kaicheung Chow, Wolfgang Pfaff, Angela Kou, (参考訳) 静止量子ビットから走行光子への量子情報変換は、高速な量子ビットの初期化と、量子情報の再分配のための効率的な飛行量子ビットの生成を可能にする。 この変換はキャビティサイドバンド遷移を用いて行うことができる。 しかし、フラキソニウムでは、パリティ対称性により直接キャビティ側バンド遷移が禁止される。 ここでは、このパリティ選択規則を3波混合素子を用いて、フラクソニウムを共振器に結合させることにより回避する。 マイクロ波誘起パラメトリック変換によるフラキソニウムと走行光子との対面方式を実験的に実証した。 我々はフラクソニウム量子ビット上で高速なリセットを行い、95%以上の基底状態の個体群で初期化する。 次に、量子状態移動とリモート絡み合いに有用なフライング光子の制御された放出と時間的形状を実装した。 実演方式のシンプルさと柔軟性により,フラキソニウムをベースとしたリモートエンタングルメントアーキテクチャが実現される。

Converting quantum information from stationary qubits to traveling photons enables both fast qubit initialization and efficient generation of flying qubits for redistribution of quantum information. This conversion can be performed using cavity sideband transitions. In the fluxonium, however, direct cavity sideband transitions are forbidden due to parity symmetry. Here we circumvent this parity selection rule by using a three-wave mixing element to couple the fluxonium to a resonator. We experimentally demonstrate a scheme for interfacing the fluxonium with traveling photons through microwave-induced parametric conversion. We perform fast reset on the fluxonium qubit, initializing it with > 95% ground state population. We then implement controlled release and temporal shaping of a flying photon, useful for quantum state transfer and remote entanglement. The simplicity and flexibility of our demonstrated scheme enables fluxonium-based remote entanglement architectures.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-18
# ハイブリッドシャドウトモグラフィーと蒸留

Experimental Hybrid Shadow Tomography and Distillation ( http://arxiv.org/abs/2404.11850v1 )

ライセンス: Link先を確認
Xu-Jie Peng, Qing Liu, Lu Liu, Ting Zhang, You Zhou, He Lu, (参考訳) 量子状態のキャラクタリゼーションは、量子科学とテクノロジーの基本的な要件である。 有望なフレームワークとして、影トモグラフィーは線形関数を推定する上で大きな効率性を示すが、困難な非線形関数に対しては指数的なコストで測定する必要がある。 そこで我々は,光学系における非線形関数推定における測定コストを低減するため,高度なシャドウプロトコル,いわゆるハイブリッドシャドウ〜(HS)トモグラフィーを実装した。 我々は、単一光子を持つ決定論的量子フレドキンゲートを設計し、実現し、0.935\pm0.001$の高プロセス忠実性を実現する。 この新しいフレドキンゲートを用いることで,高次モーメントの最大4倍のHSを推定し,従来のシャドウプロトコルと比較して試料の複雑さが著しく低下していることを明らかにする。 さらに、これらの高次関数を用いて仮想蒸留を行い、2つのノイズコピーから高純度量子状態を効果的に抽出する。 仮想蒸留は量子力学の実証実験でも検証され、パラメータ推定の精度がさらに高められる。 以上の結果から,HSは状態特性において効率的であり,量子技術に有望であることが示唆された。

Characterization of quantum states is a fundamental requirement in quantum science and technology. As a promising framework, shadow tomography shows significant efficiency in estimating linear functions, however, for the challenging nonlinear ones, it requires measurements at an exponential cost. Here, we implement an advanced shadow protocol, so-called hybrid shadow~(HS) tomography, to reduce the measurement cost in the estimation of nonlinear functions in an optical system. We design and realize a deterministic quantum Fredkin gate with single photon, achieving high process fidelity of $0.935\pm0.001$. Utilizing this novel Fredkin gate, we demonstrate HS in the estimations, like the higher-order moments up to 4, and reveal that the sample complexity of HS is significantly reduced compared with the original shadow protocol. Furthermore, we utilize these higher-degree functions to implement virtual distillation, which effectively extracts a high-purity quantum state from two noisy copies. The virtual distillation is also verified in a proof-of-principle demonstration of quantum metrology, further enhancing the accuracy of parameter estimation. Our results suggest that HS is efficient in state characterization and promising for quantum technologies.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-18
# Rydberg量子ゲートのデチューニングエラーに対するアクティブロバスト性

Active robustness against the detuning-error for Rydberg quantum gates ( http://arxiv.org/abs/2404.11860v1 )

ライセンス: Link先を確認
Qing-Ling Hou, Han Wang, Jing Qian, (参考訳) 実験的不完全性に対する誤り抑制は、有用な量子コンピューティングにおける中心的な課題である。 近年の研究では、中性原子配列における高忠実性2ビットゲートを実現する最適制御に基づく単一変調パルスの利点が示されている。 しかし、典型的な最適化は、崩壊がなければ理想的なゲート誤差を最小限に抑え、これによりゲートは全てのエラー源に受動的に影響され、エラーが大きくなると感度が指数関数的に増大する。 本研究では,2光子デチューニング誤差に対して能動的に頑健な2量子CZゲートの実現を提案する。 本手法は, ゲートパルスの形状の数値最適化において, 理想的なゲート誤差だけでなく, 広い誤差範囲におけるゲート不整合の変動を最小化できるようなコスト関数の変更に依存する。 本稿では,ドップラー劣化やアクスタークシフトといった多彩なノイズ源の影響に対して,アクティブな頑健性を有するRydbergブロックゲート群を紹介する。 堅牢なパルスを持つゲートは、2光子デチューニングに作用するあらゆる種類のエラーに対する感度を著しく向上させ、現在の実験技術では、より低温またはより安定したレーザーの緩和要求により恩恵を受ける。

Error suppression to the experimental imperfections is a central challenge for useful quantum computing. Recent studies have shown the advantages of using single-modulated pulses based on optimal control which can realize high-fidelity two-qubit gates in neutral-atom arrays. However, typical optimization only minimizes the ideal gate error in the absence of any decay, which allows the gate to be passively influenced by all error sources leading to an exponential increase of sensitivity when the error becomes larger. In the present work, we propose the realization of two-qubit CZ gates with active robustness against two-photon detuning errors. Our method depends on a modified cost function in numerical optimization for shaping gate pulses, which can minimize, not only the ideal gate error but also the fluctuations of gate infidelity over a wide error range. We introduce a family of Rydberg blockade gates with active robustness towards the impacts of versatile noise sources such as Doppler dephasing and ac Stark shifts. The resulting gates with robust pulses can significantly increase the insensitivity to any type of errors acting on the two-photon detuning, benefiting from a relaxed requirement of colder atomic temperatures or more stable lasers for current experimental technology.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-18
# OPTiML: 自己監督型医用画像表現のための最適輸送を用いた高密度セマンティック不変性

OPTiML: Dense Semantic Invariance Using Optimal Transport for Self-Supervised Medical Image Representation ( http://arxiv.org/abs/2404.11868v1 )

ライセンス: Link先を確認
Azad Singh, Vandan Gorade, Deepak Mishra, (参考訳) 自己教師付き学習(SSL)は、アノテーションなしで学習できることから、医用画像解析の有望な技術として登場した。 しかし、有望な可能性にもかかわらず、従来のSSLメソッドでは、セマンティックアライメントの達成や微妙な詳細の取得など、制限に直面している。 これは、解剖学的構造や病理的詳細を正確に把握できない、最適下界表現につながる。 これらの制約に対応するため,医用画像表現学習におけるSSLの全体的な効果を高めるために,最適なトランスポート(OT)を用いた新しいSSLフレームワークOPTiMLを導入する。 中心となる考え方は、OTとクロスビューポイントセマンティクス・インフュージョン・モジュール(CV-SIM)を統合することである。 CV-SIMモジュールに加えて、OPTiMLはOTフレームワーク内での分散と共分散の規則化を強制し、臨床的に関係のある情報に焦点を絞ると同時に、より少ない情報的特徴を破棄する。 提案するフレームワークは,様々な医用画像タスクに適用可能な意味豊かな表現を学習する能力を示す。 その有効性を検証するために,胸部X線モダリティから利用可能な3つのデータセットについて実験を行った。 実験の結果,OPTiMLはすべての評価課題において,最先端の手法よりも優れていることがわかった。

Self-supervised learning (SSL) has emerged as a promising technique for medical image analysis due to its ability to learn without annotations. However, despite the promising potential, conventional SSL methods encounter limitations, including challenges in achieving semantic alignment and capturing subtle details. This leads to suboptimal representations, which fail to accurately capture the underlying anatomical structures and pathological details. In response to these constraints, we introduce a novel SSL framework OPTiML, employing optimal transport (OT), to capture the dense semantic invariance and fine-grained details, thereby enhancing the overall effectiveness of SSL in medical image representation learning. The core idea is to integrate OT with a cross-viewpoint semantics infusion module (CV-SIM), which effectively captures complex, fine-grained details inherent in medical images across different viewpoints. In addition to the CV-SIM module, OPTiML imposes the variance and covariance regularizations within OT framework to force the model focus on clinically relevant information while discarding less informative features. Through these, the proposed framework demonstrates its capacity to learn semantically rich representations that can be applied to various medical imaging tasks. To validate its effectiveness, we conduct experimental studies on three publicly available datasets from chest X-ray modality. Our empirical results reveal OPTiML's superiority over state-of-the-art methods across all evaluated tasks.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-18
# ポインタ強化ニューラルメモリを用いた逐次モデルにおける長さ外挿の強化

Enhancing Length Extrapolation in Sequential Models with Pointer-Augmented Neural Memory ( http://arxiv.org/abs/2404.11870v1 )

ライセンス: Link先を確認
Hung Le, Dung Nguyen, Kien Do, Svetha Venkatesh, Truyen Tran, (参考訳) 本稿では,新しいより長いデータ列に対して,ニューラルネットワークによるシンボル処理の理解と適用を支援するために,Pointer-Augmented Neural Memory (PANM)を提案する。 PANMは、新しい物理アドレスとポインタ操作技術を使用して、人間とコンピュータのシンボル処理能力を模倣する外部のニューラルメモリを統合する。 PANMは、メモリコンテンツにアクセスするために物理的ポインタを明示的に使用することにより、ポインタの割り当て、参照、演算を容易にする。 注目すべきは、シーケンスデータに対するエンドツーエンドのトレーニングを通じて、これらの操作を学習し、さまざまなシーケンシャルモデルを実行することだ。 実験では,PANMの例外長外挿能力と,アルゴリズム推論やDyck言語認識などのシンボル処理を必要とするタスクの性能向上を実証した。 PANMは、Transformerが合成学習タスクにおいて最大100%の一般化精度を達成し、数学的推論、質問応答、機械翻訳タスクにおいて大幅に改善するのに役立つ。

We propose Pointer-Augmented Neural Memory (PANM) to help neural networks understand and apply symbol processing to new, longer sequences of data. PANM integrates an external neural memory that uses novel physical addresses and pointer manipulation techniques to mimic human and computer symbol processing abilities. PANM facilitates pointer assignment, dereference, and arithmetic by explicitly using physical pointers to access memory content. Remarkably, it can learn to perform these operations through end-to-end training on sequence data, powering various sequential models. Our experiments demonstrate PANM's exceptional length extrapolating capabilities and improved performance in tasks that require symbol processing, such as algorithmic reasoning and Dyck language recognition. PANM helps Transformer achieve up to 100% generalization accuracy in compositional learning tasks and significantly better results in mathematical reasoning, question answering and machine translation tasks.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# 局所サロゲートモデルを用いたグローバル年次データにおける時間変化の解釈

Using a Local Surrogate Model to Interpret Temporal Shifts in Global Annual Data ( http://arxiv.org/abs/2404.11874v1 )

ライセンス: Link先を確認
Shou Nakano, Yang Liu, (参考訳) 本稿では,これらの時間的変化に寄与する要因を特定することを目的として,グローバルソースの年次時間的データに経時的変化を説明することに焦点を当てた。 このような分析フレームワークを活用することで、公共政策のインフォームド・リファインメント化や、国の経済発展に影響を及ぼす主要な要因の特定など、変革的な影響を与える可能性がある。 各国の幸福指数、経済自由度、人口指標を照らし、変動時間枠にまたがる局所的解釈可能なモデル非依存説明法(LIME)を用いる。 LIMEの入力要求に適合する頑健な多変量時系列データセットを生成するために,欠落した値の存在を認めた。 提案手法の有効性は,複数のデータセットを含む一連の経験的評価を通じて実証される。 これらの評価には、ランダムな特徴選択に対する分析、LIMEによって解明された実世界の事象との相関、特徴重要度検出に熟練した最先端技術である個人条件予測(ICE)プロットによる検証が含まれる。

This paper focuses on explaining changes over time in globally-sourced, annual temporal data, with the specific objective of identifying pivotal factors that contribute to these temporal shifts. Leveraging such analytical frameworks can yield transformative impacts, including the informed refinement of public policy and the identification of key drivers affecting a country's economic evolution. We employ Local Interpretable Model-agnostic Explanations (LIME) to shed light on national happiness indices, economic freedom, and population metrics, spanning variable time frames. Acknowledging the presence of missing values, we employ three imputation approaches to generate robust multivariate time-series datasets apt for LIME's input requirements. Our methodology's efficacy is substantiated through a series of empirical evaluations involving multiple datasets. These evaluations include comparative analyses against random feature selection, correlation with real-world events as elucidated by LIME, and validation through Individual Conditional Expectation (ICE) plots, a state-of-the-art technique proficient in feature importance detection.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# 犬の歩行理論:フェデレートラーニングにおける収束を再考する

The Dog Walking Theory: Rethinking Convergence in Federated Learning ( http://arxiv.org/abs/2404.11888v1 )

ライセンス: Link先を確認
Kun Zhai, Yifeng Gao, Xingjun Ma, Difan Zou, Guangnan Ye, Yu-Gang Jiang, (参考訳) Federated Learning(FL)は、さまざまなクライアントがプライベートデータを共有せずに、ひとつの強力なグローバルモデルをトレーニングできる、協調学習パラダイムである。 FLは様々なアプリケーションで有望な結果を示してきたが、特に非独立で同一の(非IID)データにおいて、異なるクライアント間でのデータ分散シフトに起因する収束問題に悩まされていることが知られている。 本稿では,非IIDデータに対するFLの収束性について検討し,既存の研究において欠落要素を定式化し,同定するための新しい「emph{Dog Walking Theory}」を提案する。 犬の散歩理論は、公園の片側からもう片側まで複数の犬を散歩する犬の散歩の綱の過程を記述している。 ドッグウォーカーの目標は、犬に十分な運動(すなわち宇宙探査)を与えながら、適切な目的地に到着することである。 FLでは、サーバは犬の歩行と類似し、クライアントは犬の類似である。 このアナロジーにより、既存のFLアルゴリズムにおける重要な要素の1つ、すなわちクライアントの探索を導くレッシュを特定できます。 このギャップに対処するために,クライアントのローカルトレーニングをガイドするために,サーバ側の外部で容易に収束できるタスクを \emph{leash task} として活用する新しいFLアルゴリズムである \emph{FedWalk} を提案する。 理論的には、FedWalkのデータ不均一性(サーバとクライアント間の)とタスクの不一致(レッシュと元のタスク間の)に関する収束を分析します。 複数のベンチマークデータセットの実験では、IDDおよび非IID設定下での最先端FL法よりもFedWalkの方が優れていることが示されている。

Federated learning (FL) is a collaborative learning paradigm that allows different clients to train one powerful global model without sharing their private data. Although FL has demonstrated promising results in various applications, it is known to suffer from convergence issues caused by the data distribution shift across different clients, especially on non-independent and identically distributed (non-IID) data. In this paper, we study the convergence of FL on non-IID data and propose a novel \emph{Dog Walking Theory} to formulate and identify the missing element in existing research. The Dog Walking Theory describes the process of a dog walker leash walking multiple dogs from one side of the park to the other. The goal of the dog walker is to arrive at the right destination while giving the dogs enough exercise (i.e., space exploration). In FL, the server is analogous to the dog walker while the clients are analogous to the dogs. This analogy allows us to identify one crucial yet missing element in existing FL algorithms: the leash that guides the exploration of the clients. To address this gap, we propose a novel FL algorithm \emph{FedWalk} that leverages an external easy-to-converge task at the server side as a \emph{leash task} to guide the local training of the clients. We theoretically analyze the convergence of FedWalk with respect to data heterogeneity (between server and clients) and task discrepancy (between the leash and the original tasks). Experiments on multiple benchmark datasets demonstrate the superiority of FedWalk over state-of-the-art FL methods under both IID and non-IID settings.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# マルチビューX線画像合成法

Multi-view X-ray Image Synthesis with Multiple Domain Disentanglement from CT Scans ( http://arxiv.org/abs/2404.11889v1 )

ライセンス: Link先を確認
Lixing Tan, Shuang Song, Kangneng Zhou, Chengbo Duan, Lanying Wang, Huayang Ren, Linlin Liu, Wei Zhang, Ruoxiu Xiao, (参考訳) X線画像は、高分解能で高速な撮像速度のため、術中プロセスにおいて重要な役割を担い、その後のセグメンテーション、登録、再構築を大いに促進する。 しかし、過剰投与されたX線は、ある程度人間の健康への潜在的なリスクを重畳している。 ボリュームスキャンからX線画像へのデータ駆動アルゴリズムは、ペア化されたX線とボリュームデータの不足によって制限される。 既存の手法は主にX線画像全体のモデリングによって実現されている。 本研究では,CT2X-GANという学習手法を用いて,3つの異なる画像領域からのコンテンツとスタイルのゆがみを利用して,X線画像をエンドツーエンドに合成する手法を提案する。 本手法は,CTスキャンから解剖学的構造情報を分離し,非対面実X線画像/デジタル再構成ラジオグラフィ(DRR)画像から一連のデカップリングエンコーダを介してスタイル情報を抽出する。 さらに,合成X線画像と実X線画像とのスタイル的類似性を改善するために,新しい整合性正規化項を導入する。 また,実DRRと合成DRR画像の類似性を計算し,教師付き処理を行う。 我々はさらに、CTスキャンから分離されたコンテンツコードの包括的情報を強化するために、ポーズアテンションモジュールを開発し、低次元空間における高品質なマルチビュー画像合成を容易にする。 CTSpine1Kデータセットを公開し、FID、KID、定義されたX線類似度で97.8350、0.0842、3.0938を達成した。 また,CT2X-GANは3次元認識法(\pi$-GAN, EG3D)と比較して, 合成品質の向上に優れ, 現実のX線画像よりもリアルである。

X-ray images play a vital role in the intraoperative processes due to their high resolution and fast imaging speed and greatly promote the subsequent segmentation, registration and reconstruction. However, over-dosed X-rays superimpose potential risks to human health to some extent. Data-driven algorithms from volume scans to X-ray images are restricted by the scarcity of paired X-ray and volume data. Existing methods are mainly realized by modelling the whole X-ray imaging procedure. In this study, we propose a learning-based approach termed CT2X-GAN to synthesize the X-ray images in an end-to-end manner using the content and style disentanglement from three different image domains. Our method decouples the anatomical structure information from CT scans and style information from unpaired real X-ray images/ digital reconstructed radiography (DRR) images via a series of decoupling encoders. Additionally, we introduce a novel consistency regularization term to improve the stylistic resemblance between synthesized X-ray images and real X-ray images. Meanwhile, we also impose a supervised process by computing the similarity of computed real DRR and synthesized DRR images. We further develop a pose attention module to fully strengthen the comprehensive information in the decoupled content code from CT scans, facilitating high-quality multi-view image synthesis in the lower 2D space. Extensive experiments were conducted on the publicly available CTSpine1K dataset and achieved 97.8350, 0.0842 and 3.0938 in terms of FID, KID and defined user-scored X-ray similarity, respectively. In comparison with 3D-aware methods ($\pi$-GAN, EG3D), CT2X-GAN is superior in improving the synthesis quality and realistic to the real X-ray images.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# TriForce: 階層的投機的復号化による長周期生成のロスレス高速化

TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding ( http://arxiv.org/abs/2404.11912v1 )

ライセンス: Link先を確認
Hanshi Sun, Zhuoming Chen, Xinyu Yang, Yuandong Tian, Beidi Chen, (参考訳) 近年,大規模言語モデル (LLM) が長期コンテンツ生成に広く採用されているため,効率的な長期推論サポートの必要性が高まっている。 しかし、再計算を避けるために格納されるキー値(KV)キャッシュは、シーケンス長と線形に大きくなることで重要なボトルネックとなっている。 LLMの自己回帰性のため、KVキャッシュ全体が生成されたトークン毎にロードされるため、計算コアの低利用と高いレイテンシが生じる。 KVキャッシュの様々な圧縮手法がこの問題を軽減するために提案されているが、それらは生成品質の低下に悩まされている。 本稿では,時系列生成にスケーラブルな階層型投機復号システムTriForceを紹介する。 このアプローチでは,従来のモデル重みと動的スパースKVキャッシュをドラフトモデルとして検索し,階層の中間層として機能する。 TriForceは、Llama2-7B-128Kの印象的なスピードアップを促進し、A100 GPU上で最大2.31$\times$を達成するだけでなく、さらに長いコンテキストを扱うスケーラビリティも示す。 2つのRTX 4090 GPUのオフロード設定のために、TriForceは0.108s/token$\unicode{x2014}$onlyをA100のオートレグレッシブベースラインの半分の速度で達成し、最適化されたオフロードシステムでは7.78$\times$に達する。 さらに、TriForceは1つのRTX 4090 GPU上でDeepSpeed-Zero-Inferenceよりも4.86$\times$を実行する。 トリフォースの頑丈さは、様々な温度で一貫して卓越した性能で強調されている。 コードはhttps://github.com/Infini-AI-Lab/TriForce.comで公開されている。

With large language models (LLMs) widely deployed in long content generation recently, there has emerged an increasing demand for efficient long-sequence inference support. However, key-value (KV) cache, which is stored to avoid re-computation, has emerged as a critical bottleneck by growing linearly in size with the sequence length. Due to the auto-regressive nature of LLMs, the entire KV cache will be loaded for every generated token, resulting in low utilization of computational cores and high latency. While various compression methods for KV cache have been proposed to alleviate this issue, they suffer from degradation in generation quality. We introduce TriForce, a hierarchical speculative decoding system that is scalable to long sequence generation. This approach leverages the original model weights and dynamic sparse KV cache via retrieval as a draft model, which serves as an intermediate layer in the hierarchy and is further speculated by a smaller model to reduce its drafting latency. TriForce not only facilitates impressive speedups for Llama2-7B-128K, achieving up to 2.31$\times$ on an A100 GPU but also showcases scalability in handling even longer contexts. For the offloading setting on two RTX 4090 GPUs, TriForce achieves 0.108s/token$\unicode{x2014}$only half as slow as the auto-regressive baseline on an A100, which attains 7.78$\times$ on our optimized offloading system. Additionally, TriForce performs 4.86$\times$ than DeepSpeed-Zero-Inference on a single RTX 4090 GPU. TriForce's robustness is highlighted by its consistently outstanding performance across various temperatures. The code is available at https://github.com/Infini-AI-Lab/TriForce.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# SKIP:推論速度向上のためのスキルローカライズされたプロンプトチューニング

SKIP: Skill-Localized Prompt Tuning for Inference Speed Boost-Up ( http://arxiv.org/abs/2404.11916v1 )

ライセンス: Link先を確認
Nakyeong Yang, Junseok Kim, Jiwon Moon, Yunah Jang, Kyomin Jung, (参考訳) Prompt-tuning法は、様々な自然言語理解タスクにおいて、パラメータ効率のよい微細チューニング(PEFT)法と同等の性能を示す。 しかし、既存のプロンプトチューニング手法はモデルアーキテクチャ全体を利用しており、アプリケーションの推論速度を加速することができない。 本稿では,SKIll-localized Prompt tuning (SKIP) と呼ばれる新しい手法を提案する。 本手法は,言語モデルにおけるスキルローカライズされたサブネットワークの調査と活用により,推論効率を大幅に向上させる。 驚くべきことに,提案手法はパラメータの52%を刈り上げながら,推論速度を最大160%向上させる。 さらに,本手法が様々なトランスフォーマーアーキテクチャに適用可能であることを実証し,実用性と拡張性を確認した。

Prompt-tuning methods have shown comparable performance as parameter-efficient fine-tuning (PEFT) methods in various natural language understanding tasks. However, existing prompt tuning methods still utilize the entire model architecture; thus, they fail to accelerate inference speed in the application. In this paper, we propose a novel approach called SKIll-localized Prompt tuning (SKIP), which is extremely efficient in inference time. Our method significantly enhances inference efficiency by investigating and utilizing a skill-localized subnetwork in a language model. Surprisingly, our method improves the inference speed up to 160% while pruning 52% of the parameters. Furthermore, we demonstrate that our method is applicable across various transformer-based architectures, thereby confirming its practicality and scalability.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# 高次元ベイズ最適化のためのコーディネート改善を期待する

Expected Coordinate Improvement for High-Dimensional Bayesian Optimization ( http://arxiv.org/abs/2404.11917v1 )

ライセンス: Link先を確認
Dawei Zhan, (参考訳) ベイズ最適化(BO)アルゴリズムは、低次元の高価な最適化問題を解くのに非常に人気がある。 ベイズ最適化を高次元に拡張することは有意義だが難しい課題である。 主要な課題の1つは、取得関数も高次元であるため、適切な入出力解を見つけるのが難しいことである。 本研究では,高次元ベイズ最適化のための予測座標改善(ECI)基準を提案する。 提案されたECI基準は、現在の最良のソリューションを1つの座標に沿って移動させることによって得られる潜在的な改善を測定する。 提案手法では,各イテレーションにおいて最も高いECI値の座標を選択し,座標を反復することで座標を徐々にカバーする。 標準BOアルゴリズムに対して提案したECI-BOアルゴリズムの最大の利点は、提案アルゴリズムの入出力選択問題は、常に1次元の問題であり、容易に解けることである。 数値実験により,提案アルゴリズムは5つの最先端高次元BOと比較して,標準的なBOアルゴリズムよりもはるかに優れた結果が得られることが示された。 この研究は、高次元ベイズ最適化のための単純だが効率的なアプローチを提供する。

Bayesian optimization (BO) algorithm is very popular for solving low-dimensional expensive optimization problems. Extending Bayesian optimization to high dimension is a meaningful but challenging task. One of the major challenges is that it is difficult to find good infill solutions as the acquisition functions are also high-dimensional. In this work, we propose the expected coordinate improvement (ECI) criterion for high-dimensional Bayesian optimization. The proposed ECI criterion measures the potential improvement we can get by moving the current best solution along one coordinate. The proposed approach selects the coordinate with the highest ECI value to refine in each iteration and covers all the coordinates gradually by iterating over the coordinates. The greatest advantage of the proposed ECI-BO (expected coordinate improvement based Bayesian optimization) algorithm over the standard BO algorithm is that the infill selection problem of the proposed algorithm is always a one-dimensional problem thus can be easily solved. Numerical experiments show that the proposed algorithm can achieve significantly better results than the standard BO algorithm and competitive results when compared with five state-of-the-art high-dimensional BOs. This work provides a simple but efficient approach for high-dimensional Bayesian optimization.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# TeachNow:大規模オンラインコースで教師に自然にリアルタイム1:1のヘルプを提供する

TeachNow: Enabling Teachers to Provide Spontaneous, Realtime 1:1 Help in Massive Online Courses ( http://arxiv.org/abs/2404.11918v1 )

ライセンス: Link先を確認
Ali Malik, Juliette Woodrow, Chao Wang, Chris Piech, (参考訳) 教師の1対1の援助は、学生にとって非常に影響が大きいが、大規模なオンラインコース(MOOC)をサポートすることは極めて困難である。 本研究では,MOOCの学生に対して,スケジューリングや調整のオーバーヘッドを伴わずに,世界中のボランティア教師が即時1:1ヘルプセッションを提供する新システムTeachNowを紹介する。 TeachNowは、オンラインの学生を素早く見つけて、教師と共同作業する。 TeachNowの自発的でオンデマンドな性質は、教師にスケジュールが許されるたびに助ける柔軟性を与えてくれる。 6週間のオンラインCS1コースで、9000人の学生と600人のボランティア教師が、TeachNowを実験的な機能としてデプロイした経験を共有します。 オプションのアクティビティとしても、TeachNowは教師が375人のユニークな学生に1:1の助けを12,300分以上提供するために利用した。 慎重に設計したランダム化制御試験により,TeachNowセッションは学生のコース保持率を約15%向上させた。 さらに、システムの柔軟性は、無駄になる貴重なボランティアタイムを捉えました。 最後に、TeachNowは、教師たちがコースに関わった最も楽しく影響のある側面の1つとして評価された。 TeachNowは、大規模なオンラインコースでより人間中心のサポートを提供するための重要なステップだと考えています。

One-on-one help from a teacher is highly impactful for students, yet extremely challenging to support in massive online courses (MOOCs). In this work, we present TeachNow: a novel system that lets volunteer teachers from anywhere in the world instantly provide 1:1 help sessions to students in MOOCs, without any scheduling or coordination overhead. TeachNow works by quickly finding an online student to help and putting them in a collaborative working session with the teacher. The spontaneous, on-demand nature of TeachNow gives teachers the flexibility to help whenever their schedule allows. We share our experiences deploying TeachNow as an experimental feature in a six week online CS1 course with 9,000 students and 600 volunteer teachers. Even as an optional activity, TeachNow was used by teachers to provide over 12,300 minutes of 1:1 help to 375 unique students. Through a carefully designed randomised control trial, we show that TeachNow sessions increased student course retention rate by almost 15%. Moreover, the flexibility of our system captured valuable volunteer time that would otherwise go to waste. Lastly, TeachNow was rated by teachers as one of the most enjoyable and impactful aspects of their involvement in the course. We believe TeachNow is an important step towards providing more human-centered support in massive online courses.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# EdgeFusion: デバイス上でのテキスト・画像生成

EdgeFusion: On-Device Text-to-Image Generation ( http://arxiv.org/abs/2404.11925v1 )

ライセンス: Link先を確認
Thibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim, (参考訳) テキスト・画像生成における安定拡散(SD)の集約的な計算負荷は、その実用上重要なハードルとなっている。 この課題に対処するために、最近の研究は、LCM(Latent Consistency Model)のようなサンプリングステップを減らす方法と、プルーニングや知識蒸留といったアーキテクチャ最適化の採用に焦点を当てている。 既存のアプローチとは違って、コンパクトなSD変種であるBK-SDMから一意に始める。 LCMをBK-SDMに直接適用すると、一般的なクロールデータセットが不満足な結果をもたらすことが観察された。 その結果,(1)主生成モデルからの高品質な画像テキストペアの利用,(2)LCMに適した高度蒸留プロセスの設計,の2つの戦略が得られた。 量子化,プロファイリング,オンデバイス展開の徹底的な調査を通じて,リソース制限エッジデバイス上で1秒未満のレイテンシで,フォトリアリスティックなテキスト整列画像を2ステップで高速に生成する。

The intensive computational burden of Stable Diffusion (SD) for text-to-image generation poses a significant hurdle for its practical application. To tackle this challenge, recent research focuses on methods to reduce sampling steps, such as Latent Consistency Model (LCM), and on employing architectural optimizations, including pruning and knowledge distillation. Diverging from existing approaches, we uniquely start with a compact SD variant, BK-SDM. We observe that directly applying LCM to BK-SDM with commonly used crawled datasets yields unsatisfactory results. It leads us to develop two strategies: (1) leveraging high-quality image-text pairs from leading generative models and (2) designing an advanced distillation process tailored for LCM. Through our thorough exploration of quantization, profiling, and on-device deployment, we achieve rapid generation of photo-realistic, text-aligned images in just two steps, with latency under one second on resource-limited edge devices.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# パーキンソン病における線条体ドパミントランスポーター取り込みのMRIによる評価

A Symmetric Regressor for MRI-Based Assessment of Striatal Dopamine Transporter Uptake in Parkinson's Disease ( http://arxiv.org/abs/2404.11929v1 )

ライセンス: Link先を確認
Walid Abdullah Al, Il Dong Yun, Yun Jung Bae, (参考訳) ドパミントランスポーター(DAT)イメージングはパーキンソン病(PD)のモニタリングに一般的に用いられ、DAT取り込み量を計算してPD重症度を評価する。 しかし,DAT画像は放射線曝露のリスクが高く,一般的な診療所では利用できない。 近年,ニコラル領域のMRIパッチはより安全で簡便な代替手段として提案されている。 本稿では,MRI パッチからの DAT 取り込み量を予測する対称回帰器を提案する。 提案した回帰器は,左右のニグラーの対称性を認め,左右のストリータのDAT取り込み量を同時に予測するペア入力出力モデルを備えている。 さらに、左右の予測の差に制約を課す対称的な損失も採用しており、これは両側のDAT取り込み量の高い相関に類似している。 さらに, 上記の対称性を利用した DAT 取り込み予測の有意な不確実性推定を行うための, 対称モンテカルロ(MC)ドロップアウト手法を提案する。 提案手法を734 nigral patchで評価し,標準回帰器と比較して対称回帰器の性能が有意に向上し,説明性や特徴表現性が向上した。 対称MCの落差は、その範囲内に真のDAT取り込み量を含む確率の高い正確な不確かさ範囲も与えた。

Dopamine transporter (DAT) imaging is commonly used for monitoring Parkinson's disease (PD), where striatal DAT uptake amount is computed to assess PD severity. However, DAT imaging has a high cost and the risk of radiance exposure and is not available in general clinics. Recently, MRI patch of the nigral region has been proposed as a safer and easier alternative. This paper proposes a symmetric regressor for predicting the DAT uptake amount from the nigral MRI patch. Acknowledging the symmetry between the right and left nigrae, the proposed regressor incorporates a paired input-output model that simultaneously predicts the DAT uptake amounts for both the right and left striata. Moreover, it employs a symmetric loss that imposes a constraint on the difference between right-to-left predictions, resembling the high correlation in DAT uptake amounts in the two lateral sides. Additionally, we propose a symmetric Monte-Carlo (MC) dropout method for providing a fruitful uncertainty estimate of the DAT uptake prediction, which utilizes the above symmetry. We evaluated the proposed approach on 734 nigral patches, which demonstrated significantly improved performance of the symmetric regressor compared with the standard regressors while giving better explainability and feature representation. The symmetric MC dropout also gave precise uncertainty ranges with a high probability of including the true DAT uptake amounts within the range.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# CrossIn: 言語間知識アライメントのための効果的なインストラクションチューニングアプローチ

CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment ( http://arxiv.org/abs/2404.11932v1 )

ライセンス: Link先を確認
Geyu Lin, Bin Wang, Zhengyuan Liu, Nancy F. Chen, (参考訳) 多言語習熟度は、大規模言語モデル(LLM)にとって重要な課題である。 英語中心のモデルは、通常他の言語、特に言語的に英語から離れた言語に最適である。 この性能差は主に、事前学習および指導訓練段階における言語間のトレーニングデータの不均衡分布に起因する。 この問題に対処するために,言語間命令チューニングデータの混合合成を利用するCrossInという新しい手法を提案する。 提案手法は, 各種言語が共有する圧縮表現を利用して, モデルのタスク解決能力と多言語習熟度を1つのプロセスで効率的に向上する。 さらに、CrossInの有効性を評価するために、マルチタスクおよびマルチフェイスベンチマークを導入する。 実験の結果,本手法はタスクや言語間の性能を著しく向上し,多言語間のデータ量と翻訳データの統合が多言語間の整合性と精度の向上に与える影響について広範な知見を提供することができた。

Multilingual proficiency presents a significant challenge for large language models (LLMs). English-centric models are usually suboptimal in other languages, particularly those that are linguistically distant from English. This performance discrepancy mainly stems from the imbalanced distribution of training data across languages during pre-training and instruction tuning stages. To address this problem, we propose a novel approach called CrossIn, which utilizes a mixed composition of cross-lingual instruction tuning data. Our method leverages the compressed representation shared by various languages to efficiently enhance the model's task-solving capabilities and multilingual proficiency within a single process. In addition, we introduce a multi-task and multi-faceted benchmark to evaluate the effectiveness of CrossIn. Experimental results demonstrate that our method substantially improves performance across tasks and languages, and we provide extensive insights into the impact of cross-lingual data volume and the integration of translation data on enhancing multilingual consistency and accuracy.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# LD-Pruner:タスク非依存的洞察を用いた潜時拡散モデルの効率的なプルーニング

LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights ( http://arxiv.org/abs/2404.11936v1 )

ライセンス: Link先を確認
Thibault Castells, Hyoung-Kyu Song, Bo-Kyeong Kim, Shinkook Choi, (参考訳) 遅延拡散モデル(LDMs)は、制約された計算資源の下で優れた結果をもたらすことで知られている強力な生成モデルとして登場した。 しかし、リソース制限されたデバイスにLCMをデプロイすることは複雑な問題であり、メモリ消費や推論速度といった課題を提示している。 この問題に対処するために,LD-Prunerを導入し,LDMを圧縮するための新しい性能保存型構造化プルーニング手法を提案する。 ディープニューラルネットワークの従来のプルーニング手法は、トレーニングの高計算コストや、モデル性能を評価するための高速で単純でタスクに依存しない手法が存在しないなど、LCMのユニークな特徴に合わせたものではない。 そこで本手法では,手作業とは無関係に,プルーニングがモデル性能に与える影響を効果的に定量化できるように,プルーニング過程における潜伏空間を活用することで,これらの課題に対処する。 この出力に最小限の影響しか与えないコンポーネントのターゲットプルーニングは、モデルが再学習する情報が少ないため、トレーニング中により高速な収束を可能にし、高い計算コストに対処する。 提案手法は,性能劣化を最小限に抑えつつ,推論速度の向上とパラメータ数削減を実現する圧縮モデルを実現する。 本稿では,テキスト・ツー・イメージ(T2I)生成,Unconditional Image Generation(UIG),Unconditional Audio Generation(UAG)の3つのタスクに対するアプローチの有効性を示す。 特に,安定拡散(SD)の予測時間を34.9%削減し,同時にMS-COCO T2IベンチマークでFIDを5.2%改善した。 この研究は、LCMのより効率的な刈り取り方法の道を開き、適用性を高めた。

Latent Diffusion Models (LDMs) have emerged as powerful generative models, known for delivering remarkable results under constrained computational resources. However, deploying LDMs on resource-limited devices remains a complex issue, presenting challenges such as memory consumption and inference speed. To address this issue, we introduce LD-Pruner, a novel performance-preserving structured pruning method for compressing LDMs. Traditional pruning methods for deep neural networks are not tailored to the unique characteristics of LDMs, such as the high computational cost of training and the absence of a fast, straightforward and task-agnostic method for evaluating model performance. Our method tackles these challenges by leveraging the latent space during the pruning process, enabling us to effectively quantify the impact of pruning on model performance, independently of the task at hand. This targeted pruning of components with minimal impact on the output allows for faster convergence during training, as the model has less information to re-learn, thereby addressing the high computational cost of training. Consequently, our approach achieves a compressed model that offers improved inference speed and reduced parameter count, while maintaining minimal performance degradation. We demonstrate the effectiveness of our approach on three different tasks: text-to-image (T2I) generation, Unconditional Image Generation (UIG) and Unconditional Audio Generation (UAG). Notably, we reduce the inference time of Stable Diffusion (SD) by 34.9% while simultaneously improving its FID by 5.2% on MS-COCO T2I benchmark. This work paves the way for more efficient pruning methods for LDMs, enhancing their applicability.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# ラベルノイズを用いた信頼度多視点学習

Trusted Multi-view Learning with Label Noise ( http://arxiv.org/abs/2404.11944v1 )

ライセンス: Link先を確認
Cai Xu, Yilin Zhang, Ziyu Guan, Wei Zhao, (参考訳) マルチビュー学習手法は、意思決定の不確実性を無視しながら、意思決定精度の向上に重点を置いていることが多い。 この問題に対処するため、研究者らは、各インスタンスのクラス分布を学習し、分類確率と不確実性の推定を可能にする、信頼できるマルチビュー手法を提案する。 しかし、これらの手法は高品質な地下構造ラベルに大きく依存している。 これは、新しい一般化されたマルチビュー学習問題、すなわち、ノイズラベルの指導の下で信頼性のあるマルチビュー学習モデルを開発するにはどうすればよいか? 本稿では,この問題を解決するため,信頼度の高いマルチビューノイズ修正手法を提案する。 我々はまず,信念の質量ベクトルと不確実性推定からなる明らかな深層ニューラルネットワークを用いて,ビューオピニオンを構築した。 そこで,本研究では,従来の意見からノイズに適応した意見へと変換する,ビュー固有ノイズ相関行列を設計する。 低品質なデータ特徴と容易に折り畳まれたクラスから生じるラベルノイズを考慮すると、これらの行列の対角要素が非対角要素にクラス関係を組み込んで不確実性に逆比例することを保証する。 最後に, 雑音ラベルによるモデル学習において, ノイズ評価を集約し, 一般化された最大可算損失を用いた。 我々は,TMNRと最先端のマルチビュー学習,および5つの公開データセットに基づくラベルノイズ学習ベースラインを実証的に比較した。 実験の結果,TMNRは精度,信頼性,堅牢性において,ベースライン法よりも優れていた。 コードとすべてのデータセットをGithubでリリースすることを約束します。

Multi-view learning methods often focus on improving decision accuracy while neglecting the decision uncertainty, which significantly restricts their applications in safety-critical applications. To address this issue, researchers propose trusted multi-view methods that learn the class distribution for each instance, enabling the estimation of classification probabilities and uncertainty. However, these methods heavily rely on high-quality ground-truth labels. This motivates us to delve into a new generalized trusted multi-view learning problem: how to develop a reliable multi-view learning model under the guidance of noisy labels? We propose a trusted multi-view noise refining method to solve this problem. We first construct view-opinions using evidential deep neural networks, which consist of belief mass vectors and uncertainty estimates. Subsequently, we design view-specific noise correlation matrices that transform the original opinions into noisy opinions aligned with the noisy labels. Considering label noises originating from low-quality data features and easily-confused classes, we ensure that the diagonal elements of these matrices are inversely proportional to the uncertainty, while incorporating class relations into the off-diagonal elements. Finally, we aggregate the noisy opinions and employ a generalized maximum likelihood loss on the aggregated opinion for model training, guided by the noisy labels. We empirically compare TMNR with state-of-the-art trusted multi-view learning and label noise learning baselines on 5 publicly available datasets. Experiment results show that TMNR outperforms baseline methods on accuracy, reliability and robustness. We promise to release the code and all datasets on Github and show the link here.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# S4TP:自律走行車のための社会的・安全に敏感な軌道計画

S4TP: Social-Suitable and Safety-Sensitive Trajectory Planning for Autonomous Vehicles ( http://arxiv.org/abs/2404.11946v1 )

ライセンス: Link先を確認
Xiao Wang, Ke Tang, Xingyuan Dai, Jintao Xu, Quancheng Du, Rui Ai, Yuxiao Wang, Weihao Gu, (参考訳) 公道では、自動運転車 (AV) は人間の運転する車両 (HDV) との頻繁な相互作用の課題に直面している。 本稿では,ソーシャル・インタラクティブ交通シナリオにおけるAV付近のリスクを効果的に評価し,安全な自動運転を実現するために,社会に適合し,安全に敏感な軌道計画(S4TP)フレームワークを提案する。 具体的には、S4TPは、SATP(Social-Aware Trajectory Prediction)とSADRF(Social-Aware Driving Risk Field)モジュールを統合している。 SATPはトランスフォーマーを使用してドライブシーンを効果的にエンコードし、予測復号プロセス中にAVの計画軌道を組み込む。 SADRFは、AVとHDVの相互作用において期待される周囲のリスク度を評価し、それぞれ異なる社会的特性を持ち、AVを中心にした2次元熱マップとして可視化する。 SADRFは周囲のHDVの駆動意図をモデル化し、車体相互作用の表現に基づいて軌道を予測する。 S4TPは、予測されたHDVの軌道を入力として利用して、モーションプランニングに最適化ベースのアプローチを採用している。 SADRFの統合により、S4TPは低リスク領域におけるAVの計画軌道をリアルタイムに最適化し、計画軌道の安全性と解釈性を向上させる。 SMARTSシミュレータを用いて提案手法の総合的な試験を行った。 無防備な左旋回交差点, 合併, クルーズ, オーバーテイクといった複雑な社会シナリオにおける実験結果は, 安全性と合理性の観点から, 提案したS4TPの優位性を検証した。 S4TPはすべてのシナリオで100%パスレートを達成し、現在の最先端手法であるFantaの98.25%、予測-決定の94.75%を上回っている。

In public roads, autonomous vehicles (AVs) face the challenge of frequent interactions with human-driven vehicles (HDVs), which render uncertain driving behavior due to varying social characteristics among humans. To effectively assess the risks prevailing in the vicinity of AVs in social interactive traffic scenarios and achieve safe autonomous driving, this article proposes a social-suitable and safety-sensitive trajectory planning (S4TP) framework. Specifically, S4TP integrates the Social-Aware Trajectory Prediction (SATP) and Social-Aware Driving Risk Field (SADRF) modules. SATP utilizes Transformers to effectively encode the driving scene and incorporates an AV's planned trajectory during the prediction decoding process. SADRF assesses the expected surrounding risk degrees during AVs-HDVs interactions, each with different social characteristics, visualized as two-dimensional heat maps centered on the AV. SADRF models the driving intentions of the surrounding HDVs and predicts trajectories based on the representation of vehicular interactions. S4TP employs an optimization-based approach for motion planning, utilizing the predicted HDVs'trajectories as input. With the integration of SADRF, S4TP executes real-time online optimization of the planned trajectory of AV within lowrisk regions, thus improving the safety and the interpretability of the planned trajectory. We have conducted comprehensive tests of the proposed method using the SMARTS simulator. Experimental results in complex social scenarios, such as unprotected left turn intersections, merging, cruising, and overtaking, validate the superiority of our proposed S4TP in terms of safety and rationality. S4TP achieves a pass rate of 100% across all scenarios, surpassing the current state-of-the-art methods Fanta of 98.25% and Predictive-Decision of 94.75%.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# VCC-INFUSE:半教師型学習におけるラベルなし事例の正確かつ効率的な選択を目指して

VCC-INFUSE: Towards Accurate and Efficient Selection of Unlabeled Examples in Semi-supervised Learning ( http://arxiv.org/abs/2404.11947v1 )

ライセンス: Link先を確認
Shijie Fang, Qianhan Feng, Tong Lin, (参考訳) 半教師付き学習(SSL)の進歩にもかかわらず、既存の手法ではラベルのないデータを効果的かつ効率的に利用できない。 多くの擬似ラベルに基づく手法は、分類器からの不正確な信頼スコアに基づいてラベルなしの例を選択する。 以前の作業では、プルーニングなしで利用可能なすべての未ラベルデータも使用していたため、大量の未ラベルデータを扱うのが難しくなった。 これらの問題に対処するために,変分信頼度校正 (VCC) と影響Function-based Unlabeled Sample Elimination (INFUSE) の2つの手法を提案する。 VCCはSSLの信頼性校正のための普遍的なプラグインであり、変分オートエンコーダを使用して、3種類の一貫性スコアに基づいてより正確な擬似ラベルを選択する。 INFUSEはSSLの下でラベル付けされていないサンプルのコアデータセットを構築するデータプルーニング手法である。 提案手法は,複数のデータセットや設定において有効であり,分類誤り率の低減やトレーニング時間の短縮に有効である。 VCC-INFUSEは、トレーニング時間のほぼ半分を節約しながら、CIFAR-100データセット上のFlexMatchのエラー率を1.08%削減する。

Despite the progress of Semi-supervised Learning (SSL), existing methods fail to utilize unlabeled data effectively and efficiently. Many pseudo-label-based methods select unlabeled examples based on inaccurate confidence scores from the classifier. Most prior work also uses all available unlabeled data without pruning, making it difficult to handle large amounts of unlabeled data. To address these issues, we propose two methods: Variational Confidence Calibration (VCC) and Influence-Function-based Unlabeled Sample Elimination (INFUSE). VCC is an universal plugin for SSL confidence calibration, using a variational autoencoder to select more accurate pseudo labels based on three types of consistency scores. INFUSE is a data pruning method that constructs a core dataset of unlabeled examples under SSL. Our methods are effective in multiple datasets and settings, reducing classification errors rates and saving training time. Together, VCC-INFUSE reduces the error rate of FlexMatch on the CIFAR-100 dataset by 1.08% while saving nearly half of the training time.
翻訳日:2024-04-19 19:41:09 公開日:2024-04-18
# 部分離散拡散法によるスケッチガイド画像の塗布

Sketch-guided Image Inpainting with Partial Discrete Diffusion Process ( http://arxiv.org/abs/2404.11949v1 )

ライセンス: Link先を確認
Nakul Sharma, Aditay Tripathi, Anirban Chakraborty, Anand Mishra, (参考訳) 本研究では,スケッチ誘導画像の塗装作業について検討する。 セマンティックな詳細を捉えるのに長けている、よく探索された自然言語誘導のイメージインペインティングとは異なり、比較的研究の少ないスケッチ誘導のインペインティングは、オブジェクトの形状を指定し、インペインされるポーズをより多くユーザコントロールする。 この課題に対する初期の解決策の1つとして、新しい部分的離散拡散過程(PDDP)を導入する。 PDDPの前方通過は画像のマスキング領域を破損させ、後方通過はスケッチ誘導双方向変換器を用いて手描きスケッチで条件付けられたこれらのマスキング領域を再構成する。 提案するトランスモジュールは,2つの入力を受信する。マスク領域を含む画像はインペイントされ,クエリスケッチは逆拡散過程をモデル化する。 この戦略はスケッチと自然画像の領域ギャップを効果的に解決し、その結果の質を高める。 このタスクに特有の大規模なデータセットがない場合には、MS-COCOからデータセットを合成して、文献における様々な有能なアプローチに対して提案したフレームワークを訓練し、広範囲に評価する。 定性的かつ定量的な結果とユーザスタディにより、提案手法は、提供されたスケッチの視覚的外観の観点から、コンテキストに適合する現実的なオブジェクトを描き出す。 さらなる研究を支援するため、私たちはhttps://github.com/vl2g/Sketch-Inpainting でコードを公開しました。

In this work, we study the task of sketch-guided image inpainting. Unlike the well-explored natural language-guided image inpainting, which excels in capturing semantic details, the relatively less-studied sketch-guided inpainting offers greater user control in specifying the object's shape and pose to be inpainted. As one of the early solutions to this task, we introduce a novel partial discrete diffusion process (PDDP). The forward pass of the PDDP corrupts the masked regions of the image and the backward pass reconstructs these masked regions conditioned on hand-drawn sketches using our proposed sketch-guided bi-directional transformer. The proposed novel transformer module accepts two inputs -- the image containing the masked region to be inpainted and the query sketch to model the reverse diffusion process. This strategy effectively addresses the domain gap between sketches and natural images, thereby, enhancing the quality of inpainting results. In the absence of a large-scale dataset specific to this task, we synthesize a dataset from the MS-COCO to train and extensively evaluate our proposed framework against various competent approaches in the literature. The qualitative and quantitative results and user studies establish that the proposed method inpaints realistic objects that fit the context in terms of the visual appearance of the provided sketch. To aid further research, we have made our code publicly available at https://github.com/vl2g/Sketch-Inpainting .
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# すべてのボクセルが等しくはない: 自己蒸留による難易度を意識したセマンティックなシーンコンプリート

Not All Voxels Are Equal: Hardness-Aware Semantic Scene Completion with Self-Distillation ( http://arxiv.org/abs/2404.11958v1 )

ライセンス: Link先を確認
Song Wang, Jiawei Yu, Wentong Li, Wenyu Liu, Xiaolu Liu, Junbo Chen, Jianke Zhu, (参考訳) セマンティック・シーン・コンプリーメント(セマンティック・シーン・コンプリーメント)は、セマンティック・シーン・コンプリーメント(セマンティック・コンプリーメント・コンプリーメント)としても知られており、自動運転車に密集した幾何学的およびセマンティックな情報を提供し、アカデミックと産業の両方の注目を集めている。 残念ながら、既存の手法は通常、このタスクをボクセルの分類問題として定式化し、訓練中に各ボクセルを等しく3次元空間で扱う。 ハードボクセルには十分な注意が払われていないため、いくつかの挑戦的な地域でのパフォーマンスは限られている。 3次元密度空間は通常、多くの空のボクセルを含むが、これは学習が容易であるが、既存のモデルに対して全てのボクセルを均一に扱うため、大量の計算を必要とする。 さらに、境界領域のボクセルは、内部のボクセルよりも区別が難しい。 本稿では, 難易度を考慮したシーン補完モデルを学習するためのHASSC手法を提案する。 ネットワーク最適化プロセスのグローバルな硬さは、動的ハードボクセル選択のために定義される。 次に、ボクセルワイド精製に幾何異方性を有する局所硬度を用いる。 さらに、トレーニングプロセスを安定し、一貫性を持たせるための自己蒸留戦略も導入されている。 大規模な実験により,HASSC方式は,余分な推論コストを伴わずに,ベースラインモデルの精度を効果的に向上できることが示された。 ソースコードは、https://github.com/songw-zju/HASSC.comで入手できる。

Semantic scene completion, also known as semantic occupancy prediction, can provide dense geometric and semantic information for autonomous vehicles, which attracts the increasing attention of both academia and industry. Unfortunately, existing methods usually formulate this task as a voxel-wise classification problem and treat each voxel equally in 3D space during training. As the hard voxels have not been paid enough attention, the performance in some challenging regions is limited. The 3D dense space typically contains a large number of empty voxels, which are easy to learn but require amounts of computation due to handling all the voxels uniformly for the existing models. Furthermore, the voxels in the boundary region are more challenging to differentiate than those in the interior. In this paper, we propose HASSC approach to train the semantic scene completion model with hardness-aware design. The global hardness from the network optimization process is defined for dynamical hard voxel selection. Then, the local hardness with geometric anisotropy is adopted for voxel-wise refinement. Besides, self-distillation strategy is introduced to make training process stable and consistent. Extensive experiments show that our HASSC scheme can effectively promote the accuracy of the baseline model without incurring the extra inference cost. Source code is available at: https://github.com/songw-zju/HASSC.
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# 点数LLMランキングの改善のための逆基準のオンザフライ生成

Generating Diverse Criteria On-the-Fly to Improve Point-wise LLM Rankers ( http://arxiv.org/abs/2404.11960v1 )

ライセンス: Link先を確認
Fang Guo, Wenyu Li, Honglei Zhuang, Yun Luo, Yafu Li, Le Yan, Yue Zhang, (参考訳) 最新のポイントワイド大規模言語モデル(LLM)ランキングは、目覚ましいランキング結果を得た。 しかし,2つの大きな欠点は,(1)標準化された比較指導に従わないこと,(2)複雑な通路を扱う場合の包括的考察に苦慮すること,である。 これらの欠点に対処するために,様々な視点から基準のセットに基づいてランキングスコアを生成するランクラを構築することを提案する。 これらの基準は、異なるが相乗的評価を提供するために、それぞれの視点を指示することを目的としている。 BEIRベンチマークから8つのデータセットを解析した結果,この多視点基準アンサンブル手法を取り入れることで,点方向LLMロータの性能が著しく向上したことが示された。

The most recent pointwise Large Language Model (LLM) rankers have achieved remarkable ranking results. However, these rankers are hindered by two major drawbacks: (1) they fail to follow a standardized comparison guidance during the ranking process, and (2) they struggle with comprehensive considerations when dealing with complicated passages. To address these shortcomings, we propose to build a ranker that generates ranking scores based on a set of criteria from various perspectives. These criteria are intended to direct each perspective in providing a distinct yet synergistic evaluation. Our research, which examines eight datasets from the BEIR benchmark demonstrates that incorporating this multi-perspective criteria ensemble approach markedly enhanced the performance of pointwise LLM rankers.
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# テキスト・ツー・イメージ・モデルにおけるヒューマンコンテンツ著作権保護のためのプラグイン認証

©Plug-in Authorization for Human Content Copyright Protection in Text-to-Image Model ( http://arxiv.org/abs/2404.11962v1 )

ライセンス: Link先を確認
Chao Zhou, Huishuai Zhang, Jiang Bian, Weiming Zhang, Nenghai Yu, (参考訳) 本稿では、テキスト・ツー・イメージ・モデルが生成した画像における著作権侵害に関する批判的な問題に対処し、AI開発者、コンテンツ制作者、法的団体の間で議論を巻き起こした。 最先端のモデルはオリジナルクリエーターを信用せずに高品質なコンテンツを作成し、芸術コミュニティに懸念を与えている。 これを軽減するために、我々は、追加、抽出、組み合わせの3つの操作を導入し、‘copyright Plug-in Authorization framework’を提案する。 追加には、特定の著作権のために \copyright プラグインをトレーニングすることが含まれる。 抽出により、クリエイターは著作権を侵害するモデルから回復でき、組み合わせることでユーザーは異なる‘copyrightプラグインをマージできる。 これらの操作は許可として機能し、公正使用のインセンティブを与え、認可の柔軟性を提供する。 本稿では,抽出のための"Reverse LoRA"とシームレスな組み合わせのための"EasyMerge"を提案する。 アーティストスタイルの複製と漫画のIPレクリエーションの実験は、生成AIの時代において人間の著作権保護のための貴重なソリューションを提供する、‘copyright Plug-ins’の有効性を示す。

This paper addresses the contentious issue of copyright infringement in images generated by text-to-image models, sparking debates among AI developers, content creators, and legal entities. State-of-the-art models create high-quality content without crediting original creators, causing concern in the artistic community. To mitigate this, we propose the \copyright Plug-in Authorization framework, introducing three operations: addition, extraction, and combination. Addition involves training a \copyright plug-in for specific copyright, facilitating proper credit attribution. Extraction allows creators to reclaim copyright from infringing models, and combination enables users to merge different \copyright plug-ins. These operations act as permits, incentivizing fair use and providing flexibility in authorization. We present innovative approaches,"Reverse LoRA" for extraction and "EasyMerge" for seamless combination. Experiments in artist-style replication and cartoon IP recreation demonstrate \copyright plug-ins' effectiveness, offering a valuable solution for human copyright protection in the age of generative AIs.
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# 物理における回帰問題に対する多要素ガウス過程代理モデリング

Multi-fidelity Gaussian process surrogate modeling for regression problems in physics ( http://arxiv.org/abs/2404.11965v1 )

ライセンス: Link先を確認
Kislaya Ravi, Vladyslav Fediukov, Felix Dietrich, Tobias Neckel, Fabian Buse, Michael Bergmann, Hans-Joachim Bungartz, (参考訳) 代理モデリングの主な課題の1つは、計算コストのかかるシミュレーションに関連するリソース制約によるデータの可用性の制限である。 多重忠実度法は、誤りの少ないがコストの増大に伴い、忠実度が増大する階層内のモデルに連鎖して解を与える。 本稿では,ガウス過程サロゲートを回帰のために構築する際の多面的多面性法の比較を行う。 既存文献における非線形自己回帰法は主に2つの忠実度モデルに限られており、これらの手法を2段階以上の忠実度を扱うように拡張する。 さらに,構造化カーネルを導入して遅延項を組み込んだ既存手法の強化を提案する。 各種の学術・実世界のシナリオにおいて,これらの手法の性能を実証する。 提案手法は, 計算コストの予測誤差が単一忠実度法に比べて小さいが, 有効性はシナリオによって異なる。

One of the main challenges in surrogate modeling is the limited availability of data due to resource constraints associated with computationally expensive simulations. Multi-fidelity methods provide a solution by chaining models in a hierarchy with increasing fidelity, associated with lower error, but increasing cost. In this paper, we compare different multi-fidelity methods employed in constructing Gaussian process surrogates for regression. Non-linear autoregressive methods in the existing literature are primarily confined to two-fidelity models, and we extend these methods to handle more than two levels of fidelity. Additionally, we propose enhancements for an existing method incorporating delay terms by introducing a structured kernel. We demonstrate the performance of these methods across various academic and real-world scenarios. Our findings reveal that multi-fidelity methods generally have a smaller prediction error for the same computational cost as compared to the single-fidelity method, although their effectiveness varies across different scenarios.
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# 深層学習に基づく画像年齢近似のデバイス(In)依存性

Device (In)Dependence of Deep Learning-based Image Age Approximation ( http://arxiv.org/abs/2404.11974v1 )

ライセンス: Link先を確認
Robert Jöchl, Andreas Uhl, (参考訳) 時間的画像法医学の目標は、同じデバイスからの画像に対して、デジタル画像の年齢を近似することである。 通常、これは画像取得パイプライン中に残されたトレースに基づいている。 例えば、この目的のために、フィールド内センサー欠陥の存在を利用するいくつかの方法が存在する。 これらの「古典的」手法に加えて、畳み込みニューラルネットワーク(CNN)が画像年齢を近似するために訓練されるアプローチもある。 CNNの利点の1つは、使用した年齢特性を独立して学習する点である。 これにより、既知のもの(すなわち、フィールド内のセンサー欠陥)に加えて、他の(異なる)年齢トレースを利用することができる。 これまでの研究では、CNNが年齢層を予測することは、強磁場センサ欠陥の存在とは無関係であることが示されている。 この観察に基づいて、デバイス(in)が学習した特徴をどのように依存しているかが問題となる。 本研究では,一つのデバイスからの画像にネットワークをトレーニングし,異なるデバイスからの画像にトレーニングされたモデルを適用することにより,これを実証的に評価する。 この評価は、公開されている「Northumbria Temporal Image Forensics」データベースから10個のデバイスを含む14のデバイスで実施されている。 これら10の異なるデバイスは5つの異なるデバイスペア(すなわち同一のカメラモデル)に基づいている。

The goal of temporal image forensic is to approximate the age of a digital image relative to images from the same device. Usually, this is based on traces left during the image acquisition pipeline. For example, several methods exist that exploit the presence of in-field sensor defects for this purpose. In addition to these 'classical' methods, there is also an approach in which a Convolutional Neural Network (CNN) is trained to approximate the image age. One advantage of a CNN is that it independently learns the age features used. This would make it possible to exploit other (different) age traces in addition to the known ones (i.e., in-field sensor defects). In a previous work, we have shown that the presence of strong in-field sensor defects is irrelevant for a CNN to predict the age class. Based on this observation, the question arises how device (in)dependent the learned features are. In this work, we empirically asses this by training a network on images from a single device and then apply the trained model to images from different devices. This evaluation is performed on 14 different devices, including 10 devices from the publicly available 'Northumbria Temporal Image Forensics' database. These 10 different devices are based on five different device pairs (i.e., with the identical camera model).
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# 米国における新興AI部門

The Emerging AI Divide in the United States ( http://arxiv.org/abs/2404.11988v1 )

ライセンス: Link先を確認
Madeleine I. G. Daepp, Scott Counts, (参考訳) デジタル・ディビジョンは、社会的・経済的グループ間のデジタル・ツーリングへのアクセスと利用における格差を記述している。 生産性に強く影響する創発的な人工知能ツールは、これらの分割の影響を増大させる可能性がある。 しかし、これらのツールの可利用性、多言語性、多言語性は、従来のデジタルツールと比較して、多様なユーザにとってよりアクセスしやすいものになり得る。 本研究では,米国住民の新たな生成型AIツールChatGPTに関する知識の空間的差異を,州レベルと郡レベルの検索クエリデータの解析により特徴づける。 ツールのリリースから最初の6ヶ月で、西海岸州でChatGPTを検索するユーザの最高率と、アパラチア州とメキシコ湾州での検索率の持続的低さを観察した。 最も高い調査率の郡は比較的都市化されており、比例的に教育を受けており、経済的に有利であり、他の郡やアメリカの平均よりもアジア系住民が多い。 社会経済的・人口統計学的要因と産業構成を調整した多段階モデルにおいて、教育は生成的AIツールの探索率の最大の正の予測因子である。 生成的AI技術は斬新なものだが、初期の取り込みの違いは、デジタルの限界化の慣れ親しんだ道を辿っているように見える。

The digital divide describes disparities in access to and usage of digital tooling between social and economic groups. Emerging generative artificial intelligence tools, which strongly affect productivity, could magnify the impact of these divides. However, the affordability, multi-modality, and multilingual capabilities of these tools could also make them more accessible to diverse users in comparison with previous forms of digital tooling. In this study, we characterize spatial differences in U.S. residents' knowledge of a new generative AI tool, ChatGPT, through an analysis of state- and county-level search query data. In the first six months after the tool's release, we observe the highest rates of users searching for ChatGPT in West Coast states and persistently low rates of search in Appalachian and Gulf states. Counties with the highest rates of search are relatively more urbanized and have proportionally more educated, more economically advantaged, and more Asian residents in comparison with other counties or with the U.S. average. In multilevel models adjusting for socioeconomic and demographic factors as well as industry makeup, education is the strongest positive predictor of rates of search for generative AI tooling. Although generative AI technologies may be novel, early differences in uptake appear to be following familiar paths of digital marginalization.
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# 量子ネットワークに基づく画像圧縮と再構成

Image Compression and Reconstruction Based on Quantum Network ( http://arxiv.org/abs/2404.11994v1 )

ライセンス: Link先を確認
Xun Ji, Qin Liu, Shan Huang, Andi Chen, Shengjun Wu, (参考訳) 量子ネットワークは、情報伝達と処理に量子力学の原理を利用する新しいタイプのネットワーク構造である。 古典的なデータ再構成アルゴリズムと比較して、量子ネットワークは画像再構成をより効率的かつ正確にする。 また、より少ないビットと高速な並列計算機能を使って、より複雑な画像情報を処理することもできる。 そこで本研究では,我々の量子ネットワークに基づく画像再構成手法について論じ,その画像処理への応用の可能性について検討する。 本稿では,量子ネットワークの基本構造,画像圧縮と再構成のプロセス,パラメータ学習法について紹介する。 本研究により,古典的画像再構成精度97.57\%を実現することができる。 我々の量子ネットワーク設計は、将来、画像再構成のための新しいアイデアと方法を導入します。

Quantum network is an emerging type of network structure that leverages the principles of quantum mechanics to transmit and process information. Compared with classical data reconstruction algorithms, quantum networks make image reconstruction more efficient and accurate. They can also process more complex image information using fewer bits and faster parallel computing capabilities. Therefore, this paper will discuss image reconstruction methods based on our quantum network and explore their potential applications in image processing. We will introduce the basic structure of the quantum network, the process of image compression and reconstruction, and the specific parameter training method. Through this study, we can achieve a classical image reconstruction accuracy of 97.57\%. Our quantum network design will introduce novel ideas and methods for image reconstruction in the future.
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# トークンレベルの直接参照最適化

Token-level Direct Preference Optimization ( http://arxiv.org/abs/2404.11999v1 )

ライセンス: Link先を確認
Yongcheng Zeng, Guoqing Liu, Weiyu Ma, Ning Yang, Haifeng Zhang, Jun Wang, (参考訳) 微調整された事前訓練された大規模言語モデル(LLM)は、それらを人間の価値観や意図と整合させるのに不可欠である。 このプロセスは、モデルが生成した全回答の評価に焦点をあてて、ペア比較や基準LLMに対するKL分散といった手法を利用することが多い。 しかしながら、これらの応答の生成は、シーケンシャルで自己回帰的な方法でトークンレベルで行われる。 本稿では,トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を提案する。 分散効率の課題に直面している従来の方法とは異なり、TDPOはトークンごとに前方KL分散制約を導入し、アライメントと多様性を改善している。 トークンベースの報酬システムのためのBradley-Terryモデルを利用することで、TDPOは、明示的な報酬モデリングを必要とせずに単純さを保ちながら、KL分散の規制を強化する。 テキストタスク間の実験結果は、TDPOが生成多様性との整合性に優れた性能を示す。 特に、TDPOによる微調整は、制御された感情生成とシングルターン対話データセットにおいてDPOよりもバランスが良く、DPOおよびPPOベースのRLHF手法と比較して、生成した応答の品質が著しく向上する。 我々のコードはhttps://github.com/Vance0124/Token-level-Direct-Preference-Optimizationでオープンソース化されています。

Fine-tuning pre-trained Large Language Models (LLMs) is essential to align them with human values and intentions. This process often utilizes methods like pairwise comparisons and KL divergence against a reference LLM, focusing on the evaluation of full answers generated by the models. However, the generation of these responses occurs in a token level, following a sequential, auto-regressive fashion. In this paper, we introduce Token-level Direct Preference Optimization (TDPO), a novel approach to align LLMs with human preferences by optimizing policy at the token level. Unlike previous methods, which face challenges in divergence efficiency, TDPO incorporates forward KL divergence constraints for each token, improving alignment and diversity. Utilizing the Bradley-Terry model for a token-based reward system, TDPO enhances the regulation of KL divergence, while preserving simplicity without the need for explicit reward modeling. Experimental results across various text tasks demonstrate TDPO's superior performance in balancing alignment with generation diversity. Notably, fine-tuning with TDPO strikes a better balance than DPO in the controlled sentiment generation and single-turn dialogue datasets, and significantly improves the quality of generated responses compared to both DPO and PPO-based RLHF methods. Our code is open-sourced at https://github.com/Vance0124/Token-level-Direct-Preference-Optimization.
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# AIを使ったプログラミングアシスタントは、どこまで開発者のニーズを満たすことができるのか?

How far are AI-powered programming assistants from meeting developers' needs? ( http://arxiv.org/abs/2404.12000v1 )

ライセンス: Link先を確認
Xin Tan, Xiao Long, Xianjun Ni, Yinghao Zhu, Jing Jiang, Li Zhang, (参考訳) GitHub Copilotのような最近のIDE内AIコーディングアシスタントツール(ACAT)は、開発者のコーディング習慣に大きな影響を与えている。 有効性について調べる研究もあるが、実際の支援プロセスについて詳細な調査は行われていない。 このギャップを埋めるために、我々は3つの典型的なソフトウェア開発タスクを含む実際の開発シナリオをシミュレートし、27人のコンピュータサイエンス学生を募集し、3つの一般的なACATを用いて彼らの振る舞いを調査する。 私たちのゴールは、ACATの有効性を総合的に評価し、推奨コードの特徴を探求し、修正の理由を特定し、ユーザの課題と期待を理解することです。 そこで本研究では,VSCode IDE用のデータ収集プラグインと,画面記録機能,コード評価機能,パーソナライズされたインタビュー・調査質問の自動生成機能を備えた実験プラットフォームを開発した。 収集したデータを分析することで、ACATは一般的にタスク完了率を高め、時間を短縮し、コード品質を改善し、自己認識の生産性を向上させる。 しかし、この改善は、コーディングタスクの性質とユーザエクスペリエンスレベルの両方に影響を受けている。 特に、経験豊富な参加者にとって、ACATの使用は完成時間を増加させるかもしれない。 また,「編集された行完成」が最も推奨される方法であるのに対し,「構成完了」と「弦完成」は受理率が最も低いことを観察した。 推奨コードを変更する主な理由は、出力フォーマットと要求、欠陥のあるロジック、一貫性のないコードスタイルの相違である。 課題と期待に関して、サービスアクセスとヘルプドキュメンテーションの最適化は、機能とパフォーマンスを除いて参加者によっても関係しています。 本研究は,ACATの有効性とユーザビリティに関する貴重な知見を提供し,その設計と実装のさらなる改善を図っている。

Recent In-IDE AI coding assistant tools (ACATs) like GitHub Copilot have significantly impacted developers' coding habits. While some studies have examined their effectiveness, there lacks in-depth investigation into the actual assistance process. To bridge this gap, we simulate real development scenarios encompassing three typical types of software development tasks and recruit 27 computer science students to investigate their behavior with three popular ACATs. Our goal is to comprehensively assess ACATs' effectiveness, explore characteristics of recommended code, identify reasons for modifications, and understand users' challenges and expectations. To facilitate the study, we develop an experimental platform that includes a data collection plugin for VSCode IDE and provides functions for screen recording, code evaluation, and automatic generation of personalized interview and survey questions. Through analysis of the collected data, we find that ACATs generally enhance task completion rates, reduce time, improve code quality, and increase self-perceived productivity. However, the improvement is influenced by both the nature of coding tasks and users' experience level. Notably, for experienced participants, the use of ACATs may even increase completion time. We observe that "edited line completion" is the most frequently recommended way, while "comments completion" and "string completion" have the lowest acceptance rates. The primary reasons for modifying recommended code are disparities between output formats and requirements, flawed logic, and inconsistent code styles. In terms of challenges and expectations, optimization of service access and help documentation is also concerned by participants except for functionality and performance. Our study provides valuable insights into the effectiveness and usability of ACATs, informing further improvements in their design and implementation.
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# レコメンデーションモデルはどのように大衆バイアスを増幅するか? : スペクトルから見た分析

How Do Recommendation Models Amplify Popularity Bias? An Analysis from the Spectral Perspective ( http://arxiv.org/abs/2404.12008v1 )

ライセンス: Link先を確認
Siyi Lin, Chongming Gao, Jiawei Chen, Sheng Zhou, Binbin Hu, Can Wang, (参考訳) 勧告システム(RS)は、しばしば人気バイアスに悩まされる。 具体的には、リコメンデーションモデルが長い尾のデータセットでトレーニングされている場合、彼らはこのバイアスを継承するだけでなく、しばしば悪化させる。 この効果はRSの精度と公正性を損なうものであり、いわゆるマシュー効果を触媒する。 この問題は広く認識されているにもかかわらず、根本的な原因はほとんど解明されていない。 我々の研究では、人気バイアスの増幅について深く研究している。 私たちの包括的な理論的および実証的な調査は、2つの中核的な洞察につながります。 1)推薦モデルにより予測されるスコア行列の主特異ベクトルにアイテムの人気が記憶される。 2) 次元崩壊現象は, モデル予測に対する主特異ベクトルの影響を増幅し, 人気バイアスを増大させる。 これらの知見に基づいて,主特異値の大きさに罰則を課すことにより,このバイアスを軽減する新しい手法を提案する。 主特異値の勾配を直接評価する際の計算負荷を考慮し、特異ベクトルの性質を利用する効率的なアルゴリズムを開発する。 7つの実世界のデータセットと3つのテストシナリオにわたる大規模な実験を行い、本手法の優位性を検証した。

Recommendation Systems (RS) are often plagued by popularity bias. Specifically,when recommendation models are trained on long-tailed datasets, they not only inherit this bias but often exacerbate it. This effect undermines both the precision and fairness of RS and catalyzes the so-called Matthew Effect. Despite the widely recognition of this issue, the fundamental causes remain largely elusive. In our research, we delve deeply into popularity bias amplification. Our comprehensive theoretical and empirical investigations lead to two core insights: 1) Item popularity is memorized in the principal singular vector of the score matrix predicted by the recommendation model; 2) The dimension collapse phenomenon amplifies the impact of principal singular vector on model predictions, intensifying the popularity bias. Based on these insights, we propose a novel method to mitigate this bias by imposing penalties on the magnitude of the principal singular value. Considering the heavy computational burden in directly evaluating the gradient of the principal singular value, we develop an efficient algorithm that harnesses the inherent properties of the singular vector. Extensive experiments across seven real-world datasets and three testing scenarios have been conducted to validate the superiority of our method.
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# Parafusion: 高品質の語彙と構文の多様性を取り入れた大規模LLM駆動型英語パラフレーズデータセット

ParaFusion: A Large-Scale LLM-Driven English Paraphrase Dataset Infused with High-Quality Lexical and Syntactic Diversity ( http://arxiv.org/abs/2404.12010v1 )

ライセンス: Link先を確認
Lasal Jayawardena, Prasan Yapa, (参考訳) パラフレーズ生成は自然言語処理(NLP)における重要なタスクである。 既存のデータセットは構文と語彙の多様性に欠けており、結果として原文によく似たパラフレーズが生じる。 さらに、これらのデータセットは、しばしばヘイトスピーチとノイズを含み、意図せずに非英語の文を含むことがある。 本研究は,これらの課題に対処するために,Large Language Models (LLM) を用いて開発された,大規模で高品質な英語パラフレーズデータセットであるParaFusionを紹介する。 ParaFusionは、高品質なデータで既存のデータセットを拡張し、語彙と構文の多様性を著しく向上し、セマンティックな類似性を維持している。 また、ヘイトスピーチの存在を緩和し、ノイズを低減し、よりクリーンでより焦点を絞った英語データセットを確保する。 その結果、ParaFusionは構文と語彙の多様性を少なくとも25%改善し、各データソースのいくつかの指標で測定できることがわかった。 また,現在最も包括的評価戦略の1つであるパラフレーズ評価のためのゴールド標準の設定も目指している。 この結果は、NLPアプリケーションを改善するための貴重なリソースとして、ParaFusionの可能性を強調している。

Paraphrase generation is a pivotal task in natural language processing (NLP). Existing datasets in the domain lack syntactic and lexical diversity, resulting in paraphrases that closely resemble the source sentences. Moreover, these datasets often contain hate speech and noise, and may unintentionally include non-English language sentences. This research introduces ParaFusion, a large-scale, high-quality English paraphrase dataset developed using Large Language Models (LLM) to address these challenges. ParaFusion augments existing datasets with high-quality data, significantly enhancing both lexical and syntactic diversity while maintaining close semantic similarity. It also mitigates the presence of hate speech and reduces noise, ensuring a cleaner and more focused English dataset. Results show that ParaFusion offers at least a 25% improvement in both syntactic and lexical diversity, measured across several metrics for each data source. The paper also aims to set a gold standard for paraphrase evaluation as it contains one of the most comprehensive evaluation strategies to date. The results underscore the potential of ParaFusion as a valuable resource for improving NLP applications.
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# エネルギー効率の良いゴシップ学習方式の文脈対応オーケストレーション

Context-Aware Orchestration of Energy-Efficient Gossip Learning Schemes ( http://arxiv.org/abs/2404.12023v1 )

ライセンス: Link先を確認
Mina Aghaei Dinani, Adrian Holzer, Hung Nguyen, Marco Ajmone Marsan, Gianluca Rizzo, (参考訳) Gossip Learning(GL)のような完全な分散学習スキームは、動的設定においてもスケーラビリティと有効性のために勢いを増している。 しかし、それらはしばしば通信とコンピューティングリソースの高利用を意味し、そのエネルギーフットプリントは学習プロセス、特にバッテリ操作のIoTデバイスを危険にさらす可能性がある。 この問題を解決するために,GLと学習プロセスの適応最適化を組み合わせた分散学習手法であるOptimized Gossip Learning (OGL)を提案する。 我々は,ノード間の通信パターンやモデルの品質,各ノードで利用可能なリソースに基づいて,各ノードのトレーニングエポック数や,どのモデルを隣人と交換するかの選択をリアルタイムに最適化することに依存する,データ駆動型のOGL管理手法を提案する。 提案手法では,インフラストラクチャベースのオーケストレータ関数によってトレーニングされた,上記のパラメータの動的チューニングにDNNモデルを用いる。 我々は,時間変化のランダムグラフと測定に基づく動的都市シナリオを利用して,2つの異なるデータセットで評価を行った。 その結果,提案手法は幅広いネットワークシナリオにおいて極めて効率的かつ効果的であることが示唆された。

Fully distributed learning schemes such as Gossip Learning (GL) are gaining momentum due to their scalability and effectiveness even in dynamic settings. However, they often imply a high utilization of communication and computing resources, whose energy footprint may jeopardize the learning process, particularly on battery-operated IoT devices. To address this issue, we present Optimized Gossip Learning (OGL)}, a distributed training approach based on the combination of GL with adaptive optimization of the learning process, which allows for achieving a target accuracy while minimizing the energy consumption of the learning process. We propose a data-driven approach to OGL management that relies on optimizing in real-time for each node the number of training epochs and the choice of which model to exchange with neighbors based on patterns of node contacts, models' quality, and available resources at each node. Our approach employs a DNN model for dynamic tuning of the aforementioned parameters, trained by an infrastructure-based orchestrator function. We performed our assessments on two different datasets, leveraging time-varying random graphs and a measurement-based dynamic urban scenario. Results suggest that our approach is highly efficient and effective in a broad spectrum of network scenarios.
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# モデル予測制御とニューラルネットワークの相互マッピング

Mapping back and forth between model predictive control and neural networks ( http://arxiv.org/abs/2404.12030v1 )

ライセンス: Link先を確認
Ross Drummond, Pablo R Baldivieso-Monasterios, Giorgio Valmorbida, (参考訳) 2次コストと線形制約を持つ線形系に対するモデル予測制御(MPC)は、暗黙のニューラルネットワークとして正確に表現されていることを示す。 また、MPCの暗黙のニューラルネットワークを明示的なニューラルネットワークに"解き放つ"方法も導入されている。 モデルベースとデータ駆動制御のリンクを構築するだけでなく、これらの結果は、最適化問題の解を表す暗黙のニューラルネットワークの能力を強調している。

Model predictive control (MPC) for linear systems with quadratic costs and linear constraints is shown to admit an exact representation as an implicit neural network. A method to "unravel" the implicit neural network of MPC into an explicit one is also introduced. As well as building links between model-based and data-driven control, these results emphasize the capability of implicit neural networks for representing solutions of optimisation problems, as such problems are themselves implicitly defined functions.
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# 量子光学的アプローチによる$K$Nearest Neighbourアルゴリズム

Quantum Optical Approach to the $K$ Nearest Neighbour Algorithm ( http://arxiv.org/abs/2404.12033v1 )

ライセンス: Link先を確認
Vivek Mehta, Francesco Petruccione, Utpal Roy, (参考訳) 我々はK$-Nearest Neighbourアルゴリズムのためのハイブリッド量子古典的アプローチを構築し、その情報は1つの光子の助けを借りて相分散多重モードコヒーレント状態に埋め込まれる。 データポイント間の近接性を見つけるタスクは量子光学コンピュータで、ソートとクラス割り当ては古典コンピュータで実行される。 我々のアルゴリズムに対応する量子光学アーキテクチャを提供する。 従属光ネットワークは数値シミュレーションにより検証される。 また、空間、エネルギー、ゲートの複雑さといった文脈でアルゴリズムの計算資源を最適化する。 アプリケーションは、多種多様なよく知られた公開ベンチマークと合成データセットのために提示される。

We construct a hybrid quantum-classical approach for the $K$-Nearest Neighbour algorithm, where the information is embedded in a phase-distributed multimode coherent state with the assistance of a single photon. The task of finding the closeness between the data points is delivered by the quantum optical computer, while the sorting and class assignment are performed by a classical computer. We provide the quantum optical architecture corresponding to our algorithm. The subordinate optical network is validated by numerical simulation. We also optimize the computational resources of the algorithm in the context of space, energy requirements and gate complexity. Applications are presented for diverse and well-known public benchmarks and synthesized data sets.
翻訳日:2024-04-19 19:31:17 公開日:2024-04-18
# エレファントをキャッチできるか? : 自然言語生成における幻覚評価の展開

Can We Catch the Elephant? The Evolvement of Hallucination Evaluation on Natural Language Generation: A Survey ( http://arxiv.org/abs/2404.12041v1 )

ライセンス: Link先を確認
Siya Qi, Yulan He, Zheng Yuan, (参考訳) 自然言語生成における幻覚(NLG)は、部屋の象のように見え、しばしば見過ごされるが、最近の成果によって生成されたテキストの流速と文法的精度が著しく向上するまでは、しばしば見過ごされる。 大規模言語モデル(LLM)では、さまざまな下流タスクやカジュアルな会話で幻覚が起こり、信頼性と安全性を高めるために正確な評価が必要である。 しかし,幻覚評価に関する最近の研究は様々であり,最も適切な評価方法の選別や選別が困難である。 さらに、NLP研究がLSMの領域に徐々に移行するにつれて、この方向に新たな課題がもたらされる。 本稿では,幻覚評価手法の進化に関する総合的な調査を行い,3つの重要な側面に対処することを目的とした。 1) 事実のさまざまな定義及び粒度 2 自動評価器の分類及びその適用性 3)未解決問題及び今後の方向性

Hallucination in Natural Language Generation (NLG) is like the elephant in the room, obvious but often overlooked until recent achievements significantly improved the fluency and grammatical accuracy of generated text. For Large Language Models (LLMs), hallucinations can happen in various downstream tasks and casual conversations, which need accurate assessment to enhance reliability and safety. However, current studies on hallucination evaluation vary greatly, and people still find it difficult to sort out and select the most appropriate evaluation methods. Moreover, as NLP research gradually shifts to the domain of LLMs, it brings new challenges to this direction. This paper provides a comprehensive survey on the evolvement of hallucination evaluation methods, aiming to address three key aspects: 1) Diverse definitions and granularity of facts; 2) The categories of automatic evaluators and their applicability; 3) Unresolved issues and future directions.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# 自己調整型進化的アルゴリズムはマルチモーダルランドスケープで遅くなる

Self-Adjusting Evolutionary Algorithms Are Slow on Multimodal Landscapes ( http://arxiv.org/abs/2404.12047v1 )

ライセンス: Link先を確認
Johannes Lengler, Konstantin Sturm, (参考訳) 一階法則とその一般化は離散領域における古典的なパラメータ制御機構である。 それらはまた、1, \lambda)$-EAの子孫の個体数を制御するために移動された。 これはヒルクライミングに非常に適していることが示されており、最近Hevia Fajardo と Sudholt によって、マルチモーダル問題 Cliff の性能を劇的に改善する再起動機構と組み合わされた。 この研究において、正の結果は他の種類の局所最適値に拡張されないことを示す。 歪んだOneMaxベンチマークでは、自己調整の$(1, \lambda)$-EAは、アルゴリズムが局所最適化から逃れるのを防いでいるため、エリート的アルゴリズムと同じように遅くなる。 これにより、自己適応アルゴリズムは良い静的パラメータ選択よりもかなり悪くなるため、局所最適化から効率的に逃れることができる。 理論的にこれを示し、実験実行結果を補完する。

The one-fifth rule and its generalizations are a classical parameter control mechanism in discrete domains. They have also been transferred to control the offspring population size of the $(1, \lambda)$-EA. This has been shown to work very well for hill-climbing, and combined with a restart mechanism it was recently shown by Hevia Fajardo and Sudholt to improve performance on the multi-modal problem Cliff drastically. In this work we show that the positive results do not extend to other types of local optima. On the distorted OneMax benchmark, the self-adjusting $(1, \lambda)$-EA is slowed down just as elitist algorithms because self-adaptation prevents the algorithm from escaping from local optima. This makes the self-adaptive algorithm considerably worse than good static parameter choices, which do allow to escape from local optima efficiently. We show this theoretically and complement the result with empirical runtime results.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# Adaptive Active Exposure Control を用いた視野における視覚的イメージマーカーの知覚の改善

Improving the perception of visual fiducial markers in the field using Adaptive Active Exposure Control ( http://arxiv.org/abs/2404.12055v1 )

ライセンス: Link先を確認
Ziang Ren, Samuel Lensgraf, Alberto Quattrini Li, (参考訳) 正確な位置決めは、自律型水中車両(AUV)が操作や建設などの精密な作業を行うための基礎となる。 フィデューシャルマーカーを使った視覚ベースのソリューションは有望だが、水中の厳しい照明条件のために非常に難しい。 本稿では、画像取得時のシャープな照明変動に対処するための勾配に基づくアクティブカメラ露光制御手法を提案する。 視覚的タグを用いた水中操作の典型的なシナリオを考慮し, アクティブ露光制御 (AEC) やグラディエントベース露光制御 (GEC) を含む他の最先端露光制御法との比較実験を行った。 その結果,ロボットの局所化精度は有意に向上した。 この手法は,視覚に基づく状態推定パイプラインにおいて,全体の局所化精度を向上させるために使用できる重要なコンポーネントである。

Accurate localization is fundamental for autonomous underwater vehicles (AUVs) to carry out precise tasks, such as manipulation and construction. Vision-based solutions using fiducial marker are promising, but extremely challenging underwater because of harsh lighting condition underwater. This paper introduces a gradient-based active camera exposure control method to tackle sharp lighting variations during image acquisition, which can establish better foundation for subsequent image enhancement procedures. Considering a typical scenario for underwater operations where visual tags are used, we proposed several experiments comparing our method with other state-of-the-art exposure control method including Active Exposure Control (AEC) and Gradient-based Exposure Control (GEC). Results show a significant improvement in the accuracy of robot localization. This method is an important component that can be used in visual-based state estimation pipeline to improve the overall localization accuracy.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# 人間とAIの協力関係の再構築--機関・相互作用・適応

Deconstructing Human-AI Collaboration: Agency, Interaction, and Adaptation ( http://arxiv.org/abs/2404.12056v1 )

ライセンス: Link先を確認
Steffen Holter, Mennatallah El-Assady, (参考訳) 完全なAIベースの自動化は、ほとんどの現実世界のアプリケーションでは到達できないため、人間のエージェントとAIエージェントの両方の強みを活用し、効果的な協調システムを構築することに焦点が移っている。 この領域の急速な進歩により、より複雑なシステムやフレームワークが生まれ、その特徴のニュアンスはさらに曖昧になった。 同様に、既存の概念モデルは、これらのシステムの精巧なプロセスを捉えたり、コラボレーションパラダイムの全範囲を記述したりしない。 本稿では,人間-AIシステムの解析と記述を行うため,新しい次元の統一化を提案する。 我々の概念モデルは,エージェント,インタラクション,適応の3つのハイレベルな側面を中心に,多段階プロセスを通じて開発されている。 まず、文献を調査し、既存の定義と概念的枠組みを統合することで、初期設計空間を提案する。 第2に、このモデルは、この分野の9人の研究者との半構造化インタビューを行うことにより、反復的に洗練され、検証される。 最後に、設計空間の適用性を説明するために、選択した人間-AIシステムの構造化された記述を提供する。

As full AI-based automation remains out of reach in most real-world applications, the focus has instead shifted to leveraging the strengths of both human and AI agents, creating effective collaborative systems. The rapid advances in this area have yielded increasingly more complex systems and frameworks, while the nuance of their characterization has gotten more vague. Similarly, the existing conceptual models no longer capture the elaborate processes of these systems nor describe the entire scope of their collaboration paradigms. In this paper, we propose a new unified set of dimensions through which to analyze and describe human-AI systems. Our conceptual model is centered around three high-level aspects - agency, interaction, and adaptation - and is developed through a multi-step process. Firstly, an initial design space is proposed by surveying the literature and consolidating existing definitions and conceptual frameworks. Secondly, this model is iteratively refined and validated by conducting semi-structured interviews with nine researchers in this field. Lastly, to illustrate the applicability of our design space, we utilize it to provide a structured description of selected human-AI systems.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# FastVPINNs: 複雑なジオメトリのためのTensor-Driven Acceleration of VPINNs

FastVPINNs: Tensor-Driven Acceleration of VPINNs for Complex Geometries ( http://arxiv.org/abs/2404.12063v1 )

ライセンス: Link先を確認
Thivin Anandh, Divij Ghose, Himanshu Jain, Sashikumaar Ganesan, (参考訳) 変分物理学インフォームドニューラルネットワーク(VPINN)は、偏微分方程式を解くために変分損失関数を用いて、有限要素解析を模倣する。 従来のhp-VPINNは高周波問題に有効であるが、計算集約的であり、要素数の増加とともにスケールが悪く、複雑な測地での使用を制限する。 この研究は、テンソルベースの進歩であるFastVPINNを導入し、計算オーバーヘッドを大幅に削減し、スケーラビリティを向上させる。 最適化されたテンソル演算を用いて、FastVPINNは従来のhp-VPINNと比較して、エポック毎の平均トレーニング時間を100倍に短縮する。 ハイパーパラメータの適切な選択により、特に高周波ソリューションの問題において、FastVPINNは、スピードと精度の両方で従来のPINNを上回っている。 複雑なドメイン上の逆問題解決における効率性の実証は、FastVPINNsの科学的および工学的課題への広範な応用の可能性を強調し、科学機械学習の実践的な実装のための新たな道を開く。

Variational Physics-Informed Neural Networks (VPINNs) utilize a variational loss function to solve partial differential equations, mirroring Finite Element Analysis techniques. Traditional hp-VPINNs, while effective for high-frequency problems, are computationally intensive and scale poorly with increasing element counts, limiting their use in complex geometries. This work introduces FastVPINNs, a tensor-based advancement that significantly reduces computational overhead and improves scalability. Using optimized tensor operations, FastVPINNs achieve a 100-fold reduction in the median training time per epoch compared to traditional hp-VPINNs. With proper choice of hyperparameters, FastVPINNs surpass conventional PINNs in both speed and accuracy, especially in problems with high-frequency solutions. Demonstrated effectiveness in solving inverse problems on complex domains underscores FastVPINNs' potential for widespread application in scientific and engineering challenges, opening new avenues for practical implementations in scientific machine learning.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# PureForest: 単種林における樹種分類のための大規模空中ライダーと空中画像データセット

PureForest: A Large-scale Aerial Lidar and Aerial Imagery Dataset for Tree Species Classification in Monospecific Forests ( http://arxiv.org/abs/2404.12064v1 )

ライセンス: Link先を確認
Charles Gaydon, Floryne Roche, (参考訳) 樹種の分布に関する知識は、森林の管理に不可欠である。 新たな深層学習アプローチは森林マッピングの精度向上を約束し、大規模に複数の樹種をマッピングするための重要なツールになりつつある。 この分野を前進させるためには、ディープラーニング研究者は高品質なアノテーションを備えた大規模なベンチマークデータセットが必要である。 この目的のために,Aerial Lidar Scanning (ALS) 点雲とVery High Resolution (VHR) 空中画像の両方から木種分類用に設計された大規模でオープンなマルチモーダルデータセットであるPureForestデータセットを提案する。 樹種分類のための現在の一般のLidarデータセットは、ほとんどの場合、数十ヘクタールの注釈付きヘクタールの小さな領域にしか達しないため、多様性が低い。 対照的に、PureForestは18の樹木種を13のセマンティッククラスに分類し、449の異なる単種林に339 km$^2$で分布し、現在では樹木種を特定するための最大かつ最も包括的なLidarデータセットとなっている。 PureForestを一般公開することで、Lidarや空中画像から木種を識別するためのディープラーニングアプローチの開発を支援するための、挑戦的なベンチマークデータセットを提供したいと思っています。 本稿では,アノテーションのワークフロー,データセット,推奨評価手法について述べるとともに,3次元モードと2次元モードの両方からベースライン性能を確立する。

Knowledge of tree species distribution is fundamental to managing forests. New deep learning approaches promise significant accuracy gains for forest mapping, and are becoming a critical tool for mapping multiple tree species at scale. To advance the field, deep learning researchers need large benchmark datasets with high-quality annotations. To this end, we present the PureForest dataset: a large-scale, open, multimodal dataset designed for tree species classification from both Aerial Lidar Scanning (ALS) point clouds and Very High Resolution (VHR) aerial images. Most current public Lidar datasets for tree species classification have low diversity as they only span a small area of a few dozen annotated hectares at most. In contrast, PureForest has 18 tree species grouped into 13 semantic classes, and spans 339 km$^2$ across 449 distinct monospecific forests, and is to date the largest and most comprehensive Lidar dataset for the identification of tree species. By making PureForest publicly available, we hope to provide a challenging benchmark dataset to support the development of deep learning approaches for tree species identification from Lidar and/or aerial imagery. In this data paper, we describe the annotation workflow, the dataset, the recommended evaluation methodology, and establish a baseline performance from both 3D and 2D modalities.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# RAGAR, your Falsehood RADAR: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models

RAGAR, Your Falsehood RADAR: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models ( http://arxiv.org/abs/2404.12065v1 )

ライセンス: Link先を確認
M. Abdul Khaliq, P. Chang, M. Ma, B. Pflugfelder, F. Miletić, (参考訳) 誤報のエスカレートする課題、特に政治的言論の文脈では、事実確認のための高度な解決策が必要である。 本稿では,Large Language Models (LLMs) とRetrieval-augmented Generation (RAG) をベースとした高度な推論技術を統合することで,マルチモーダルな事実チェックの信頼性と効率を向上させる革新的な手法を提案する。 本研究では,RAGのチェーン(CoRAG)とRAGのツリー(ToRAG)の2つの新しい手法を提案する。 これらのアプローチは、過去の証拠に基づいて答える必要がある次の質問を推論することで、マルチモーダルなクレームを扱うように設計されている。 提案手法は, 精度予測の精度の向上と, 思考精度予測の連鎖によるサブクエスト生成の従来の事実チェック手法に対する説明の生成を改良する。 本研究は,テキストと画像の両方を分析するのに有効なマルチモーダルLLMを用いることで,誤情報を特定し,対処する自動化システムの能力を向上させる。

The escalating challenge of misinformation, particularly in the context of political discourse, necessitates advanced solutions for fact-checking. We introduce innovative approaches to enhance the reliability and efficiency of multimodal fact-checking through the integration of Large Language Models (LLMs) with Retrieval-augmented Generation (RAG)- based advanced reasoning techniques. This work proposes two novel methodologies, Chain of RAG (CoRAG) and Tree of RAG (ToRAG). The approaches are designed to handle multimodal claims by reasoning the next questions that need to be answered based on previous evidence. Our approaches improve the accuracy of veracity predictions and the generation of explanations over the traditional fact-checking approach of sub-question generation with chain of thought veracity prediction. By employing multimodal LLMs adept at analyzing both text and images, this research advances the capability of automated systems in identifying and countering misinformation.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# 観測可能作用素モデルの近似理論に向けて

Towards an Approximation Theory of Observable Operator Models ( http://arxiv.org/abs/2404.12070v1 )

ライセンス: Link先を確認
Wojciech Anyszka, (参考訳) 可観測作用素モデル(OOM)は確率過程をモデル化するための強力なフレームワークを提供し、一般化と効率性において従来の隠れマルコフモデル(HMM)を超越している。 しかし、無限次元の過程をモデル化するためにOOMを使用すると、重要な理論的課題が生じる。 本稿では、無限次元プロセスのOOMに対する近似理論を開発するための厳密なアプローチについて考察する。 未発表のチュートリアル[Jae98]で概説した基礎的な作業に基づいて、将来の流通空間における内部積構造が厳格に確立され、関連する2ノルムに関する観測可能な作用素の連続性が証明される。 この論文で証明された元の定理は、将来の分布の無限次元空間をヒルベルト空間にするという根本的な障害を記述している。 この結果から, 無限次元プロセスの観測可能作用素の近似に関する今後の研究の基盤となるものとなり, 遭遇した障害物に対する対策が示唆された。

Observable operator models (OOMs) offer a powerful framework for modelling stochastic processes, surpassing the traditional hidden Markov models (HMMs) in generality and efficiency. However, using OOMs to model infinite-dimensional processes poses significant theoretical challenges. This article explores a rigorous approach to developing an approximation theory for OOMs of infinite-dimensional processes. Building upon foundational work outlined in an unpublished tutorial [Jae98], an inner product structure on the space of future distributions is rigorously established and the continuity of observable operators with respect to the associated 2-norm is proven. The original theorem proven in this thesis describes a fundamental obstacle in making an infinite-dimensional space of future distributions into a Hilbert space. The presented findings lay the groundwork for future research in approximating observable operators of infinite-dimensional processes, while a remedy to the encountered obstacle is suggested.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# データストリームにおける公平性を考慮した自己調整型メモリ分類器の進化的多目的最適化

Evolutionary Multi-Objective Optimisation for Fairness-Aware Self Adjusting Memory Classifiers in Data Streams ( http://arxiv.org/abs/2404.12076v1 )

ライセンス: Link先を確認
Pivithuru Thejan Amarasinghe, Diem Pham, Binh Tran, Su Nguyen, Yuan Sun, Damminda Alahakoon, (参考訳) 本稿では,データストリーム分類に適用された機械学習アルゴリズムの公平性を高めるために,公平性を考慮した自己調整型メモリ分類器の進化的多目的最適化を提案する。 アルゴリズムによる意思決定における差別に対する懸念が高まり、特に動的データストリーム環境では、人種や性別といったセンシティブな属性で個人を公平に扱う方法が求められている。 提案手法は、自己調整メモリK-Nearest-Neighbourアルゴリズムの強みと進化的多目的最適化を統合することでこの問題に対処する。 この組み合わせにより、ストリーミングデータのコンセプトドリフトを効率的に管理し、進化的多目的最適化の柔軟性を活用して精度を最大化し、差別を最小化することができる。 提案手法の有効性を,様々なデータセットに対する広範囲な実験により実証し,精度と公正度の測定値の観点から,その性能をいくつかのベースライン手法と比較した。 提案手法は, 競合精度を維持し, 差別を著しく低減し, 公正なデータストリーム分類のための堅牢な解法としての可能性を強調した。 さらに,提案手法の進化的多目的最適化と適応型分類器を誘導する手法の有効性も確認した。

This paper introduces a novel approach, evolutionary multi-objective optimisation for fairness-aware self-adjusting memory classifiers, designed to enhance fairness in machine learning algorithms applied to data stream classification. With the growing concern over discrimination in algorithmic decision-making, particularly in dynamic data stream environments, there is a need for methods that ensure fair treatment of individuals across sensitive attributes like race or gender. The proposed approach addresses this challenge by integrating the strengths of the self-adjusting memory K-Nearest-Neighbour algorithm with evolutionary multi-objective optimisation. This combination allows the new approach to efficiently manage concept drift in streaming data and leverage the flexibility of evolutionary multi-objective optimisation to maximise accuracy and minimise discrimination simultaneously. We demonstrate the effectiveness of the proposed approach through extensive experiments on various datasets, comparing its performance against several baseline methods in terms of accuracy and fairness metrics. Our results show that the proposed approach maintains competitive accuracy and significantly reduces discrimination, highlighting its potential as a robust solution for fairness-aware data stream classification. Further analyses also confirm the effectiveness of the strategies to trigger evolutionary multi-objective optimisation and adapt classifiers in the proposed approach.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# TIMIT話者プロファイリング:マルチタスク学習とシングルタスク学習の比較

TIMIT Speaker Profiling: A Comparison of Multi-task learning and Single-task learning Approaches ( http://arxiv.org/abs/2404.12077v1 )

ライセンス: Link先を確認
Rong Wang, Kun Sun, (参考訳) 本研究では、TIMITデータセット上の4つの話者プロファイリングタスク(性別分類、アクセント分類、年齢推定、話者識別)を深層学習技術を用いて探索し、マルチタスク学習とシングルタスクモデルの可能性と課題を強調した。 この研究の動機は2つある: まず、話者プロファイリングの文脈において、単一タスクモデルに対するマルチタスク学習の利点と欠点を経験的に評価すること、そして第二に、話者認識タスクにおける熟練した特徴工学の未定義の重要性を強調することである。 その結果,アクセント分類の課題が明らかとなり,マルチタスク学習は類似した複雑性のタスクに有利であることが判明した。 非シーケンシャルな特徴は話者認識に好まれるが、シーケンシャルな特徴は複雑なモデルの出発点として機能する。 本研究は,深層学習モデルにおける精密な実験とパラメータチューニングの必要性を浮き彫りにした。

This study employs deep learning techniques to explore four speaker profiling tasks on the TIMIT dataset, namely gender classification, accent classification, age estimation, and speaker identification, highlighting the potential and challenges of multi-task learning versus single-task models. The motivation for this research is twofold: firstly, to empirically assess the advantages and drawbacks of multi-task learning over single-task models in the context of speaker profiling; secondly, to emphasize the undiminished significance of skillful feature engineering for speaker recognition tasks. The findings reveal challenges in accent classification, and multi-task learning is found advantageous for tasks of similar complexity. Non-sequential features are favored for speaker recognition, but sequential ones can serve as starting points for complex models. The study underscores the necessity of meticulous experimentation and parameter tuning for deep learning models.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# 生物多様性保全におけるブロックチェーン

Preserving Nature's Ledger: Blockchains in Biodiversity Conservation ( http://arxiv.org/abs/2404.12086v1 )

ライセンス: Link先を確認
Kostas Kryptos Chalkias, Angelos Kostis, Ali Alnuaimi, Peter Knez, John Naulty, Allen Salmasi, Ryan Servatius, Rodrigo Veloso, (参考訳) 現代では、生物多様性の保全が最重要課題として現れ、自然界の監視、保存、強化に革新的なアプローチが必要である。 本稿では、生物多様性保護におけるブロックチェーン技術の統合について検討し、生態学的文脈の中でディジタルレジリエンスを構築する方法について、新たな視点を提供する。 ブロックチェーンは、分散化され不変の台帳とトークン化の余裕を持ち、環境資産の正確な監視と追跡のための画期的なソリューションを提示し、透明性と保存活動への信頼の欠如に対処する。 従来の理論的なアプローチとは異なり、ブロックチェーンは生物多様性保護においてデジタルレジリエンスをどのようにサポートするのかという研究課題に対処することで、この研究は、地球の生物多様性を保護するために、特定のデータコントリビューションとデータ活用プロセスの解読にブロックチェーンの特徴が不可欠であるかを正当化する基盤となるフレームワークを提示する。

In the contemporary era, biodiversity conservation emerges as a paramount challenge, necessitating innovative approaches to monitoring, preserving, and enhancing the natural world. This paper explores the integration of blockchain technology in biodiversity conservation, offering a novel perspective on how digital resilience can be built within ecological contexts. Blockchain, with its decentralized and immutable ledger and tokenization affordances, presents a groundbreaking solution for the accurate monitoring and tracking of environmental assets, thereby addressing the critical need for transparency and trust in conservation efforts. Unlike previous more theoretical approaches, by addressing the research question of how blockchain supports digital resilience in biodiversity conservation, this study presents a grounded framework that justifies which blockchain features are essential to decipher specific data contribution and data leveraging processes in an effort to protect our planet's biodiversity, while boosting potential economic benefits for all actors involved, from local farmers, to hardware vendors and artificial intelligence experts, to investors and regular users, volunteers and donors.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# LongEmbed:ロングコンテキスト検索のための埋め込みモデルの拡張

LongEmbed: Extending Embedding Models for Long Context Retrieval ( http://arxiv.org/abs/2404.12096v1 )

ライセンス: Link先を確認
Dawei Zhu, Liang Wang, Nan Yang, Yifan Song, Wenhao Wu, Furu Wei, Sujian Li, (参考訳) 埋め込みモデルは、IRやRAGのような現代のNLPアプリケーションにおいて重要な役割を果たす。 LLMのコンテキスト制限は100万トークンを超えているが、埋め込みモデルは8kトークンを超えない狭いコンテキストウインドウに制限されている。 本稿では、既存の埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせずに32kまで制限をプッシュする。 まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。 LongEmbedは2つの合成タスクと4つの慎重に選択された現実世界タスクで構成され、様々な長さの文書と分散ターゲット情報を含んでいる。 ベンチマークの結果は、これらのモデルを改善するための大きな余地を浮き彫りにしている。 これに基づいて、総合的な実験により、位置補間のようなトレーニング不要なコンテキストウィンドウ拡張戦略が、元のコンテキストが512か4kを超えるかに関わらず、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。 さらに、絶対位置符号化(APE)を用いたモデルでは、より詳細な微調整を行い、顕著な性能向上を得られる可能性を示し、短い入力に対して元の動作を厳密に保存する。 回転位置埋め込み(RoPE)を用いたモデルでは、NTKやSelfExtendといったRoPE固有の手法を用いることで、コンテキストウィンドウ拡張におけるAPEよりもRoPEの方が優れていることを示す。 今後の研究を容易にするため、LongEmbedベンチマークとともにE5-Base-4kとE5-RoPE-Baseをリリースする。

Embedding models play a pivot role in modern NLP applications such as IR and RAG. While the context limit of LLMs has been pushed beyond 1 million tokens, embedding models are still confined to a narrow context window not exceeding 8k tokens, refrained from application scenarios requiring long inputs such as legal contracts. This paper explores context window extension of existing embedding models, pushing the limit to 32k without requiring additional training. First, we examine the performance of current embedding models for long context retrieval on our newly constructed LongEmbed benchmark. LongEmbed comprises two synthetic tasks and four carefully chosen real-world tasks, featuring documents of varying length and dispersed target information. Benchmarking results underscore huge room for improvement in these models. Based on this, comprehensive experiments show that training-free context window extension strategies like position interpolation can effectively extend the context window of existing embedding models by several folds, regardless of their original context being 512 or beyond 4k. Furthermore, for models employing absolute position encoding (APE), we show the possibility of further fine-tuning to harvest notable performance gains while strictly preserving original behavior for short inputs. For models using rotary position embedding (RoPE), significant enhancements are observed when employing RoPE-specific methods, such as NTK and SelfExtend, indicating RoPE's superiority over APE for context window extension. To facilitate future research, we release E5-Base-4k and E5-RoPE-Base, along with the LongEmbed benchmark.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# S3R-Net: 自己監督型シャドウ除去のためのシングルステージアプローチ

S3R-Net: A Single-Stage Approach to Self-Supervised Shadow Removal ( http://arxiv.org/abs/2404.12103v1 )

ライセンス: Link先を確認
Nikolina Kubiak, Armin Mustafa, Graeme Phillipson, Stephen Jolly, Simon Hadfield, (参考訳) 本稿では,自己監視型シャドウ除去ネットワークであるS3R-Netについて述べる。 二分岐WGANモデルは、統一・アダプティブフェノメノン(unify-and-adaptphenomenon)に依存した自己スーパービジョンを実現し、出力データのスタイルを統一し、不整合なシャドウフリー参照画像のデータベースからその特性を推測する。 このアプローチは、教師付きフレームワークの大きな組織とは対照的である。 S3R-Netは、非循環的で一方向のソリューションであるため、サイクル一貫性のある動作を行う数少ない自己教師型モデルと差別化されている。 提案手法は,最近の自己教師付きシャドウ除去モデルに匹敵する数値スコアを達成し,質的性能を向上し,計算コストを低く抑える。

In this paper we present S3R-Net, the Self-Supervised Shadow Removal Network. The two-branch WGAN model achieves self-supervision relying on the unify-and-adaptphenomenon - it unifies the style of the output data and infers its characteristics from a database of unaligned shadow-free reference images. This approach stands in contrast to the large body of supervised frameworks. S3R-Net also differentiates itself from the few existing self-supervised models operating in a cycle-consistent manner, as it is a non-cyclic, unidirectional solution. The proposed framework achieves comparable numerical scores to recent selfsupervised shadow removal models while exhibiting superior qualitative performance and keeping the computational cost low.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# Ethical-Lens:オープンソーステキスト・画像モデルの悪用をキュベートする

Ethical-Lens: Curbing Malicious Usages of Open-Source Text-to-Image Models ( http://arxiv.org/abs/2404.12104v1 )

ライセンス: Link先を確認
Yuzhu Cai, Sheng Yin, Yuxi Wei, Chenxin Xu, Weibo Mao, Felix Juefei-Xu, Siheng Chen, Yanfeng Wang, (参考訳) Midjourney や DALLE 3 のような革新によって実証されたテキスト・ツー・イメージ・モデルの急成長した風景は、様々な分野のコンテンツ制作に革命をもたらした。 しかし、これらの進歩は批判的な倫理的懸念を引き起こし、特に社会規範に違反したコンテンツを生成するためにオープンソースモデルを誤用している。 これに対応するためにEthical-Lensというフレームワークを導入する。Ethical-Lensは、内部モデル修正を必要とせずに、テキスト・ツー・イメージ・ツールの値整合的利用を容易にするために設計されたフレームワークである。 Ethical-Lensは、ユーザコマンドの精細化とモデルの出力の修正によって、有害性とバイアス次元にわたるテキストと画像のモデルの値アライメントを保証する。 GPT4-V、HEIM、FairFaceのスコアを組み合わせてアライメント能力を評価する。 DALLE 3のような商用モデルに匹敵するレベルにアライメント機能を強化し,画像品質を維持しつつ,ユーザ生成コンテンツが倫理基準に準拠することを実証した。 本研究は,オープンソーステキスト・ツー・イメージ・ツールの持続可能な開発と社会への有益な統合を実現するための倫理意識の可能性を示す。 私たちのコードはhttps://github.com/yuzhu-cai/Ethical-Lens.comで公開されています。

The burgeoning landscape of text-to-image models, exemplified by innovations such as Midjourney and DALLE 3, has revolutionized content creation across diverse sectors. However, these advancements bring forth critical ethical concerns, particularly with the misuse of open-source models to generate content that violates societal norms. Addressing this, we introduce Ethical-Lens, a framework designed to facilitate the value-aligned usage of text-to-image tools without necessitating internal model revision. Ethical-Lens ensures value alignment in text-to-image models across toxicity and bias dimensions by refining user commands and rectifying model outputs. Systematic evaluation metrics, combining GPT4-V, HEIM, and FairFace scores, assess alignment capability. Our experiments reveal that Ethical-Lens enhances alignment capabilities to levels comparable with or superior to commercial models like DALLE 3, ensuring user-generated content adheres to ethical standards while maintaining image quality. This study indicates the potential of Ethical-Lens to ensure the sustainable development of open-source text-to-image tools and their beneficial integration into society. Our code is available at https://github.com/yuzhu-cai/Ethical-Lens.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# 宝物ではなく、ガーディアンを要塞化する:レジリエントな敵検知器

Fortify the Guardian, Not the Treasure: Resilient Adversarial Detectors ( http://arxiv.org/abs/2404.12120v1 )

ライセンス: Link先を確認
Raz Lapid, Almog Dubin, Moshe Sipper, (参考訳) 本稿では,適応攻撃に対する対向検知器の堅牢性を向上し,分類器の性能を維持しつつ,RADAR-Robust Adversarial Detectionを適応的リトレーニング(Adversarial Retraining)によるアプローチを提案する。 アダプティブアタックとは、攻撃者が防御を意識し、その戦略を適応させる攻撃である。 提案手法は, クリーンな精度を損なうことなく, 敵の訓練を活用して攻撃を検知する能力を強化する。 トレーニングフェーズでは、分類器と逆検出器の両方を騙すように最適化されたデータセットの逆検出例を統合し、逆検出器が潜在的な攻撃シナリオを学習し適応できるようにする。 CIFAR-10とSVHNデータセットの実験的評価により、提案アルゴリズムは、クリーンな精度を犠牲にすることなく、検出器の適応的敵攻撃を正確に識別する能力を大幅に改善することを示した。

This paper presents RADAR-Robust Adversarial Detection via Adversarial Retraining-an approach designed to enhance the robustness of adversarial detectors against adaptive attacks, while maintaining classifier performance. An adaptive attack is one where the attacker is aware of the defenses and adapts their strategy accordingly. Our proposed method leverages adversarial training to reinforce the ability to detect attacks, without compromising clean accuracy. During the training phase, we integrate into the dataset adversarial examples, which were optimized to fool both the classifier and the adversarial detector, enabling the adversarial detector to learn and adapt to potential attack scenarios. Experimental evaluations on the CIFAR-10 and SVHN datasets demonstrate that our proposed algorithm significantly improves a detector's ability to accurately identify adaptive adversarial attacks -- without sacrificing clean accuracy.
翻訳日:2024-04-19 19:21:31 公開日:2024-04-18
# ヨーロッパにおけるインテリジェンス教育

Intelligence Education made in Europe ( http://arxiv.org/abs/2404.12125v1 )

ライセンス: Link先を確認
Lars Berger, Uwe M. Borghoff, Gerhard Conrad, Stefan Pickl, (参考訳) 世界的な紛争やトラブルで世界は混乱に陥っている。 情報サービスは、政治的意思決定者に具体的で正確で最新の意思決定知識を提供することに関して、今日ほど必要ではない。 これは共通の協力、共通の作業言語、お互いの共通理解を必要とします。 この「知的なコミュニティ」を作る最良の方法は、調和した知性教育である。 本稿では,共同インテリジェンス教育がいかに成功するかを示す。 ドイツでは、すべての諜報機関と連邦機関が、共通の作業言語の基礎を成す単一の学位プログラムで、学術的に一緒に教育されている。 また、これらの経験がヨーロッパのレベル、すなわちヨーロッパのインテリジェンス・カレッジ(ICE)にどのように移行されたかを示す。 第一に、学際かそれ以上、超学際か、第二に、ITノウハウの統合と第三に、方法論スキルの開発と学習の3つの側面が特に重要であることを、私たちの経験から示しています。 データ駆動型意思決定支援に特に焦点をあてたサイバーインテリジェンスモジュールの例に加えて、他の多くの学術的モジュールに言及した多くの点から、提示された特定の分析方法論がヨーロッパの特定の教育文脈にどのように埋め込まれているかを示す。

Global conflicts and trouble spots have thrown the world into turmoil. Intelligence services have never been as necessary as they are today when it comes to providing political decision-makers with concrete, accurate, and up-to-date decision-making knowledge. This requires a common co-operation, a common working language and a common understanding of each other. The best way to create this "intelligence community" is through a harmonized intelligence education. In this paper, we show how joint intelligence education can succeed. We draw on the experience of Germany, where all intelligence services and the Bundeswehr are academically educated together in a single degree program that lays the foundations for a common working language. We also show how these experiences have been successfully transferred to a European level, namely to ICE, the Intelligence College in Europe. Our experience has shown that three aspects are particularly important: firstly, interdisciplinarity or better, transdisciplinarity, secondly, the integration of IT knowhow and thirdly, the development and learning of methodological skills. Using the example of the cyber intelligence module with a special focus on data-driven decision support, additionally with its many points of reference to numerous other academic modules, we show how the specific analytic methodology presented is embedded in our specific European teaching context.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# 自殺リスク評価の強化:救急医療における音声による自動化アプローチ

Enhancing Suicide Risk Assessment: A Speech-Based Automated Approach in Emergency Medicine ( http://arxiv.org/abs/2404.12132v1 )

ライセンス: Link先を確認
Shahin Amiriparian, Maurice Gerczuk, Justina Lutz, Wolfgang Strube, Irina Papazova, Alkomiet Hasan, Alexander Kathan, Björn W. Schuller, (参考訳) 救急部門における自殺リスクのある患者に対する専門的な精神医学的評価やケアへのアクセスの遅れは、時間的介入において顕著なギャップを生じさせ、重大な状況下での適切なメンタルヘルスサポートの提供を妨げている。 そこで本稿では, 自動自殺リスク評価のための非侵襲的, 音声に基づくアプローチを提案する。 本研究では,20ドル(約20万円)の患者による音声記録のデータセットを新たに収集し,wav2vec,解釈可能な音声・音響特徴,深層学習に基づくスペクトル表現の3つの特徴セットを抽出した。 本研究は, 自殺リスク評価のための二項分類を実施し, 退院・退院・退院・退院・退院・退院・退院・退院・退院・退院・退院・退院・退院・退院・退院・退院・退院・退院・退院等を行う。 我々の最も効果的な音声モデルは、6.6.2\,\%$のバランスの取れた精度を実現する。 さらに,自殺歴や銃器へのアクセスなど,患者のメタデータと音声モデルを統合することで,全体的な結果が向上することを示す。 メタデータ統合は, 緊急医療における自殺リスク自動評価のためのアプローチの有効性を実証し, 絶対的改善率28.2\,\%$のバランスの取れた精度が94.4\,\%$となる。

The delayed access to specialized psychiatric assessments and care for patients at risk of suicidal tendencies in emergency departments creates a notable gap in timely intervention, hindering the provision of adequate mental health support during critical situations. To address this, we present a non-invasive, speech-based approach for automatic suicide risk assessment. For our study, we have collected a novel dataset of speech recordings from $20$ patients from which we extract three sets of features, including wav2vec, interpretable speech and acoustic features, and deep learning-based spectral representations. We proceed by conducting a binary classification to assess suicide risk in a leave-one-subject-out fashion. Our most effective speech model achieves a balanced accuracy of $66.2\,\%$. Moreover, we show that integrating our speech model with a series of patients' metadata, such as the history of suicide attempts or access to firearms, improves the overall result. The metadata integration yields a balanced accuracy of $94.4\,\%$, marking an absolute improvement of $28.2\,\%$, demonstrating the efficacy of our proposed approaches for automatic suicide risk assessment in emergency medicine.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# ワープ時系列異常検出

Warped Time Series Anomaly Detection ( http://arxiv.org/abs/2404.12134v1 )

ライセンス: Link先を確認
Charlotte Lacoquelle, Xavier Pucel, Louise Travé-Massuyès, Axel Reymonet, Benoît Enaux, (参考訳) 本稿では,生産ライン上で動作している産業用ロボットなどの繰り返し動作系に着目した時系列出力検出の問題に対処する。これは,複数回実行されたタスクが繰り返し毎に異なる持続時間を示すこと,センサによって報告された時系列がデータギャップのために不規則にサンプリングされることから生じる問題である。 本論文で提示される異常検出手法は,3段階からなる。第1段階では,時系列の繰り返しサイクルを,時間的歪みを考慮しながら,1つのタスクサイクルに対応する個別の時系列に分割する。第2段階ではGPUベースのバリセンタアルゴリズムを用いて,サイクルのプロトタイプを演算する。第3段階では,各サイクルの異常スコアを演算して異常なサイクルを検出する。全体としては,WarpEd Time Series Anomaly Detection (WETSAND) という名称で,動的時間ワーピングアルゴリズムとその変種を用いる。この実験では,大規模な信号のスケール,人為的なデータ処理,異常検出などの目的で,大規模なデータ処理を行う。

This paper addresses the problem of detecting time series outliers, focusing on systems with repetitive behavior, such as industrial robots operating on production lines.Notable challenges arise from the fact that a task performed multiple times may exhibit different duration in each repetition and that the time series reported by the sensors are irregularly sampled because of data gaps. The anomaly detection approach presented in this paper consists of three stages.The first stage identifies the repetitive cycles in the lengthy time series and segments them into individual time series corresponding to one task cycle, while accounting for possible temporal distortions.The second stage computes a prototype for the cycles using a GPU-based barycenter algorithm, specifically tailored for very large time series.The third stage uses the prototype to detect abnormal cycles by computing an anomaly score for each cycle.The overall approach, named WarpEd Time Series ANomaly Detection (WETSAND), makes use of the Dynamic Time Warping algorithm and its variants because they are suited to the distorted nature of the time series.The experiments show that \wetsand scales to large signals, computes human-friendly prototypes, works with very little data, and outperforms some general purpose anomaly detection approaches such as autoencoders.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# 中立性の誤り:アルゴリズム的公正介入が(Not)正の作用であるとき

The Neutrality Fallacy: When Algorithmic Fairness Interventions are (Not) Positive Action ( http://arxiv.org/abs/2404.12143v1 )

ライセンス: Link先を確認
Hilde Weerts, Raphaële Xenidis, Fabien Tarissan, Henrik Palmer Olsen, Mykola Pechenizkiy, (参考訳) 機械学習システムの不公平な出力を特定し、軽減するために、様々なメトリクスと介入が開発されている。 個人や組織には差別を避ける義務があるが、公正を意識した機械学習の介入の使用は、欧州連合(EU)非差別法の下での「倫理的肯定的な行動」に相当すると説明されている。 欧州連合司法裁判所は、前向きな行動の合法性を評価することに関して厳格であり、公正な介入を希望する者には重大な法的負担を課すことになる。 本稿では,アルゴリズムによる公平な介入を,肯定的な行動の尺度ではなく,差別を防ぐ手段として解釈すべきであることを示す。 具体的には、このカテゴリーの誤りは、しばしば中立性の誤認(すなわち、公平性を意識したアルゴリズムによる意思決定の中立性に関する誤った仮定)に起因する可能性があることを示唆する。 本研究は, アルゴリズムによる意思決定の文脈において, 差別を控える負の義務が十分であるかどうかを問うものである。 その結果、アルゴリズムによる意思決定と公平なml介入のためのより適切な枠組みとして、「害を犯さない」という積極的義務への「害を犯さない」という義務から脱却することを提案する。

Various metrics and interventions have been developed to identify and mitigate unfair outputs of machine learning systems. While individuals and organizations have an obligation to avoid discrimination, the use of fairness-aware machine learning interventions has also been described as amounting to 'algorithmic positive action' under European Union (EU) non-discrimination law. As the Court of Justice of the European Union has been strict when it comes to assessing the lawfulness of positive action, this would impose a significant legal burden on those wishing to implement fair-ml interventions. In this paper, we propose that algorithmic fairness interventions often should be interpreted as a means to prevent discrimination, rather than a measure of positive action. Specifically, we suggest that this category mistake can often be attributed to neutrality fallacies: faulty assumptions regarding the neutrality of fairness-aware algorithmic decision-making. Our findings raise the question of whether a negative obligation to refrain from discrimination is sufficient in the context of algorithmic decision-making. Consequently, we suggest moving away from a duty to 'not do harm' towards a positive obligation to actively 'do no harm' as a more adequate framework for algorithmic decision-making and fair ml-interventions.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# 形式から意味へ:マルチセンス一貫性を用いた言語モデルの意味的深さの探索

From Form(s) to Meaning: Probing the Semantic Depths of Language Models Using Multisense Consistency ( http://arxiv.org/abs/2404.12145v1 )

ライセンス: Link先を確認
Xenia Ohmer, Elia Bruni, Dieuwke Hupkes, (参考訳) 大規模言語モデル(LLM)の能力が増大する停滞するペースは、一般的に使われている自然言語理解(NLU)ベンチマークによって測定され、言語モデルにとって「理解」がどのような意味を持つのか、人間の理解とどのように比較されるのか、多くの疑問が提起されている。 多くのLLMはテキストでのみ訓練されているため、これらのベンチマークのパフォーマンスがこれらのベンチマークで表される問題の真の理解を反映しているのか、あるいは、LLMが単に問題を理解している人が言うであろうものと相関するテキストフォームの発声に優れているのか、という疑問を呈している。 この哲学的にインスピレーションを受けたこの研究において、我々は、世界理解は同じ意味を持つ、Fregeanの感覚にインスパイアされた、プレゼンテーションモードにまたがる一貫性を持つべきだという考え方を活用する一連のテストで、形式と意味を分離することを目指しています。 具体的には、言語間の一貫性とパラフレーズに重点を置いています。 GPT-3.5を研究対象とし、5つの異なる言語と様々なタスクにおけるマルチセンスの一貫性を評価する。 制御された設定で評価を開始し、簡単な事実をモデルに尋ね、次に4つの人気のあるNLUベンチマークで評価を行う。 モデルのマルチセンス一貫性が欠如していることに気付き、この一貫性の欠如が感覚に依存したタスク理解によるものであることを確認するために、いくつかのフォローアップ分析を実施している。 この観点では、LLMの理解は、一貫性と人間的類似性には程遠いものであり、人間の言語と理解に関する学習の文脈において、それが彼らの実用性にどのように影響するかを熟考している、と結論付けている。

The staggering pace with which the capabilities of large language models (LLMs) are increasing, as measured by a range of commonly used natural language understanding (NLU) benchmarks, raises many questions regarding what "understanding" means for a language model and how it compares to human understanding. This is especially true since many LLMs are exclusively trained on text, casting doubt on whether their stellar benchmark performances are reflective of a true understanding of the problems represented by these benchmarks, or whether LLMs simply excel at uttering textual forms that correlate with what someone who understands the problem would say. In this philosophically inspired work, we aim to create some separation between form and meaning, with a series of tests that leverage the idea that world understanding should be consistent across presentational modes - inspired by Fregean senses - of the same meaning. Specifically, we focus on consistency across languages as well as paraphrases. Taking GPT-3.5 as our object of study, we evaluate multisense consistency across five different languages and various tasks. We start the evaluation in a controlled setting, asking the model for simple facts, and then proceed with an evaluation on four popular NLU benchmarks. We find that the model's multisense consistency is lacking and run several follow-up analyses to verify that this lack of consistency is due to a sense-dependent task understanding. We conclude that, in this aspect, the understanding of LLMs is still quite far from being consistent and human-like, and deliberate on how this impacts their utility in the context of learning about human language and understanding.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# 人間の嗜好を考慮した言語モデルのアライメント

Aligning language models with human preferences ( http://arxiv.org/abs/2404.12150v1 )

ライセンス: Link先を確認
Tomasz Korbak, (参考訳) 大量のテキストデータに基づいてトレーニングされた言語モデル(LM)は、要約の生成、質問に答える、コードを生成するといった高度なスキルを習得することができる。 しかし、人間の嗜好に反する行動、例えば、攻撃的な内容、虚偽、永続的な社会的偏見を生成できる行動も示している。 この論文では、LMと人間の嗜好を結びつけるためのいくつかのアプローチについて考察する。 第一に、ALMの整列はベイズ的推論として見ることができ、人間の嗜好に関する証拠に事前(ベース、事前訓練されたLM)を条件付ける(Chapter 2)。 人間の好みの条件は、様々な方法で実装できる。 第3章では,人的フィードバックからの強化学習 (RLHF) と分布マッチング (Regress Learning from Human feedback, RLHF) というスコアリング関数によるフィードバックを用いて,事前学習したLMを微調整する2つの手法について検討する。 RLHFは分布整合の特別な場合と見なせるが、分布整合は厳密に一般的である。 第4章では、条件付き言語モデルへの分散マッチングをどのように拡張するかを示します。 最後に、第5章で、私は異なるルーツを探求します。 人間のフィードバックを最初から取り入れることは、教師付き微調整でのみ使うよりも効果的であることを示す。 これらの結果から,RLHFと異なるアライメント技術の可能性が示された。

Language models (LMs) trained on vast quantities of text data can acquire sophisticated skills such as generating summaries, answering questions or generating code. However, they also manifest behaviors that violate human preferences, e.g., they can generate offensive content, falsehoods or perpetuate social biases. In this thesis, I explore several approaches to aligning LMs with human preferences. First, I argue that aligning LMs can be seen as Bayesian inference: conditioning a prior (base, pretrained LM) on evidence about human preferences (Chapter 2). Conditioning on human preferences can be implemented in numerous ways. In Chapter 3, I investigate the relation between two approaches to finetuning pretrained LMs using feedback given by a scoring function: reinforcement learning from human feedback (RLHF) and distribution matching. I show that RLHF can be seen as a special case of distribution matching but distributional matching is strictly more general. In chapter 4, I show how to extend the distribution matching to conditional language models. Finally, in chapter 5 I explore a different root: conditioning an LM on human preferences already during pretraining. I show that involving human feedback from the very start tends to be more effective than using it only during supervised finetuning. Overall, these results highlight the room for alignment techniques different from and complementary to RLHF.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# マルコフ力学の様々な未発見領域における量子軌道絡み合い

Quantum trajectory entanglement in various unravelings of Markovian dynamics ( http://arxiv.org/abs/2404.12167v1 )

ライセンス: Link先を確認
Tatiana Vovk, Hannes Pichler, (参考訳) 量子多体力学の古典的なシミュレーションのコストは、しばしばシステム内の絡み合いの量によって決定される。 本稿では,開量子系力学を記述したマスター方程式を解く確率的量子軌道法における絡み合いについて検討する。 まず、マスター方程式の適応的軌跡解を導入・比較する。 具体的には、Ref上に構築する。 [Phys. Rev. Lett. 128, 243601 (2022)], 平均エンタングルメントエントロピーが低いトラジェクトリを生成するいくつかのグリージーアルゴリズムについて検討した。 第二に、一次元オープンランダムブラウン回路の様々な従来の解法を考察し、領域-から体積-法交叉軌道への遷移点を求める。 第三に、行列積状態を用いた様々な軌道解法と行列積作用素を用いたマスター方程式の直接積分を比較する。 本稿では,確率的軌道のシミュレーションコストを行列積演算子よりも指数関数的に小さくする力学の具体的な例を示す。

The cost of classical simulations of quantum many-body dynamics is often determined by the amount of entanglement in the system. In this paper, we study entanglement in stochastic quantum trajectory approaches that solve master equations describing open quantum system dynamics. First, we introduce and compare adaptive trajectory unravelings of master equations. Specifically, building on Ref. [Phys. Rev. Lett. 128, 243601 (2022)], we study several greedy algorithms that generate trajectories with a low average entanglement entropy. Second, we consider various conventional unravelings of a one-dimensional open random Brownian circuit and locate the transition points from area- to volume-law-entangled trajectories. Third, we compare various trajectory unravelings using matrix product states with a direct integration of the master equation using matrix product operators. We provide concrete examples of dynamics, for which the simulation cost of stochastic trajectories is exponentially smaller than the one of matrix product operators.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# ブラー画素の離散化による実世界の高効率ブラインド運動の劣化

Real-World Efficient Blind Motion Deblurring via Blur Pixel Discretization ( http://arxiv.org/abs/2404.12168v1 )

ライセンス: Link先を確認
Insoo Kim, Jae Seok Choi, Geonseok Seo, Kinam Kwon, Jinwoo Shin, Hyong-Euk Lee, (参考訳) 近年のモバイルカメラ技術の進歩により、4K画像などの高解像度画像を撮影できるようになり、大きな動きを扱う効率的なデブロアリングモデルの必要性が高まっている。 本稿では,画像残差,すなわちぼやけたシャープな画素差が,その動きのぼやけタイプや近傍の画素の複雑度に応じて,いくつかのカテゴリに分類できることを見出した。 このことから,デブロアリング(リグレス)タスクをピクセルレベルのボケ分類(ピクセルレベルのボケ分類)と離散から連続への変換(ボケクラスマップによるリグレス)タスクに分解する。 具体的には、ぼやけた画素を識別して離散化された画像残差誤差を生成し、連続的な形式に変換する。 ここでは,画像残差と視覚的類似性を顕著に示し,識別結果,すなわち,ぼかし分割マップが得られた。 その結果,本手法は計算効率を最大10倍に向上する一方,実時間ベンチマークでは最先端手法に匹敵する性能を示した。

As recent advances in mobile camera technology have enabled the capability to capture high-resolution images, such as 4K images, the demand for an efficient deblurring model handling large motion has increased. In this paper, we discover that the image residual errors, i.e., blur-sharp pixel differences, can be grouped into some categories according to their motion blur type and how complex their neighboring pixels are. Inspired by this, we decompose the deblurring (regression) task into blur pixel discretization (pixel-level blur classification) and discrete-to-continuous conversion (regression with blur class map) tasks. Specifically, we generate the discretized image residual errors by identifying the blur pixels and then transform them to a continuous form, which is computationally more efficient than naively solving the original regression problem with continuous values. Here, we found that the discretization result, i.e., blur segmentation map, remarkably exhibits visual similarity with the image residual errors. As a result, our efficient model shows comparable performance to state-of-the-art methods in realistic benchmarks, while our method is up to 10 times computationally more efficient.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# 微調整大言語モデルを用いたソーシャルメディア上のスタンス検出

Stance Detection on Social Media with Fine-Tuned Large Language Models ( http://arxiv.org/abs/2404.12171v1 )

ライセンス: Link先を確認
İlker Gül, Rémi Lebret, Karl Aberer, (参考訳) 自然言語処理における重要なタスクであるスタンス検出は、テキスト解析に基づいて著者の視点を決定する。 本研究では、姿勢検出手法の進化、初期の機械学習アプローチから画期的なBERTモデルへの移行、そして最終的にChatGPT、LLaMa-2、Mistral-7Bのような近代的な大規模言語モデル(LLM)への移行を評価する。 ChatGPTのクローズドソースの性質と関連するコストは課題を呈するが、LLaMa-2やMistral-7Bのようなオープンソースモデルは、励ましの代替手段を提供する。 当初、我々はChatGPT、LLaMa-2、Mistral-7Bを公開データセットを用いて微調整することに重点を置いていた。 その後、総合的な比較を行うため、ゼロショットおよび少数ショットの学習シナリオにおいて、これらのモデルの性能を評価する。 その結果,LLMの異常な姿勢検出能力が評価され,全ての試験モデルが既存のベンチマークを上回った。 特に、LLaMa-2とMistral-7Bは、ChatGPTに比べてサイズが小さいにもかかわらず、姿勢検出の優れた効率とポテンシャルを示した。 本研究は、姿勢検出におけるLCMの可能性を強調し、この分野におけるより広範な研究を求める。

Stance detection, a key task in natural language processing, determines an author's viewpoint based on textual analysis. This study evaluates the evolution of stance detection methods, transitioning from early machine learning approaches to the groundbreaking BERT model, and eventually to modern Large Language Models (LLMs) such as ChatGPT, LLaMa-2, and Mistral-7B. While ChatGPT's closed-source nature and associated costs present challenges, the open-source models like LLaMa-2 and Mistral-7B offers an encouraging alternative. Initially, our research focused on fine-tuning ChatGPT, LLaMa-2, and Mistral-7B using several publicly available datasets. Subsequently, to provide a comprehensive comparison, we assess the performance of these models in zero-shot and few-shot learning scenarios. The results underscore the exceptional ability of LLMs in accurately detecting stance, with all tested models surpassing existing benchmarks. Notably, LLaMa-2 and Mistral-7B demonstrate remarkable efficiency and potential for stance detection, despite their smaller sizes compared to ChatGPT. This study emphasizes the potential of LLMs in stance detection and calls for more extensive research in this field.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# セマンティックセグメンテーションのためのVision Foundation Modelのベンチマーク方法

How to Benchmark Vision Foundation Models for Semantic Segmentation? ( http://arxiv.org/abs/2404.12172v1 )

ライセンス: Link先を確認
Tommie Kerssies, Daan de Geus, Gijs Dubbelman, (参考訳) 近年の視覚基礎モデル (VFM) は, 様々なタスクにおいて熟練度を示すが, セマンティックセグメンテーションを効果的に行うためには, 教師付き微調整が必要である。 それらのパフォーマンスのベンチマークは、現在のモデルを選択し、このタスクのために将来のモデル開発を導くのに不可欠です。 標準ベンチマークの欠如は比較を複雑にする。 そこで本研究では,VFMのセマンティックセグメンテーションにおける評価方法について検討する。 そのため、様々な設定下で様々なVFMを微調整し、個々の設定がパフォーマンスランキングやトレーニング時間に与える影響を評価する。 この結果に基づき、VFMのViT-B変種を16x16パッチサイズとリニアデコーダで微調整することが推奨されている。 データセットとドメインシフト間でのパフォーマンスランキングが異なるため、トレーニングと評価に複数のデータセットを使用することも推奨されている。 VFMの一般的な実践である線形探索は、エンドツーエンドの微調整を代表していないため推奨されない。 本稿では, セマンティックセグメンテーションのためのVFMの性能解析を行う。 このような分析の結果,プロンプト可能なセグメンテーションによる事前トレーニングは有益ではないことが明らかとなった。一方,抽象表現を用いたマスク画像モデリング(MIM)は,使用した監視方式よりも重要である。 セマンティックセグメンテーションのためのVFMを効率的に微調整するためのコードは、プロジェクトのページからアクセスできる。

Recent vision foundation models (VFMs) have demonstrated proficiency in various tasks but require supervised fine-tuning to perform the task of semantic segmentation effectively. Benchmarking their performance is essential for selecting current models and guiding future model developments for this task. The lack of a standardized benchmark complicates comparisons. Therefore, the primary objective of this paper is to study how VFMs should be benchmarked for semantic segmentation. To do so, various VFMs are fine-tuned under various settings, and the impact of individual settings on the performance ranking and training time is assessed. Based on the results, the recommendation is to fine-tune the ViT-B variants of VFMs with a 16x16 patch size and a linear decoder, as these settings are representative of using a larger model, more advanced decoder and smaller patch size, while reducing training time by more than 13 times. Using multiple datasets for training and evaluation is also recommended, as the performance ranking across datasets and domain shifts varies. Linear probing, a common practice for some VFMs, is not recommended, as it is not representative of end-to-end fine-tuning. The benchmarking setup recommended in this paper enables a performance analysis of VFMs for semantic segmentation. The findings of such an analysis reveal that pretraining with promptable segmentation is not beneficial, whereas masked image modeling (MIM) with abstract representations is crucial, even more important than the type of supervision used. The code for efficiently fine-tuning VFMs for semantic segmentation can be accessed through the project page at: https://tue-mps.github.io/benchmark-vfm-ss/.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# 高フィン度空洞における低温174-Yb原子の結合状態

Coupled states of cold 174-Yb atoms in a high-finesse cavity ( http://arxiv.org/abs/2404.12173v1 )

ライセンス: Link先を確認
Saran Shaju, Dmitriy Sholokhov, Simon B. Jäger, Jürgen Eschner, (参考訳) 我々は,Yb原子の狭間結合線の強い集合結合から高精細光空洞の単一モードに生じる着衣状態の形成を実験的に理論的に検討した。 空洞との相互作用の間、Yb原子を永久にトラップし冷却することにより、我々は着飾った状態への連続的な実験的アクセスを得る。 これにより、定常キャビティ透過と自由空間蛍光を同時に測定することで、磁場と原子特性の両方を検出することができる。 キャビティとプローブ周波数を変化させることで、原子数依存分裂と結合した原子空洞状態が観察され、原子と単一キャビティモードとの強い結合の目印となる。 原子共鳴で追加の蛍光出力が見出され, 劣化と不均質拡大の影響で説明される。 実験結果と理論モデルを比較し,質的整合性を見いだす。

We experimentally and theoretically study the formation of dressed states emerging from strong collective coupling of the narrow intercombination line of Yb atoms to a single mode of a high-finesse optical cavity. By permanently trapping and cooling the Yb atoms during their interaction with the cavity, we gain continuous experimental access to the dressed states. This allows us to detect both their field and their atomic properties, by simultaneously measuring the steady-state cavity transmission and free-space fluorescence. By varying the cavity and probe frequencies, we observe coupled atom-cavity states with atom number-dependent splitting, the hallmark of collective strong coupling of the atoms with the single cavity mode. We find additional fluorescence output at atomic resonance, which we explain by the effects of dephasing and inhomogeneous broadening. We compare our experimental results with a theoretical model and find good qualitative agreement.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# ブールマッチング可逆回路:アルゴリズムと複雑度

Boolean Matching Reversible Circuits: Algorithm and Complexity ( http://arxiv.org/abs/2404.12184v1 )

ライセンス: Link先を確認
Tian-Fu Chen, Jie-Hong R. Jiang, (参考訳) ブールマッチングは論理合成と検証において重要な問題である。 従来のブール回路でよく研究されているにもかかわらず、可逆論理回路の扱いは、完全には欠落している。 この研究は最初の研究である。 一致を約束する2つの(ブラックボックス)可逆論理回路が与えられた場合、逆回路の可利用/不使用性を考慮した入力/出力否定および置換条件の下で、それらの等価性を検証する。 特に、入力否定と置換の同値性は量子多項式時間で解けるが、古典的な複雑性は指数関数的であることを示す。 この結果は、設計自動化問題の解決における量子指数的スピードアップの初めての実証である。 また、負の結果として、UNIQUE-SATがなければ、入力と出力の両方の否定の等価性が量子多項式時間で解けないことが示される。 この研究は、量子回路合成における潜在的な応用のためのブール整合可逆回路の理論的基礎を舗装する。

Boolean matching is an important problem in logic synthesis and verification. Despite being well-studied for conventional Boolean circuits, its treatment for reversible logic circuits remains largely, if not completely, missing. This work provides the first such study. Given two (black-box) reversible logic circuits that are promised to be matchable, we check their equivalences under various input/output negation and permutation conditions subject to the availability/unavailability of their inverse circuits. Notably, among other results, we show that the equivalence up to input negation and permutation is solvable in quantum polynomial time, while its classical complexity is exponential. This result is arguably the first demonstration of quantum exponential speedup in solving design automation problems. Also, as a negative result, we show that the equivalence up to both input and output negations is not solvable in quantum polynomial time unless UNIQUE-SAT is, which is unlikely. This work paves the theoretical foundation of Boolean matching reversible circuits for potential applications, e.g., in quantum circuit synthesis.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# OpenBezoar: インストラクションデータの混合に基づいてトレーニングされた,小規模で費用効果の高い,オープンなモデル

OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data ( http://arxiv.org/abs/2404.12195v1 )

ライセンス: Link先を確認
Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake, (参考訳) 様々な下流作業のための微調整事前学習 LLM の指導は目覚ましい成功を収め、学者と実践者の双方の興味を引いた。 このような微調整LDMと人間の嗜好の整合性を確保するため、RLHFやDPOといった技術が出現した。 同時に、モデルに対するより小さなパラメータ数への関心が高まっている。 本研究では,OpenLLaMA 3Bv2をベースモデルとして,OpenBezoarファミリを微調整するレシピについて述べる。 このレシピでは、まず、LaMini-LM、WizardLM/Evol-Instruct(Databricks-dolly-15kをシードデータセットとする)、Orca(Flan Collectionをシードデータセットとする)の3つのスキームに基づいて、オープンかつ非制限的なFalcon-40Bモデルの微調整版を用いて、合成命令微調整データを生成し、GPT-4を人間のプロキシとしてフィルタリングする。 次に、コスト効率のよいQLoRAに基づく教師あり微調整を各スキームで逐次行う。 得られたチェックポイントはさらにHH-RLHFデータセットのサブセットで微調整され、DPO損失を使用する前に分布シフトを最小限に抑え、最終チェックポイントを得る。 The LM Eval Harness task/metrics as the MT-Bench using the "LLM-as-a-judge" framework with Claude 2.1, with the final checkpoint, "OpenBezoar-HH-RLHF-DPO" は、3Bパラメータスケールでの多くのモデルよりも優れた性能を示し、Huggingface Open LLM Leaderboardのカテゴリの1つでトップモデルを上回っている。 OpenBezoar-HH-RLHF-SFT、OpenBezoar-HH-RLHF-DPO"チェックポイント、https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e2b9cc、https://bitbucket.org/paladinanalytics/workspace/projects/OPで生成されたデータセットとともに、OpenBezoar-HHH-RLHF-DPO"チェックポイントをリリースします。

Instruction fine-tuning pretrained LLMs for diverse downstream tasks has demonstrated remarkable success and has captured the interest of both academics and practitioners. To ensure such fine-tuned LLMs align with human preferences, techniques such as RLHF and DPO have emerged. At the same time, there is increasing interest in smaller parameter counts for models. In this work, using OpenLLaMA 3Bv2 as a base model, we describe the recipe used to fine-tune the OpenBezoar family of models. In this recipe: We first generate synthetic instruction fine-tuning data using an open and commercially non-restrictive instruction fine-tuned variant of the Falcon-40B model under three schemes based on: LaMini-LM, WizardLM/Evol-Instruct (with databricks-dolly-15k as a seed dataset) and Orca (with the Flan Collection as a seed dataset), then filter these generations using GPT-4 as a human proxy. We then perform cost-effective QLoRA-based supervised fine-tuning sequentially with each scheme. The resulting checkpoint is further fine-tuned with a subset of the HH-RLHF dataset to minimize distribution shift prior to using the DPO loss to obtain the final checkpoint. Evaluation is done with the LM Eval Harness tasks/metrics as well as on MT-Bench using the "LLM-as-a-judge" framework with Claude 2.1, with the finding that the final checkpoint, "OpenBezoar-HH-RLHF-DPO", demonstrates superior performance over many models at the 3B parameter scale, even outperforming the top model in one of the categories on the Huggingface Open LLM Leaderboard. We release "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO" checkpoints, alongside our generated datasets on HuggingFace at https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc and our codebase at https://bitbucket.org/paladinanalytics/workspace/projects/OP.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# 良好なスコーリング規則による動脈硬化とてんかんの不確かさの定量化

Quantifying Aleatoric and Epistemic Uncertainty with Proper Scoring Rules ( http://arxiv.org/abs/2404.12215v1 )

ライセンス: Link先を確認
Paul Hofman, Yusuf Sale, Eyke Hüllermeier, (参考訳) 不確実性表現と定量化は機械学習において最重要であり、安全クリティカルなアプリケーションにとって重要な前提条件となっている。 本稿では, 学習者に対して, 条件付き確率の予測を動機付ける意味のある特性を持つ損失関数である, 適切なスコアリングルールに基づく, アレタリックおよびエピステミック不確実性の定量化のための新しい尺度を提案する。 我々は、不確実性の2つの一般的な表現、すなわち、クレダル集合、すなわち確率分布の集合または2階分布、すなわち確率分布の上の分布を仮定する。 我々の枠組みはこれらの表現の間に自然な橋渡しを確立する。 我々は,本手法の正式な正当性を提供し,具体的インスタンス化として,てんかんおよびアレタリック不確実性の新しい尺度を導入する。

Uncertainty representation and quantification are paramount in machine learning and constitute an important prerequisite for safety-critical applications. In this paper, we propose novel measures for the quantification of aleatoric and epistemic uncertainty based on proper scoring rules, which are loss functions with the meaningful property that they incentivize the learner to predict ground-truth (conditional) probabilities. We assume two common representations of (epistemic) uncertainty, namely, in terms of a credal set, i.e. a set of probability distributions, or a second-order distribution, i.e., a distribution over probability distributions. Our framework establishes a natural bridge between these representations. We provide a formal justification of our approach and introduce new measures of epistemic and aleatoric uncertainty as concrete instantiations.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-18
# 確率リフティングによる汎用バッチベイズ最適化のための四分法アプローチ

A Quadrature Approach for General-Purpose Batch Bayesian Optimization via Probabilistic Lifting ( http://arxiv.org/abs/2404.12219v1 )

ライセンス: Link先を確認
Masaki Adachi, Satoshi Hayakawa, Martin Jørgensen, Saad Hamid, Harald Oberhauser, Michael A. Osborne, (参考訳) ベイズ最適化における並列化は共通の戦略であるが、取得関数とカーネルの選択における柔軟性の必要性、離散変数と連続変数を同時に扱う柔軟性、モデルの誤特定、そして最後に高速な大規模並列化など、いくつかの課題に直面している。 これらの課題に対処するため,我々は,GPyTorch/BoTorchをベースとしたPythonライブラリであるSOBER(英語版)と呼ばれるカーネル二次化による確率的昇降によるバッチベイズ最適化のための汎用的でモジュール化されたフレームワークを紹介した。 1) 統一されたアプローチ下での下流タスクの冗長性。 2) 取得関数の勾配を必要としない勾配のないサンプリング器は、ドメインに依存しないサンプリング(例えば、離散変数と混合変数、非ユークリッド空間)を提供する。 (3)ドメイン事前分布の柔軟性。 (4)適応バッチサイズ(最適バッチサイズの自動決定)。 (5) ヒルベルト空間の不特定再生核に対するロバスト性。 (6)自然停止基準

Parallelisation in Bayesian optimisation is a common strategy but faces several challenges: the need for flexibility in acquisition functions and kernel choices, flexibility dealing with discrete and continuous variables simultaneously, model misspecification, and lastly fast massive parallelisation. To address these challenges, we introduce a versatile and modular framework for batch Bayesian optimisation via probabilistic lifting with kernel quadrature, called SOBER, which we present as a Python library based on GPyTorch/BoTorch. Our framework offers the following unique benefits: (1) Versatility in downstream tasks under a unified approach. (2) A gradient-free sampler, which does not require the gradient of acquisition functions, offering domain-agnostic sampling (e.g., discrete and mixed variables, non-Euclidean space). (3) Flexibility in domain prior distribution. (4) Adaptive batch size (autonomous determination of the optimal batch size). (5) Robustness against a misspecified reproducing kernel Hilbert space. (6) Natural stopping criterion.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# マルチエージェントシステムにおける品質要件違反の根本原因診断のための協調的戦略

A cooperative strategy for diagnosing the root causes of quality requirement violations in multiagent systems ( http://arxiv.org/abs/2404.12226v1 )

ライセンス: Link先を確認
João Faccin, Ingrid Nunes, Abdelwahab Hamou-Lhadj, (参考訳) 多くの現代のソフトウェアシステムは、自律的なソフトウェアコンポーネント(エージェントとも呼ばれる)の集合として構築され、互いに協調し、環境に配置されている。 これらのマルチエージェントシステムを異常な状況下で運用するためには、それらに回復力を持たせることが不可欠である。 既存のソリューションは、しばしば中央集権化され、設計時に専門家が手動で提供する情報に依存し、そのようなソリューションを厳格化し、システムの自律性と適応性を制限する。 本研究では,マルチエージェントシステムにおける品質要件違反の根本原因を特定することに焦点を当てた協調戦略を提案する。 この戦略により、エージェントは互いに協力し合って、これらの違反がサービスプロバイダや関連するコンポーネント、あるいは通信インフラから生じるものかどうかを識別できます。 この識別プロセスから、エージェントはシステム操作の正常化を目的として、既存の異常を緩和し解決するために、行動に適応することができる。 この戦略は、提案したアルゴリズムと共に、プロトコルの役割を担っているエージェントが問題を修正することができるようにするための相互作用プロトコルで構成されている。 サービス指向システムの実装による提案の評価を行った。 以上の結果から,本手法は障害発生源の正確な同定を可能にし,異常状況の克服に最も適した行動の選択を好んだ。

Many modern software systems are built as a set of autonomous software components (also called agents) that collaborate with each other and are situated in an environment. To keep these multiagent systems operational under abnormal circumstances, it is crucial to make them resilient. Existing solutions are often centralised and rely on information manually provided by experts at design time, making such solutions rigid and limiting the autonomy and adaptability of the system. In this work, we propose a cooperative strategy focused on the identification of the root causes of quality requirement violations in multiagent systems. This strategy allows agents to cooperate with each other in order to identify whether these violations come from service providers, associated components, or the communication infrastructure. From this identification process, agents are able to adapt their behaviour in order to mitigate and solve existing abnormalities with the aim of normalising system operation. This strategy consists of an interaction protocol that, together with the proposed algorithms, allow agents playing the protocol roles to diagnose problems to be repaired. We evaluate our proposal with the implementation of a service-oriented system. The results demonstrate that our solution enables the correct identification of different sources of failures, favouring the selection of the most suitable actions to be taken to overcome abnormal situations.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# 医薬品勧告における関係発見

Relationship Discovery for Drug Recommendation ( http://arxiv.org/abs/2404.12228v1 )

ライセンス: Link先を確認
Xiang Li, Shunpan Liang, Yu Lei, Chen Li, Yulei Hou, Tengfei Ma, (参考訳) 医薬推奨システムは、個々の患者のニーズと密接に一致した、パーソナライズされた薬物提案を提供するように設計されている。 これまでの研究は主に医薬品の埋め込みの開発に集中し、大きな進歩を遂げてきた。 それにもかかわらず、これらのアプローチは個々の患者プロファイルを正確に反映するに足りず、主に、様々な患者の状態と、特定の条件と適切な薬の正確な相関を確定できないことによる。 これらの問題に対処して,パーソナライゼーションを高めるための患者状況に焦点を当てたモデルであるDisMedを導入する。 DisMedは因果推論を用いて、明確で定量化された因果関係を識別する。 その後、患者の状態を深く調査し、これらの状態の進化するニュアンスを認識し、適応し、それらを対応する薬に直接マッピングする。 さらに、DisMedは複数の患者からのデータを活用して、医薬品の組み合わせを提案する。 実世界のデータセットに対する包括的なテストは、DisMedが患者のプロファイルのカスタマイズを改善するだけでなく、精度と安全性の両方で主要なモデルを上回ることを実証している。

Medication recommendation systems are designed to deliver personalized drug suggestions that are closely aligned with individual patient needs. Previous studies have primarily concentrated on developing medication embeddings, achieving significant progress. Nonetheless, these approaches often fall short in accurately reflecting individual patient profiles, mainly due to challenges in distinguishing between various patient conditions and the inability to establish precise correlations between specific conditions and appropriate medications. In response to these issues, we introduce DisMed, a model that focuses on patient conditions to enhance personalization. DisMed employs causal inference to discern clear, quantifiable causal links. It then examines patient conditions in depth, recognizing and adapting to the evolving nuances of these conditions, and mapping them directly to corresponding medications. Additionally, DisMed leverages data from multiple patient visits to propose combinations of medications. Comprehensive testing on real-world datasets demonstrates that DisMed not only improves the customization of patient profiles but also surpasses leading models in both precision and safety.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# 有限周期の滑らかなパルスによって駆動される量子力学

Qubit dynamics driven by smooth pulses of finite duration ( http://arxiv.org/abs/2404.12236v1 )

ライセンス: Link先を確認
Ivo S. Mihov, Nikolay V. Vitanov, (参考訳) 有限時間パルス場によって駆動される量子ビットのダイナミクスについて検討する。 パルス形状は、時間内に線形に始まり、終了する。 そのような形状の最も典型的な例は2つのノード間の正弦関数であるが、他のいくつかのパルス形状も研究されている。 これらはすべて、一般的に使用される長方形パルス形状のスムーズな代替手段を示し、その結果、より弱いパワー拡張、励起線プロファイルにおける翼の消滅、そして結果としてサイドバンドの短縮を実現した。 同時に、十分に定義された有限持続時間を持つそのような形状は、無限持続のパルスである e g Gaussian を切断する際に生じる急激な効果に苦しむことはない。 続く量子力学を記述する2つの近似解析解を導出する。 どちらの近似も、磁場は駆動パルスの開始と終了で直線的に変化し、その間に断熱的に変化すると仮定する。 最初の近似は線形および断熱的な部分と適切なタイミングで一致し、ウェーバーの放物型シリンダー関数で表される。 第二に、より単純な近似は、Weber関数の漸近を利用して、より単純な関数といくつかの追加変換に置き換える。 どちらの近似も、IBM Quantumプロセッサの2つの実験データと比較すると非常に正確である。 全てのパルス形状について、理論と実験のほぼ完全な一致で、大幅に低減されたパワー拡大と、大幅に抑制されたサイドバンドが観察される。

We present a study of the dynamics of a qubit driven by a pulsed field of finite duration. The pulse shape starts and ends linearly in time. The most typical example of such a shape is the sine function between two of its nodes, but several other pulse shapes are also studied. All of them present smooth alternatives to the commonly used rectangular pulse shape, resulting in much weaker power broadening, much faster vanishing wings in the excitation line profile and hence much reduced sidebands. In the same time, such shapes with a well-defined finite duration do not suffer from the spurious effects arising when truncating a pulse of infinite duration, e.g. Gaussian. We derive two approximate analytic solutions which describe the ensuing quantum dynamics. Both approximations assume that the field changes linearly at the beginning and the end of the driving pulse, and adiabatically in between. The first approximation matches the linear and adiabatic parts at an appropriate instant of time and is expressed in terms of Weber's parabolic cylinder functions. The second, much simpler, approximation uses the asymptotics of the Weber function in order to replace it by simpler functions, and some additional transformations. Both approximations prove highly accurate when compared to experimental data obtained with two of the IBM Quantum processors. Both the greatly reduced power broadening and the greatly suppressed sidebands are observed for all pulse shapes, in a nearly complete agreement between theory and experiment.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# De-DSI:分散微分検索インデックス

De-DSI: Decentralised Differentiable Search Index ( http://arxiv.org/abs/2404.12237v1 )

ライセンス: Link先を確認
Petru Neague, Marcel Gregoriadis, Johan Pouwelse, (参考訳) 本研究では,大規模言語モデル(LLM)を真の分散化に融合させる新しいフレームワークであるDe-DSIを紹介する。 De-DSIは、新しいユーザクエリとドキュメント識別子を直接アクセスせずに効率的に接続することに焦点を当て、クエリドシデントペアのみで動作する。 スケーラビリティを高めるために、DSIモデルのアンサンブルを導入し、データセットを個々のモデルのトレーニングのために小さなシャードに分割する。 このアプローチは、各モデルが扱うデータ数を減らすことによって正確性を維持するだけでなく、複数のモデルの結果を集約することでスケーラビリティを促進する。 このアグリゲーションはビームサーチを用いてトップドシデントを識別し、ノーマライゼーションのためのソフトマックス関数を適用し、検索のための最高スコアの文書を選択する。 分散化された実装は、検索成功が中央集権的な手法に匹敵することを示した。 このセットアップにより、マグネットリンクによるマルチメディアアイテムの検索が可能になり、プラットフォームやインターミディエートの必要性がなくなる。

This study introduces De-DSI, a novel framework that fuses large language models (LLMs) with genuine decentralization for information retrieval, particularly employing the differentiable search index (DSI) concept in a decentralized setting. Focused on efficiently connecting novel user queries with document identifiers without direct document access, De-DSI operates solely on query-docid pairs. To enhance scalability, an ensemble of DSI models is introduced, where the dataset is partitioned into smaller shards for individual model training. This approach not only maintains accuracy by reducing the number of data each model needs to handle but also facilitates scalability by aggregating outcomes from multiple models. This aggregation uses a beam search to identify top docids and applies a softmax function for score normalization, selecting documents with the highest scores for retrieval. The decentralized implementation demonstrates that retrieval success is comparable to centralized methods, with the added benefit of the possibility of distributing computational complexity across the network. This setup also allows for the retrieval of multimedia items through magnet links, eliminating the need for platforms or intermediaries.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# MLCommonsによるAI Safety Benchmarkのv0.5の導入

Introducing v0.5 of the AI Safety Benchmark from MLCommons ( http://arxiv.org/abs/2404.12241v1 )

ライセンス: Link先を確認
Bertie Vidgen, Adarsh Agrawal, Ahmed M. Ahmed, Victor Akinwande, Namir Al-Nuaimi, Najla Alfaraj, Elie Alhajjar, Lora Aroyo, Trupti Bavalatti, Borhane Blili-Hamelin, Kurt Bollacker, Rishi Bomassani, Marisa Ferrara Boston, Siméon Campos, Kal Chakra, Canyu Chen, Cody Coleman, Zacharie Delpierre Coudert, Leon Derczynski, Debojyoti Dutta, Ian Eisenberg, James Ezick, Heather Frase, Brian Fuller, Ram Gandikota, Agasthya Gangavarapu, Ananya Gangavarapu, James Gealy, Rajat Ghosh, James Goel, Usman Gohar, Sujata Goswami, Scott A. Hale, Wiebke Hutiri, Joseph Marvin Imperial, Surgan Jandial, Nick Judd, Felix Juefei-Xu, Foutse Khomh, Bhavya Kailkhura, Hannah Rose Kirk, Kevin Klyman, Chris Knotz, Michael Kuchnik, Shachi H. Kumar, Chris Lengerich, Bo Li, Zeyi Liao, Eileen Peters Long, Victor Lu, Yifan Mai, Priyanka Mary Mammen, Kelvin Manyeki, Sean McGregor, Virendra Mehta, Shafee Mohammed, Emanuel Moss, Lama Nachman, Dinesh Jinenhally Naganna, Amin Nikanjam, Besmira Nushi, Luis Oala, Iftach Orr, Alicia Parrish, Cigdem Patlak, William Pietri, Forough Poursabzi-Sangdeh, Eleonora Presani, Fabrizio Puletti, Paul Röttger, Saurav Sahay, Tim Santos, Nino Scherrer, Alice Schoenauer Sebag, Patrick Schramowski, Abolfazl Shahbazi, Vin Sharma, Xudong Shen, Vamsi Sistla, Leonard Tang, Davide Testuggine, Vithursan Thangarasa, Elizabeth Anne Watkins, Rebecca Weiss, Chris Welty, Tyler Wilbers, Adina Williams, Carole-Jean Wu, Poonam Yadav, Xianjun Yang, Yi Zeng, Wenhui Zhang, Fedor Zhdanov, Jiacheng Zhu, Percy Liang, Peter Mattson, Joaquin Vanschoren, (参考訳) 本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。 AI Safety Benchmarkは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。 ベンチマークの特定と構築に関する原則的なアプローチを導入し,v0.5では1つのユースケース(英語の汎用アシスタントへの成人チャット)と限られたペルソナ(典型的ユーザ,悪意のあるユーザ,脆弱なユーザ)をカバーする。 我々は13のハザードカテゴリーの新しい分類法を作成し、そのうち7つはv0.5ベンチマークでテストされている。 2024年末までにAI Safety Benchmarkのバージョン1.0をリリースする予定です。 v1.0ベンチマークは、AIシステムの安全性に関する有意義な洞察を提供する。 しかしながら、v0.5ベンチマークはAIシステムの安全性を評価するために使用すべきではない。 私たちはv0.5の限界、欠陥、課題を十分に文書化しようとしてきました。 このAI Safety Benchmark v0.5のリリースには、(1)テスト対象のシステムの種類(SUT)、言語とコンテキスト、ペルソナ、テスト、テスト項目を含むベンチマークの特定と構築に関する原則的なアプローチ、(2)定義とサブカテゴリを持つ13のハザードカテゴリの分類、(3)それぞれがテスト項目のユニークなセット、すなわちプロンプトを含む7つのハザードカテゴリのテストが含まれる。 合計43,090のテスト項目がテンプレートで作成され、(4)AIシステムのベンチマークに対するグレーディングシステム、(5)公開プラットフォームであるModelBenchと呼ばれる、ベンチマーク上のAIシステムの安全性を評価するために使用できるダウンロード可能なツール、(6)公開されている10以上のチャットチューニング言語モデルのパフォーマンスをベンチマークする例評価レポート、(7)ベンチマークのテスト仕様。

This paper introduces v0.5 of the AI Safety Benchmark, which has been created by the MLCommons AI Safety Working Group. The AI Safety Benchmark has been designed to assess the safety risks of AI systems that use chat-tuned language models. We introduce a principled approach to specifying and constructing the benchmark, which for v0.5 covers only a single use case (an adult chatting to a general-purpose assistant in English), and a limited set of personas (i.e., typical users, malicious users, and vulnerable users). We created a new taxonomy of 13 hazard categories, of which 7 have tests in the v0.5 benchmark. We plan to release version 1.0 of the AI Safety Benchmark by the end of 2024. The v1.0 benchmark will provide meaningful insights into the safety of AI systems. However, the v0.5 benchmark should not be used to assess the safety of AI systems. We have sought to fully document the limitations, flaws, and challenges of v0.5. This release of v0.5 of the AI Safety Benchmark includes (1) a principled approach to specifying and constructing the benchmark, which comprises use cases, types of systems under test (SUTs), language and context, personas, tests, and test items; (2) a taxonomy of 13 hazard categories with definitions and subcategories; (3) tests for seven of the hazard categories, each comprising a unique set of test items, i.e., prompts. There are 43,090 test items in total, which we created with templates; (4) a grading system for AI systems against the benchmark; (5) an openly available platform, and downloadable tool, called ModelBench that can be used to evaluate the safety of AI systems on the benchmark; (6) an example evaluation report which benchmarks the performance of over a dozen openly available chat-tuned language models; (7) a test specification for the benchmark.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# 3次元オブジェクトスケーリングによる食品のポーション推定

Food Portion Estimation via 3D Object Scaling ( http://arxiv.org/abs/2404.12257v1 )

ライセンス: Link先を確認
Gautham Vinod, Jiangpeng He, Zeman Shao, Fengqing Zhu, (参考訳) 食品画像分析のための画像ベース手法は、従来の方法に関連付けられたユーザの負担とバイアスを軽減する。 しかし、スマートフォンカメラやウェアラブルデバイスで捉えた食品の2D表現における3D情報の欠如により、正確な部分推定は依然として大きな課題である。 本稿では,食事場面における3次元食品モデルと物理参照の力を活用して,2次元画像から食品の容積とエネルギーを推定する新たな枠組みを提案する。 入力画像中のカメラと食品オブジェクトのポーズを推定し、推定されたポーズで食品の3次元モデルの画像をレンダリングすることにより、食事の機会を再現する。 また、45個の食品の2次元画像と、食品量、重量、エネルギーを含む関連アノテーションを含む新しいデータセットSimpleFood45を導入する。 本手法は, 既存の部分推定法よりも高い精度で, 31.10 kCal (17.67%) の平均誤差を実現する。

Image-based methods to analyze food images have alleviated the user burden and biases associated with traditional methods. However, accurate portion estimation remains a major challenge due to the loss of 3D information in the 2D representation of foods captured by smartphone cameras or wearable devices. In this paper, we propose a new framework to estimate both food volume and energy from 2D images by leveraging the power of 3D food models and physical reference in the eating scene. Our method estimates the pose of the camera and the food object in the input image and recreates the eating occasion by rendering an image of a 3D model of the food with the estimated poses. We also introduce a new dataset, SimpleFood45, which contains 2D images of 45 food items and associated annotations including food volume, weight, and energy. Our method achieves an average error of 31.10 kCal (17.67%) on this dataset, outperforming existing portion estimation methods.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# 概念誘導:LLooMを用いた高レベル概念を用いた非構造化テキストの解析

Concept Induction: Analyzing Unstructured Text with High-Level Concepts Using LLooM ( http://arxiv.org/abs/2404.12259v1 )

ライセンス: Link先を確認
Michelle S. Lam, Janice Teoh, James Landay, Jeffrey Heer, Michael S. Bernstein, (参考訳) データアナリストは長い間、構造化されていないテキストデータを意味のある概念にしようとしてきた。 一般的なトピックモデリングとクラスタリングは低レベルのキーワードに重点を置いており、解釈作業がかなり必要である。 本稿では、非構造化テキストから明示的な包含基準によって定義された高レベルな概念を生成する計算プロセスである概念帰納法を紹介する。 最先端のBERTopicモデルが「女性、権力、女性」を出力する有毒なオンラインコメントのデータセットでは、概念誘導は「伝統的な性役割の批判」や「女性の関心の欠如」のようなハイレベルな概念を生み出している。 本稿では,大規模言語モデルを利用してサンプルテキストを反復的に合成する概念帰納アルゴリズムLLooMを提案する。 そして、LLooMを混合開始型テキスト解析ツールでインスタンス化し、分析者がトピックの解釈から理論駆動分析への関心を移すことを可能にする。 文献レビューからコンテンツモデレーションまで,技術評価と4つの分析シナリオを通じて,LLooMのコンセプトは,品質とデータカバレッジの観点から,従来のトピックモデル技術よりも改善されていることがわかった。 専門家のケーススタディにおいて、LLooMは、例えば政治ソーシャルメディアのデータセットにおける外部のスタンスに対する攻撃について、これまで知られていなかった概念を示唆することで、研究者がよく知られたデータセットから新しい洞察を明らかにするのに役立った。

Data analysts have long sought to turn unstructured text data into meaningful concepts. Though common, topic modeling and clustering focus on lower-level keywords and require significant interpretative work. We introduce concept induction, a computational process that instead produces high-level concepts, defined by explicit inclusion criteria, from unstructured text. For a dataset of toxic online comments, where a state-of-the-art BERTopic model outputs "women, power, female," concept induction produces high-level concepts such as "Criticism of traditional gender roles" and "Dismissal of women's concerns." We present LLooM, a concept induction algorithm that leverages large language models to iteratively synthesize sampled text and propose human-interpretable concepts of increasing generality. We then instantiate LLooM in a mixed-initiative text analysis tool, enabling analysts to shift their attention from interpreting topics to engaging in theory-driven analysis. Through technical evaluations and four analysis scenarios ranging from literature review to content moderation, we find that LLooM's concepts improve upon the prior art of topic models in terms of quality and data coverage. In expert case studies, LLooM helped researchers to uncover new insights even from familiar datasets, for example by suggesting a previously unnoticed concept of attacks on out-party stances in a political social media dataset.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# 感情中心モデルを用いた顔表情認識におけるカタストロフィック・フォーミングの軽減

Alleviating Catastrophic Forgetting in Facial Expression Recognition with Emotion-Centered Models ( http://arxiv.org/abs/2404.12260v1 )

ライセンス: Link先を確認
Israel A. Laurensi, Alceu de Souza Britto Jr., Jean Paul Barddal, Alessandro Lameiras Koerich, (参考訳) 表情認識は機械学習において重要な要素であり、様々な応用を促進する。 しかし、畳み込みニューラルネットワーク(CNN)は、しばしば破滅的な忘れ込みに悩まされ、その適応性を阻害する。 感情中心型生成的リプレイ (ECgr) は, 生成的対向ネットワークから合成画像を統合することで, この課題に対処する。 さらに、ECgrには品質保証アルゴリズムが組み込まれ、生成された画像の忠実性を保証する。 この二重アプローチにより、CNNは新しいタスクを学習しながら過去の知識を保持でき、感情認識の性能を高めることができる。 4つの多様な表情データセットに対する実験結果から,擬似リハーサル法により生成されたイメージを組み込むことで,対象データセットとソースデータセットのトレーニングが促進され,CNNは従来から学んだ知識を維持していることが示された。

Facial expression recognition is a pivotal component in machine learning, facilitating various applications. However, convolutional neural networks (CNNs) are often plagued by catastrophic forgetting, impeding their adaptability. The proposed method, emotion-centered generative replay (ECgr), tackles this challenge by integrating synthetic images from generative adversarial networks. Moreover, ECgr incorporates a quality assurance algorithm to ensure the fidelity of generated images. This dual approach enables CNNs to retain past knowledge while learning new tasks, enhancing their performance in emotion recognition. The experimental results on four diverse facial expression datasets demonstrate that incorporating images generated by our pseudo-rehearsal method enhances training on the targeted dataset and the source dataset while making the CNN retain previously learned knowledge.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# 減衰平面正規化フローに基づく変分オートエンコーダを用いた物理積分生成モデル

Physics-integrated generative modeling using attentive planar normalizing flow based variational autoencoder ( http://arxiv.org/abs/2404.12267v1 )

ライセンス: Link先を確認
Sheikh Waqas Akhtar, (参考訳) 物理積分生成モデリング(英: Physics-integrated Generative Modeling)は、データ分散を管理する物理知識によって、データ駆動モデルを強化するハイブリッドまたはグレーボックスモデリングのクラスである。 物理知識の使用により、生成モデルは制御された方法で出力を生成することができ、構成により、出力は物理法則に準拠する。 モデルの一部が堅固なドメイン知識に基礎を置いているため、トレーニング分布を超えて外挿する一般化能力の向上に加えて、解釈可能性の向上も与えている。 本研究では,物理統合生成モデルにおける再構成の忠実さと雑音に対する堅牢性を改善することを目的としている。 この目的のために、我々は変分オートエンコーダを生成モデルとして使用しています。 復号器の再構成結果を改善するために,平面正規化流を用いて物理とトレーニング可能なデータ駆動コンポーネントの両方の潜時後部分布を学習することを提案する。 正規化フローに基づく後部分布は、データ分布の固有な動的構造を利用するため、学習されたモデルは真の基礎となるデータ分布に近づく。 モデルに注入されたノイズに対する生成モデルのロバスト性を改善するため,正規化フローベースVAEのエンコーダ部分の変更を提案する。 このエンコーダは,遅延ベクトルにおける雑音の悪影響を軽減し,モデルをより堅牢にするために,スケールドドット製品の注意に基づくコンテキスト情報を雑音潜在ベクトルに組み込むように設計されている。 実験により,人間の移動データセット[33]をモデルとして評価し,提案モデルの有効性を再現性の向上と,モデルに注入された騒音に対する頑健性の観点から検証した。

Physics-integrated generative modeling is a class of hybrid or grey-box modeling in which we augment the the data-driven model with the physics knowledge governing the data distribution. The use of physics knowledge allows the generative model to produce output in a controlled way, so that the output, by construction, complies with the physical laws. It imparts improved generalization ability to extrapolate beyond the training distribution as well as improved interpretability because the model is partly grounded in firm domain knowledge. In this work, we aim to improve the fidelity of reconstruction and robustness to noise in the physics integrated generative model. To this end, we use variational-autoencoder as a generative model. To improve the reconstruction results of the decoder, we propose to learn the latent posterior distribution of both the physics as well as the trainable data-driven components using planar normalizng flow. Normalizng flow based posterior distribution harnesses the inherent dynamical structure of the data distribution, hence the learned model gets closer to the true underlying data distribution. To improve the robustness of generative model against noise injected in the model, we propose a modification in the encoder part of the normalizing flow based VAE. We designed the encoder to incorporate scaled dot product attention based contextual information in the noisy latent vector which will mitigate the adverse effect of noise in the latent vector and make the model more robust. We empirically evaluated our models on human locomotion dataset [33] and the results validate the efficacy of our proposed models in terms of improvement in reconstruction quality as well as robustness against noise injected in the model.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# 人口多様性がクロスオーバーの効率に与える影響

How Population Diversity Influences the Efficiency of Crossover ( http://arxiv.org/abs/2404.12268v1 )

ライセンス: Link先を確認
Sacha Cerf, Johannes Lengler, (参考訳) クロスオーバーに関する理論的理解は、人口の多様性がどのように進化するかを分析する能力によって制限される。 本研究では,人口の多様性と最適化時間の厳密な分析を行った最初の事例の一つとして,人口の多様性と人口の大規模化が要求される状況について紹介する。 我々は,$(\mu+1)$ Genetic Algorithm on LeadingOnesをスピードアップするのに,多様性の量が必要な形式的かつ一般的な基準を与える。 自然に進化する多様性は、任意の$\mu=O(\sqrt{n}/\log^2 n)$に対して実質的なスピードアップを与えるに足らないことを示す。 一方、$\mu=2$であっても、単に多様性を優先して関係を断ち切れば、これは多様性を増大させ、定数係数によって最適化が加速されることを示す。

Our theoretical understanding of crossover is limited by our ability to analyze how population diversity evolves. In this study, we provide one of the first rigorous analyses of population diversity and optimization time in a setting where large diversity and large population sizes are required to speed up progress. We give a formal and general criterion which amount of diversity is necessary and sufficient to speed up the $(\mu+1)$ Genetic Algorithm on LeadingOnes. We show that the naturally evolving diversity falls short of giving a substantial speed-up for any $\mu=O(\sqrt{n}/\log^2 n)$. On the other hand, we show that even for $\mu=2$, if we simply break ties in favor of diversity then this increases diversity so much that optimization is accelerated by a constant factor.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# バリデータの検証 : 人選好によるLCM評価の調整

Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences ( http://arxiv.org/abs/2404.12272v1 )

ライセンス: Link先を確認
Shreya Shankar, J. D. Zamfirescu-Pereira, Björn Hartmann, Aditya G. Parameswaran, Ian Arawjo, (参考訳) 人間の評価の厄介な性質とコードに基づく評価の限界のため、LLM(Large Language Models)は、LLM出力の評価において、人間を支援するためにますます使われてきている。 しかし、LCMの生成した評価器は、評価するLCMのすべての問題を継承するだけで、さらなる人間による検証が必要である。 LLMが生成する評価関数(プロンプトやコードなど)を人間の要求と整合させる。 私たちのインターフェースであるEvalGenは、評価基準の生成やアサーションの実装において、ユーザに自動支援を提供します。 候補実装(Python関数、LLMグレーダのプロンプト)を生成する一方で、EvalGenは人間にLLM出力のサブセットをグレードするように求めている。 質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。 特に、我々は「emph{criteria drift}」という現象を識別する: ユーザーは出力を格付けする基準を必要とするが、出力を格付けすることは、ユーザーが基準を定義するのに役立つ。 さらに、ある基準は、観測された特定の LLM 出力に対して \emph{dependent} として現れる(「emph{a priori} 」と定義できる独立した基準ではなく)。 本稿では,インターフェースと実装の詳細,ベースラインアプローチとの比較,将来のLCM評価アシスタントの設計への意味について述べる。

Due to the cumbersome nature of human evaluation and limitations of code-based evaluation, Large Language Models (LLMs) are increasingly being used to assist humans in evaluating LLM outputs. Yet LLM-generated evaluators simply inherit all the problems of the LLMs they evaluate, requiring further human validation. We present a mixed-initiative approach to ``validate the validators'' -- aligning LLM-generated evaluation functions (be it prompts or code) with human requirements. Our interface, EvalGen, provides automated assistance to users in generating evaluation criteria and implementing assertions. While generating candidate implementations (Python functions, LLM grader prompts), EvalGen asks humans to grade a subset of LLM outputs; this feedback is used to select implementations that better align with user grades. A qualitative study finds overall support for EvalGen but underscores the subjectivity and iterative process of alignment. In particular, we identify a phenomenon we dub \emph{criteria drift}: users need criteria to grade outputs, but grading outputs helps users define criteria. What is more, some criteria appears \emph{dependent} on the specific LLM outputs observed (rather than independent criteria that can be defined \emph{a priori}), raising serious questions for approaches that assume the independence of evaluation from observation of model outputs. We present our interface and implementation details, a comparison of our algorithm with a baseline approach, and implications for the design of future LLM evaluation assistants.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# FedEval-LLM:集団知恵を有する下流タスクにおける大規模言語モデルのフェデレーション評価

FedEval-LLM: Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom ( http://arxiv.org/abs/2404.12273v1 )

ライセンス: Link先を確認
Yuanqin He, Yan Kang, Lixin Fan, Qiang Yang, (参考訳) Federated Learning(FL)は,大規模言語モデル(LLM)の協調トレーニングのための,有望なソリューションとして登場した。 しかし, LLM のFLへの統合には新たな課題, 特に LLM の評価が伴う。 ラベル付きテストセットと類似度に基づくメトリクスに依存する従来の評価手法は、許容できる答えのサブセットのみをカバーし、それによって、生成タスクにおけるLLMのパフォーマンスを正確に反映することができない。 一方,高度なLCMを利用する自動評価手法では,外部サーバへのデータ送信や,ドメイン知識の欠如による下流タスクにおける最適性能の低下などにより,データ漏洩の重大なリスクに直面している。 これらの問題に対処するため,FedEval-LLMという大規模言語モデルのフェデレート評価フレームワークを提案する。 FedEval-LLMは、参加者からレフェリーとしてパーソナライズされたLLMのコンソーシアムを利用して、ドメイン知識と集合評価能力を提供し、それぞれの下流タスクに整合し、単一のレフェリーに関連する不確実性とバイアスを軽減する。 実験の結果,下流タスクにおけるパーソナライズされた評価モデルの評価能力は大幅に向上した。 FLに適用した場合、これらの評価モデルは、厳密にキュレートされたテストセット上で、ヒトの嗜好とルージュLスコアとの強い一致を示す。 FedEval-LLMは、従来のメトリクスの制限と外部サービスへの依存を効果的に克服し、共同トレーニングシナリオにおけるLLMの評価のための有望なフレームワークとなる。

Federated Learning (FL) has emerged as a promising solution for collaborative training of large language models (LLMs). However, the integration of LLMs into FL introduces new challenges, particularly concerning the evaluation of LLMs. Traditional evaluation methods that rely on labeled test sets and similarity-based metrics cover only a subset of the acceptable answers, thereby failing to accurately reflect the performance of LLMs on generative tasks. Meanwhile, although automatic evaluation methods that leverage advanced LLMs present potential, they face critical risks of data leakage due to the need to transmit data to external servers and suboptimal performance on downstream tasks due to the lack of domain knowledge. To address these issues, we propose a Federated Evaluation framework of Large Language Models, named FedEval-LLM, that provides reliable performance measurements of LLMs on downstream tasks without the reliance on labeled test sets and external tools, thus ensuring strong privacy-preserving capability. FedEval-LLM leverages a consortium of personalized LLMs from participants as referees to provide domain knowledge and collective evaluation capability, thus aligning to the respective downstream tasks and mitigating uncertainties and biases associated with a single referee. Experimental results demonstrate a significant improvement in the evaluation capability of personalized evaluation models on downstream tasks. When applied to FL, these evaluation models exhibit strong agreement with human preference and RougeL-score on meticulously curated test sets. FedEval-LLM effectively overcomes the limitations of traditional metrics and the reliance on external services, making it a promising framework for the evaluation of LLMs within collaborative training scenarios.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# 自己認識型平滑化による大規模言語モデルのロバスト性向上

Advancing the Robustness of Large Language Models through Self-Denoised Smoothing ( http://arxiv.org/abs/2404.12274v1 )

ライセンス: Link先を確認
Jiabao Ji, Bairu Hou, Zhen Zhang, Guanhua Zhang, Wenqi Fan, Qing Li, Yang Zhang, Gaowen Liu, Sijia Liu, Shiyu Chang, (参考訳) 大きな言語モデル(LLM)は大きな成功を収めているが、最近のジェイルブレイク攻撃を含む敵の摂動に対する脆弱性は、かなりの懸念を引き起こしている。 しかし、これらのモデルのサイズが増大し、アクセスが制限されるため、堅牢性の向上は難しい課題である。 様々な防衛戦略の中で、ランダム化された平滑化は、モデルのパラメータへの完全なアクセスや、敵の訓練による微調整を必要としないため、LLMにとって大きな可能性を示している。 しかし、ランダム化された平滑化は、モデル予測の前に入力にノイズを加えることを含み、最終モデルの堅牢性は、これらのノイズの破損したデータに対するモデルの性能に大きく依存する。 その効果は、しばしばノイズの多いデータに対するモデルの準最適性能によって制限される。 この問題に対処するために,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行うことを提案する。 私たちはこの手順を自己否定的平滑化(self-denoized smoothing)と呼んでいる。 LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。 実験の結果,本手法は,ダウンストリームタスクと人的アライメント(ジェイルブレイク攻撃)の双方に対する敵攻撃に対する防御において,実証的および証明されたロバスト性の両方において既存の手法を超越していることがわかった。 私たちのコードはhttps://github.com/UCSB-NLP-Chang/SelfDenoiseで公開されています。

Although large language models (LLMs) have achieved significant success, their vulnerability to adversarial perturbations, including recent jailbreak attacks, has raised considerable concerns. However, the increasing size of these models and their limited access make improving their robustness a challenging task. Among various defense strategies, randomized smoothing has shown great potential for LLMs, as it does not require full access to the model's parameters or fine-tuning via adversarial training. However, randomized smoothing involves adding noise to the input before model prediction, and the final model's robustness largely depends on the model's performance on these noise corrupted data. Its effectiveness is often limited by the model's sub-optimal performance on noisy data. To address this issue, we propose to leverage the multitasking nature of LLMs to first denoise the noisy inputs and then to make predictions based on these denoised versions. We call this procedure self-denoised smoothing. Unlike previous denoised smoothing techniques in computer vision, which require training a separate model to enhance the robustness of LLMs, our method offers significantly better efficiency and flexibility. Our experimental results indicate that our method surpasses existing methods in both empirical and certified robustness in defending against adversarial attacks for both downstream tasks and human alignments (i.e., jailbreak attacks). Our code is publicly available at https://github.com/UCSB-NLP-Chang/SelfDenoise
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# PINNにおける適応的座標点サンプリングのための案内情報の検討

Investigating Guiding Information for Adaptive Collocation Point Sampling in PINNs ( http://arxiv.org/abs/2404.12282v1 )

ライセンス: Link先を確認
Jose Florido, He Wang, Amirul Khan, Peter K. Jimack, (参考訳) 物理情報ニューラルネットワーク(PINN)は、領域内のコロケーション点の集合における残関数の評価を含む目的関数の最小化を通じて、偏微分方程式と系の近似解を得る手段を提供する。 PINNの解の質は、これらのコロケーション点の数や分布を含む多くのパラメータに依存する。 本稿では,これらの点を選択し,それらの点が全体の精度に与える影響について検討する。 特に, 一つのアプローチが「最適」である可能性は低いことを示唆するが, 多くの重要な指標が, 一定数の残差評価を用いて得られる結果の品質向上にどのように影響するかを示す。 バーガースの方程式とアレン・カーン方程式の2つのベンチマークテスト問題を用いてこれらの手法を説明する。

Physics-informed neural networks (PINNs) provide a means of obtaining approximate solutions of partial differential equations and systems through the minimisation of an objective function which includes the evaluation of a residual function at a set of collocation points within the domain. The quality of a PINNs solution depends upon numerous parameters, including the number and distribution of these collocation points. In this paper we consider a number of strategies for selecting these points and investigate their impact on the overall accuracy of the method. In particular, we suggest that no single approach is likely to be ``optimal'' but we show how a number of important metrics can have an impact in improving the quality of the results obtained when using a fixed number of residual evaluations. We illustrate these approaches through the use of two benchmark test problems: Burgers' equation and the Allen-Cahn equation.
翻訳日:2024-04-19 19:02:00 公開日:2024-04-18
# Debiased Distribution Compression

Debiased Distribution Compression ( http://arxiv.org/abs/2404.12290v1 )

ライセンス: Link先を確認
Lingxiao Li, Raaz Dwivedi, Lester Mackey, (参考訳) 現代の圧縮法では、ターゲット分布 $\mathbb{P}$ をサンプリングよりも簡潔に要約することができるが、マルコフ連鎖のような低バイアスの入力シーケンスへのアクセスは、$\mathbb{P}$ に素早く収束する。 本稿では, バイアス入力シーケンスによる圧縮に適した新しい圧縮手法を提案する。 間違った分布と二次時間をターゲットにした$n$ポイントが与えられたとき、スタイン・ケルネル・シンニング(SKT)は$\sqrt{n}=$$\widetilde{O}(n^{-1/2})$max mean discrepancy (MMD)を$\mathbb {P}$に戻す。 大規模圧縮タスクでは、低ランクSKTは、独立した関心を持つ可能性のある適応型低ランクデバイアス処理を用いて、サブクアクラティック時間で同じ偉業を達成する。 SKT の保証を $\operatorname{poly-log}(n)$ weighted points と同等にすることで,Stein Recombination と Stein Cholesky はさらにパーシモニーを実現している。 これらの進歩の下には、単純重み付きコアセットの品質、カーネル行列のスペクトル減衰、およびスタイン核ヒルベルト空間の被覆数に対する新しい保証がある。 実験では, 燃焼イン, 近似マルコフ連鎖モンテカルロ, テンパリングによるバイアスを克服しつつ, 簡潔かつ正確な後続サマリーを提供する。

Modern compression methods can summarize a target distribution $\mathbb{P}$ more succinctly than i.i.d. sampling but require access to a low-bias input sequence like a Markov chain converging quickly to $\mathbb{P}$. We introduce a new suite of compression methods suitable for compression with biased input sequences. Given $n$ points targeting the wrong distribution and quadratic time, Stein Kernel Thinning (SKT) returns $\sqrt{n}$ equal-weighted points with $\widetilde{O}(n^{-1/2})$ maximum mean discrepancy (MMD) to $\mathbb {P}$. For larger-scale compression tasks, Low-rank SKT achieves the same feat in sub-quadratic time using an adaptive low-rank debiasing procedure that may be of independent interest. For downstream tasks that support simplex or constant-preserving weights, Stein Recombination and Stein Cholesky achieve even greater parsimony, matching the guarantees of SKT with as few as $\operatorname{poly-log}(n)$ weighted points. Underlying these advances are new guarantees for the quality of simplex-weighted coresets, the spectral decay of kernel matrices, and the covering numbers of Stein kernel Hilbert spaces. In our experiments, our techniques provide succinct and accurate posterior summaries while overcoming biases due to burn-in, approximate Markov chain Monte Carlo, and tempering.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# 大規模言語モデリングによる皮肉検出における感情特徴の増強

Augmenting emotion features in irony detection with Large language modeling ( http://arxiv.org/abs/2404.12291v1 )

ライセンス: Link先を確認
Yucheng Lin, Yuhan Xia, Yunfei Long, (参考訳) そこで本研究では,感情中心のテキスト強化を促進するために,大規模言語モデル(LLM)を即時学習で適用する,新たな皮肉検出手法を提案する。 伝統的な皮肉検出技術は、静的言語的特徴や事前定義された知識ベースに依存しているため、しばしば、皮肉に不可欠な微妙な感情的な次元を見落としているため、一般的には不足している。 対照的に,本手法は,LLMを通した微妙な感情的手がかりを,皮肉検出の基礎として広く認識されている3つのベンチマークNLPモデル(BERT,T5,GPT-2)に統合することにより,検出プロセスを増強する。 本手法をSemEval-2018 Task 3データセットを用いて評価し,皮肉検出能力の大幅な向上について検討した。

This study introduces a novel method for irony detection, applying Large Language Models (LLMs) with prompt-based learning to facilitate emotion-centric text augmentation. Traditional irony detection techniques typically fall short due to their reliance on static linguistic features and predefined knowledge bases, often overlooking the nuanced emotional dimensions integral to irony. In contrast, our methodology augments the detection process by integrating subtle emotional cues, augmented through LLMs, into three benchmark pre-trained NLP models - BERT, T5, and GPT-2 - which are widely recognized as foundational in irony detection. We assessed our method using the SemEval-2018 Task 3 dataset and observed substantial enhancements in irony detection capabilities.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# floZ:正規化流を用いた後部試料からの証拠推定

floZ: Evidence estimation from posterior samples with normalizing flows ( http://arxiv.org/abs/2404.12294v1 )

ライセンス: Link先を確認
Rahul Srinivasan, Marco Crisostomi, Roberto Trotta, Enrico Barausse, Matteo Breschi, (参考訳) 本研究では,非正規化後分布から抽出したサンプル群からベイズ証拠(およびその数値的不確実性)を推定するための,正規化フローに基づく新しい手法(floZ)を提案する。 解析的に証拠が知られている分布について検証し、最大15個のパラメータ空間次元を推定し、その証拠を推定する2つの最先端技術と比較する。 提案手法は,特に高次元のシャープな特徴を有する後部分布に対して,より堅牢である。 例えば、変分推論、マルコフ連鎖モンテカルロサンプル、あるいは非正規化後密度からサンプルを届ける他の方法から証拠を推定する。

We propose a novel method (floZ), based on normalizing flows, for estimating the Bayesian evidence (and its numerical uncertainty) from a set of samples drawn from the unnormalized posterior distribution. We validate it on distributions whose evidence is known analytically, up to 15 parameter space dimensions, and compare with two state-of-the-art techniques for estimating the evidence: nested sampling (which computes the evidence as its main target) and a k-nearest-neighbors technique that produces evidence estimates from posterior samples. Provided representative samples from the target posterior are available, our method is more robust to posterior distributions with sharp features, especially in higher dimensions. It has wide applicability, e.g., to estimate the evidence from variational inference, Markov-chain Monte Carlo samples, or any other method that delivers samples from the unnormalized posterior density.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# 距離言語ペアにおける大規模言語モデルによる同時解釈コーパスの構築

Simultaneous Interpretation Corpus Construction by Large Language Models in Distant Language Pair ( http://arxiv.org/abs/2404.12299v1 )

ライセンス: Link先を確認
Yusuke Sakai, Mana Makinae, Hidetaka Kamigaito, Taro Watanabe, (参考訳) 同時機械翻訳(SiMT)システムにおいて、SIコーパスを用いた訓練は高品質で低レイテンシなシステムを実現する効果的な方法である。 しかし、アノテータの能力に限界があるため、そのようなコーパスをキュレートすることは極めて困難であり、既存のSIコーパスは限られている。 そこで本稿では,既存の音声翻訳コーパスを解釈型データに変換し,元の単語順を維持し,Large Language Models (LLM-SI-Corpus) を用いてソースコンテンツ全体を保存する手法を提案する。 LLM-SI-Corpusを用いたテキスト・テキスト・音声・テキスト設定における微調整SiMTモデルは、オフラインデータセットでトレーニングされたモデルと同じ品質を維持しながら、レイテンシを低減できることを実証する。 LLM-SI-Corpus は \url{https://github.com/yusuke 1997/LLM-SI-Corpus} で利用可能である。

In Simultaneous Machine Translation (SiMT) systems, training with a simultaneous interpretation (SI) corpus is an effective method for achieving high-quality yet low-latency systems. However, it is very challenging to curate such a corpus due to limitations in the abilities of annotators, and hence, existing SI corpora are limited. Therefore, we propose a method to convert existing speech translation corpora into interpretation-style data, maintaining the original word order and preserving the entire source content using Large Language Models (LLM-SI-Corpus). We demonstrate that fine-tuning SiMT models in text-to-text and speech-to-text settings with the LLM-SI-Corpus reduces latencies while maintaining the same level of quality as the models trained with offline datasets. The LLM-SI-Corpus is available at \url{https://github.com/yusuke1997/LLM-SI-Corpus}.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# ニューラルグラディエントDescent-Ascentの平均場解析:関数条件モーメント方程式への応用

A Mean-Field Analysis of Neural Gradient Descent-Ascent: Applications to Functional Conditional Moment Equations ( http://arxiv.org/abs/2404.12312v1 )

ライセンス: Link先を確認
Yuchen Zhu, Yufeng Zhang, Zhaoran Wang, Zhuoran Yang, Xiaohong Chen, (参考訳) 無限次元関数クラス上で定義されるミニマックス最適化問題について検討する。 特に、過パラメータ化された2層ニューラルネットワークのクラスに関数を制限し、研究する。 i)勾配降下指数アルゴリズムの収束と (II)ニューラルネットワークの表現学習 最初のステップとして、目的関数が函数空間において二次的であるような対数推定によって条件付き期待によって定義される関数方程式を推定することから生じるミニマックス最適化問題を考察する。 この問題に対して、最適化力学の連続時間および無限幅極限を考慮し、平均場状態下で収束を確立する。 この状態下では、勾配勾配上昇は、ニューラルネットワークパラメータの空間上で定義された確率測度の空間上のワッサーシュタイン勾配の流れに対応する。 ワッサーシュタイン勾配流は、$\mathcal{O}(T^{-1} + \alpha^{-1} ) $ sublinear rate でミニマックス対象の定常点に大域的に収束し、さらに、ミニマックス対象の正則化が強い凸であるときに函数方程式の解を求める。 ここで$T$は時間を表し、$\alpha$はニューラルネットワークのスケーリングパラメータである。 表現学習では,ニューラルネットワークによって誘導される特徴表現は,ワッサーシュタイン距離で測定された$\mathcal{O}(\alpha^{-1})$で初期表現から逸脱することが許されている。 最後に、政策評価、非パラメトリック機器変数回帰、資産価格などの具体例に適用する。

We study minimax optimization problems defined over infinite-dimensional function classes. In particular, we restrict the functions to the class of overparameterized two-layer neural networks and study (i) the convergence of the gradient descent-ascent algorithm and (ii) the representation learning of the neural network. As an initial step, we consider the minimax optimization problem stemming from estimating a functional equation defined by conditional expectations via adversarial estimation, where the objective function is quadratic in the functional space. For this problem, we establish convergence under the mean-field regime by considering the continuous-time and infinite-width limit of the optimization dynamics. Under this regime, gradient descent-ascent corresponds to a Wasserstein gradient flow over the space of probability measures defined over the space of neural network parameters. We prove that the Wasserstein gradient flow converges globally to a stationary point of the minimax objective at a $\mathcal{O}(T^{-1} + \alpha^{-1} ) $ sublinear rate, and additionally finds the solution to the functional equation when the regularizer of the minimax objective is strongly convex. Here $T$ denotes the time and $\alpha$ is a scaling parameter of the neural network. In terms of representation learning, our results show that the feature representation induced by the neural networks is allowed to deviate from the initial one by the magnitude of $\mathcal{O}(\alpha^{-1})$, measured in terms of the Wasserstein distance. Finally, we apply our general results to concrete examples including policy evaluation, nonparametric instrumental variable regression, and asset pricing.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# 電子カルテ生成のためのガイド付き離散拡散

Guided Discrete Diffusion for Electronic Health Record Generation ( http://arxiv.org/abs/2404.12314v1 )

ライセンス: Link先を確認
Zixiang Chen, Jun Han, Yongqian Li, Yiwen Kou, Eran Halperin, Robert E. Tillman, Quanquan Gu, (参考訳) EHR(Electronic Health Record)は、計算医学、病気の進行予測、臨床試験設計、健康経済学と成果研究など、多くの応用を可能にする中心的なデータソースである。 幅広いユーザビリティにもかかわらず、その繊細な性質はプライバシーと秘密の懸念を高め、潜在的なユースケースを制限する。 これらの課題に対処するために,人工的かつ現実的なEHRを合成するための生成モデルの利用について検討する。 拡散法は近年,他のデータモダリティの生成や,従来のGANベースのアプローチを悩ませるトレーニング不安定性やモード崩壊問題に克服する上で,最先端のパフォーマンスを実証している。 EHRにおける表型医療コードデータの離散的性質は、特に連続拡散モデルにおいて、高品質なデータ生成に課題をもたらす。 そこで本研究では, 離散拡散モデルを用いた非条件および条件付き生成が可能な新しい表付きEHR生成手法であるEHR-D3PMを提案する。 EHR-D3PMは, 包括的信頼度と実用性指標において, 既存の生成基準を著しく上回り, メンバーシップの脆弱性リスクの低減を図っている。 さらに,EHR-D3PMはデータ拡張手法として有効であり,実データと組み合わせることで下流タスクの性能を向上させることを示す。

Electronic health records (EHRs) are a pivotal data source that enables numerous applications in computational medicine, e.g., disease progression prediction, clinical trial design, and health economics and outcomes research. Despite wide usability, their sensitive nature raises privacy and confidentially concerns, which limit potential use cases. To tackle these challenges, we explore the use of generative models to synthesize artificial, yet realistic EHRs. While diffusion-based methods have recently demonstrated state-of-the-art performance in generating other data modalities and overcome the training instability and mode collapse issues that plague previous GAN-based approaches, their applications in EHR generation remain underexplored. The discrete nature of tabular medical code data in EHRs poses challenges for high-quality data generation, especially for continuous diffusion models. To this end, we introduce a novel tabular EHR generation method, EHR-D3PM, which enables both unconditional and conditional generation using the discrete diffusion model. Our experiments demonstrate that EHR-D3PM significantly outperforms existing generative baselines on comprehensive fidelity and utility metrics while maintaining less membership vulnerability risks. Furthermore, we show EHR-D3PM is effective as a data augmentation method and enhances performance on downstream tasks when combined with real data.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# 共有自動移動システムの合成参加計画のための大規模言語モデル

Large Language Models for Synthetic Participatory Planning of Shared Automated Electric Mobility Systems ( http://arxiv.org/abs/2404.12317v1 )

ライセンス: Link先を確認
Jiangbo Yu, (参考訳) 都市交通問題に対処するためのユニークな課題と機会を、マルチステークホルダーのランドスケープにおいて、急速に発展するモビリティ技術のシナジーを解き放つ。 本稿では,多種多様な利害関係者を代表するデジタルアバターを作成するために,大規模言語モデル(LLM)を批判的に活用し,共有電気移動システム(SAEMS)を計画する,新しい合成参加方式を提案する。 これらの調整可能なエージェントは、目標を共同で識別し、SAEMS代替案を構想し、評価し、リスクと制約の下で実施をストラテジズする。 モントリオールのケーススタディの結果、構造化されたパラメータ化されたワークフローは、単一のLSM対応の専門家エージェントを用いて生成されたものよりも、SAEMS計画に対して高い制御性と包括性を備えた出力を提供することが示された。 その結果、多目的輸送計画の傾きと解釈可能性を向上させるためのコスト効率向上のための有望な方法が提案され、持続可能な輸送システムの構想と戦略のパラダイムシフトが示唆された。

Unleashing the synergies of rapidly evolving mobility technologies in a multi-stakeholder landscape presents unique challenges and opportunities for addressing urban transportation problems. This paper introduces a novel synthetic participatory method, critically leveraging large language models (LLMs) to create digital avatars representing diverse stakeholders to plan shared automated electric mobility systems (SAEMS). These calibratable agents collaboratively identify objectives, envision and evaluate SAEMS alternatives, and strategize implementation under risks and constraints. The results of a Montreal case study indicate that a structured and parameterized workflow provides outputs with high controllability and comprehensiveness on an SAEMS plan than generated using a single LLM-enabled expert agent. Consequently, the approach provides a promising avenue for cost-efficiently improving the inclusivity and interpretability of multi-objective transportation planning, suggesting a paradigm shift in how we envision and strategize for sustainable and equitable transportation systems.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# コンディショナル・フェイス・ワープによる一般化可能な顔ランドマーク

Generalizable Face Landmarking Guided by Conditional Face Warping ( http://arxiv.org/abs/2404.12322v1 )

ライセンス: Link先を確認
Jiayi Liang, Haotian Liu, Hongteng Xu, Dixin Luo, (参考訳) 人間の顔のモデリング、編集、生成の重要なステップとして、顔のランドマークは、画像から顔のキーポイントを抽出することを目的としている。 現実の顔画像、例えばアニメーションやゲームにおけるアバターは、様々な方法でスタイル化されているため、現実には一般化可能な顔ランドマークが必要である。 しかし、顔のスタイルの多様性とラベル付き顔の不足により、一般化可能な顔のランドマーク化は困難である。 本研究では,ラベル付き実顔とラベル付きスタイリングされていない顔に基づいて,一般化可能な顔ランドマークを学習するための,シンプルで効果的なパラダイムを提案する。 本手法は条件付きフェースワーナーのキーモジュールとして顔ランドマークを学習する。 一対のリアルかつスタイリッシュな顔画像が与えられた場合、条件付き顔ワーパーは、実際の顔からスタイリッシュな顔へのワープフィールドを予測し、顔ランドマークがワープフィールドの終点を予測し、対応するスタイリッシュな顔画像に対して高品質な擬似ランドマークを提供する。 交互に最適化戦略を適用することで、顔ランドマークを最小化するためにi)スタイリングされた顔と歪んだ実物との相違とii)実際のランドマークと擬似ランドマークの両方の予測エラーについて学習する。 種々のデータセットを用いた実験により,本手法は顔のランドマーク化タスクにおいて,既存の最先端ドメイン適応手法よりも優れており,より一般化可能な顔ランドマークが得られた。 コードはhttps://plustwo0.github.io/project-face-landmarker}{https://plustwo0.github.io/project-face-landmarkerで入手できる。

As a significant step for human face modeling, editing, and generation, face landmarking aims at extracting facial keypoints from images. A generalizable face landmarker is required in practice because real-world facial images, e.g., the avatars in animations and games, are often stylized in various ways. However, achieving generalizable face landmarking is challenging due to the diversity of facial styles and the scarcity of labeled stylized faces. In this study, we propose a simple but effective paradigm to learn a generalizable face landmarker based on labeled real human faces and unlabeled stylized faces. Our method learns the face landmarker as the key module of a conditional face warper. Given a pair of real and stylized facial images, the conditional face warper predicts a warping field from the real face to the stylized one, in which the face landmarker predicts the ending points of the warping field and provides us with high-quality pseudo landmarks for the corresponding stylized facial images. Applying an alternating optimization strategy, we learn the face landmarker to minimize $i)$ the discrepancy between the stylized faces and the warped real ones and $ii)$ the prediction errors of both real and pseudo landmarks. Experiments on various datasets show that our method outperforms existing state-of-the-art domain adaptation methods in face landmarking tasks, leading to a face landmarker with better generalizability. Code is available at https://plustwo0.github.io/project-face-landmarker}{https://plustwo0.github.io/project-face-landmarker.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# 標準画像とビデオコーデックを用いたディープビジョン性能の展望

A Perspective on Deep Vision Performance with Standard Image and Video Codecs ( http://arxiv.org/abs/2404.12330v1 )

ライセンス: Link先を確認
Christoph Reich, Oliver Hahn, Daniel Cremers, Stefan Roth, Biplob Debnath, (参考訳) エッジデバイスや携帯電話などのリソース制約のあるハードウェアは、ディープビジョンモデルにおける推論に必要な計算リソースを提供するために、クラウドサーバーに依存していることが多い。 しかし、エッジやモバイルデバイスからクラウドサーバに画像やビデオデータを転送するには、ネットワークの制約に対処するコーディングが必要である。 JPEGやH.264のような標準化されたコーデックの使用は一般的であり、相互運用性を確保するために必要である。 本稿では,ディープビジョンパイプラインにおける標準化コーデックの導入がもたらす意味について検討する。 JPEGとH.264の符号化により、幅広い視覚タスクやモデルにおける精度が大幅に低下することがわかった。 例えば、強い圧縮速度は、mIoUのセマンティックセグメンテーションの精度を80%以上削減する。 従来の知見とは対照的に,我々の分析は画像や行動の分類を超えて,局所化や密集予測タスクにまで及んでいるため,より包括的な視点を提供することができる。

Resource-constrained hardware, such as edge devices or cell phones, often rely on cloud servers to provide the required computational resources for inference in deep vision models. However, transferring image and video data from an edge or mobile device to a cloud server requires coding to deal with network constraints. The use of standardized codecs, such as JPEG or H.264, is prevalent and required to ensure interoperability. This paper aims to examine the implications of employing standardized codecs within deep vision pipelines. We find that using JPEG and H.264 coding significantly deteriorates the accuracy across a broad range of vision tasks and models. For instance, strong compression rates reduce semantic segmentation accuracy by more than 80% in mIoU. In contrast to previous findings, our analysis extends beyond image and action classification to localization and dense prediction tasks, thus providing a more comprehensive perspective.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# 大規模言語モデルによる規範的要件の運用

Normative Requirements Operationalization with Large Language Models ( http://arxiv.org/abs/2404.12335v1 )

ライセンス: Link先を確認
Nick Feng, Lina Marsso, S. Getir Yaman, Isobel Standen, Yesugen Baatartogtokh, Reem Ayad, Victória Oldemburgo de Mello, Bev Townsend, Hanne Bartels, Ana Cavalcanti, Radu Calinescu, Marsha Chechik, (参考訳) 規範的な非機能要件は、社会的、法的、倫理的、共感的、文化的規範の違反を避けるために、システムが観察しなければならない制約を規定する。 これらの要件は一般的に、異なる専門知識や優先順位を持つ非技術者の利害関係者(倫理学者、弁護士、社会科学者など)によって定義されるため、その整合性と一貫性の確保は非常に困難である。 近年の研究では、規則として規範的要件を規定するためにドメイン固有の言語を使用して、一貫性を形式的なメソッドで分析できるという課題に対処している。 本稿では,システム機能の抽象表現間の意味的関係を抽出するために,大規模言語モデルを用いた補完的アプローチを提案する。 これらの関係は、しばしば非技術的利害関係者(例えば、常識やドメイン知識に基づいて)によって暗黙的に仮定され、規範的要求の一貫性を引き出して分析するための自動推論技術を強化するために使用される。 実世界のケーススタディを通じて,規範的要件の導出と運用へのアプローチの有効性を示す。

Normative non-functional requirements specify constraints that a system must observe in order to avoid violations of social, legal, ethical, empathetic, and cultural norms. As these requirements are typically defined by non-technical system stakeholders with different expertise and priorities (ethicists, lawyers, social scientists, etc.), ensuring their well-formedness and consistency is very challenging. Recent research has tackled this challenge using a domain-specific language to specify normative requirements as rules whose consistency can then be analysed with formal methods. In this paper, we propose a complementary approach that uses Large Language Models to extract semantic relationships between abstract representations of system capabilities. These relations, which are often assumed implicitly by non-technical stakeholders (e.g., based on common sense or domain knowledge), are then used to enrich the automated reasoning techniques for eliciting and analyzing the consistency of normative requirements. We show the effectiveness of our approach to normative requirements elicitation and operationalization through a range of real-world case studies.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# 散逸相および非エルミート相転移における断熱変換

Adiabatic Transformations in Dissipative and Non-Hermitian Phase Transitions ( http://arxiv.org/abs/2404.12337v1 )

ライセンス: Link先を確認
Pavel Orlov, Georgy V. Shlyapnikov, Denis V. Kurlov, (参考訳) 量子幾何学テンソルは、孤立量子系における平衡相転移の解析と検出のための一般的な枠組みとして確立されている。 非エルミート量子系における相転移の研究に普遍的なアプローチを提供する量子幾何テンソルの新しい一般化を提案する。 我々の一般化は、断熱変換の生成の概念に基づいており、リウヴィリア超作用素または有効非エルミート・ハミルトン作用素によって記述されたシステムに適用することができる。 本稿では,非エルミート的Su-Schrieffer-Heegerモデルと2次リウビリアンを用いた一般準自由散逸性フェルミオン系を解析し,提案手法について述べる。 その結果,本手法は全モデル間の位相遷移を効果的に同定し,一般の非エルミート系を解析するための普遍的なツールを提供することがわかった。

The quantum geometric tensor has established itself as a general framework for the analysis and detection of equilibrium phase transitions in isolated quantum systems. We propose a novel generalization of the quantum geometric tensor, which offers a universal approach to studying phase transitions in non-Hermitian quantum systems. Our generalization is based on the concept of the generator of adiabatic transformations and can be applied to systems described by either a Liouvillian superoperator or by an effective non-Hermitian Hamiltonian. We illustrate the proposed method by analyzing the non-Hermitian Su-Schrieffer-Heeger model and a generic quasi-free dissipative fermionic system with a quadratic Liouvillian. Our findings reveal that this method effectively identifies phase transitions across all examined models, providing a universal tool for investigating general non-Hermitian systems.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# SPOT:ポイントクラウドをベースとした類似および反対視点のためのステレオ視覚的位置認識

SPOT: Point Cloud Based Stereo Visual Place Recognition for Similar and Opposing Viewpoints ( http://arxiv.org/abs/2404.12339v1 )

ライセンス: Link先を確認
Spencer Carmichael, Rahul Agrawal, Ram Vasudevan, Katherine A. Skinner, (参考訳) 帰還旅行中、反対の視点から場所を認識することは、人間のドライバーにとって共通の経験である。 しかし、180度回転以下の視野カメラを備えた類似ロボティクス能力、視覚的位置認識(VPR)は、達成が困難であることが証明されている。 この問題に対処するために,ステレオビジュアル・オドメトリー(VO)によって推定される構造にのみ依存する対向VPR技術であるSame Place Opposing Trajectory (SPOT)を提案する。 この手法は最近のライダーディスクリプタの進歩を延長し、新しい2重距離行列列マッチング法を用いる。 我々は、様々な照明条件下で、同様の方向と反対方向に駆動される6.7-7.6kmのルートを持つ公開データセット上でSPOTを評価する。 提案アルゴリズムは、現状よりも顕著に改善され、反対の視点の場合、100%の精度で91.7%のリコールが達成される一方で、全てのベースラインのテストや実行よりも高速なストレージを必要とする。 さらに,提案手法は,視点が類似しているか否かの事前知識を前提とせず,類似した視点の場合の競合性能を示す。

Recognizing places from an opposing viewpoint during a return trip is a common experience for human drivers. However, the analogous robotics capability, visual place recognition (VPR) with limited field of view cameras under 180 degree rotations, has proven to be challenging to achieve. To address this problem, this paper presents Same Place Opposing Trajectory (SPOT), a technique for opposing viewpoint VPR that relies exclusively on structure estimated through stereo visual odometry (VO). The method extends recent advances in lidar descriptors and utilizes a novel double (similar and opposing) distance matrix sequence matching method. We evaluate SPOT on a publicly available dataset with 6.7-7.6 km routes driven in similar and opposing directions under various lighting conditions. The proposed algorithm demonstrates remarkable improvement over the state-of-the-art, achieving up to 91.7% recall at 100% precision in opposing viewpoint cases, while requiring less storage than all baselines tested and running faster than all but one. Moreover, the proposed method assumes no a priori knowledge of whether the viewpoint is similar or opposing, and also demonstrates competitive performance in similar viewpoint cases.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# データマニフォールドにおける特徴次元の衝突によるニューラルネットワークの特徴依存性の測定

Measuring Feature Dependency of Neural Networks by Collapsing Feature Dimensions in the Data Manifold ( http://arxiv.org/abs/2404.12341v1 )

ライセンス: Link先を確認
Yinzhu Jin, Matthew B. Dwyer, P. Thomas Fletcher, (参考訳) 本稿では,ニューラルネットワークモデルの特徴依存性を計測する新しい手法を提案する。 その動機は、人間の理解可能な特徴(例えば、解剖学的形状、体積、画像テクスチャ)から情報を使っているかどうかを問うことによって、モデルをよりよく理解することにある。 提案手法は,モデルが機能に依存している場合,その機能の削除が性能を著しく損なうという原則に基づいている。 対象の機能は、その特徴に対応するデータ分散の次元を崩壊させることで"取り除かれる"。 我々は,データ多様体上に留まりながら,特徴次元に沿ってデータポイントをベースライン特徴値に移動させることによりこれを実現した。 次に、対象の特徴次元を除いた修正されたテストデータセットに対して、モデルの性能がどのように変化するかを観察する。 OASIS-3データセットからのMRIと海馬のセグメンテーションを用いたアルツハイマー病予測タスク、Lizardデータセットを用いた細胞核分類タスク。

This paper introduces a new technique to measure the feature dependency of neural network models. The motivation is to better understand a model by querying whether it is using information from human-understandable features, e.g., anatomical shape, volume, or image texture. Our method is based on the principle that if a model is dependent on a feature, then removal of that feature should significantly harm its performance. A targeted feature is "removed" by collapsing the dimension in the data distribution that corresponds to that feature. We perform this by moving data points along the feature dimension to a baseline feature value while staying on the data manifold, as estimated by a deep generative model. Then we observe how the model's performance changes on the modified test data set, with the target feature dimension removed. We test our method on deep neural network models trained on synthetic image data with known ground truth, an Alzheimer's disease prediction task using MRI and hippocampus segmentations from the OASIS-3 dataset, and a cell nuclei classification task using the Lizard dataset.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# AniClipart: テキストからビデオへの事前アニメーション

AniClipart: Clipart Animation with Text-to-Video Priors ( http://arxiv.org/abs/2404.12347v1 )

ライセンス: Link先を確認
Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao, (参考訳) プリメイドのグラフィックアート形式であるClipartは、視覚コンテンツをイラストする便利な、効率的な方法を提供する。 静的クリップアート画像をモーションシーケンスに変換する従来のワークフローは、厳格で時間を要するもので、リギング、キーアニメーション、イン・バイ・ザ・ビートニングといった複雑なステップが数多く含まれている。 近年のテキスト・ビデオ・ジェネレーションの進歩はこの問題の解決に大きな可能性を秘めている。 それでも、テキスト・ビデオ生成モデルの直接的な適用は、クリップアート画像の視覚的アイデンティティを維持したり、漫画風のモーションを生成するのに苦労することが多く、満足のいくアニメーションの結果をもたらす。 本稿では,静的クリップアート画像をテキストからビデオへの事前案内による高品質なモーションシーケンスに変換するシステムであるAniClipartを紹介する。 マンガ型および滑らかな動きを生成するために,まず,クリップアート画像のキーポイント上のB\'{e}zier曲線を運動正規化の一形態として定義する。 次に,ビデオスコア蒸留サンプリング(VSDS)の損失を最適化し,予め訓練されたテキストからビデオへの拡散モデルにおける自然な動きの十分な知識を符号化することにより,キーポイントの運動軌跡と提供されたテキストプロンプトとを一致させる。 微分可能なAs-Rigid-As-Possible形状変形アルゴリズムにより,変形剛性を維持しながらエンドツーエンドの最適化が可能となる。 実験結果から,提案したAniClipartは,テキスト・ビデオアライメント,視覚的アイデンティティ保存,動きの整合性の観点から,既存の画像・映像生成モデルよりも一貫して優れていた。 さらに,AniClipartの汎用性を示すために,トポロジ的な変更が可能な階層アニメーションなど,より広範なアニメーション形式を生成する。

Clipart, a pre-made graphic art form, offers a convenient and efficient way of illustrating visual content. Traditional workflows to convert static clipart images into motion sequences are laborious and time-consuming, involving numerous intricate steps like rigging, key animation and in-betweening. Recent advancements in text-to-video generation hold great potential in resolving this problem. Nevertheless, direct application of text-to-video generation models often struggles to retain the visual identity of clipart images or generate cartoon-style motions, resulting in unsatisfactory animation outcomes. In this paper, we introduce AniClipart, a system that transforms static clipart images into high-quality motion sequences guided by text-to-video priors. To generate cartoon-style and smooth motion, we first define B\'{e}zier curves over keypoints of the clipart image as a form of motion regularization. We then align the motion trajectories of the keypoints with the provided text prompt by optimizing the Video Score Distillation Sampling (VSDS) loss, which encodes adequate knowledge of natural motion within a pretrained text-to-video diffusion model. With a differentiable As-Rigid-As-Possible shape deformation algorithm, our method can be end-to-end optimized while maintaining deformation rigidity. Experimental results show that the proposed AniClipart consistently outperforms existing image-to-video generation models, in terms of text-video alignment, visual identity preservation, and motion consistency. Furthermore, we showcase the versatility of AniClipart by adapting it to generate a broader array of animation formats, such as layered animation, which allows topological changes.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# AIを法律で評価する - オープンソースソリューションによるギャップのブリッジ

Evaluating AI for Law: Bridging the Gap with Open-Source Solutions ( http://arxiv.org/abs/2404.12349v1 )

ライセンス: Link先を確認
Rohan Bhambhoria, Samuel Dahan, Jonathan Li, Xiaodan Zhu, (参考訳) 本研究では、ChatGPTのような汎用AIの法的質問応答タスクにおけるパフォーマンスを評価し、法律専門家やクライアントに対する重大なリスクを浮き彫りにする。 これらの問題を克服するためにドメイン固有の知識によって強化された基礎モデルを活用することを提案する。 この論文は、正確性、透明性、物語の多様性を改善するために、オープンソースの法的AIシステムを作ることを提唱し、法的な文脈における一般AIの欠点に対処する。

This study evaluates the performance of general-purpose AI, like ChatGPT, in legal question-answering tasks, highlighting significant risks to legal professionals and clients. It suggests leveraging foundational models enhanced by domain-specific knowledge to overcome these issues. The paper advocates for creating open-source legal AI systems to improve accuracy, transparency, and narrative diversity, addressing general AI's shortcomings in legal contexts.
翻訳日:2024-04-19 18:52:16 公開日:2024-04-18
# V2Xum-LLM:テンポラルプロンプトインストラクションチューニングによるクロスモーダルビデオ要約

V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning ( http://arxiv.org/abs/2404.12353v1 )

ライセンス: Link先を確認
Hang Hua, Yunlong Tang, Chenliang Xu, Jiebo Luo, (参考訳) ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。 様々なビデオ要約データセットが存在するにもかかわらず、顕著な制限は、その限られた量のソースビデオであり、これは高度な大規模視覚言語モデル(VLM)の効果的な微調整を妨げている。 さらに、既存のほとんどのデータセットは、ビデオ間要約のために作成され、現代のマルチモーダルビデオコンテンツ要約の必要性を見越している。 ビデオ・トゥ・ビデオ(V2V)、ビデオ・トゥ・テキスト(V2T)、ビデオ・テキスト・サマリゼーション(V2VT)の3つのサブタスクに分類し、非モーダルからマルチモーダル・ビデオ・サマリゼーションへと拡張する試みが近年行われている。 しかし、過去のマルチモーダルデータセットのテキスト要約は不十分である。 Instruct-V2Xumは、YouTubeからソースされた3万の多様なビデオで構成され、長さは40秒から940秒、平均要約率は16.39\%である。 Instruct-V2Xumの各ビデオ要約は、特定のフレームインデックスを参照するテキスト要約と組み合わせられ、アライメントされたビデオとテキスト要約の生成が容易になる。 さらに,V2Xum-LLMというビデオ要約フレームワークを提案する。 V2Xum-LLMは、特にV2Xum-LLaMAにおいて、異なるビデオ要約タスクを1つの大きな言語モデル(LLM)テキストデコーダに統合し、時間的プロンプトとタスク命令でタスク制御可能なビデオ要約を実現するための最初のフレームワークである。 実験により、V2Xum-LLaMAは複数のビデオ要約タスクにおいて強力なベースラインモデルより優れていることが示された。 さらに,V2VとV2VTの要約タスクに対する評価基準の強化を提案する。

Video summarization aims to create short, accurate, and cohesive summaries of longer videos. Despite the existence of various video summarization datasets, a notable limitation is their limited amount of source videos, which hampers the effective fine-tuning of advanced large vision-language models (VLMs). Additionally, most existing datasets are created for video-to-video summarization, overlooking the contemporary need for multimodal video content summarization. Recent efforts have been made to expand from unimodal to multimodal video summarization, categorizing the task into three sub-tasks based on the summary's modality: video-to-video (V2V), video-to-text (V2T), and a combination of video and text summarization (V2VT). However, the textual summaries in previous multimodal datasets are inadequate. To address these issues, we introduce Instruct-V2Xum, a cross-modal video summarization dataset featuring 30,000 diverse videos sourced from YouTube, with lengths ranging from 40 to 940 seconds and an average summarization ratio of 16.39\%. Each video summary in Instruct-V2Xum is paired with a textual summary that references specific frame indexes, facilitating the generation of aligned video and textual summaries. In addition, we propose a new video summarization framework named V2Xum-LLM. V2Xum-LLM, specifically V2Xum-LLaMA in this study, is the first framework that unifies different video summarization tasks into one large language model's (LLM) text decoder and achieves task-controllable video summarization with temporal prompts and task instructions. Experiments show that V2Xum-LLaMA outperforms strong baseline models on multiple video summarization tasks. Furthermore, we propose an enhanced evaluation metric for V2V and V2VT summarization tasks.
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# 共形グラフスカラー化によるGNN予測の解釈可能性の向上

Improving the interpretability of GNN predictions through conformal-based graph sparsification ( http://arxiv.org/abs/2404.12356v1 )

ライセンス: Link先を確認
Pablo Sanchez-Martin, Kinaan Aamir Khan, Isabel Valera, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ分類タスクの解決において最先端のパフォーマンスを達成した。 しかしながら、ほとんどのGNNアーキテクチャは、目の前のタスクとの関連性に関係なく、グラフ内のすべてのノードとエッジから情報を集約しているため、予測の解釈可能性を妨げる。 先行研究とは対照的に,本稿では共同でGNN \emph{training} アプローチを提案する。 i) エッジやノードを除去することによって最も予測可能な部分グラフを見つける ----------- 二 グラフ分類タスクの性能を最適化すること。 そこで我々は,正則予測に基づく報奨関数による2段階最適化の解法を強化学習に頼り,現在学習中の分類器の不確かさを考慮に入れた。 9つの異なるグラフ分類データセットに対する実験結果から,提案手法はスペーサー部分グラフに依存しながら,ベースラインと性能を比較した結果,より解釈可能なGNNに基づく予測が得られた。

Graph Neural Networks (GNNs) have achieved state-of-the-art performance in solving graph classification tasks. However, most GNN architectures aggregate information from all nodes and edges in a graph, regardless of their relevance to the task at hand, thus hindering the interpretability of their predictions. In contrast to prior work, in this paper we propose a GNN \emph{training} approach that jointly i) finds the most predictive subgraph by removing edges and/or nodes -- -\emph{without making assumptions about the subgraph structure} -- while ii) optimizing the performance of the graph classification task. To that end, we rely on reinforcement learning to solve the resulting bi-level optimization with a reward function based on conformal predictions to account for the current in-training uncertainty of the classifier. Our empirical results on nine different graph classification datasets show that our method competes in performance with baselines while relying on significantly sparser subgraphs, leading to more interpretable GNN-based predictions.
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# $r$から$Q^*$:あなたの言語モデルは秘密裏にQ-Functionである

From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function ( http://arxiv.org/abs/2404.12358v1 )

ライセンス: Link先を確認
Rafael Rafailov, Joey Hejna, Ryan Park, Chelsea Finn, (参考訳) Reinforcement Learning From Human Feedback (RLHF)は、次世代のジェネレーティブAIモデルの成功に不可欠である。 古典的なRLHFパイプラインの複雑な性質に応じて、直接優先度最適化(DPO)のような直接アライメントアルゴリズムが代替手法として登場した。 DPOは標準のRLHF設定と同じ目的を達成しているが、2つのアプローチの間にはミスマッチがある。 標準RLHFは、特定のトークンレベルのMDPに強化学習を展開させる一方、DPOは、モデル全体の応答を単一のアームとして扱うバンドイット問題として導出される。 本稿では,この差分を補正し,まず,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとしてトークンレベルMDPのDPOを導出できることを理論的に示す。 理論的結果を用いて,3つの具体的経験的洞察を提供する。 まず、トークンレベルの解釈により、DPOはある種の信用代入を行うことができることを示す。 次に、トークンレベルの定式化の下で、最近言語生成分野に応用されたMCTSのような古典的な検索アルゴリズムは、DPOポリシー上の可能性に基づく探索と等価であることを示す。 実験により、単純なビームサーチが基本DPOポリシーよりも有意義な改善をもたらすことを示す。 最後に、参照ポリシーの選択がトレーニング中に暗黙の報酬を減少させるかを示す。 本稿では,多言語対話における情報活用,推論,エージェントアプリケーション,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。

Reinforcement Learning From Human Feedback (RLHF) has been a critical to the success of the latest generation of generative AI models. In response to the complex nature of the classical RLHF pipeline, direct alignment algorithms such as Direct Preference Optimization (DPO) have emerged as an alternative approach. Although DPO solves the same objective as the standard RLHF setup, there is a mismatch between the two approaches. Standard RLHF deploys reinforcement learning in a specific token-level MDP, while DPO is derived as a bandit problem in which the whole response of the model is treated as a single arm. In this work we rectify this difference, first we theoretically show that we can derive DPO in the token-level MDP as a general inverse Q-learning algorithm, which satisfies the Bellman equation. Using our theoretical results, we provide three concrete empirical insights. First, we show that because of its token level interpretation, DPO is able to perform some type of credit assignment. Next, we prove that under the token level formulation, classical search-based algorithms, such as MCTS, which have recently been applied to the language generation space, are equivalent to likelihood-based search on a DPO policy. Empirically we show that a simple beam search yields meaningful improvement over the base DPO policy. Finally, we show how the choice of reference policy causes implicit rewards to decline during training. We conclude by discussing applications of our work, including information elicitation in multi-tun dialogue, reasoning, agentic applications and end-to-end training of multi-model systems.
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# 拡散モデルを用いた加速スパイラルMRIのための領域固有逆NUFFTの学習

Learning the Domain Specific Inverse NUFFT for Accelerated Spiral MRI using Diffusion Models ( http://arxiv.org/abs/2404.12361v1 )

ライセンス: Link先を確認
Trevor J. Chan, Chamith S. Rajapakse, (参考訳) 高速MRIのための深層学習法は最先端の結果を得るが、非カルテシアンサンプリングトラジェクトリで可能となる追加のスピードアップは無視される。 このギャップに対処するため,我々は多コイル高アンサンプドスパイラルMRIのための生成拡散モデルに基づく再構成アルゴリズムを開発した。 このモデルは、トレーニング中にコンディショニングと周波数ベースのガイダンスを使用して、画像と測定の整合性を保証する。 超高速スキャン時間(2D画像では0.02秒)で再構成した画像の画質(構造的類似度>0.87)を示す。 このアルゴリズムを用いて最適な可変密度スパイラル軌道の集合を同定し、非一様高速フーリエ変換を用いた従来の再構成と比較して画像品質を大幅に向上させる。 効率的なスパイラルサンプリング軌道、マルチコイルイメージング、ディープラーニング再構成を組み合わせることで、リアルタイム3Dイメージングに必要な極めて高い加速度因子を実現できる。

Deep learning methods for accelerated MRI achieve state-of-the-art results but largely ignore additional speedups possible with noncartesian sampling trajectories. To address this gap, we created a generative diffusion model-based reconstruction algorithm for multi-coil highly undersampled spiral MRI. This model uses conditioning during training as well as frequency-based guidance to ensure consistency between images and measurements. Evaluated on retrospective data, we show high quality (structural similarity > 0.87) in reconstructed images with ultrafast scan times (0.02 seconds for a 2D image). We use this algorithm to identify a set of optimal variable-density spiral trajectories and show large improvements in image quality compared to conventional reconstruction using the non-uniform fast Fourier transform. By combining efficient spiral sampling trajectories, multicoil imaging, and deep learning reconstruction, these methods could enable the extremely high acceleration factors needed for real-time 3D imaging.
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# 変圧器のトリック:スキップレス変圧器の重量除去

Transformer tricks: Removing weights for skipless transformers ( http://arxiv.org/abs/2404.12362v1 )

ライセンス: Link先を確認
Nils Graef, (参考訳) He と Hofmann (arXiv:2311.01906) は、V と P の線形層を持たないスキップレス変換器を詳述した。 しかし、このスキームはMHA(multi-head attention)にのみ適用されるが、MQA(multi-query attention)とGQA(grouped-query attention)には適用されない。 後者のスキームは、Llama 2、Mistral、Mixtral、PaLM、Gemmaなど、多くの人気のあるLLMで使用されている。 したがって、このマイクロペーパーはMQAとGQAに適した数学的に等価なバージョンを提案する。 例えば、Mistral-7BのスキップレスバージョンからQとPを取り除くと、その重みの15%が取り除かれる(計算とメモリの複雑さが軽減される)。 コードにはarXiv:2402.13388とhttps://github.com/OpenMachine-ai/transformer-tricksを参照。

He and Hofmann (arXiv:2311.01906) detailed a skipless transformer without the V and P (post-attention projection) linear layers, which reduces the total number of weights. However, this scheme is only applicable to MHA (multi-head attention), but not for MQA (multi-query attention) and GQA (grouped-query attention). The latter schemes are used by many popular LLMs such as Llama 2, Mistral, Mixtral, PaLM, and Gemma. Therefore, this micro-paper proposes mathematically equivalent versions that are suitable for MQA and GQA. For example, removing Q and P from a skipless version of Mistral-7B would remove 15% of its weights (and thus reduce its compute and memory complexity). See arXiv:2402.13388 and https://github.com/OpenMachine-ai/transformer-tricks for code and more transformer tricks.
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# LLMがFastFitに適さない場合: 多くのクラスで高速で効果的なテキスト分類

When LLMs are Unfit Use FastFit: Fast and Effective Text Classification with Many Classes ( http://arxiv.org/abs/2404.12365v1 )

ライセンス: Link先を確認
Asaf Yehudai, Elron Bendel, (参考訳) 我々はFastFit、メソッド、およびPythonパッケージデザインを提案し、特に多くの意味論的に類似したクラスを持つシナリオに対して、高速で正確な数ショットの分類を提供する。 FastFitは、バッチコントラスト学習とトークンレベルの類似度スコアを組み合わせた、新しいアプローチを採用している。 SetFitやTransformerといった既存の数発の学習パッケージや、API呼び出しによる大規模言語モデルのプロンプトと比べ、FastFitはFewMany、新しくキュレーションされた英語ベンチマーク、マルチリンガルデータセットなど、スピードと正確性において、マルチクラスの分類性能を大幅に改善します。 FastFitはトレーニング速度を3~20倍改善し、わずか数秒でトレーニングを完了する。 FastFitパッケージはGitHubとPyPiで利用可能で、NLP実践者向けのユーザフレンドリなソリューションを提供する。

We present FastFit, a method, and a Python package design to provide fast and accurate few-shot classification, especially for scenarios with many semantically similar classes. FastFit utilizes a novel approach integrating batch contrastive learning and token-level similarity score. Compared to existing few-shot learning packages, such as SetFit, Transformers, or few-shot prompting of large language models via API calls, FastFit significantly improves multiclass classification performance in speed and accuracy across FewMany, our newly curated English benchmark, and Multilingual datasets. FastFit demonstrates a 3-20x improvement in training speed, completing training in just a few seconds. The FastFit package is now available on GitHub and PyPi, presenting a user-friendly solution for NLP practitioners.
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# AIとユーザのための会計 - 数学的モデルの役割

Accounting for AI and Users Shaping One Another: The Role of Mathematical Models ( http://arxiv.org/abs/2404.12366v1 )

ライセンス: Link先を確認
Sarah Dean, Evan Dong, Meena Jagadeesan, Liu Leqi, (参考訳) AIシステムが多くの社会的領域に入るにつれ、これらのシステムはますますユーザー好み、意見、行動によって形づくられ、形作られていく。 しかし、AIシステムの設計は、AIとユーザーが互いにどのように形成するかをほとんど説明しない。 本稿では,AIとユーザが相互にどのように形成するかを数学的に規定する形式的相互作用モデルの開発について論じる。 形式的相互作用モデルは,(1)実施のための相互作用の特定,(2)実証分析による相互作用の監視,(3)反事実分析による社会的影響の予測,(4)介入による社会的影響の制御に活用することができる。 形式的相互作用モデルの設計空間は広大なものであり、モデル設計はスタイル、粒度、数学的複雑さ、測定可能性といった要素を慎重に考慮する必要がある。 事例研究としてコンテントレコメンデータシステムを用いて,これらのユースケースと設計軸に関して,形式的相互作用モデルの初期段階の文献を批判的に検討する。 より広範に、私たちはコミュニティに、ユーザと対話する任意のAIシステムを設計、評価、監査する際に、正式なインタラクションモデルを活用するように呼びかけています。

As AI systems enter into a growing number of societal domains, these systems increasingly shape and are shaped by user preferences, opinions, and behaviors. However, the design of AI systems rarely accounts for how AI and users shape one another. In this position paper, we argue for the development of formal interaction models which mathematically specify how AI and users shape one another. Formal interaction models can be leveraged to (1) specify interactions for implementation, (2) monitor interactions through empirical analysis, (3) anticipate societal impacts via counterfactual analysis, and (4) control societal impacts via interventions. The design space of formal interaction models is vast, and model design requires careful consideration of factors such as style, granularity, mathematical complexity, and measurability. Using content recommender systems as a case study, we critically examine the nascent literature of formal interaction models with respect to these use-cases and design axes. More broadly, we call for the community to leverage formal interaction models when designing, evaluating, or auditing any AI system which interacts with users.
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# グラディエント正規化アウト・オブ・ディストリビューション検出

Gradient-Regularized Out-of-Distribution Detection ( http://arxiv.org/abs/2404.12368v1 )

ライセンス: Link先を確認
Sina Sharifi, Taha Entesari, Bardia Safaei, Vishal M. Patel, Mahyar Fazlyab, (参考訳) 現実のアプリケーションにおけるニューラルネットワークの課題の1つは、これらのモデルが元のトレーニングディストリビューションからデータが送られていないときに犯す過信エラーである。 この問題に対処するためには、Out-of-Distribution (OOD) Detection(アウト・オブ・ディストリビューション)と呼ばれる。 多くの最先端のOOD手法では、訓練中のOODデータのサロゲートとして補助データセットを使用し、性能の向上を実現している。 しかし、これらの手法は補助データセットに埋め込まれたローカル情報を十分に活用することができない。 本研究では,学習中の損失関数の勾配に埋め込まれた情報を活用して,各サンプルに対して所望のOODスコアを学習するだけでなく,各サンプルの周辺地域でも同様の挙動を示すことができるようにすることを提案する。 また、トレーニング期間中に、より情報性の高いOODサンプルにネットワークを露出させるための、新しいエネルギーベースのサンプリング手法を開発した。 これは補助データセットが大きい場合に特に重要である。 提案手法の有効性を複数のOODベンチマークで検証し,既存のFPR95を画像Net実験で4%改善した。 さらに、証明された堅牢性のレンズとリプシッツ解析を通して理論的解析を行い、我々の研究の理論的基礎を示す。 レビュープロセスの後にコードを公開します。

One of the challenges for neural networks in real-life applications is the overconfident errors these models make when the data is not from the original training distribution. Addressing this issue is known as Out-of-Distribution (OOD) detection. Many state-of-the-art OOD methods employ an auxiliary dataset as a surrogate for OOD data during training to achieve improved performance. However, these methods fail to fully exploit the local information embedded in the auxiliary dataset. In this work, we propose the idea of leveraging the information embedded in the gradient of the loss function during training to enable the network to not only learn a desired OOD score for each sample but also to exhibit similar behavior in a local neighborhood around each sample. We also develop a novel energy-based sampling method to allow the network to be exposed to more informative OOD samples during the training phase. This is especially important when the auxiliary dataset is large. We demonstrate the effectiveness of our method through extensive experiments on several OOD benchmarks, improving the existing state-of-the-art FPR95 by 4% on our ImageNet experiment. We further provide a theoretical analysis through the lens of certified robustness and Lipschitz analysis to showcase the theoretical foundation of our work. We will publicly release our code after the review process.
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# 確率勾配変化を伴うkスパースパリティ問題に対する統計的問合せ下界のマッチング

Matching the Statistical Query Lower Bound for k-sparse Parity Problems with Stochastic Gradient Descent ( http://arxiv.org/abs/2404.12376v1 )

ライセンス: Link先を確認
Yiwen Kou, Zixiang Chen, Quanquan Gu, Sham M. Kakade, (参考訳) k$-parity問題($k$-parity problem)は計算複雑性とアルゴリズム理論における古典的な問題であり、計算クラスを理解するための重要なベンチマークとして機能する。 本稿では,2層完全連結ニューラルネットワーク上での確率勾配勾配(SGD)を用いた$k$-parity問題を解く。 我々は、SGDが$d$-dimensional hypercube$k\le O(\sqrt{d})$)上の$k$-sparseパリティ問題を、$\tilde{O}(d^{k-1})$$2^{\Theta(k)}$のニューロンで効率的に解くことができ、確立された$\Omega(d^{k})$low bounds of Statistical Query (SQ)モデルと一致することを示した。 私たちの理論的分析は、$k$-parityの問題を正しく解ける優れたニューラルネットワークを構築することから始まります。 次に、SGDを用いたトレーニングニューラルネットワークが、この優れたネットワークを効果的に近似し、小さな統計的誤差で$k$-parity問題を解く方法を示す。 提案手法の有効性と有効性を示す実証的証拠により,本研究の理論的結果と結果が裏付けられる。

The $k$-parity problem is a classical problem in computational complexity and algorithmic theory, serving as a key benchmark for understanding computational classes. In this paper, we solve the $k$-parity problem with stochastic gradient descent (SGD) on two-layer fully-connected neural networks. We demonstrate that SGD can efficiently solve the $k$-sparse parity problem on a $d$-dimensional hypercube ($k\le O(\sqrt{d})$) with a sample complexity of $\tilde{O}(d^{k-1})$ using $2^{\Theta(k)}$ neurons, thus matching the established $\Omega(d^{k})$ lower bounds of Statistical Query (SQ) models. Our theoretical analysis begins by constructing a good neural network capable of correctly solving the $k$-parity problem. We then demonstrate how a trained neural network with SGD can effectively approximate this good network, solving the $k$-parity problem with small statistical errors. Our theoretical results and findings are supported by empirical evidence, showcasing the efficiency and efficacy of our approach.
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# 6Img-to-3D:Few-Image Large-Scale Driving Scene Reconstruction

6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction ( http://arxiv.org/abs/2404.12378v1 )

ライセンス: Link先を確認
Théo Gieruc, Marius Kästingschäfer, Sebastian Bernhard, Mathieu Salzmann, (参考訳) 現在の3D再構成技術は、いくつかの画像から無界のシーンを忠実に推測するのに苦労している。 具体的には、既存の手法は高い計算要求を持ち、詳細なポーズ情報を必要とし、隠蔽領域を確実に再構築することができない。 本稿では, 高速でスケーラブルなトランスフォーマーベースエンコーダ・レンダ法である6Img-to-3Dを3次元再構成に導入する。 本手法は,大規模で非有界な屋外運転シナリオに対して,外向きの6つの入力画像から3次元のパラメータ化三面体を出力する。 我々は,3面パラメータ化,可変ボリュームレンダリング,シーンの縮小,画像の特徴投影といった,契約されたクロス・アンド・セルフアテンション機構を組み合わせることで,既存の欠点を解決するための一歩を踏み出した。 グローバルなポーズ情報のない単一タイムスタンプから得られた6つのサラウンドビュー車両画像は、推定時間中に360$^{\circ}$のシーンを再構築するのに十分であることを示す。 私たちのコードはhttps://github.com/continental/6Img-to-3Dで入手できます。

Current 3D reconstruction techniques struggle to infer unbounded scenes from a few images faithfully. Specifically, existing methods have high computational demands, require detailed pose information, and cannot reconstruct occluded regions reliably. We introduce 6Img-to-3D, an efficient, scalable transformer-based encoder-renderer method for single-shot image to 3D reconstruction. Our method outputs a 3D-consistent parameterized triplane from only six outward-facing input images for large-scale, unbounded outdoor driving scenarios. We take a step towards resolving existing shortcomings by combining contracted custom cross- and self-attention mechanisms for triplane parameterization, differentiable volume rendering, scene contraction, and image feature projection. We showcase that six surround-view vehicle images from a single timestamp without global pose information are enough to reconstruct 360$^{\circ}$ scenes during inference time, taking 395 ms. Our method allows, for example, rendering third-person images and birds-eye views. Our code is available at https://github.com/continental/6Img-to-3D, and more examples can be found at our website here https://6Img-to-3D.GitHub.io/.
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# インタラクティブ画像編集のための遅延拡散変換器

Lazy Diffusion Transformer for Interactive Image Editing ( http://arxiv.org/abs/2404.12382v1 )

ライセンス: Link先を確認
Yotam Nitzan, Zongze Wu, Richard Zhang, Eli Shechtman, Daniel Cohen-Or, Taesung Park, Michaël Gharbi, (参考訳) 部分的な画像更新を効率的に生成する新しい拡散変換器であるLazyDiffusionを導入する。 提案手法は,空白キャンバスや画像から,二項マスクやテキストプロンプトを用いた局所的な画像修正のシーケンスをユーザが指定する,インタラクティブな画像編集アプリケーションを対象としている。 私たちの発電機は2つのフェーズで動作します。 まず、コンテキストエンコーダが現在のキャンバスとユーザマスクを処理して、その領域に合わせて調整されたコンパクトなグローバルコンテキストを生成する。 第二に、拡散型トランスフォーマーデコーダは「怠け者」な方法でマスクされたピクセルを合成する。 これは、全キャンバスを再生したり、時間の浪費や計算をしたり、マスクの周りの狭い長方形の作物に処理を限定したり、グローバルなイメージコンテキストを完全に無視する以前の作品とは対照的である。 私たちのデコーダのランタイムはマスクサイズでスケールし、通常は小さくなりますが、エンコーダは無視可能なオーバーヘッドを導入しています。 提案手法は,画像の10%を編集マスクが表現する典型的なユーザインタラクションの10倍の高速化を実現しつつ,品質と忠実性の観点から,最先端の塗装手法と競合することを示す。

We introduce a novel diffusion transformer, LazyDiffusion, that generates partial image updates efficiently. Our approach targets interactive image editing applications in which, starting from a blank canvas or an image, a user specifies a sequence of localized image modifications using binary masks and text prompts. Our generator operates in two phases. First, a context encoder processes the current canvas and user mask to produce a compact global context tailored to the region to generate. Second, conditioned on this context, a diffusion-based transformer decoder synthesizes the masked pixels in a "lazy" fashion, i.e., it only generates the masked region. This contrasts with previous works that either regenerate the full canvas, wasting time and computation, or confine processing to a tight rectangular crop around the mask, ignoring the global image context altogether. Our decoder's runtime scales with the mask size, which is typically small, while our encoder introduces negligible overhead. We demonstrate that our approach is competitive with state-of-the-art inpainting methods in terms of quality and fidelity while providing a 10x speedup for typical user interactions, where the editing mask represents 10% of the image.
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# MeshLRM: 高品質メッシュのための大規模再構成モデル

MeshLRM: Large Reconstruction Model for High-Quality Mesh ( http://arxiv.org/abs/2404.12385v1 )

ライセンス: Link先を確認
Xinyue Wei, Kai Zhang, Sai Bi, Hao Tan, Fujun Luan, Valentin Deschaintre, Kalyan Sunkavalli, Hao Su, Zexiang Xu, (参考訳) 我々は,わずか4枚の入力画像から1秒未満で高品質なメッシュを再構築する,新しいLRMベースのアプローチであるMeshLRMを提案する。 NeRFベースの再構成に焦点を当てた従来の大規模な再構成モデル(LRMs)とは異なり、MeshLRMは差別化可能なメッシュ抽出とレンダリングをLRMフレームワークに組み込んでいる。 これにより、トレーニング済みのNeRF LRMをメッシュレンダリングで微調整することで、エンドツーエンドのメッシュ再構築が可能になる。 さらに, 従来のLEMの複雑な設計を単純化することで, LRMアーキテクチャを改良する。 MeshLRMのNeRF初期化は、低解像度と高解像度の画像で順次訓練される。 提案手法は,スパースビュー入力からの最先端メッシュ再構築を実現し,テキスト・トゥ・3Dやシングル・イメージ・トゥ・3D生成など,多くのダウンストリームアプリケーションを実現する。 プロジェクトページ: https://sarahweiii.github.io/meshlrm/

We propose MeshLRM, a novel LRM-based approach that can reconstruct a high-quality mesh from merely four input images in less than one second. Different from previous large reconstruction models (LRMs) that focus on NeRF-based reconstruction, MeshLRM incorporates differentiable mesh extraction and rendering within the LRM framework. This allows for end-to-end mesh reconstruction by fine-tuning a pre-trained NeRF LRM with mesh rendering. Moreover, we improve the LRM architecture by simplifying several complex designs in previous LRMs. MeshLRM's NeRF initialization is sequentially trained with low- and high-resolution images; this new LRM training strategy enables significantly faster convergence and thereby leads to better quality with less compute. Our approach achieves state-of-the-art mesh reconstruction from sparse-view inputs and also allows for many downstream applications, including text-to-3D and single-image-to-3D generation. Project page: https://sarahweiii.github.io/meshlrm/
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# SOHES: 自己管理型のオープンワールド階層エンティティセグメンテーション

SOHES: Self-supervised Open-world Hierarchical Entity Segmentation ( http://arxiv.org/abs/2404.12386v1 )

ライセンス: Link先を確認
Shengcao Cao, Jiuxiang Gu, Jason Kuen, Hao Tan, Ruiyi Zhang, Handong Zhao, Ani Nenkova, Liang-Yan Gui, Tong Sun, Yu-Xiong Wang, (参考訳) 新たなコンピュータビジョンタスクとしてのオープンワールドエンティティセグメンテーションは、事前に定義されたクラスに制限されることなく、イメージ内のエンティティをセグメンテーションすることを目的としている。 その約束にもかかわらず、Segment Anything Model (SAM)のような既存のエンティティセグメンテーションメソッドは、高価な専門家アノテータに大きく依存しています。 この研究は、人間のアノテーションを必要としない新しいアプローチであるSOHES(Self-supervised Open-world Hierarchical Entity Segmentation)を提示する。 SOHESは、自己探索、自己指導、自己補正の3段階で動作する。 事前学習された自己教師型表現を前提として,視覚的特徴クラスタリングにより高品質な擬似ラベルを生成する。 そこで我々は,擬似ラベルのセグメンテーションモデルを訓練し,教師と学生の相互学習によって擬似ラベルの雑音を補正する。 セグメンテーションエンティティ以外にも、SOHESは構成部品をキャプチャし、視覚エンティティの階層的な理解を提供する。 本手法は, 自己監督型オープンワールドセグメンテーションにおける前例のない性能を実現し, 人為的なマスクがない場合に, 高品質なオープンワールドセグメンテーションに向けた重要なマイルストーンとなる。 プロジェクトページ: https://SOHES.github.io.com

Open-world entity segmentation, as an emerging computer vision task, aims at segmenting entities in images without being restricted by pre-defined classes, offering impressive generalization capabilities on unseen images and concepts. Despite its promise, existing entity segmentation methods like Segment Anything Model (SAM) rely heavily on costly expert annotators. This work presents Self-supervised Open-world Hierarchical Entity Segmentation (SOHES), a novel approach that eliminates the need for human annotations. SOHES operates in three phases: self-exploration, self-instruction, and self-correction. Given a pre-trained self-supervised representation, we produce abundant high-quality pseudo-labels through visual feature clustering. Then, we train a segmentation model on the pseudo-labels, and rectify the noises in pseudo-labels via a teacher-student mutual-learning procedure. Beyond segmenting entities, SOHES also captures their constituent parts, providing a hierarchical understanding of visual entities. Using raw images as the sole training data, our method achieves unprecedented performance in self-supervised open-world segmentation, marking a significant milestone towards high-quality open-world entity segmentation in the absence of human-annotated masks. Project page: https://SOHES.github.io.
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# Reka Core、Flash、Edge - 強力なマルチモーダル言語モデルのシリーズ

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models ( http://arxiv.org/abs/2404.12387v1 )

ライセンス: Link先を確認
Aitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie, (参考訳) Reka Core、Flash、Edgeは、Rekaによってゼロからトレーニングされた一連の強力なマルチモーダル言語モデルです。 Rekaモデルはテキスト、画像、ビデオ、オーディオ入力で処理し、推論することができる。 この技術報告では、これらのモデルのいくつかをトレーニングし、総合的な評価結果を提供する。 Reka EdgeとReka Flashは最先端のモデルであるだけでなく、多くの大きなモデルよりも優れており、それぞれの計算クラスに対して大きめの値を提供する。 一方、我々の最も有能で最大のモデルであるReka Coreは、自動評価と盲人評価の両方において、最高のフロンティアモデルにアプローチしています。 画像質問応答ベンチマーク(例えばMMMU、VQAv2)では、CoreはGPT4-Vと競合する。 一方、マルチモーダルチャットでは、Coreは盲目の第三者による評価設定の下で2番目に好まれるモデルであり、Claude 3 Opusなど他のモデルよりも優れている。 テキストベンチマークでは、Coreは確立されたベンチマーク(例えばMMLU、GSM8K)で他のフロンティアモデルと競合するだけでなく、人間の評価ではGPT4-0613よりも優れている。 ビデオ質問応答(Perception-Test)では、CoreがGemini Ultraより優れています。 モデルは http://chat.reka.ai で出荷されます。 非チェリーピックの定性的な例の展示はhttp://showcase.reka.ai.comで見ることができる。

We introduce Reka Core, Flash, and Edge, a series of powerful multimodal language models trained from scratch by Reka. Reka models are able to process and reason with text, images, video, and audio inputs. This technical report discusses details of training some of these models and provides comprehensive evaluation results. We show that Reka Edge and Reka Flash are not only state-of-the-art but also outperform many much larger models, delivering outsized values for their respective compute class. Meanwhile, our most capable and largest model, Reka Core, approaches the best frontier models on both automatic evaluations and blind human evaluations. On image question answering benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V. Meanwhile, on multimodal chat, Core ranks as the second most preferred model under a blind third-party human evaluation setup, outperforming other models such as Claude 3 Opus. On text benchmarks, Core not only performs competitively to other frontier models on a set of well-established benchmarks (e.g. MMLU, GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped in production at http://chat.reka.ai . A showcase of non cherry picked qualitative examples can also be found at http://showcase.reka.ai .
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# BLINK: マルチモーダルな大規模言語モデルは理解できるが知覚できない

BLINK: Multimodal Large Language Models Can See but Not Perceive ( http://arxiv.org/abs/2404.12390v1 )

ライセンス: Link先を確認
Xingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith, Wei-Chiu Ma, Ranjay Krishna, (参考訳) Blinkはマルチモーダル言語モデル(LLM)のための新しいベンチマークであり、他の評価では見つからないコア視覚知覚能力に焦点を当てている。 ほとんどのBlinkタスクは、人間によって「瞬き」で解決できる(例えば、相対的な深さ推定、視覚的対応、法医学的検出、多視点推論)。 しかし、これらの認識要求タスクは、自然言語による調停に抵抗するため、現在のマルチモーダル LLM にとって大きな課題となった。 Blinkは14の古典的なコンピュータビジョンタスクを3,807の複数の質問に修正し、単一の画像や複数の画像と組み合わせて視覚的にプロンプトする。 ヒトは平均で95.70%の精度を持つが、Blinkは既存のマルチモーダルLLMでは驚くほど困難であり、GPT-4Vとジェミニでも51.26%と45.72%の精度で、ランダムな推測よりも13.17%と7.63%高い。 我々の分析は、専門的なCVモデルがこれらの問題をはるかに改善し、将来の改善の道筋を示唆していることも強調している。 われわれはBlinkがコミュニティを刺激し、マルチモーダルLLMが人間レベルの視覚的知覚に追いつくのに役立つと信じている。

We introduce Blink, a new benchmark for multimodal language models (LLMs) that focuses on core visual perception abilities not found in other evaluations. Most of the Blink tasks can be solved by humans "within a blink" (e.g., relative depth estimation, visual correspondence, forensics detection, and multi-view reasoning). However, we find these perception-demanding tasks cast significant challenges for current multimodal LLMs because they resist mediation through natural language. Blink reformats 14 classic computer vision tasks into 3,807 multiple-choice questions, paired with single or multiple images and visual prompting. While humans get 95.70% accuracy on average, Blink is surprisingly challenging for existing multimodal LLMs: even the best-performing GPT-4V and Gemini achieve accuracies of 51.26% and 45.72%, only 13.17% and 7.63% higher than random guessing, indicating that such perception abilities have not "emerged" yet in recent multimodal LLMs. Our analysis also highlights that specialist CV models could solve these problems much better, suggesting potential pathways for future improvements. We believe Blink will stimulate the community to help multimodal LLMs catch up with human-level visual perception.
翻訳日:2024-04-19 18:42:29 公開日:2024-04-18
# 4量子ビット一重項状態との量子支援ビザンチン整合に対する資源分析

Resource analysis for quantum-aided Byzantine agreement with the four-qubit singlet state ( http://arxiv.org/abs/2207.04939v2 )

ライセンス: Link先を確認
Zoltán Guba, István Finta, Ákos Budai, Lóránt Farkas, Zoltán Zimborás, András Pályi, (参考訳) 分散コンピューティングでは、ビザンツ断層(Byzantine fault)は、コンポーネントが不整合に振る舞う状態であり、システムの異なるコンポーネントに対して異なる症状を示す。 適切なコンポーネント間の合意は、ビザンチン断層の存在下においても適切に構築された通信プロトコルによって達成できる。 分散量子状態上に構築された量子支援プロトコルは、従来のものよりも弾力性が高いため、考慮する価値がある。 従来の考え方に基づいて、量子支援弱放送プロトコルのパラメータ依存型ファミリを確立する。 プロトコルの障害確率の上限を計算し、量子リソース要求を最小限に抑える手順を定義し、説明する。 量子ネットワーク研究のためのノイズの多い中間スケール量子(NISQ)デバイスの適合性を実証した初期の研究に続いて、我々は、一般に利用可能な量子コンピュータ上で、我々の資源量子状態を実験的に生成した。 我々の研究は、量子通信プロトコルを多ビットの絡み合った状態に展開する上で重要な工学的側面を強調している。

In distributed computing, a Byzantine fault is a condition where a component behaves inconsistently, showing different symptoms to different components of the system. Consensus among the correct components can be reached by appropriately crafted communication protocols even in the presence of byzantine faults. Quantum-aided protocols built upon distributed entangled quantum states are worth considering, as they are more resilient than traditional ones. Based on earlier ideas, here we establish a parameter-dependent family of quantum-aided weak broadcast protocols. We compute upper bounds on the failure probability of the protocol, and define and illustrate a procedure that minimizes the quantum resource requirements. Following earlier work demonstrating the suitability of noisy intermediate scale quantum (NISQ) devices for the study of quantum networks, we experimentally create our resource quantum state on publicly available quantum computers. Our work highlights important engineering aspects of the future deployment of quantum communication protocols with multi-qubit entangled states.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-18
# 異種環境における並列ベストアーム識別

Parallel Best Arm Identification in Heterogeneous Environments ( http://arxiv.org/abs/2207.08015v3 )

ライセンス: Link先を確認
Nikolai Karpov, Qin Zhang, (参考訳) 本稿では,異種協調学習モデルにおいて,複数のエージェントが異なる環境と相互作用し,集約された環境における目的関数を並列に学習したいという,最適なアーム識別問題の時間と通信ラウンド数とのトレードオフについて検討する。 ほぼ厳密な上界と下界を証明することにより、不均一な環境における協調学習は、時間的トレードオフの観点からの同質な環境よりも本質的に困難であることを示す。

In this paper, we study the tradeoffs between the time and the number of communication rounds of the best arm identification problem in the heterogeneous collaborative learning model, where multiple agents interact with possibly different environments and they want to learn in parallel an objective function in the aggregated environment. By proving almost tight upper and lower bounds, we show that collaborative learning in the heterogeneous setting is inherently more difficult than that in the homogeneous setting in terms of the time-round tradeoff.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-18
# 幾何学的相対エントロピーと偏心レニイ発散

Geometric relative entropies and barycentric Rényi divergences ( http://arxiv.org/abs/2207.14282v5 )

ライセンス: Link先を確認
Milán Mosonyi, Gergely Bunth, Péter Vrana, (参考訳) 我々は、モノトン量子相対エントロピーを定義する体系的な方法と、モノトン量子相対エントロピーの集合から始まる(多重変量)量子R\'enyiの発散を与える。 情報理論における中心的な重要性にもかかわらず、古典的相対エントロピーの2つの加法的および単トン量子拡張しか知られていない。 ここでは、同じ性質を持つ与えられたものから単調および加法的量子相対エントロピーを構築するための一般的な手順を与える。特に、梅垣相対エントロピーから始めると、フルランク状態において、梅垣とベラブキン・スタスツキーの間を補間する単調および加法的量子相対エントロピーの新しい1パラメータの族を与える。 異なる方向において、古典的変分公式の一般化を用いて、量子相対エントロピーの任意の有限集合に対応する多変量量子 R\'enyi 量を $(D^{q_x})_{x\in X}$ と符号付き確率測度 $P$, as $$ Q_P^{\mathrm{b},\mathbf{q}}(((\rho_x)_{x\in X}):=\sup_{\tau\ge 0}\left\{\text{Tr}\,\tau-\sum_xP(x)D^{q_x}(\tau\|\rho_x)\right\} と定義する。 P$が確率測度であるときに、単調な量子相対エントロピーが単調なR'enyi量を定義することを示す。 正規化が正しければ、上記の量の負対数により、2-変数の場合(X=\{0,1\}$,$P(0)=\alpha$)の古典的 R\'enyi $\alpha$-divergence の量子展開が得られる。 D^{q_0}$と$D^{q_1}$の両方が単調で加法的な量子相対エントロピーであり、そのうちの少なくとも一方が梅垣相対エントロピーより厳密に大きい場合、結果として生じる準中心 R\'enyi の発散は、対数ユークリッドと最大 R\'enyi の発散の間に厳密にあり、従って以前に研究された任意の量子 R'enyi の発散とは異なる。

We give systematic ways of defining monotone quantum relative entropies and (multi-variate) quantum R\'enyi divergences starting from a set of monotone quantum relative entropies. Despite its central importance in information theory, only two additive and monotone quantum extensions of the classical relative entropy have been known so far, the Umegaki and the Belavkin-Staszewski relative entropies. Here we give a general procedure to construct monotone and additive quantum relative entropies from a given one with the same properties; in particular, when starting from the Umegaki relative entropy, this gives a new one-parameter family of monotone and additive quantum relative entropies interpolating between the Umegaki and the Belavkin-Staszewski ones on full-rank states. In a different direction, we use a generalization of a classical variational formula to define multi-variate quantum R\'enyi quantities corresponding to any finite set of quantum relative entropies $(D^{q_x})_{x\in X}$ and signed probability measure $P$, as $$ Q_P^{\mathrm{b},\mathbf{q}}((\rho_x)_{x\in X}):=\sup_{\tau\ge 0}\left\{\text{Tr}\,\tau-\sum_xP(x)D^{q_x}(\tau\|\rho_x)\right\}. $$ We show that monotone quantum relative entropies define monotone R\'enyi quantities whenever $P$ is a probability measure. With the proper normalization, the negative logarithm of the above quantity gives a quantum extension of the classical R\'enyi $\alpha$-divergence in the 2-variable case ($X=\{0,1\}$, $P(0)=\alpha$). We show that if both $D^{q_0}$ and $D^{q_1}$ are monotone and additive quantum relative entropies, and at least one of them is strictly larger than the Umegaki relative entropy then the resulting barycentric R\'enyi divergences are strictly between the log-Euclidean and the maximal R\'enyi divergences, and hence they are different from any previously studied quantum R\'enyi divergence.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-18
# ルールベースモデルから大規模言語モデルへのオープン情報抽出に関する調査

A Survey on Open Information Extraction from Rule-based Model to Large Language Model ( http://arxiv.org/abs/2208.08690v3 )

ライセンス: Link先を確認
Pai Liu, Wenyang Gao, Wenjie Dong, Lin Ai, Ziwei Gong, Songfang Huang, Zongsheng Li, Ehsan Hoque, Julia Hirschberg, Yue Zhang, (参考訳) オープン情報抽出(OpenIE)は、構造化されていないテキストから構造化情報を引き出すための重要なNLPタスクであり、関係タイプやドメインによって制限されない。 本調査では,2007年から2024年にかけてのOpenIE技術の概観を概説し,前回の調査で欠落した時系列的視点を強調した。 近年の技術の進歩に合わせて,OpenIEにおけるタスク設定の進化を考察する。 この記事では、OpenIEアプローチをルールベース、ニューラル、トレーニング済みの大規模言語モデルに分類し、時系列フレームワーク内でそれぞれについて議論する。 さらに、現在使用されている一般的なデータセットと評価指標も強調する。 この広範なレビューに基づいて、本論文は、データセット、情報ソース、出力フォーマット、方法論、評価指標の観点から、将来的な方向性を概説する。

Open Information Extraction (OpenIE) represents a crucial NLP task aimed at deriving structured information from unstructured text, unrestricted by relation type or domain. This survey paper provides an overview of OpenIE technologies spanning from 2007 to 2024, emphasizing a chronological perspective absent in prior surveys. It examines the evolution of task settings in OpenIE to align with the advances in recent technologies. The paper categorizes OpenIE approaches into rule-based, neural, and pre-trained large language models, discussing each within a chronological framework. Additionally, it highlights prevalent datasets and evaluation metrics currently in use. Building on this extensive review, the paper outlines potential future directions in terms of datasets, information sources, output formats, methodologies, and evaluation metrics.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-18
# 逆例の転送可能性ランキング

Transferability Ranking of Adversarial Examples ( http://arxiv.org/abs/2208.10878v2 )

ライセンス: Link先を確認
Mosh Levy, Guy Amit, Yuval Elovici, Yisroel Mirsky, (参考訳) ブラックボックスシナリオの逆転可能性にはユニークな課題がある:攻撃者は代理モデルを使って敵の例を作ることができるが、これらの例がターゲットモデルに悪影響を及ぼすかどうかの保証は欠如している。 これまでのところ、成功を確かめるための一般的な方法は、被害者モデル上で直接、試行錯誤されたサンプルである。 しかし、このアプローチはあらゆる試みで検出を危険にさらすため、攻撃者は最初の試みを完璧にするか、露出に直面しなければならない。 本報告では,移動攻撃プロセスの高度化を図り,被害者のシステム上で繰り返し試行を行うことなく,攻撃者が成功の可能性を推定できるランキング戦略を提案する。 多様な代理モデルの集合を利用することで, 逆例の転送可能性を予測することができる。 この戦略は、攻撃で使用する最適なサンプルを選択するか、特定のサンプルに適用する最適な摂動を選択するために使用できる。 私たちの戦略を使って、敵のサンプルの転送可能性を高めることができました - ランダムな選択から、上位レベルに近いレベルまで、100%の成功率を示すシナリオもあります。 この大幅な改善は、様々なアーキテクチャで共有される感受性に光を当てるだけでなく、攻撃者が検出可能な試行錯誤戦術を予見し、代理ベースの攻撃の脅威を増大させることも示している。

Adversarial transferability in black-box scenarios presents a unique challenge: while attackers can employ surrogate models to craft adversarial examples, they lack assurance on whether these examples will successfully compromise the target model. Until now, the prevalent method to ascertain success has been trial and error-testing crafted samples directly on the victim model. This approach, however, risks detection with every attempt, forcing attackers to either perfect their first try or face exposure. Our paper introduces a ranking strategy that refines the transfer attack process, enabling the attacker to estimate the likelihood of success without repeated trials on the victim's system. By leveraging a set of diverse surrogate models, our method can predict transferability of adversarial examples. This strategy can be used to either select the best sample to use in an attack or the best perturbation to apply to a specific sample. Using our strategy, we were able to raise the transferability of adversarial examples from a mere 20% - akin to random selection-up to near upper-bound levels, with some scenarios even witnessing a 100% success rate. This substantial improvement not only sheds light on the shared susceptibilities across diverse architectures but also demonstrates that attackers can forego the detectable trial-and-error tactics raising increasing the threat of surrogate-based attacks.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-18
# TensAIR: データストリームからのニューラルネットワークのリアルタイムトレーニング

TensAIR: Real-Time Training of Neural Networks from Data-streams ( http://arxiv.org/abs/2211.10280v2 )

ライセンス: Link先を確認
Mauro D. L. Tosi, Vinu E. Venugopal, Martin Theobald, (参考訳) データストリームからのオンライン学習(OL)は、ストリーム処理、機械学習、ネットワークといった多くの課題を含む、新たな研究分野である。 Apache KafkaやFlinkといったストリーム処理プラットフォームは、ストリーム処理パイプラインでArtificial Neural Networks(ANN)をトレーニングするための基本的な拡張を備えている。 しかし、これらの拡張はリアルタイムでANNをトレーニングするために設計されておらず、パフォーマンスやスケーラビリティの問題に悩まされている。 本稿では,ANNをリアルタイムにトレーニングする最初のOLシステムであるTensAIRについて述べる。 TensAIRは、分散および非同期アーキテクチャを使用して、DASGD(分散および非同期確率勾配勾配)を介してANNモデルをトレーニング(新しく初期化または事前訓練)することにより、顕著なパフォーマンスとスケーラビリティを実現する。 我々は,(1)ネットワーク上に展開されるワーカノードの数,(2)データバッチがデータフロー演算子に届くスループットの観点から,TensAIRがほぼ線形なスケールアウト性能を達成することを実証的に実証した。 ストリーム処理パイプラインにおけるANNのトレーニングシステムに比べて,TensAIRが持続的スループット率を6~116倍に向上した,スパース(単語埋め込み)と密集(画像分類)の両方のユースケースを調査して,TensAIRの汎用性について述べる。

Online learning (OL) from data streams is an emerging area of research that encompasses numerous challenges from stream processing, machine learning, and networking. Stream-processing platforms, such as Apache Kafka and Flink, have basic extensions for the training of Artificial Neural Networks (ANNs) in a stream-processing pipeline. However, these extensions were not designed to train ANNs in real-time, and they suffer from performance and scalability issues when doing so. This paper presents TensAIR, the first OL system for training ANNs in real time. TensAIR achieves remarkable performance and scalability by using a decentralized and asynchronous architecture to train ANN models (either freshly initialized or pre-trained) via DASGD (decentralized and asynchronous stochastic gradient descent). We empirically demonstrate that TensAIR achieves a nearly linear scale-out performance in terms of (1) the number of worker nodes deployed in the network, and (2) the throughput at which the data batches arrive at the dataflow operators. We depict the versatility of TensAIR by investigating both sparse (word embedding) and dense (image classification) use cases, for which TensAIR achieved from 6 to 116 times higher sustainable throughput rates than state-of-the-art systems for training ANN in a stream-processing pipeline.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-18
# 混合一般化線形モデルにおけるスペクトル法の精密漸近

Precise Asymptotics for Spectral Methods in Mixed Generalized Linear Models ( http://arxiv.org/abs/2211.11368v4 )

ライセンス: Link先を確認
Yihan Zhang, Marco Mondelli, Ramji Venkataramanan, (参考訳) 混合一般化線形モデルにおいて、目的はラベルのない観測から複数の信号を学習することであり、それぞれのサンプルは正確に1つの信号から来ているが、どれがどれであるかは分かっていない。 ガウス共変量との混合一般化線形モデルにおいて、2つの統計的に独立な信号を推定する原型的問題を考える。 スペクトル法は、適切なデータ依存行列のトップ2固有ベクトルを出力する一般的な推定器のクラスである。 しかし、幅広い適用性にもかかわらず、その設計はいまだヒューリスティックな考察によって得られており、回復を保証するのに必要なサンプル数$n$は信号次元$d$の超直線的である。 本稿では,n,d$が大きく成長し,その比が有限定数に収束する挑戦的比例法において,スペクトル法に関する正確な漸近法を開発する。 これにより、スペクトル法の設計を最適化し、単純な線形推定器と組み合わせることで、推定誤差を最小限に抑えることができる。 我々の特徴付けは、ランダム行列、自由確率、および近似メッセージパッシングアルゴリズムの理論からのツールの混合を利用する。 混合線形回帰法と位相探索法を併用した数値シミュレーションにより,既存のスペクトル法の設計に対する解析により,その利点を実証した。

In a mixed generalized linear model, the objective is to learn multiple signals from unlabeled observations: each sample comes from exactly one signal, but it is not known which one. We consider the prototypical problem of estimating two statistically independent signals in a mixed generalized linear model with Gaussian covariates. Spectral methods are a popular class of estimators which output the top two eigenvectors of a suitable data-dependent matrix. However, despite the wide applicability, their design is still obtained via heuristic considerations, and the number of samples $n$ needed to guarantee recovery is super-linear in the signal dimension $d$. In this paper, we develop exact asymptotics on spectral methods in the challenging proportional regime in which $n, d$ grow large and their ratio converges to a finite constant. By doing so, we are able to optimize the design of the spectral method, and combine it with a simple linear estimator, in order to minimize the estimation error. Our characterization exploits a mix of tools from random matrices, free probability and the theory of approximate message passing algorithms. Numerical simulations for mixed linear regression and phase retrieval demonstrate the advantage enabled by our analysis over existing designs of spectral methods.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-18
# 反スキーズ法による量子光子相互作用の動的増強

Dynamically enhancing qubit-photon interactions with anti-squeezing ( http://arxiv.org/abs/2212.04991v3 )

ライセンス: Link先を確認
M. Villiers, W. C. Smith, A. Petrescu, A. Borgognoni, M. Delbecq, A. Sarlette, M. Mirrahimi, P. Campagne-Ibarcq, T. Kontos, Z. Leghtas, (参考訳) 発振器と量子ビットとの相互作用強度は、発振器の真空場変動とともに増大する。 良く知られた縮退型パラメトリック発振器は、その固有状態がフォック状態に絞られた強い縮退したスクイーズ状態への関心を復活させた。 これらの増幅場ゆらぎにより、この発振器のスクイーズにより量子ビット-光子相互作用が動的に促進されることが最近提案された。 超伝導回路実験において、スクイージングの5.5dBにおいて、キュービットと発振器の拡散相互作用の2倍の増大を観測し、キュービット-光子の相互作用をその場で動的に制御することを示した。 この研究は、励起された光子の振動子と量子ビットとの実験的カップリングを開始し、強化された相互作用を求める実験プラットフォームにおけるそれらの拡散を慎重に動機付ける。

The interaction strength of an oscillator to a qubit grows with the oscillator's vacuum field fluctuations. The well known degenerate parametric oscillator has revived interest in the regime of strongly detuned squeezing, where its eigenstates are squeezed Fock states. Owing to these amplified field fluctuations, it was recently proposed that squeezing this oscillator would dynamically boost qubit-photon interactions. In a superconducting circuit experiment, we observe a two-fold increase in the dispersive interaction between a qubit and an oscillator at 5.5 dB of squeezing, demonstrating in-situ dynamical control of qubit-photon interactions. This work initiates the experimental coupling of oscillators of squeezed photons to qubits, and cautiously motivates their dissemination in experimental platforms seeking enhanced interactions.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-18
# 分布変化下における血管分節法の性能測定のための新しいデータセット

A new dataset for measuring the performance of blood vessel segmentation methods under distribution shifts ( http://arxiv.org/abs/2301.04517v4 )

ライセンス: Link先を確認
Matheus Viana da Silva, Natália de Carvalho Santos, Julie Ouellette, Baptiste Lacoste, Cesar Henrique Comin, (参考訳) 教師付き機械学習アルゴリズムをトレーニングするためのデータセットを作成することは、必要なタスクである。 これは医用画像のセグメンテーションには特に当てはまり、画像アノテーションには1つ以上の専門家が通常必要であり、単一の画像に対して地上の真理ラベルを作成するのに数時間かかる。 さらに, 注記された試料は, 像組織に影響を及ぼす可能性のある異なる条件と, 画像取得過程の変化を良好に表現することが最重要である。 これはデータセットに典型的なサンプルや、非定型的なサンプル、あるいは外部のサンプルを考慮することでのみ達成できる。 異種血管セグメンテーションデータセットであるVessMAPを紹介する。 ベースデータセットから原型サンプルと非典型サンプルの両方を選択する手法が開発され、異なるサンプル上でのセグメンテーションアルゴリズムの性能を測定するために使用できる、分類された画像セットが定義された。 新しいデータセットの可能性を示すために、ニューラルネットワークの検証性能は、ネットワークのトレーニングに使用する分割によって大きく変化することを示す。

Creating a dataset for training supervised machine learning algorithms can be a demanding task. This is especially true for medical image segmentation since one or more specialists are usually required for image annotation, and creating ground truth labels for just a single image can take up to several hours. In addition, it is paramount that the annotated samples represent well the different conditions that might affect the imaged tissues as well as possible changes in the image acquisition process. This can only be achieved by considering samples that are typical in the dataset as well as atypical, or even outlier, samples. We introduce VessMAP, a heterogeneous blood vessel segmentation dataset acquired by carefully sampling relevant images from a larger non-annotated dataset. A methodology was developed to select both prototypical and atypical samples from the base dataset, thus defining an assorted set of images that can be used for measuring the performance of segmentation algorithms on samples that are highly distinct from each other. To demonstrate the potential of the new dataset, we show that the validation performance of a neural network changes significantly depending on the splits used for training the network.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-18
# Ethereum上の説明可能なPonziスキーム検出

Explainable Ponzi Schemes Detection on Ethereum ( http://arxiv.org/abs/2301.04872v2 )

ライセンス: Link先を確認
Letterio Galletta, Fabio Pinelli, (参考訳) ブロックチェーン技術は、新しい経済アプリケーションをデプロイするためにうまく活用されている。 しかし、正直なユーザーを欺いて経済的優位性を得るために詐欺を犯す悪質な俳優の関心を喚起し始めた。 ポンツィスキームは最も一般的な詐欺の一つである。 本稿では,Ethereum上のスマートPonziコントラクトを検出するための分類器を提案する。 まず,ラベル付きデータの利用不可能な問題に対処するため,4422のユニークな実世界のスマートコントラクトを備えたラベル付きデータセットをリリースする。 そこで,本研究では,AUCを計量として考えると,文献で提案したものよりも優れていることを示す。 最後に、良質な分類品質を保証し、eXplainable AI技術を用いた分類への影響を調査する、小型で効果的な機能のセットを特定する。

Blockchain technology has been successfully exploited for deploying new economic applications. However, it has started arousing the interest of malicious actors who deliver scams to deceive honest users and to gain economic advantages. Ponzi schemes are one of the most common scams. Here, we present a classifier for detecting smart Ponzi contracts on Ethereum, which can be used as the backbone for developing detection tools. First, we release a labelled data set with 4422 unique real-world smart contracts to address the problem of the unavailability of labelled data. Then, we show that our classifier outperforms the ones proposed in the literature when considering the AUC as a metric. Finally, we identify a small and effective set of features that ensures a good classification quality and investigate their impacts on the classification using eXplainable AI techniques.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-18
# 絡み合いブートストラップからのリモート検出 I:Kirbyのトーラストリック

Remote detectability from entanglement bootstrap I: Kirby's torus trick ( http://arxiv.org/abs/2301.07119v2 )

ライセンス: Link先を確認
Bowen Shi, Jin-Long Huang, John McGreevy, (参考訳) リモート検出可能性はしばしば、位相的に順序付けられた系の研究における物理的仮定として捉えられ、位相量子場理論の数学的枠組みの中心的公理である。 遠距離検出性は必要となる性質である,すなわち定理として導出する,という絡み合いブートストラップのアプローチを導出する。 絡み合うブートストラップ公理を満たす位相的自明な領域上の単一波動関数から始め、閉多様体上の状態を構築することができる。 重要な技術は、曲がりくねった多様体をトポロジカルに自明な領域に浸し、その穴を癒すことである。 これはカービーのトーラスのトリックに似ている。 すると、そのような多様体の特別なクラスを分析して、ペア多様体と呼ぶ。 2つの励起のクラスをペア化する各ペア多様体に対して、位相的$S$-行列の類似を同定する。 この対行列はユニタリであり、2つのクラスの励起の間のリモート検出可能性を意味する。 これらの行列は一般に多様体の写像類群に関連付けられない。 副生成物として、励起型(例えば、3+1d のグラフ励起)を数えることができる。 ペアリング現象は、異なる次元のシステムを含む多くの物理的文脈で発生し、境界の隙間があるか無いかで発生する。 そのスコープを説明するには、さまざまな例を挙げる。

Remote detectability is often taken as a physical assumption in the study of topologically ordered systems, and it is a central axiom of mathematical frameworks of topological quantum field theories. We show under the entanglement bootstrap approach that remote detectability is a necessary property; that is, we derive it as a theorem. Starting from a single wave function on a topologically-trivial region satisfying the entanglement bootstrap axioms, we can construct states on closed manifolds. The crucial technique is to immerse the punctured manifold into the topologically trivial region and then heal the puncture. This is analogous to Kirby's torus trick. We then analyze a special class of such manifolds, which we call pairing manifolds. For each pairing manifold, which pairs two classes of excitations, we identify an analog of the topological $S$-matrix. This pairing matrix is unitary, which implies remote detectability between two classes of excitations. These matrices are in general not associated with the mapping class group of the manifold. As a by-product, we can count excitation types (e.g., graph excitations in 3+1d). The pairing phenomenon occurs in many physical contexts, including systems in different dimensions, with or without gapped boundaries. We provide a variety of examples to illustrate its scope.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-18
# フェデレーション学習のための1ショット経験的プライバシ推定

One-shot Empirical Privacy Estimation for Federated Learning ( http://arxiv.org/abs/2302.03098v5 )

ライセンス: Link先を確認
Galen Andrew, Peter Kairouz, Sewoong Oh, Alina Oprea, H. Brendan McMahan, Vinith M. Suriyakumar, (参考訳) 差分プライベート(DP)アルゴリズムのプライバシ推定手法は、解析的境界との比較や、既知の解析的境界が厳密でない環境でのプライバシー損失を実証的に測定するのに有用である。 しかしながら、既存のプライバシ監査技術は、通常、敵に対して強い仮定(例えば、中間モデルイテレートの知識やトレーニングデータ分布)を行い、特定のタスク、モデルアーキテクチャ、DPアルゴリズムに適合し、また/またはモデルを再訓練する必要がある(典型的には数千のオーダーで)。 これらの欠点は,特にモデルトレーニングに数日ないし数週間を要する,フェデレートされた環境では,そのようなテクニックを実践的に大規模に展開することが難しくなる。 本研究では,これらの課題を体系的に解決し,モデルパラメータに適合する単一トレーニング実行と,モデルアーキテクチャやタスク,DPトレーニングアルゴリズムに関する事前知識を必要とせず,モデルに対する効率的な監査やプライバシ損失の推定を可能にする,新しい"ワンショット"アプローチを提案する。 提案手法は,ガウス機構下でのプライバシ損失を正当に推定し,複数の脅威モデルの下で確立されたFLベンチマークデータセットの性能を示す。

Privacy estimation techniques for differentially private (DP) algorithms are useful for comparing against analytical bounds, or to empirically measure privacy loss in settings where known analytical bounds are not tight. However, existing privacy auditing techniques usually make strong assumptions on the adversary (e.g., knowledge of intermediate model iterates or the training data distribution), are tailored to specific tasks, model architectures, or DP algorithm, and/or require retraining the model many times (typically on the order of thousands). These shortcomings make deploying such techniques at scale difficult in practice, especially in federated settings where model training can take days or weeks. In this work, we present a novel "one-shot" approach that can systematically address these challenges, allowing efficient auditing or estimation of the privacy loss of a model during the same, single training run used to fit model parameters, and without requiring any a priori knowledge about the model architecture, task, or DP training algorithm. We show that our method provides provably correct estimates for the privacy loss under the Gaussian mechanism, and we demonstrate its performance on well-established FL benchmark datasets under several adversarial threat models.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-18
# 測定誘起相転移におけるメトロロジーと多粒子エンタングルメント

Metrology and multipartite entanglement in measurement-induced phase transition ( http://arxiv.org/abs/2302.10132v4 )

ライセンス: Link先を確認
Giovanni Di Fresco, Bernardo Spagnolo, Davide Valenti, Angelo Carollo, (参考訳) 測定誘起相転移は、決定論的量子進化と繰り返し測定過程の競合から生じる。 本稿では,2つの異なる気象シナリオにおいて,量子フィッシャー情報による測定誘起相転移について検討する。 我々は、量子フィッシャー情報のスケーリング動作を通じて、位相間の多粒子交絡の遷移を実演する。 標準量子相転移と類似して、測定強度が臨界値に近づくにつれて、量子フィッシャー情報の非解析的挙動における測定誘起相転移の符号を明らかにする。 この結果は、測定誘起相転移中の量子系の特徴に関する新たな知見を提供し、量子物理学の分野におけるさらなる研究の道筋を示すものである。

Measurement-induced phase transition arises from the competition between a deterministic quantum evolution and a repeated measurement process. We explore the measurement-induced phase transition through the Quantum Fisher Information in two different metrological scenarios. We demonstrate through the scaling behavior of the quantum Fisher information the transition of the multi-partite entanglement across the phases. In analogy with standard quantum phase transition, we reveal signature of a measurement-induced phase transition in the non-analytic behaviour of the quantum Fisher information as the measurement strength approaches the critical value. Our results offer novel insights into the features of a quantum systems undergoing measurement-induced phase transition and indicate potential avenues for further exploration in the field of quantum physics.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-18
# 知覚マニフォールドの曲率によるDNNの公正性の予測と向上

Predicting and Enhancing the Fairness of DNNs with the Curvature of Perceptual Manifolds ( http://arxiv.org/abs/2303.12307v4 )

ライセンス: Link先を確認
Yanbiao Ma, Licheng Jiao, Fang Liu, Maoji Wen, Lingling Li, Wenping Ma, Shuyuan Yang, Xu Liu, Puhua Chen, (参考訳) 長い尾の分類の課題に対処するために、研究者はモデルバイアスを減らすいくつかのアプローチを提案しており、そのほとんどはサンプルが少ないクラスが弱いクラスであると仮定している。 しかし、最近の研究では、テールクラスは必ずしも学習が困難ではないことが示されており、サンプルバランスのデータセットではモデルバイアスが観察されており、モデルバイアスに影響を与える他の要因の存在が示唆されている。 本研究ではまず,モデルフェアネスを解析するための幾何学的視点を確立し,さらに深部ニューラルネットワークにおける知覚多様体の幾何的測度を体系的に提案する。 その後,知覚多様体の幾何学的特徴が分類難度および学習が知覚多様体の幾何学的特徴をどのように形成するかを包括的に検討した。 学習中にクラス精度と知覚多様体の分離度との相関が徐々に減少する一方、曲率との負の相関は徐々に増加し、曲率不均衡がモデルバイアスを引き起こすことが示唆される。 複数の長い尾のデータセットと非長い尾のデータセットの評価は、我々のアプローチの優れたパフォーマンスとエキサイティングな一般性を示している。 我々の研究は、モデルバイアスに関する幾何学的分析の視点を開き、非長い尾とサンプルバランスのデータセットのモデルバイアスに注意を払うよう研究者に促す。

To address the challenges of long-tailed classification, researchers have proposed several approaches to reduce model bias, most of which assume that classes with few samples are weak classes. However, recent studies have shown that tail classes are not always hard to learn, and model bias has been observed on sample-balanced datasets, suggesting the existence of other factors that affect model bias. In this work, we first establish a geometric perspective for analyzing model fairness and then systematically propose a series of geometric measurements for perceptual manifolds in deep neural networks. Subsequently, we comprehensively explore the effect of the geometric characteristics of perceptual manifolds on classification difficulty and how learning shapes the geometric characteristics of perceptual manifolds. An unanticipated finding is that the correlation between the class accuracy and the separation degree of perceptual manifolds gradually decreases during training, while the negative correlation with the curvature gradually increases, implying that curvature imbalance leads to model bias.Building upon these observations, we propose curvature regularization to facilitate the model to learn curvature-balanced and flatter perceptual manifolds. Evaluations on multiple long-tailed and non-long-tailed datasets show the excellent performance and exciting generality of our approach, especially in achieving significant performance improvements based on current state-of-the-art techniques. Our work opens up a geometric analysis perspective on model bias and reminds researchers to pay attention to model bias on non-long-tailed and even sample-balanced datasets.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# ハードウェアによるマルウェア検出手法の検討

A survey on hardware-based malware detection approaches ( http://arxiv.org/abs/2303.12525v2 )

ライセンス: Link先を確認
Cristiano Pegoraro Chenet, Alessandro Savino, Stefano Di Carlo, (参考訳) この論文は、マルウェアが最重要脅威となるコンピュータセキュリティのダイナミックな景観を掘り下げるものである。 私たちの焦点は、最近かつ有望なハードウェアベースのマルウェア検出アプローチを精査することにあります。 ハードウェアパフォーマンスカウンタと機械学習のメリットを活用して、ハードウェアベースのマルウェア検出アプローチは、リアルタイム検出、コードのバリエーションに対するレジリエンス、パフォーマンスオーバーヘッドの最小化、保護の無効化、コスト効率といった、魅力的なメリットをもたらす。 一般的なハードウェアベースの検出フレームワークをナビゲートして、アプローチを慎重に分析し、最も一般的な方法、アルゴリズム、ツール、および輪郭を形成するデータセットを明らかにします。 この調査は、経験豊富な専門家のリソースであるだけでなく、マルウェア検出の分野に参入する人たちの関心を喚起する出発点でもある。 しかし、ハードウェアイベントに基づいたマルウェア検出の課題が浮かび上がっている。 我々は、残りの分類誤りに対処するために、精度の向上と戦略の強制に苦慮する。 この議論は、協調的有効性のための混合ハードウェアとソフトウェアアプローチの構築、ハードウェア監視ユニットの不可欠な拡張、ハードウェアイベントとマルウェアアプリケーションの間の相関関係の理解を深めている。

This paper delves into the dynamic landscape of computer security, where malware poses a paramount threat. Our focus is a riveting exploration of the recent and promising hardware-based malware detection approaches. Leveraging hardware performance counters and machine learning prowess, hardware-based malware detection approaches bring forth compelling advantages such as real-time detection, resilience to code variations, minimal performance overhead, protection disablement fortitude, and cost-effectiveness. Navigating through a generic hardware-based detection framework, we meticulously analyze the approach, unraveling the most common methods, algorithms, tools, and datasets that shape its contours. This survey is not only a resource for seasoned experts but also an inviting starting point for those venturing into the field of malware detection. However, challenges emerge in detecting malware based on hardware events. We struggle with the imperative of accuracy improvements and strategies to address the remaining classification errors. The discussion extends to crafting mixed hardware and software approaches for collaborative efficacy, essential enhancements in hardware monitoring units, and a better understanding of the correlation between hardware events and malware applications.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# セマンティックシーン完了のための相互相互作用の信頼性を考慮したブリッジングステレオ形状とBEV表現

Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion ( http://arxiv.org/abs/2303.13959v4 )

ライセンス: Link先を確認
Bohan Li, Yasheng Sun, Zhujin Liang, Dalong Du, Zhuanghui Zhang, Xiaofeng Wang, Yunnan Wang, Xin Jin, Wenjun Zeng, (参考訳) 3Dセマンティックシーン完了(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。 従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。 本稿では,SSCにおけるステレオマッチング手法と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。 BEV表現は、グローバルな意味的文脈を持つ見えない領域の幻覚能力を高める一方で、ステレオマッチングは、エピポーラ制約による幾何学的曖昧さを緩和する。 しかし, 立体幾何学とBEVの特徴の相違により, SSCの密接な予測タスクのためにそれらを橋渡しすることは容易ではない。 そこで,この2つの表現を高密度な3Dボリュームで効果的にブリッジして,信頼性の高いセマンティックシーンを補完する,BRGSceneと呼ばれる統合占有型フレームワークをさらに発展させる。 具体的には、ステレオ幾何およびBEV特徴の画素レベルの信頼性の高いアグリゲーションのための新しい相互対話型アンサンブル(MIE)ブロックを設計する。 MIEブロック内では、信頼再重み付けにより強化された双方向信頼インタラクション(BRI)モジュールが、相互誘導によるきめ細かいインタラクションを促進するために使用される。 さらに、チャネルワイド・リカレーションとマルチグループ投票を通じて補完的な集約を容易にするために、DVE(Dual Volume Ensemble)モジュールが導入された。 本手法は,セマンティックKITTIのセマンティック・シーン・コンプリートにおける全カメラ・ベースの手法より優れる。 私たちのコードは \url{https://github.com/Arlo0o/StereoScene} で利用可能です。

3D semantic scene completion (SSC) is an ill-posed perception task that requires inferring a dense 3D scene from limited observations. Previous camera-based methods struggle to predict accurate semantic scenes due to inherent geometric ambiguity and incomplete observations. In this paper, we resort to stereo matching technique and bird's-eye-view (BEV) representation learning to address such issues in SSC. Complementary to each other, stereo matching mitigates geometric ambiguity with epipolar constraint while BEV representation enhances the hallucination ability for invisible regions with global semantic context. However, due to the inherent representation gap between stereo geometry and BEV features, it is non-trivial to bridge them for dense prediction task of SSC. Therefore, we further develop a unified occupancy-based framework dubbed BRGScene, which effectively bridges these two representations with dense 3D volumes for reliable semantic scene completion. Specifically, we design a novel Mutual Interactive Ensemble (MIE) block for pixel-level reliable aggregation of stereo geometry and BEV features. Within the MIE block, a Bi-directional Reliable Interaction (BRI) module, enhanced with confidence re-weighting, is employed to encourage fine-grained interaction through mutual guidance. Besides, a Dual Volume Ensemble (DVE) module is introduced to facilitate complementary aggregation through channel-wise recalibration and multi-group voting. Our method outperforms all published camera-based methods on SemanticKITTI for semantic scene completion. Our code is available on \url{https://github.com/Arlo0o/StereoScene}.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# DeforestVis: サロゲート決定スタンプを用いた機械学習モデルの動作解析

DeforestVis: Behavior Analysis of Machine Learning Models with Surrogate Decision Stumps ( http://arxiv.org/abs/2304.00133v5 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Rafael M. Martins, Alexandru C. Telea, Andreas Kerren, (参考訳) 機械学習(ML)モデルの複雑さが増大し、異なる(そして重要な)ドメインでの応用が増加するにつれて、より解釈可能で信頼性の高いMLに対する強い需要がある。 そのようなモデルを直接、モデルに依存しない、解釈する方法は、ルールセットや決定ツリーのような代理モデルを訓練することである。 しかし、ルールセットは非常に長くなり、多くのif-else文があり、複雑なMLモデルを正確にエミュレートすると決定木深さが急速に増加する。 このような場合、どちらのアプローチも、モデル解釈可能性を持つユーザを目標とする中核的な目標達成に失敗する可能性がある。 これを解決するために,Adaptive Boosting (AdaBoost) 技術で生成された一段決定切り株(一段決定木)を提供することにより,複雑なMLモデルの振る舞いを要約する視覚解析ツールであるDeforestVisを提案する。 DeforestVisは、より多くの切り株をインクリメンタルに生成し、決定を正当化するために重み付けされた切り株を使った属性ベースの説明を作成し、1つ以上の切り株間のトレーニングインスタンス割り当てに対するルールオーバーライドの影響を分析することで、複雑さとフィデリティのトレードオフを探索するのに役立つ。 独立したテストセットでは、手動のルール変更の有効性を監視し、ケースバイケース分析に基づいて仮説を形成することができる。 DeforestVisの適用性と有用性について,2つのユースケースと,データアナリストとモデル開発者とのエキスパートインタビューで紹介する。

As the complexity of machine learning (ML) models increases and their application in different (and critical) domains grows, there is a strong demand for more interpretable and trustworthy ML. A direct, model-agnostic, way to interpret such models is to train surrogate models-such as rule sets and decision trees-that sufficiently approximate the original ones while being simpler and easier-to-explain. Yet, rule sets can become very lengthy, with many if-else statements, and decision tree depth grows rapidly when accurately emulating complex ML models. In such cases, both approaches can fail to meet their core goal-providing users with model interpretability. To tackle this, we propose DeforestVis, a visual analytics tool that offers summarization of the behaviour of complex ML models by providing surrogate decision stumps (one-level decision trees) generated with the Adaptive Boosting (AdaBoost) technique. DeforestVis helps users to explore the complexity versus fidelity trade-off by incrementally generating more stumps, creating attribute-based explanations with weighted stumps to justify decision making, and analysing the impact of rule overriding on training instance allocation between one or more stumps. An independent test set allows users to monitor the effectiveness of manual rule changes and form hypotheses based on case-by-case analyses. We show the applicability and usefulness of DeforestVis with two use cases and expert interviews with data analysts and model developers.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# Wav2code: ノイズキャンバスASRのためのコードブック検索によるクリーンな音声表現の復元

Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR ( http://arxiv.org/abs/2304.04974v3 )

ライセンス: Link先を確認
Yuchen Hu, Chen Chen, Qiushi Zhu, Eng Siong Chng, (参考訳) 音声認識(ASR)は近年の深層学習の進歩により顕著な成功を収めているが、現実の雑音下では著しく劣化することが多い。 最近の研究は、音声品質向上のためのフロントエンドとして、音声強調(SE)を導入している。 最新の研究はSEと、現在人気の高い自己教師付き学習(SSL)を組み合わせて、歪みを緩和し、ノイズの堅牢性を改善する。 この効果にもかかわらず、従来のSEによる音声歪みを除去することはできない。 本稿では,ノイズロスASRの歪みを低減した特徴レベルSEを実装するために,Wav2codeという自己教師型フレームワークを提案する。 まず、訓練前の段階でSSLモデルからクリーンな音声表現を送信し、隣り合う特徴マッチングを通じて個別のコードブックを検索し、結果のコードシーケンスを使用して元のクリーンな表現を再構築し、コードブックに予め保存する。 次に, 入力ノイズ表現のグローバル依存性をモデル化し, 歪みを低減した高品質なクリーン表現の発見と復元を可能にするトランスフォーマーベースのコード予測器を提案する。 さらに、元の雑音と復元されたクリーン表現を組み合わせ、忠実度と品質を両立させるインタラクティブな特徴融合ネットワークを提案する。 最後に、合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができ、強い強靭性をもたらすことを示した。

Automatic speech recognition (ASR) has gained remarkable successes thanks to recent advances of deep learning, but it usually degrades significantly under real-world noisy conditions. Recent works introduce speech enhancement (SE) as front-end to improve speech quality, which is proved effective but may not be optimal for downstream ASR due to speech distortion problem. Based on that, latest works combine SE and currently popular self-supervised learning (SSL) to alleviate distortion and improve noise robustness. Despite the effectiveness, the speech distortion caused by conventional SE still cannot be cleared out. In this paper, we propose a self-supervised framework named Wav2code to implement a feature-level SE with reduced distortions for noise-robust ASR. First, in pre-training stage the clean speech representations from SSL model are sent to lookup a discrete codebook via nearest-neighbor feature matching, the resulted code sequence are then exploited to reconstruct the original clean representations, in order to store them in codebook as prior. Second, during finetuning we propose a Transformer-based code predictor to accurately predict clean codes by modeling the global dependency of input noisy representations, which enables discovery and restoration of high-quality clean representations with reduced distortions. Furthermore, we propose an interactive feature fusion network to combine original noisy and the restored clean representations to consider both fidelity and quality, resulting in more informative features for downstream ASR. Finally, experiments on both synthetic and real noisy datasets demonstrate that Wav2code can solve the speech distortion and improve ASR performance under various noisy conditions, resulting in stronger robustness.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# 量子ディスクからのセキュアキー

Secure Key from Quantum Discord ( http://arxiv.org/abs/2304.05880v3 )

ライセンス: Link先を確認
Rong Wang, Guan-Jie Fan-Yuan, Zhen-Qiang Yin, Shuang Wang, Hong-Wei Li, Yao Yao, Wei Chen, Guang-Can Guo, Zheng-Fu Han, (参考訳) 量子情報処理の研究は、量子情報処理が従来の情報処理では不可能または非効率なタスクを実行できるようにするリソースを特徴付けようとしている。 量子暗号はそのような課題の一つであり、研究者は絡み合いをセキュアな鍵生成に十分なリソースとして認識している。 しかし、絡み合い以外の別の種類の量子相関である量子不協和は、情報漏洩に直接関係しているため、セキュアな通信を保証するために必要であることが判明した。 それにもかかわらず、特定の量子暗号プロトコルのセキュリティを分析するために不一致を利用するには、長年にわたる問題である。 ここでは、最近提案した量子不一致の証人に基づいて、BB84のような量子鍵分布プロトコルとその等価な絡み合いに基づくバージョンを考慮し、この問題に対処することに成功している。 提案手法は, 標準のBB84プロトコルよりも高い鍵レートを実現するため, 量子チャネルによる基底ミスアライメントだけでなく, 量子ビット源および量子ビット測定の不完全性に対して頑健である。 これらの利点はフォトニック位相符号化システムを用いて実験的に実証され、その結果の実用性を示している。

The study of quantum information processing seeks to characterize the resources that enable quantum information processing to perform tasks that are unfeasible or inefficient for classical information processing. Quantum cryptography is one such task, and researchers have identified entanglement as a sufficient resource for secure key generation. However, quantum discord, another type of quantum correlation beyond entanglement, has been found to be necessary for guaranteeing secure communication due to its direct relation to information leakage. Despite this, it is a long-standing problem how to make use of discord to analyze security in a specific quantum cryptography protocol. Here, based on our proposed quantum discord witness recently, we successfully address this issue by considering a BB84-like quantum key distribution protocol and its equivalent entanglement-based version. Our method is robust against imperfections in qubit sources and qubit measurements as well as basis misalignment due to quantum channels, which results in a better key rate than standard BB84 protocol. Those advantages are experimentally demonstrated via photonic phase encoding systems, which shows the practicality of our results.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# ユニバーサルゲート集合の漏洩ベンチマーク

Leakage Benchmarking for Universal Gate Sets ( http://arxiv.org/abs/2304.07884v2 )

ライセンス: Link先を確認
Bujiao Wu, Xiaoyang Wang, Xiao Yuan, Cupjin Huang, Jianxin Chen, (参考訳) 量子コンピューティングプラットフォームではエラーが一般的な問題であり、リークは最も解決が難しい問題のひとつだ。 これは、すなわち計算部分空間に格納されている情報のリーク、すなわちより大きなヒルベルト空間の望ましくない部分空間への損失が、計算部分空間を保存する誤りよりも検出し、修正することがより困難であるからである。 その結果、リークはフォールトトレラント量子計算の発展に重大な障害をもたらす。 本稿では,マルチキュービット量子システムにおけるリークレートを測定するための,リークランダム化ベンチマーク(LRB)という,効率的かつ正確なベンチマークフレームワークを提案する。 提案手法は,既存のリークベンチマークプロトコルよりも状態準備・測定(SPAM)ノイズに敏感であり,ゲートセット自体の仮定を少なくし,これまで行われていなかったマルチキュービットリークのベンチマークに使用できる。 また、LRBプロトコルをインターリーブドLRB (Interleaved LRB) と呼ばれるインターリーブ型に拡張し、一般的な$n$サイトの量子ゲートの平均リーク率を妥当なノイズ仮定でベンチマークすることができる。 フラックスチューニングにより実現した汎用2ビットゲートのベンチマークにおいて,iLRBプロトコルを実証し,対応するリークモデルの下でのiLRBの挙動を解析する。 数値実験により,LRBプロトコルとiLRBプロトコルの有効性が示唆された。 キーワード:量子コンピューティング、ランダム化ベンチマーク、リークエラー、量子ゲート

Errors are common issues in quantum computing platforms, among which leakage is one of the most challenging to address. This is because leakage, i.e., the loss of information stored in the computational subspace to undesired subspaces in a larger Hilbert space, is more difficult to detect and correct than errors that preserve the computational subspace. As a result, leakage presents a significant obstacle to the development of fault-tolerant quantum computation. In this paper, we propose an efficient and accurate benchmarking framework called leakage randomized benchmarking (LRB) for measuring leakage rates on multi-qubit quantum systems. Our approach is more insensitive to state preparation and measurement (SPAM) noise than existing leakage benchmarking protocols, requires fewer assumptions about the gate set itself, and can be used to benchmark multi-qubit leakages, which was not done previously. We also extend the LRB protocol to an interleaved variant called interleaved LRB (iLRB), which can benchmark the average leakage rate of generic $n$-site quantum gates with reasonable noise assumptions. We demonstrate the iLRB protocol on benchmarking generic two-qubit gates realized using flux tuning, and analyze the behavior of iLRB under corresponding leakage models. Our numerical experiments show good agreement with theoretical estimations, indicating the feasibility of both the LRB and iLRB protocols. Keywords: quantum computing; randomized benchmarking; leakage error; quantum gates
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# リラクシド強制選択は視覚品質評価法の性能を向上させる

Relaxed forced choice improves performance of visual quality assessment methods ( http://arxiv.org/abs/2305.00220v2 )

ライセンス: Link先を確認
Mohsen Jenadeleh, Johannes Zagermann, Harald Reiterer, Ulf-Dietrich Reips, Raouf Hamzaoui, Dietmar Saupe, (参考訳) 画像品質評価において、多数の被験者の個人評価から画像又は映像の集合的視覚品質スコアを得る。 これらの実験でよく使われる形式は、2つの代替的な強制選択法である。 内容は同じだが視覚的品質が異なる2つの刺激を順次または並べて提示する。 被験者は、より良い品質の1つを選ぶように求められ、不確実な場合には、推測する必要がある。 緩和された代替の強制選択フォーマットは、第3の応答オプションである ` `not sure'' を提供することによって、推測による認識負荷と応答のノイズを低減することを目的としている。 この研究は、これらの2つのレスポンスフォーマットを比較するために、大規模で包括的なクラウドソーシング実験を提示している。 品質評価のための曖昧な基礎的真理を提供するため、被験者は点数が異なる画像のペアを示し、より多くの点を持つものを選ぶように毎回要求した。 クラウドソーシング調査には254名の参加者が参加し,対象内設計を用いて実施した。 各被験者は,「不確実」反応オプションの有無と40対比較の回答を求められ,各テスト条件に対する認知負荷を評価するためのアンケートを完了した。 実験結果から,強制選択法に `<not sure'' 応答オプションを組み込むことで,心理的負荷が減少し,データ適合性が向上し,真理に対応するモデルが得られた。 また、モデルの等価性をテストした結果、それらが異なることがわかった。 データセットはhttp://database.mmsp-kn.de/cogvqa-database.htmlで公開されている。

In image quality assessment, a collective visual quality score for an image or video is obtained from the individual ratings of many subjects. One commonly used format for these experiments is the two-alternative forced choice method. Two stimuli with the same content but differing visual quality are presented sequentially or side-by-side. Subjects are asked to select the one of better quality, and when uncertain, they are required to guess. The relaxed alternative forced choice format aims to reduce the cognitive load and the noise in the responses due to the guessing by providing a third response option, namely, ``not sure''. This work presents a large and comprehensive crowdsourcing experiment to compare these two response formats: the one with the ``not sure'' option and the one without it. To provide unambiguous ground truth for quality evaluation, subjects were shown pairs of images with differing numbers of dots and asked each time to choose the one with more dots. Our crowdsourcing study involved 254 participants and was conducted using a within-subject design. Each participant was asked to respond to 40 pair comparisons with and without the ``not sure'' response option and completed a questionnaire to evaluate their cognitive load for each testing condition. The experimental results show that the inclusion of the ``not sure'' response option in the forced choice method reduced mental load and led to models with better data fit and correspondence to ground truth. We also tested for the equivalence of the models and found that they were different. The dataset is available at http://database.mmsp-kn.de/cogvqa-database.html.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# 逐次リコメンダシステムのためのロバスト強化学習目標

Robust Reinforcement Learning Objectives for Sequential Recommender Systems ( http://arxiv.org/abs/2305.18820v2 )

ライセンス: Link先を確認
Melissa Mozifian, Tristan Sylvain, Dave Evans, Lili Meng, (参考訳) 注意に基づくシーケンシャルレコメンデーション手法は、過去のインタラクションからユーザの進化する関心を正確に捉えることを約束している。 近年の研究では、これらのモデルへの強化学習(RL)の統合や、優れたユーザ表現の生成についても検討されている。 報酬信号を用いたRL問題としてシーケンシャルレコメンデーションをフレーミングすることにより、報酬の形で直接ユーザフィードバックを組み込んだレコメンデーションシステムを開発し、ユーザのパーソナライズを高めることができる。 それでも、RLアルゴリズムを採用することで、政治外のトレーニング、複合的な行動空間の拡大、十分な報酬信号を持つデータセットの不足といった課題が浮かび上がっている。 現代のアプローチでは、RLコンポーネントをトレーニングするための対照的な目的と負のサンプリング戦略を取り入れて、RLとシーケンシャルなモデリングを組み合わせようと試みている。 本研究は、拡張された地平線を持つデータセットに対応するために、拡張と組み合わせたコントラストベース目的の有効性をさらに強調する。 さらに、陰性サンプリングの適用中に生じる潜在的な不安定性の問題も認識している。 これらの課題は、主に、オフラインのRLコンテキストで一般的な問題である、実世界のデータセットで一般的なデータ不均衡に起因する。 さらに,これらの課題に対して,より効果的な解決策を提供するための方法論も導入する。 複数の実データセットにまたがる実験結果から,ロバスト性や最先端性能が向上したことを示す。

Attention-based sequential recommendation methods have shown promise in accurately capturing users' evolving interests from their past interactions. Recent research has also explored the integration of reinforcement learning (RL) into these models, in addition to generating superior user representations. By framing sequential recommendation as an RL problem with reward signals, we can develop recommender systems that incorporate direct user feedback in the form of rewards, enhancing personalization for users. Nonetheless, employing RL algorithms presents challenges, including off-policy training, expansive combinatorial action spaces, and the scarcity of datasets with sufficient reward signals. Contemporary approaches have attempted to combine RL and sequential modeling, incorporating contrastive-based objectives and negative sampling strategies for training the RL component. In this work, we further emphasize the efficacy of contrastive-based objectives paired with augmentation to address datasets with extended horizons. Additionally, we recognize the potential instability issues that may arise during the application of negative sampling. These challenges primarily stem from the data imbalance prevalent in real-world datasets, which is a common issue in offline RL contexts. Furthermore, we introduce an enhanced methodology aimed at providing a more effective solution to these challenges. Experimental results across several real datasets show our method with increased robustness and state-of-the-art performance.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# エッジ人工知能のための統合センシング・コミュニケーション・コンピューティング

Integrated Sensing-Communication-Computation for Edge Artificial Intelligence ( http://arxiv.org/abs/2306.01162v2 )

ライセンス: Link先を確認
Dingzhu Wen, Xiaoyang Li, Yong Zhou, Yuanming Shi, Sheng Wu, Chunxiao Jiang, (参考訳) エッジ人工知能(AI)は、あらゆるインテリジェンスを達成するために、デジタルツイン、ホログラフィックプロジェクション、セマンティックコミュニケーション、自動運転といった一連の高度な技術を強化するために、6Gに対する有望なソリューションである。 エッジ学習やエッジAI推論を含むエッジAIタスクのパフォーマンスは、データ取得のセンシング、情報抽出の計算、情報伝達の通信という3つの高度に結合されたプロセスの品質に依存する。 しかし、これらの3つのモジュールは、独自の品質・オブ・サービスを強化するために、ネットワークリソースと競合する必要がある。 この目的のために、統合センシング通信計算(ISCC)は、リソース利用の改善と、エッジAIタスクのカスタマイズされた目標達成において、最重要事項である。 本稿では,これら3つのモジュール間の相互作用を調べることにより,アプリケーション層と物理層の両方において,フェデレートされたエッジ学習タスクとエッジAI推論タスクのための各種ISCCスキームを提案する。

Edge artificial intelligence (AI) has been a promising solution towards 6G to empower a series of advanced techniques such as digital twins, holographic projection, semantic communications, and auto-driving, for achieving intelligence of everything. The performance of edge AI tasks, including edge learning and edge AI inference, depends on the quality of three highly coupled processes, i.e., sensing for data acquisition, computation for information extraction, and communication for information transmission. However, these three modules need to compete for network resources for enhancing their own quality-of-services. To this end, integrated sensing-communication-computation (ISCC) is of paramount significance for improving resource utilization as well as achieving the customized goals of edge AI tasks. By investigating the interplay among the three modules, this article presents various kinds of ISCC schemes for federated edge learning tasks and edge AI inference tasks in both application and physical layers.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# 認証が不十分な場合--行動に基づくドライバ認証システムのセキュリティについて

When Authentication Is Not Enough: On the Security of Behavioral-Based Driver Authentication Systems ( http://arxiv.org/abs/2306.05923v3 )

ライセンス: Link先を確認
Emad Efatinasab, Francesco Marchiori, Denis Donadel, Alessandro Brighente, Mauro Conti, (参考訳) 最近、多くの研究論文が車両の行動に基づく運転者認証システムに焦点をあてている。 人工知能(AI)の進歩によって推進されたこれらの研究は、ユニークなバイオメトリックな振る舞いを通じてドライバーを識別する強力なモデルを提案する。 しかし、この話題への関心はまだ示されていない。 実際、いくつかの制限と監督により、訓練に必要な計算資源や偽陽性の管理など、最先端の非現実的実装が実現されている。 さらに、セキュリティ対策として提案されている一方で、研究者はこれらのシステムに対する攻撃が非生産的になる可能性を無視している。 研究と実用化の間に大きなギャップがあることから,本論文はこれらの2つの領域を結びつけることを目的としている。 本研究では,機械学習(ML)とディープラーニング(DL)アーキテクチャに基づく2つの軽量な行動ベースドライバ認証システムを開発した。 我々は,現実の車両のネットワークを反映した現実的なシステムと脅威モデルを定式化した。 実運転データで評価すると、我々のモデルは識別と認証において最大0.999の精度で最先端のモデルより優れている。 MLモデルとDLモデルの固有の脆弱性に触発された私たちは、新たな回避攻撃のクラスであるGAN-CANを初めて提案しました。 我々の攻撃は、攻撃者の知識の異なる仮定の下で有効であり、22分以内で車両を盗むことができる。 最後に,ドライバ認証システムをセキュアにデプロイするための要件を定式化し,GAN-CANなどの攻撃を回避する。 コントリビューションを通じて、これらのシステムを安全に採用する実践者を支援し、車の盗難を軽減し、ドライバーのセキュリティを高める。

Many research papers have recently focused on behavioral-based driver authentication systems in vehicles. Pushed by Artificial Intelligence (AI) advancements, these works propose powerful models to identify drivers through their unique biometric behavior. However, practitioners have not yet shown any interest in the topic. Indeed, several limitations and oversights make implementing the state-of-the-art impractical, such as the computational resources required for training and the management of false positives. Furthermore, while being proposed as security measures, researchers neglect possible attacks on these systems that can make them counterproductive. Driven by the significant gap between research and practical application, this paper seeks to connect these two domains. We develop two lightweight behavioral-based driver authentication systems based on Machine Learning (ML) and Deep Learning (DL) architectures designed for our constrained environments. We formalize a realistic system and threat model reflecting a real-world vehicle's network for their implementation. When evaluated on real driving data, our models outclass the state-of-the-art with an accuracy of up to 0.999 in identification and authentication. Motivated by the inherent vulnerabilities of ML and DL models, we are the first to propose GAN-CAN, a class of novel evasion attacks, showing how attackers can still exploit these systems with a perfect attack success rate (up to 1.000). Our attacks are effective under different assumptions on the attacker's knowledge and allow stealing a vehicle in less than 22 minutes. Finally, we formalize requirements for deploying driver authentication systems securely and avoiding attacks such as GAN-CAN. Through our contributions, we aid practitioners in safely adopting these systems, help reduce car thefts, and enhance driver security.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# ボゾン振動子の幾何学的量子複雑性

Geometric quantum complexity of bosonic oscillator systems ( http://arxiv.org/abs/2307.13736v2 )

ライセンス: Link先を確認
Satyaki Chowdhury, Martin Bojowald, Jakub Mielczarek, (参考訳) ニールセンと共同研究者の先駆的な研究によると、適当な作用素空間の幾何学的実現における最小測地線の長さは、演算の量子複雑性の測度を与える。 目的とする操作を積として構築するのに必要となる最小限のゲート数に基づく元の複雑性の概念と比較すると、この幾何学的アプローチはより具体的で計算可能な定義に相当するが、高次元ヒルベルト空間を持つ系ではその評価は自明ではない。 幾何学的定式化は、システムの少数の関連する作用素によって生成される適切な有限次元群に付随する幾何を考えることにより、より容易に評価できる。 このようにして本手法は,本論文でも注目されている高調波発振器に応用されている。 しかし、群論の微妙で以前は認識されていなかった問題は予期せぬ複雑さを招き、必要なステップのほとんどにおいて基礎となるリー代数のレベルに残る新しい定式化を動機付けている。 したがって、複雑性に関する新しい洞察は、高次元への体系的な拡張や相互作用の可能性とともに、低次元の設定で見つけることができる。 具体的な例としては、高調波発振器、反転高調波発振器、結合高調波発振器に関連する様々なユニタリ作用素の量子複雑性がある。 このアプローチの一般性は、立方項を持つ無調波発振器への応用によって証明される。

According to the pioneering work of Nielsen and collaborators, the length of the minimal geodesic in a geometric realization of a suitable operator space provides a measure of the quantum complexity of an operation. Compared with the original concept of complexity based on the minimal number of gates required to construct the desired operation as a product, this geometrical approach amounts to a more concrete and computable definition, but its evaluation is nontrivial in systems with a high-dimensional Hilbert space. The geometrical formulation can more easily be evaluated by considering the geometry associated with a suitable finite-dimensional group generated by a small number of relevant operators of the system. In this way, the method has been applied in particular to the harmonic oscillator, which is also of interest in the present paper. However, subtle and previously unrecognized issues of group theory can lead to unforeseen complications, motivating a new formulation that remains on the level of the underlying Lie algebras for most of the required steps. Novel insights about complexity can thereby be found in a low-dimensional setting, with the potential of systematic extensions to higher dimensions as well as interactions. Specific examples include the quantum complexity of various target unitary operators associated with a harmonic oscillator, inverted harmonic oscillator, and coupled harmonic oscillators. The generality of this approach is demonstrated by an application to an anharmonic oscillator with a cubic term.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# 効率的な感性分析: 特徴抽出手法, 構成, 深層学習モデルの資源的評価

Efficient Sentiment Analysis: A Resource-Aware Evaluation of Feature Extraction Techniques, Ensembling, and Deep Learning Models ( http://arxiv.org/abs/2308.02022v2 )

ライセンス: Link先を確認
Mahammed Kamruzzaman, Gene Louis Kim, (参考訳) 精度を最大化するNLPシステムに到達する一方で、システムパフォーマンスの他の重要な指標は見過ごされがちである。 大規模なコンピューティングリソースが利用できない、あるいは比較的コストがかかる設定では、適合性があるにもかかわらず、以前のモデルは容易に忘れられる。 本稿では、モデル展開と一般的な気候意識の実現可能性において重要なリソースコストに着目し、文書レベルの感情分析モデルの比較評価を行う。 実験では,異なる特徴抽出手法,アンサンブルの効果,タスク固有のディープラーニングモデリング,ドメインに依存しない大規模言語モデル(LLM)について検討した。 微調整 LLM が最高の精度を達成する一方で、いくつかの代替構成は、限界値 (<1%) の精度でリソースを節約できる(最大24, 283* まで)。 さらに, より小さなデータセットでは, 資源消費の差が増大するにつれて, 精度の差が小さくなることがわかった。

While reaching for NLP systems that maximize accuracy, other important metrics of system performance are often overlooked. Prior models are easily forgotten despite their possible suitability in settings where large computing resources are unavailable or relatively more costly. In this paper, we perform a broad comparative evaluation of document-level sentiment analysis models with a focus on resource costs that are important for the feasibility of model deployment and general climate consciousness. Our experiments consider different feature extraction techniques, the effect of ensembling, task-specific deep learning modeling, and domain-independent large language models (LLMs). We find that while a fine-tuned LLM achieves the best accuracy, some alternate configurations provide huge (up to 24, 283 *) resource savings for a marginal (<1%) loss in accuracy. Furthermore, we find that for smaller datasets, the differences in accuracy shrink while the difference in resource consumption grows further.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# ノードレベル垂直型GNNに対するラベル推論攻撃

Label Inference Attacks against Node-level Vertical Federated GNNs ( http://arxiv.org/abs/2308.02465v2 )

ライセンス: Link先を確認
Marco Arazzi, Mauro Conti, Stefanos Koffas, Marina Krcek, Antonino Nocera, Stjepan Picek, Jing Xu, (参考訳) フェデレートされた学習は、関係する労働者の生データをプライベートに保つことによって、機械学習モデルの協調トレーニングを可能にする。 その主な目的の3つは、モデルのプライバシ、セキュリティ、スケーラビリティを改善することである。 Vertical Federated Learning(VFL)は、いくつかのパーティが同じ機能を共有することなく、協力的にモデルをトレーニングする、効率的なクロスサイロ設定を提供する。 このようなシナリオでは、分類ラベルは一般的に、ある(アクティブ)パーティのみに保持される機密情報と見なされるが、他の(パッシブ)パーティは、そのローカル情報のみを使用する。 近年の研究では、VFLの重要な欠陥が明らかにされており、攻撃者がラベルとデータの関係について、ある程度、限られたバックグラウンド知識を持っているという仮定の下で、ラベル推論攻撃が発生する可能性がある。 本研究は,ゼロ背景知識戦略を用いて,VFLに対するラベル推論攻撃を調査した最初の(私たちの知る限り)ものである。 提案を定式化するために、基礎となるVFLのターゲットモデルとしてグラフニューラルネットワーク(GNN)に焦点を当てる。 特に、広く研究されているノード分類タスクについて言及し、GNNは有望な結果を示している。 提案した攻撃であるBlindSageは、実験で素晴らしい結果をもたらし、ほとんどのケースで100%近い精度を実現しています。 攻撃者が使用済みアーキテクチャやクラス数に関する情報を持っていない場合でも、ほとんどのインスタンスで精度は90%以上である。 最後に,主要な分類課題におけるモデルの性能に影響を与えることなく,よく知られた防御が攻撃を軽減できないことを観察する。

Federated learning enables collaborative training of machine learning models by keeping the raw data of the involved workers private. Three of its main objectives are to improve the models' privacy, security, and scalability. Vertical Federated Learning (VFL) offers an efficient cross-silo setting where a few parties collaboratively train a model without sharing the same features. In such a scenario, classification labels are commonly considered sensitive information held exclusively by one (active) party, while other (passive) parties use only their local information. Recent works have uncovered important flaws of VFL, leading to possible label inference attacks under the assumption that the attacker has some, even limited, background knowledge on the relation between labels and data. In this work, we are the first (to the best of our knowledge) to investigate label inference attacks on VFL using a zero-background knowledge strategy. To formulate our proposal, we focus on Graph Neural Networks (GNNs) as a target model for the underlying VFL. In particular, we refer to node classification tasks, which are widely studied, and GNNs have shown promising results. Our proposed attack, BlindSage, provides impressive results in the experiments, achieving nearly 100% accuracy in most cases. Even when the attacker has no information about the used architecture or the number of classes, the accuracy remains above 90% in most instances. Finally, we observe that well-known defenses cannot mitigate our attack without affecting the model's performance on the main classification task.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-18
# 非有界量子アドバンテージを用いた簡易情報処理タスク

Simple Information Processing Tasks with Unbounded Quantum Advantage ( http://arxiv.org/abs/2308.07727v4 )

ライセンス: Link先を確認
Teiko Heinosaari, Oskari Kerppo, Leevi Leppäjärvi, Martin Plávala, (参考訳) 両者間の通信シナリオは、まず物理系の物理媒体として機能する物理系の状態にメッセージをエンコードし、次にシステムの状態を計測してメッセージの復号化を行うことによって実現される。 我々は、既に最も単純なシナリオにおいて、古典的なシステムに対する量子システムの明確な非有界な優位性を検出することができることを示した。 我々は、一方の手に1つのキュービットだけで実装できる運用上有意義なコミュニケーションタスクのファミリーを構築することでこれを行うが、他方の手には古典的な実装には、無制限に大きな古典的システムが必要である。 さらに,共有ランダム性の付加的な資源により,提案した通信タスクは,同じ大きさの量子系と古典系の両方で実装可能であるにもかかわらず,古典的実装に必要な協調動作の数も無制限に増加することを示す。 特に、古典的なシステムで可能な全ての量子通信タスクを実装するのに必要なすべての調整されたアクションを格納するために、有限記憶は使用できない。 その結果、共有ランダム性は自由資源と見なすことができない。

Communication scenarios between two parties can be implemented by first encoding messages into some states of a physical system which acts as the physical medium of the communication and then decoding the messages by measuring the state of the system. We show that already in the simplest possible scenarios it is possible to detect a definite, unbounded advantage of quantum systems over classical systems. We do this by constructing a family of operationally meaningful communication tasks each of which on one hand can be implemented by using just a single qubit but which on the other hand require unboundedly larger classical system for classical implementation. Furthemore, we show that even though with the additional resource of shared randomness the proposed communication tasks can be implemented by both quantum and classical systems of the same size, the number of coordinated actions needed for the classical implementation also grows unboundedly. In particular, no finite storage can be used to store all the coordinated actions needed to implement all the possible quantum communication tasks with classical systems. As a consequence, shared randomness cannot be viewed as a free resource.
翻訳日:2024-04-19 14:29:14 公開日:2024-04-18
# LibriSQA: 大規模言語モデルを用いた音声質問応答のための新しいデータセットとフレームワーク

LibriSQA: A Novel Dataset and Framework for Spoken Question Answering with Large Language Models ( http://arxiv.org/abs/2308.10390v4 )

ライセンス: Link先を確認
Zihan Zhao, Yiyang Jiang, Heyang Liu, Yanfeng Wang, Yu Wang, (参考訳) LLM(Large Language Models)は、多数のドメインやタスクにまたがる可換性を示す一方で、既存のLLMは、特に音声とテキストの特徴間の正確なアライメントと深い相互作用を必要とするSQA(Spoke Question Answering)タスクにおいて、マルチモーダル機能を扱うのに相応しい欠点を示している。 LLMにおけるSQA問題に対処するため、まずLibrispeechから自由形式のオープンエンドLibriSQAデータセットをキュレートした。 どちらの部分も、様々なトピックをカバーする107kのSQAペアを含んでいる。 既存の音声テキストLLMの明快さを考慮し,SQAタスクをLibriSQA上で実行するための軽量なエンドツーエンドフレームワークを提案する。 ASRをSQAフォーマットに書き換えることで、ASRタスクの処理におけるフレームワークの機能をさらに裏付ける。 我々の経験的発見は、多モーダル情報の整合と解釈に対するLLMの適性を高め、ユニバーサル多モーダルLLMの開発への道を開いた。 データセットとデモはhttps://github.com/ZihanZhaoSJTU/LibriSQAで見ることができる。

While Large Language Models (LLMs) have demonstrated commendable performance across a myriad of domains and tasks, existing LLMs still exhibit a palpable deficit in handling multimodal functionalities, especially for the Spoken Question Answering (SQA) task which necessitates precise alignment and deep interaction between speech and text features. To address the SQA challenge on LLMs, we initially curated the free-form and open-ended LibriSQA dataset from Librispeech, comprising Part I with natural conversational formats and Part II encompassing multiple-choice questions followed by answers and analytical segments. Both parts collectively include 107k SQA pairs that cover various topics. Given the evident paucity of existing speech-text LLMs, we propose a lightweight, end-to-end framework to execute the SQA task on the LibriSQA, witnessing significant results. By reforming ASR into the SQA format, we further substantiate our framework's capability in handling ASR tasks. Our empirical findings bolster the LLMs' aptitude for aligning and comprehending multimodal information, paving the way for the development of universal multimodal LLMs. The dataset and demo can be found at https://github.com/ZihanZhaoSJTU/LibriSQA.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-18
# 自動微分を用いた変動基底状態シミュレーションのための無限射影アンタングルペア状態法の導入

An introduction to infinite projected entangled-pair state methods for variational ground state simulations using automatic differentiation ( http://arxiv.org/abs/2308.12358v3 )

ライセンス: Link先を確認
Jan Naumann, Erik Lennart Weerda, Matteo Rizzi, Jens Eisert, Philipp Schmoll, (参考訳) テンソルネットワークは、量子物質の相の基底状態の大規模なクラスを忠実かつ効率的に捉えている。 しかし、その操作と収縮は長年にわたって挑戦されてきた。 歴史のほとんどにおいて、(無限の)射影された絡み合ったペア状態を用いた二次元量子格子系の基底状態シミュレーションは、時間進化ブロックデミテーションと呼ばれるものに依存している。 近年、量子状態の変分最適化に関する複数の提案が提案され、これまで知られていた手法の精度と収束問題を克服している。 テンソルネットワークアルゴリズムにおける自動微分の導入は、最終的に、基底状態と励起状態の変動シミュレーションの新しいフレキシブルな方法を可能にした。 本稿では,変分型iPEPSフレームワークの現状を概観し,自動微分の詳細な解説,様々な2次元格子を便利に組み込んだ汎用基盤の記述,実証的なベンチマーク結果について述べる。

Tensor networks capture large classes of ground states of phases of quantum matter faithfully and efficiently. Their manipulation and contraction has remained a challenge over the years, however. For most of the history, ground state simulations of two-dimensional quantum lattice systems using (infinite) projected entangled pair states have relied on what is called a time-evolving block decimation. In recent years, multiple proposals for the variational optimization of the quantum state have been put forward, overcoming accuracy and convergence problems of previously known methods. The incorporation of automatic differentiation in tensor networks algorithms has ultimately enabled a new, flexible way for variational simulation of ground states and excited states. In this work we review the state-of-the-art of the variational iPEPS framework, providing a detailed introduction to automatic differentiation, a description of a general foundation into which various two-dimensional lattices can be conveniently incorporated, and demonstrative benchmarking results.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-18
# MVDream:3次元生成のための多視点拡散

MVDream: Multi-view Diffusion for 3D Generation ( http://arxiv.org/abs/2308.16512v4 )

ライセンス: Link先を確認
Yichun Shi, Peng Wang, Jianglong Ye, Mai Long, Kejie Li, Xiao Yang, (参考訳) 本稿では,テキストプロンプトから一貫した多視点画像を生成することができる拡散モデルMVDreamを紹介する。 2次元データと3次元データの両方から学習すると、多視点拡散モデルは2次元拡散モデルの一般化可能性と3次元レンダリングの整合性を達成することができる。 このような多視点拡散モデルは、暗黙的に3次元表現に非依存な3次元の一般化可能であることを実証する。 Score Distillation Smplingによる3D生成に適用でき、既存の2Dリフト法の一貫性と安定性を著しく向上させることができる。 また、DreamBoothに似た2Dの例から新しいコンセプトを学ぶこともできる。

We introduce MVDream, a diffusion model that is able to generate consistent multi-view images from a given text prompt. Learning from both 2D and 3D data, a multi-view diffusion model can achieve the generalizability of 2D diffusion models and the consistency of 3D renderings. We demonstrate that such a multi-view diffusion model is implicitly a generalizable 3D prior agnostic to 3D representations. It can be applied to 3D generation via Score Distillation Sampling, significantly enhancing the consistency and stability of existing 2D-lifting methods. It can also learn new concepts from a few 2D examples, akin to DreamBooth, but for 3D generation.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-18
# ロシア語における事前学習型トランスフォーマー言語モデルの一家系

A Family of Pretrained Transformer Language Models for Russian ( http://arxiv.org/abs/2309.10931v3 )

ライセンス: Link先を確認
Dmitry Zmitrovich, Alexander Abramov, Andrey Kalmykov, Maria Tikhonova, Ekaterina Taktasheva, Danil Astafurov, Mark Baushenko, Artem Snegirev, Vitalii Kadulin, Sergey Markov, Tatiana Shavrina, Vladislav Mikhailov, Alena Fenogenova, (参考訳) トランスフォーマー言語モデル(LM)は、様々な言語におけるNLP研究方法論と応用の基礎である。 しかし、ロシア語に特化したそのようなモデルの開発はほとんど注目されていない。 本稿では、エンコーダ(ruBERT, ruRoBERTa, ruELECTRA)、デコーダ(ruGPT-3)、エンコーダ-デコーダ(ruT5, FRED-T5)アーキテクチャにまたがる13のロシアトランスフォーマーLMのコレクションを紹介する。 本稿では, モデルアーキテクチャの設計と事前学習について報告し, それらの一般化能力をロシア語理解および生成データセットおよびベンチマーク上で評価した結果について述べる。 これらの特殊なトランスフォーマーLMの事前学習とリリースにより、NLP研究の方向性の範囲を広げ、ロシア語のための産業ソリューションの開発を可能にすることを目指している。

Transformer language models (LMs) are fundamental to NLP research methodologies and applications in various languages. However, developing such models specifically for the Russian language has received little attention. This paper introduces a collection of 13 Russian Transformer LMs, which spans encoder (ruBERT, ruRoBERTa, ruELECTRA), decoder (ruGPT-3), and encoder-decoder (ruT5, FRED-T5) architectures. We provide a report on the model architecture design and pretraining, and the results of evaluating their generalization abilities on Russian language understanding and generation datasets and benchmarks. By pretraining and releasing these specialized Transformer LMs, we aim to broaden the scope of the NLP research directions and enable the development of industrial solutions for the Russian language.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-18
# 対数合成ノルムをもつテンソル継手ランクによる低ランクテンソル完備化

Low-rank tensor completion via tensor joint rank with logarithmic composite norm ( http://arxiv.org/abs/2309.16208v2 )

ライセンス: Link先を確認
Hongbing Zhang, (参考訳) 低ランクテンソル完備化(LRTC)は、不完全な観測テンソルから完全な低ランクテンソルを復元することを目的としており、画像処理やコンピュータビジョンといった様々な実用用途において大きな注目を集めている。 しかし、現在の手法は、観測された情報が十分ある場合にのみよく機能し、観測された情報が5\%未満の場合、不十分または失敗する可能性がある。 観測情報の利用を改善するため,対数合成ノルム法(TJLC)を用いたテンソルジョイントランク法を提案する。 この手法は、テンソルタッカー階数と管状階数という2種類のテンソル低ランク構造を同時に利用することにより、既知の要素と欠落要素の固有の相関性を高める。 LRTCと直接的に異なる2つのテンソルランクを適用するという課題に対処するため、新しいテンソル対数合成ノルムが提案されている。 その後、LRTC問題に対するTJLCモデルとアルゴリズムを提案する。 さらに、TJLC法の理論的収束保証を提供する。 種々の実データを用いた実験により,提案手法は最先端の手法よりも優れた性能を示した。 特に,観測情報が1\%以下であっても良好な回復を達成し,観測情報の増加とともに回復性能が著しく向上する。

Low-rank tensor completion (LRTC) aims to recover a complete low-rank tensor from incomplete observed tensor, attracting extensive attention in various practical applications such as image processing and computer vision. However, current methods often perform well only when there is a sufficient of observed information, and they perform poorly or may fail when the observed information is less than 5\%. In order to improve the utilization of observed information, a new method called the tensor joint rank with logarithmic composite norm (TJLC) method is proposed. This method simultaneously exploits two types of tensor low-rank structures, namely tensor Tucker rank and tubal rank, thereby enhancing the inherent correlations between known and missing elements. To address the challenge of applying two tensor ranks with significantly different directly to LRTC, a new tensor Logarithmic composite norm is further proposed. Subsequently, the TJLC model and algorithm for the LRTC problem are proposed. Additionally, theoretical convergence guarantees for the TJLC method are provided. Experiments on various real datasets demonstrate that the proposed method outperforms state-of-the-art methods significantly. Particularly, the proposed method achieves satisfactory recovery even when the observed information is as low as 1\%, and the recovery performance improves significantly as the observed information increases.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-18
# 不確実性誘導リファインメントによる科学的出版物中の痕跡画像の抽出

Exposing Image Splicing Traces in Scientific Publications via Uncertainty-guided Refinement ( http://arxiv.org/abs/2309.16388v2 )

ライセンス: Link先を確認
Xun Lin, Wenzhong Tang, Haoran Wang, Yizhong Liu, Yakun Ju, Shuai Wang, Zitong Yu, (参考訳) 近年、画像操作の疑いのある科学出版物が急増し、多くのリトラクションが生まれ、画像整合性の問題に焦点が当てられている。 画像プラギアリズムと画像合成のための法医学的検出器の研究は存在するが、学術出版物における画像スプライシングの痕跡の検出は未発見のままである。 画像重複や合成と比較すると、参照画像の欠如と典型的には小さな改ざん領域のため、画像スプライシング検出はより困難である。 さらに、デジタル圧縮の人工物、異常パターン、物理的操作のノイズなどの科学的イメージの破壊的要因は、スプライシングトレースのような誤解を招く特徴を示し、この課題の難しさを著しく増大させる。 さらに、スプライシングされた科学画像の高品質なデータセットの不足により、潜在的な進歩が制限される。 本研究では,これらの破壊要因の影響を軽減するために,不確実性誘導型リファインメントネットワーク(URN)を提案する。 我々のURNは、地域間の破壊要因による信頼できない情報の流れの伝播を明示的に抑制することができ、堅牢なスプライシング特性を得ることができる。 さらに、URNはデコードフェーズにおける不確実な予測領域の改善に集中するように設計されている。 また,1,290個のスプライシング画像を含む画像スプライシング検出データセット(SciSp)を構築した。 既存のデータセットと比較すると、SciSpは最大数のスプライシングイメージと最も多様なソースを含んでいる。 3つのベンチマークデータセットで実施した総合的な実験は、我々のアプローチの優位性を実証している。 また, クロスデータセットドメインシフトに対するURNの汎用性と, 先進的な深層学習による着色など, ポストプロセッシング技術に対する堅牢性についても検証した。

Recently, a surge in scientific publications suspected of image manipulation has led to numerous retractions, bringing the issue of image integrity into sharp focus. Although research on forensic detectors for image plagiarism and image synthesis exists, the detection of image splicing traces in scientific publications remains unexplored. Compared to image duplication and synthesis, image splicing detection is more challenging due to the lack of reference images and the typically small tampered areas. Furthermore, disruptive factors in scientific images, such as artifacts from digital compression, abnormal patterns, and noise from physical operations, present misleading features like splicing traces, significantly increasing the difficulty of this task. Moreover, the scarcity of high-quality datasets of spliced scientific images limits potential advancements. In this work, we propose an Uncertainty-guided Refinement Network (URN) to mitigate the impact of these disruptive factors. Our URN can explicitly suppress the propagation of unreliable information flow caused by disruptive factors between regions, thus obtaining robust splicing features. Additionally, the URN is designed to concentrate improvements in uncertain prediction areas during the decoding phase. We also construct a dataset for image splicing detection (SciSp) containing 1,290 spliced images. Compared to existing datasets, SciSp includes the largest number of spliced images and the most diverse sources. Comprehensive experiments conducted on three benchmark datasets demonstrate the superiority of our approach. We also validate the URN's generalisability in resisting cross-dataset domain shifts and its robustness against various post-processing techniques, including advanced deep-learning-based inpainting.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-18
# 仮想アセットサービスプロバイダの解決度を評価する: 現在の標準は十分か?

Assessing the Solvency of Virtual Asset Service Providers: Are Current Standards Sufficient? ( http://arxiv.org/abs/2309.16408v2 )

ライセンス: Link先を確認
Pietro Saggese, Esther Segalla, Michael Sigmund, Burkhard Raunig, Felix Zangerl, Bernhard Haslhofer, (参考訳) 中央集権暗号通貨取引所のようなエンティティは、仮想資産サービスプロバイダ(VASP)のビジネスカテゴリに該当する。 他のどの企業もそうであるように、彼らは倒産することがある。 VASPは、分散台帳技術(DLT)間でウォレットに整理された暗号通貨の交換、保持、転送を可能にする。 DLTトランザクションの公開にもかかわらず、VASPの暗号保持は、まだ体系的な監査手続きの対象にはなっていない。 本稿では、暗号ウォレット、商業登録簿のバランスシート、監督機関のデータという3つの異なる情報源からのデータを相互参照することで、VASPの可溶性を評価するアプローチを提案する。 オーストリアのフィナンシャル・マーケット・オーソリティに登録されている24のVASPを調査し、誰が顧客で、どこから来たのかといった規制データインサイトを提供する。 同社の年間取引額は、約18億人のユーザに対して20億のEURに上っている。 銀行ではなく、ブローカー、マネー交換、ファンドといった従来の仲介業者と最もよく似た金融サービスについて説明する。 次に、4つのVASPのDLTトランザクションフローを実証的に測定し、それらの暗号保持率とバランスシートエントリを比較した。 データは2つのVASPのみに一貫性がある。 これにより、データ収集のギャップを特定し、それに対応するための戦略を提案します。 監査担当者は、VASPがオンチェーンウォレットに関連する資金を実際に制御していることの証明が必要であることを指摘します。 また、資産タイプによって分割されたフィアット・暗号・債務のポジションを合理的な頻度で報告することが重要である。

Entities like centralized cryptocurrency exchanges fall under the business category of virtual asset service providers (VASPs). As any other enterprise, they can become insolvent. VASPs enable the exchange, custody, and transfer of cryptoassets organized in wallets across distributed ledger technologies (DLTs). Despite the public availability of DLT transactions, the cryptoasset holdings of VASPs are not yet subject to systematic auditing procedures. In this paper, we propose an approach to assess the solvency of a VASP by cross-referencing data from three distinct sources: cryptoasset wallets, balance sheets from the commercial register, and data from supervisory entities. We investigate 24 VASPs registered with the Financial Market Authority in Austria and provide regulatory data insights such as who are the customers and where do they come from. Their yearly incoming and outgoing transaction volume amount to 2 billion EUR for around 1.8 million users. We describe what financial services they provide and find that they are most similar to traditional intermediaries such as brokers, money exchanges, and funds, rather than banks. Next, we empirically measure DLT transaction flows of four VASPs and compare their cryptoasset holdings to balance sheet entries. Data are consistent for two VASPs only. This enables us to identify gaps in the data collection and propose strategies to address them. We remark that any entity in charge of auditing requires proof that a VASP actually controls the funds associated with its on-chain wallets. It is also important to report fiat and cryptoasset and liability positions broken down by asset types at a reasonable frequency.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-18
# 雑音量子デバイス上の誤差緩和フェルミオン古典影

Error-mitigated fermionic classical shadows on noisy quantum devices ( http://arxiv.org/abs/2310.12726v3 )

ライセンス: Link先を確認
Bujiao Wu, Dax Enshan Koh, (参考訳) フェルミオンハミルトニアン予想値の効率的な推定は、様々な物理系のシミュレートに不可欠である。 古典的シャドウ(CS)アルゴリズムは、必要となる量子状態コピーの数を減らすことで解決策を提供するが、量子デバイスのノイズは課題を引き起こす。 本稿では,ゲート非依存,時間定常,マルコフ雑音(GTM)を仮定した誤り緩和型CSアルゴリズムを提案する。 n$-qubit システムの場合、簡単な初期状態 $|0^n\rangle\! 0^n|$はノイズのないと仮定され、効率よく$k$-RDMsを$\widetilde{\mathcal O}(kn^k)$状態コピーと$\widetilde{\mathcal O}(\sqrt{n})$キャリブレーションで推定する。 提案アルゴリズムは,非偏極,減衰,X$ローテーションノイズなどのノイズタイプに対して一定の強度で頑健であり,フェミオンに対する従来のCSアルゴリズムと同様のスケーリングを示すが,耐雑音性は向上する。 数値シミュレーションにより,雑音条件下でのアルゴリズムの有効性が確認され,短期量子デバイスの可能性が示唆された。

Efficiently estimating fermionic Hamiltonian expectation values is vital for simulating various physical systems. Classical shadow (CS) algorithms offer a solution by reducing the number of quantum state copies needed, but noise in quantum devices poses challenges. We propose an error-mitigated CS algorithm assuming gate-independent, time-stationary, and Markovian (GTM) noise. For $n$-qubit systems, our algorithm, which employs the easily prepared initial state $|0^n\rangle\!\langle 0^n|$ assumed to be noiseless, efficiently estimates $k$-RDMs with $\widetilde{\mathcal O}(kn^k)$ state copies and $\widetilde{\mathcal O}(\sqrt{n})$ calibration measurements for GTM noise with constant fidelities. We show that our algorithm is robust against noise types like depolarizing, damping, and $X$-rotation noise with constant strengths, showing scalings akin to prior CS algorithms for fermions but with better noise resilience. Numerical simulations confirm our algorithm's efficacy in noisy settings, suggesting its viability for near-term quantum devices.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-18
# ポートベーステレポーテーションからフロベニウスの相互性定理:部分的に還元された既約表現とその応用

From port-based teleportation to Frobenius reciprocity theorem: partially reduced irreducible representations and their applications ( http://arxiv.org/abs/2310.16423v2 )

ライセンス: Link先を確認
Marek Mozrzymas, Michał Horodecki, Michał Studziński, (参考訳) 本稿では、ポートベースのテレポーテーションプロトコルの文脈において、誘導表現と部分的に還元された既約表現(PRIR)として2つの概念の関連性を示す。 すなわち、任意の部分群 $H$ を持つ与えられた有限群 $G$ に対して、その部分群 $H$ に対する制限がブロック内の $H$ の既約表現を持つ対角ブロック形式に完全に還元されるような行列既約表現の特定のケースを考える。 そのような表現の基本的な性質が与えられる。 そして、この概念の応用として、$n$システムに作用するポートベースのテレポーテーション作用素のスペクトルが、対称群 $S(n-1)\subset S(n)$ に対して対応するジューシー・マーフィー作用素のスペクトルと非常に単純な方法で連結されていることを示す。 このことは、対称群の表現論の観点から、テレポーレーションと基本対象の1つの間の技術的なレベルの関係を示す。 これは、決定論的 PBT スキームの性質を記述する中心対象と対称群の抽象表現論において自然に現れる対象との間に深い関係を示す。 特に、対称群の既約指標に基づいて、Jucys-Murphy作用素の固有値に対する新しい式を示す。 付加的ではあるが自明な結果として、単項行列の明示的な構成を持つ文字に対してフロベニウスの相互性定理の純粋に行列証明を与え、還元された表現への帰納表現の自然な基底の減少を実現する。

In this paper, we present the connection of two concepts as induced representation and partially reduced irreducible representations (PRIR) appear in the context of port-based teleportation protocols. Namely, for a given finite group $G$ with arbitrary subgroup $H$, we consider a particular case of matrix irreducible representations, whose restriction to the subgroup $H$, as a matrix representation of $H$, is completely reduced to diagonal block form with an irreducible representation of $H$ in the blocks. The basic properties of such representations are given. Then as an application of this concept, we show that the spectrum of the port-based teleportation operator acting on $n$ systems is connected in a very simple way with the spectrum of the corresponding Jucys-Murphy operator for the symmetric group $S(n-1)\subset S(n)$. This shows on the technical level relation between teleporation and one of the basic objects from the point of view of the representation theory of the symmetric group. This shows a deep connection between the central object describing properties of deterministic PBT schemes and objects appearing naturally in the abstract representation theory of the symmetric group. In particular, we present a new expression for the eigenvalues of the Jucys-Murphy operators based on the irreducible characters of the symmetric group. As an additional but not trivial result, we give also purely matrix proof of the Frobenius reciprocity theorem for characters with explicit construction of the unitary matrix that realizes the reduction of the natural basis of induced representation to the reduced one.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-18
# 重み付き雑音下での非線形確率勾配の高確率収束境界

High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise ( http://arxiv.org/abs/2310.18784v4 )

ライセンス: Link先を確認
Aleksandar Armacki, Pranay Sharma, Gauri Joshi, Dragana Bajovic, Dusan Jakovetic, Soummya Kar, (参考訳) 本研究では,重み付き雑音の存在下でのストリーミングデータ学習の高確率収束保証について検討する。 提案シナリオでは,新たな情報が観測されるにつれて,追加データを保持することなく,オンライン形式でモデルが更新される。 重み付き雑音に対処するため,非線形確率勾配勾配(SGD)の一般的な枠組みを考察し,いくつかの強い結果を得た。 まず、非凸コストと成分的非線形性に対して、指数が雑音や問題パラメータに依存しない$\mathcal{O}\left(t^{-\frac{1}{4}}\right)$に任意の収束速度を確立する。 第二に、強い凸コストとより広範な非線形性のために、最後の反復を最適値に収束させ、$\mathcal{O}\left(t^{-\zeta} \right)$とすると、$\zeta \in (0,1)$は問題パラメータ、ノイズ、非線形性に依存する。 解析的および数値的に示すように、$\zeta$ は与えられた問題設定に対して好まれる非線形性の選択を知らせるのに使うことができる。 クリッピングのみを考慮し、次数$\eta \in (1,2]$の有界雑音モーメントを必要とし、指数が0となる収束率を$\eta \rightarrow 1$とすると、より広範な非線形性クラスと対称密度ノイズに対して高い確率保証を与える。 さらに, 強凸関数の場合, クリッピングが必ずしも最適非線形性であるとは限らないことを解析的, 数値的に示し, 一般の枠組みの価値をさらに強調する。

We study high-probability convergence guarantees of learning on streaming data in the presence of heavy-tailed noise. In the proposed scenario, the model is updated in an online fashion, as new information is observed, without storing any additional data. To combat the heavy-tailed noise, we consider a general framework of nonlinear stochastic gradient descent (SGD), providing several strong results. First, for non-convex costs and component-wise nonlinearities, we establish a convergence rate arbitrarily close to $\mathcal{O}\left(t^{-\frac{1}{4}}\right)$, whose exponent is independent of noise and problem parameters. Second, for strongly convex costs and a broader class of nonlinearities, we establish convergence of the last iterate to the optimum, with a rate $\mathcal{O}\left(t^{-\zeta} \right)$, where $\zeta \in (0,1)$ depends on problem parameters, noise and nonlinearity. As we show analytically and numerically, $\zeta$ can be used to inform the preferred choice of nonlinearity for given problem settings. Compared to state-of-the-art, who only consider clipping, require bounded noise moments of order $\eta \in (1,2]$, and establish convergence rates whose exponents go to zero as $\eta \rightarrow 1$, we provide high-probability guarantees for a much broader class of nonlinearities and symmetric density noise, with convergence rates whose exponents are bounded away from zero, even when the noise has finite first moment only. Moreover, in the case of strongly convex functions, we demonstrate analytically and numerically that clipping is not always the optimal nonlinearity, further underlining the value of our general framework.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-18
# Terrin-Informed Self-Supervised Learning:限定アノテーションによるLiDARデータからのフットプリント抽出の強化

Terrain-Informed Self-Supervised Learning: Enhancing Building Footprint Extraction from LiDAR Data with Limited Annotations ( http://arxiv.org/abs/2311.01188v2 )

ライセンス: Link先を確認
Anuja Vats, David Völgyes, Martijn Vermeer, Marius Pedersen, Kiran Raja, Daniele S. M. Fantin, Jacob Alexander Hay, (参考訳) 地理空間データから建築フットプリントマップを推定することは、都市計画、開発、災害管理、その他様々な用途において最重要となる。 ディープラーニング手法はセグメンテーションマップの構築において注目され、広範な後処理なしに正確なフットプリント抽出を約束している。 しかし、これらの手法は、特にリモートセンシングにおいて、正確なラベルを得るには高価かつ時間を要するため、一般化とラベルの効率の面で課題に直面している。 これらの課題に対処するために,LiDARデータからのデジタル標高モデルを用いて,リモートセンシングに適した地形認識型自己教師型学習を提案する。 我々は,素地と重畳構造を区別するモデルを学習し,広義のピクセルレベルのアノテーションを必要とせず,暗黙的にドメイン関連の特徴を学習できるようにする。 ラベルの異なるテストデータセット上でのセグメンテーション性能を評価することにより,提案手法の有効性を検証した。 特筆すべきは、ラベルのわずか1%(25のラベル付き例に相当)で、この手法はImageNet事前学習よりも改善され、リモートセンシングの領域における特徴抽出にラベル付きデータを活用する利点が示されたことである。 パフォーマンスの改善は、数ショットのシナリオでより顕著になり、ラベルの比率が増加するにつれて、徐々にImageNetの事前トレーニングとのギャップを埋める。 我々は,本手法の一般化可能性を示すために,かなりの分布シフトとラベル付け誤差を特徴とするデータセットを検証した。 ImageNet事前学習やより複雑なアーキテクチャなど、他のベースラインと比較して、我々のアプローチは一貫して改善され、自己監督型地形認識機能学習の有効性と効果が実証された。

Estimating building footprint maps from geospatial data is of paramount importance in urban planning, development, disaster management, and various other applications. Deep learning methodologies have gained prominence in building segmentation maps, offering the promise of precise footprint extraction without extensive post-processing. However, these methods face challenges in generalization and label efficiency, particularly in remote sensing, where obtaining accurate labels can be both expensive and time-consuming. To address these challenges, we propose terrain-aware self-supervised learning, tailored to remote sensing, using digital elevation models from LiDAR data. We propose to learn a model to differentiate between bare Earth and superimposed structures enabling the network to implicitly learn domain-relevant features without the need for extensive pixel-level annotations. We test the effectiveness of our approach by evaluating building segmentation performance on test datasets with varying label fractions. Remarkably, with only 1% of the labels (equivalent to 25 labeled examples), our method improves over ImageNet pre-training, showing the advantage of leveraging unlabeled data for feature extraction in the domain of remote sensing. The performance improvement is more pronounced in few-shot scenarios and gradually closes the gap with ImageNet pre-training as the label fraction increases. We test on a dataset characterized by substantial distribution shifts and labeling errors to demonstrate the generalizability of our approach. When compared to other baselines, including ImageNet pretraining and more complex architectures, our approach consistently performs better, demonstrating the efficiency and effectiveness of self-supervised terrain-aware feature learning.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-18
# Hint-enhanced In-Context Learningは、知識集約型タスクのために大規模言語モデルを起動する

Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks ( http://arxiv.org/abs/2311.01949v2 )

ライセンス: Link先を確認
Yifan Wang, Qingyan Guo, Xinzhe Ni, Chufan Shi, Lemao Liu, Haiyun Jiang, Yujiu Yang, (参考訳) インコンテキスト学習(ICL)の能力は、大規模言語モデル(LLM)の規模が大きくなるにつれて出現し、デモからインプットラベルマッピングを学習し、下流タスクでうまく機能する。 しかし、標準のICL設定では、LLMは時にデモでクエリ関連の情報を無視し、誤った予測をもたらすことがある。 この制限に対処するために、知識集約型タスクにおいて重要な形態であるオープンドメイン質問応答において、ICLのパワーを探求するHint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。 HICL は LLM の推論能力を利用して、実演からクエリ関連の知識を抽出し、その知識を結合して LLM をより明示的な方法で誘導する。 さらに,この知識の出所を追跡し,具体例を特定するとともに,Hint関連事例検索(HER)を導入し,実演強化のための情報的事例を選択する。 我々は3つのオープンドメインQAベンチマークでHERを用いたHICLを評価し、標準設定と比較して、gpt-3.5-turboで平均2.89 EMスコアと2.52 F1スコア、LLaMA-2-Chat-7Bで7.62 EMスコアと7.27 F1スコアを観測した。

In-context learning (ICL) ability has emerged with the increasing scale of large language models (LLMs), enabling them to learn input-label mappings from demonstrations and perform well on downstream tasks. However, under the standard ICL setting, LLMs may sometimes neglect query-related information in demonstrations, leading to incorrect predictions. To address this limitation, we propose a new paradigm called Hint-enhanced In-Context Learning (HICL) to explore the power of ICL in open-domain question answering, an important form in knowledge-intensive tasks. HICL leverages LLMs' reasoning ability to extract query-related knowledge from demonstrations, then concatenates the knowledge to prompt LLMs in a more explicit way. Furthermore, we track the source of this knowledge to identify specific examples, and introduce a Hint-related Example Retriever (HER) to select informative examples for enhanced demonstrations. We evaluate HICL with HER on 3 open-domain QA benchmarks, and observe average performance gains of 2.89 EM score and 2.52 F1 score on gpt-3.5-turbo, 7.62 EM score and 7.27 F1 score on LLaMA-2-Chat-7B compared with standard setting.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-18
# KTRL+F:知識強化インドキュメント検索

KTRL+F: Knowledge-Augmented In-Document Search ( http://arxiv.org/abs/2311.08329v4 )

ライセンス: Link先を確認
Hanseok Oh, Haebin Shin, Miyoung Ko, Hyunji Lee, Minjoon Seo, (参考訳) KTRL+Fは、ドキュメント内のすべてのセマンティックターゲットのリアルタイムな識別と、単一の自然言語クエリによる外部ソースの認識を必要とする知識強化された文書内検索タスクである。 KTRL+Fは文書内検索に特有の課題に対処する: 1) 目標に関する追加情報の拡張にドキュメント外の知識を活用すること、2) リアルタイム適用性とパフォーマンスのバランスをとること。 我々は、KTRL+Fの様々なベースラインを分析し、幻覚、高いレイテンシ、外部知識の活用の難しさなど、既存のモデルの限界を見つけ出す。 そこで本研究では,単語の埋め込みにおいて,外部知識を増大させることによって,速度と性能の有望なバランスを示す知識拡張句検索モデルを提案する。 また,KTRL+Fの解決がユーザの検索体験を向上するかどうかを検証するために,ユーザスタディを実施している。 単純なモデルであっても,クエリを少なくして検索する時間を短縮し,エビデンス収集のために他のソースへの余分な訪問を削減できることを示す。 我々は、KTRL+Fに取り組み、より効率的な文書内情報アクセスを強化することを研究コミュニティに勧める。

We introduce a new problem KTRL+F, a knowledge-augmented in-document search task that necessitates real-time identification of all semantic targets within a document with the awareness of external sources through a single natural query. KTRL+F addresses following unique challenges for in-document search: 1)utilizing knowledge outside the document for extended use of additional information about targets, and 2) balancing between real-time applicability with the performance. We analyze various baselines in KTRL+F and find limitations of existing models, such as hallucinations, high latency, or difficulties in leveraging external knowledge. Therefore, we propose a Knowledge-Augmented Phrase Retrieval model that shows a promising balance between speed and performance by simply augmenting external knowledge in phrase embedding. We also conduct a user study to verify whether solving KTRL+F can enhance search experience for users. It demonstrates that even with our simple model, users can reduce the time for searching with less queries and reduced extra visits to other sources for collecting evidence. We encourage the research community to work on KTRL+F to enhance more efficient in-document information access.
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# 3次元人間の理解のためのクロスビューとクロスプレイス・コンプリート

Cross-view and Cross-pose Completion for 3D Human Understanding ( http://arxiv.org/abs/2311.09104v2 )

ライセンス: Link先を確認
Matthieu Armando, Salma Galaaoui, Fabien Baradel, Thomas Lucas, Vincent Leroy, Romain Brégier, Philippe Weinzaepfel, Grégory Rogez, (参考訳) 人間の知覚と理解はコンピュータビジョンの主要な領域であり、近年の他の視覚サブドメインと同様に、大規模なデータセットで事前訓練された大きなモデルを使用することで得られる。 我々は、ImageNetのような汎用のオブジェクト中心の画像データセットに依存する、最も一般的な事前学習戦略は、重要なドメインシフトによって制限される、と仮定する。 一方, 2D や 3D ラベルなどの領域固有の真実の収集は不十分である。 そこで本稿では,画像のみを用いて人間中心のデータを扱う自己教師型学習に基づく事前学習手法を提案する。 本手法では,1枚目が部分的にマスクされ,もう1枚目と2枚目がマスクされた部分の再構築を訓練する。 ビデオから撮影した立体視(クロスビュー)ペアと時間的(クロスプレース)ペアの両方に依存して、人間の動きだけでなく3Dに関する事前知識を学習する。 身体中心タスクのためのモデルと手中心タスクのためのモデルを事前訓練する。 汎用トランスフォーマーアーキテクチャでは、モデルベースおよびモデルフリーのヒューマンメッシュリカバリのための微調整を行う場合、これらのモデルは、広範囲の人間中心の下流タスクにおいて、既存の自己教師付き事前学習方法よりも優れ、最先端のパフォーマンスが得られる。

Human perception and understanding is a major domain of computer vision which, like many other vision subdomains recently, stands to gain from the use of large models pre-trained on large datasets. We hypothesize that the most common pre-training strategy of relying on general purpose, object-centric image datasets such as ImageNet, is limited by an important domain shift. On the other hand, collecting domain-specific ground truth such as 2D or 3D labels does not scale well. Therefore, we propose a pre-training approach based on self-supervised learning that works on human-centric data using only images. Our method uses pairs of images of humans: the first is partially masked and the model is trained to reconstruct the masked parts given the visible ones and a second image. It relies on both stereoscopic (cross-view) pairs, and temporal (cross-pose) pairs taken from videos, in order to learn priors about 3D as well as human motion. We pre-train a model for body-centric tasks and one for hand-centric tasks. With a generic transformer architecture, these models outperform existing self-supervised pre-training methods on a wide set of human-centric downstream tasks, and obtain state-of-the-art performance for instance when fine-tuning for model-based and model-free human mesh recovery.
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# カオスおよび可積分モデルにおけるフルレンジスペクトル相関とそのスペクトル形成因子

Full range spectral correlations and their spectral form factors in chaotic and integrable models ( http://arxiv.org/abs/2311.09292v2 )

ライセンス: Link先を確認
Ruth Shir, Pablo Martinez-Azcona, Aurélia Chenu, (参考訳) 系のスペクトルの固有エネルギー間の相関は、量子カオスの定義的な特徴である。 我々は、すべてのスペクトル距離におけるエネルギー間の相関関係を、k$-thの隣のレベル間隔(k$nLS)の分布を調べ、関連するk$-thの隣のスペクトル形状係数(k$nSFF)を計算することで特徴づける。 具体的には、これらのシグネチャを量子カオスのパラダイムモデル、すなわちランダム行列理論の3つのガウスアンサンブル、および完全に相関のないスペクトルを持つ系(ポアソンアンサンブル)として捉えた可積分モデルにおいて解析的表現を求める。 SFFのスペクトル距離分解により、個々の$k$nLSのランプへの寄与を調べることができる。 後者は量子カオスの特徴的な特徴であり、各スペクトル距離がその構築にどのように関与するかを示す。 本研究は,カオス的行動と可積分的行動の相互補間を行う XXZ spin chain with disorder について述べる。

Correlations between the eigenenergies of a system's spectrum can be a defining feature of quantum chaos. We characterize correlations between energies for all spectral distances by studying the distributions of $k$-th neighbor level spacings ($k$nLS) and compute their associated $k$-th neighbor spectral form factor ($k$nSFF). Specifically, we find analytical expressions for these signatures in paradigmatic models of quantum chaos, namely the three Gaussian ensembles of random matrix theory, and in integrable models, taken as systems with completely uncorrelated spectra (the Poissonian ensemble). The spectral distance decomposition of the SFF allows us to probe the contribution of each individual $k$nLS to the ramp. The latter is a characteristic feature of quantum chaos, and we show how each spectral distance participates in building it -- the linear ramp cannot be formed by short-range energy correlations only. We illustrate our findings in the XXZ spin chain with disorder, which interpolates between chaotic and integrable behavior.
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# NeuRAD: 自律運転のためのニューラルレンダリング

NeuRAD: Neural Rendering for Autonomous Driving ( http://arxiv.org/abs/2311.15260v3 )

ライセンス: Link先を確認
Adam Tonderski, Carl Lindström, Georg Hess, William Ljungbergh, Lennart Svensson, Christoffer Petersson, (参考訳) 神経放射場(NeRF)は自律走行(AD)コミュニティで人気を集めている。 近年の手法では, クローズドループシミュレーションやADシステムのテスト, 高度なトレーニングデータ拡張技術などが実現されている。 しかし、既存の手法では、長い訓練時間、密集した意味的監督、あるいは一般化可能性の欠如がしばしば必要である。 これにより、大規模な AD への NeRF の適用が妨げられる。 本稿では,動的ADデータに適した,堅牢なビュー合成手法であるNeuRADを提案する。 われわれの手法は、シンプルなネットワーク設計、カメラとライダーの両方のための広範なセンサーモデリング -- ローリングシャッター、ビーム発散、レイドロップなど -- を備えており、最初から複数のデータセットに適用できる。 5つの有名なADデータセット上でのパフォーマンスを検証することで、ボード全体で最先端のパフォーマンスを実現しています。 さらなる開発を促進するため、NeuRADソースコードをオープンソースとして公開します。 https://github.com/georghess/NeuRAD を参照。

Neural radiance fields (NeRFs) have gained popularity in the autonomous driving (AD) community. Recent methods show NeRFs' potential for closed-loop simulation, enabling testing of AD systems, and as an advanced training data augmentation technique. However, existing methods often require long training times, dense semantic supervision, or lack generalizability. This, in turn, hinders the application of NeRFs for AD at scale. In this paper, we propose NeuRAD, a robust novel view synthesis method tailored to dynamic AD data. Our method features simple network design, extensive sensor modeling for both camera and lidar -- including rolling shutter, beam divergence and ray dropping -- and is applicable to multiple datasets out of the box. We verify its performance on five popular AD datasets, achieving state-of-the-art performance across the board. To encourage further development, we will openly release the NeuRAD source code. See https://github.com/georghess/NeuRAD .
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# 状態制約を持つ2プレーヤ・ジェネラルサム差分ゲームに対する値近似

Value Approximation for Two-Player General-Sum Differential Games with State Constraints ( http://arxiv.org/abs/2311.16520v2 )

ライセンス: Link先を確認
Lei Zhang, Mukesh Ghimire, Wenlong Zhang, Zhe Xu, Yi Ren, (参考訳) ハミルトン・ヤコビ・イザック (HJI) PDE の解法は、2つのプレイヤー差分ゲームにおける平衡フィードバック制御を可能にするが、次元性 (CoD) の呪いに直面している。 物理インフォームドニューラルネットワーク(PINN)は、PDEの解決におけるCoDの緩和を約束する一方で、バニラPINNはサンプリング特性による不連続解の学習に不足しているため、状態や時間的論理的制約によって値が不連続である場合に、結果として生じるポリシーの安全性が低下する。 本研究では,(1)監督均衡とHJI PDEの両方によって指導されるハイブリッド学習手法,(2)制約違反ペナルティのリプシッツ定数を増大させることでHJIの系列を解く値硬化法,(3)その値が連続となる高次元状態空間へ持ち上げるエピグラフィカル手法,の3つの可能性を探る。 5Dと9Dの車両と13Dのドローンシミュレーションによる評価により、このハイブリッド手法は、監督均衡値とコストの両面を活かし、PINN損失勾配の低コストを生かして、一般化と安全性の両面において他よりも優れていたことが判明した。

Solving Hamilton-Jacobi-Isaacs (HJI) PDEs numerically enables equilibrial feedback control in two-player differential games, yet faces the curse of dimensionality (CoD). While physics-informed neural networks (PINNs) have shown promise in alleviating CoD in solving PDEs, vanilla PINNs fall short in learning discontinuous solutions due to their sampling nature, leading to poor safety performance of the resulting policies when values are discontinuous due to state or temporal logic constraints. In this study, we explore three potential solutions to this challenge: (1) a hybrid learning method that is guided by both supervisory equilibria and the HJI PDE, (2) a value-hardening method where a sequence of HJIs are solved with increasing Lipschitz constant on the constraint violation penalty, and (3) the epigraphical technique that lifts the value to a higher dimensional state space where it becomes continuous. Evaluations through 5D and 9D vehicle and 13D drone simulations reveal that the hybrid method outperforms others in terms of generalization and safety performance by taking advantage of both the supervisory equilibrium values and costates, and the low cost of PINN loss gradients.
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# REF$^2$-NeRF:反射・屈折認識ニューラルレイガンス場

REF$^2$-NeRF: Reflection and Refraction aware Neural Radiance Field ( http://arxiv.org/abs/2311.17116v4 )

ライセンス: Link先を確認
Wooseok Kim, Taiki Fukiage, Takeshi Oishi, (参考訳) 近年, 暗黙のニューラル表現を用いた複数画像からの3次元再構成法の研究において, 神経放射場(NeRF)法を例として, 顕著な進展がみられた。 ボリュームレンダリングに基づくこのような手法は、様々な光現象をモデル化することができ、様々な場面や状況に対応するための様々な拡張手法が提案されている。 しかし,複数のガラスオブジェクト,例えばガラスショーケース内のオブジェクトを扱う場合,複数の反射や屈折の影響があるため,ターゲットシーンを正確にモデル化することは困難であった。 そこで本研究では,ガラスケースを含むシーンのNeRFモデリング手法を提案する。 提案手法では, 屈折と反射を, ビューアの視点に依存し, 独立な要素を用いてモデル化する。 このアプローチにより、屈折が発生する表面、すなわちガラス表面を推定することができ、直接および反射光成分の分離とモデリングを可能にする。 提案手法は,所定のカメラポーズを必要とするが,ガラスオブジェクトを用いたシーンにおけるこれらのポーズを正確に推定することは困難である。 そこで我々は、カメラ付きロボットアームを用いて、既知のポーズの画像を取得した。 既存の手法と比較して,ガラス屈折率と全体像のより正確なモデリングが可能である。

Recently, significant progress has been made in the study of methods for 3D reconstruction from multiple images using implicit neural representations, exemplified by the neural radiance field (NeRF) method. Such methods, which are based on volume rendering, can model various light phenomena, and various extended methods have been proposed to accommodate different scenes and situations. However, when handling scenes with multiple glass objects, e.g., objects in a glass showcase, modeling the target scene accurately has been challenging due to the presence of multiple reflection and refraction effects. Thus, this paper proposes a NeRF-based modeling method for scenes containing a glass case. In the proposed method, refraction and reflection are modeled using elements that are dependent and independent of the viewer's perspective. This approach allows us to estimate the surfaces where refraction occurs, i.e., glass surfaces, and enables the separation and modeling of both direct and reflected light components. The proposed method requires predetermined camera poses, but accurately estimating these poses in scenes with glass objects is difficult. Therefore, we used a robotic arm with an attached camera to acquire images with known poses. Compared to existing methods, the proposed method enables more accurate modeling of both glass refraction and the overall scene.
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# 2つの絡み合った光子の波動特性と粒子特性の分離

Separating the wave and particle attributes of two entangled photons ( http://arxiv.org/abs/2312.01316v4 )

ライセンス: Link先を確認
Yusuf Turek, Yi-Fang Ren, (参考訳) 波動粒子の双対性は量子論において最も興味深い反現実的概念の1つである。 我々の常識では、量子オブジェクトの波動と粒子の性質は分離できない。 しかし、最近の量子チェシャー・キャット現象に基づく研究では、2状態ベクトル形式によって記述された顕微鏡システムにおいて、波動や粒子の属性を含む量子物体の物理的性質をそれ自体から分離することが可能であることが示されている。 本研究では,2つの絡み合った光子の波動特性と粒子特性を,経路状態の事前選択と後選択を適切に選択して空間的に分離する手法を提案する。 我々のスキームはまた、2つの絡み合った光子の波動特性と粒子特性の観測がボーアの相補性原理に従うことを保証している。

Wave-particle duality is one of the most intriguing counterfactual concepts in quantum theory. In our common sense, the wave and particle properties of a quantum object are inseparable. However, the recent studies based on Quantum Cheshire Cat phenomena showed that separating the physical properties of a quantum object including wave and particle attributes from itself are possible in microscopic system described by two-state vector formalism. In this study, we put forward a feasible scheme to spatially separate the wave and particle attributes of two entangled photons by properly choosing the pre- and post-selection of path states. Our scheme also guarantees that the observation of wave and particle properties of the two entangled photons always obey the Bohr's complementarity principle.
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# より強く、より少ない、そして優れた:ドメイン一般化セマンティックセマンティックセグメンテーションのためのハーネスングビジョン基礎モデル

Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2312.04265v5 )

ライセンス: Link先を確認
Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Ling, Ben Wang, Huaian Chen, Jinjin Zheng, (参考訳) 本稿では、まず、ドメイン一般化セマンティックセマンティックセグメンテーション(DGSS)の文脈において、様々なビジョン基礎モデル(VFM)を評価し、活用する。 より強力な事前学習モデルとより少ない訓練可能なパラメータを上向きの一般化性に活用する動機により、DGSSのVFMをパラメータ効率よく活用するための頑健な微調整手法、すなわちReinを導入する。 トレーニング可能なトークンのセット上に構築され、それぞれ異なるインスタンスにリンクされ、Reinは各レイヤからバックボーン内の次のレイヤへのフィーチャーマップを正確に洗練し、転送する。 このプロセスは、単一の画像内で異なるカテゴリに対して多様な精細化を発生させる。 トレーニング可能なパラメータが少ないため、ReinはDGSSタスクのVFMを効率よく微調整し、完全なパラメータの微調整を驚くほど上回った。 さまざまな設定にわたる大規模な実験は、Reinが最先端のメソッドを大幅に上回っていることを示している。 注目すべきなのは、凍結したバックボーン内のトレーニング可能なパラメータの1%に過ぎず、Reinは実際の都市シーンデータセットにアクセスすることなく、Cityscapesで78.4%のmIoUを達成したことだ。

In this paper, we first assess and harness various Vision Foundation Models (VFMs) in the context of Domain Generalized Semantic Segmentation (DGSS). Driven by the motivation that Leveraging Stronger pre-trained models and Fewer trainable parameters for Superior generalizability, we introduce a robust fine-tuning approach, namely Rein, to parameter-efficiently harness VFMs for DGSS. Built upon a set of trainable tokens, each linked to distinct instances, Rein precisely refines and forwards the feature maps from each layer to the next layer within the backbone. This process produces diverse refinements for different categories within a single image. With fewer trainable parameters, Rein efficiently fine-tunes VFMs for DGSS tasks, surprisingly surpassing full parameter fine-tuning. Extensive experiments across various settings demonstrate that Rein significantly outperforms state-of-the-art methods. Remarkably, with just an extra 1% of trainable parameters within the frozen backbone, Rein achieves a mIoU of 78.4% on the Cityscapes, without accessing any real urban-scene datasets.Code is available at https://github.com/w1oves/Rein.git.
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# 自己監督型学習による自律走行レーダのブートストラップ

Bootstrapping Autonomous Driving Radars with Self-Supervised Learning ( http://arxiv.org/abs/2312.04519v3 )

ライセンス: Link先を確認
Yiduo Hao, Sohrab Madani, Junfeng Guan, Mohammed Alloulah, Saurabh Gupta, Haitham Hassanieh, (参考訳) レーダーを用いた自動運転車の認識は、霧や悪天候下での運転能力から研究の関心が高まりつつある。 しかし、大規模レーダーデータの注釈付けのコストと難しさにより、レーダーモデルの訓練が妨げられている。 このボトルネックを克服するために,未ラベルのレーダーデータを事前学習したレーダーのみの埋め込みに活用する,自己教師型学習フレームワークを提案する。 提案手法は,レーダ・ツー・レーダとレーダ・ツー・ヴィジュアル・コントラッシブ・ロスを組み合わせて,対応するカメラ画像と組み合わせた未ラベルのレーダ・ヒートマップから一般的な表現を学習する。 下流オブジェクト検出に使用する場合、提案するセルフスーパービジョンフレームワークは、mAPにおける最先端教師付きベースラインの精度を5.8\%向上できることを示す。 コードは \url{https://github.com/yiduohao/Radical} で公開されている。

The perception of autonomous vehicles using radars has attracted increased research interest due its ability to operate in fog and bad weather. However, training radar models is hindered by the cost and difficulty of annotating large-scale radar data. To overcome this bottleneck, we propose a self-supervised learning framework to leverage the large amount of unlabeled radar data to pre-train radar-only embeddings for self-driving perception tasks. The proposed method combines radar-to-radar and radar-to-vision contrastive losses to learn a general representation from unlabeled radar heatmaps paired with their corresponding camera images. When used for downstream object detection, we demonstrate that the proposed self-supervision framework can improve the accuracy of state-of-the-art supervised baselines by $5.8\%$ in mAP. Code is available at \url{https://github.com/yiduohao/Radical}.
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# メタラーニングにおけるタスク共同創設者のハック

Hacking Task Confounder in Meta-Learning ( http://arxiv.org/abs/2312.05771v3 )

ライセンス: Link先を確認
Jingyao Wang, Yi Ren, Zeen Song, Jianqi Zhang, Changwen Zheng, Wenwen Qiang, (参考訳) メタラーニングは、様々なタスクから知識を学習することで、新しいタスクへの迅速な一般化を可能にする。 トレーニングが進むにつれて、モデルはより豊かな知識を獲得し、より良い一般化性能をもたらすと直感的に仮定される。 しかし,本実験では,タスク間の負の知識伝達が一般化性能に影響を及ぼすという予期せぬ結果が得られた。 この現象を説明するために、我々は因果解析のための構造因果モデル(Structure Causal Models, SCMs)を実施している。 メタラーニングにおいて,タスク固有の因果関係因子とラベルとの間に急激な相関関係があることを明らかにする。 さらに、相違要因はバッチによって異なる。 これらの要因を"Task Confounders"と呼びます。 これらの知見に基づいて,タスク共同創設者の排除を目的としたメタ学習因果表現学習システム(MetaCRL)を提案する。 複数のタスクから生成する因子をエンコードし、不変なバイレベル最適化機構を使用して、メタ学習の因果性を保証する。 様々なベンチマークデータセットに対する大規模な実験により、我々の研究がSOTA(State-of-the-art)のパフォーマンスを達成することを示す。

Meta-learning enables rapid generalization to new tasks by learning knowledge from various tasks. It is intuitively assumed that as the training progresses, a model will acquire richer knowledge, leading to better generalization performance. However, our experiments reveal an unexpected result: there is negative knowledge transfer between tasks, affecting generalization performance. To explain this phenomenon, we conduct Structural Causal Models (SCMs) for causal analysis. Our investigation uncovers the presence of spurious correlations between task-specific causal factors and labels in meta-learning. Furthermore, the confounding factors differ across different batches. We refer to these confounding factors as "Task Confounders". Based on these findings, we propose a plug-and-play Meta-learning Causal Representation Learner (MetaCRL) to eliminate task confounders. It encodes decoupled generating factors from multiple tasks and utilizes an invariant-based bi-level optimization mechanism to ensure their causality for meta-learning. Extensive experiments on various benchmark datasets demonstrate that our work achieves state-of-the-art (SOTA) performance.
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# クラス不均衡下におけるAUROCとAUPRCの概観

A Closer Look at AUROC and AUPRC under Class Imbalance ( http://arxiv.org/abs/2401.06091v3 )

ライセンス: Link先を確認
Matthew B. A. McDermott, Lasse Hyldig Hansen, Haoran Zhang, Giovanni Angelotti, Jack Gallifant, (参考訳) 機械学習(ML)において、精度-リコール曲線(AUPRC)の下の領域は、クラス不均衡のバイナリ分類タスクにおいて、受信操作特性(AUROC)の下の領域とモデルの比較において優れた指標である。 本稿では, AUROC と AUPRC が確率論的用語で簡潔に関連できることを示す, 新たな数学的解析を通じて, この概念に挑戦する。 AUPRCは、一般的な信念に反して、クラス不均衡の場合には優れておらず、また、より頻度の高い正のラベルを持つサブポピュレーションのモデル改善を不当に支持する傾向にあるため、有害な指標である可能性も示している。 このバイアスはアルゴリズムの格差を必然的に高めることができる。 これらの知見から,大規模言語モデルを用いてarXivから150万以上の論文を分析し,既存のML文献の徹底的なレビューを行った。 本研究は, AUPRC の優越性に関する有病率と実証に焦点をあてた。 その結果、経験的支援の重大な欠陥と、AUPRCの持つ利点が広く受け入れられるきっかけとなった誤帰の傾向が明らかになった。 本研究は,計量行動の理解における重要な技術的進歩と,MLコミュニティにおける未確認仮定に対する重大な警告の2つの寄与を示す。 すべての実験はhttps://github.com/mmcdermott/AUC_is_all_you_needで見ることができる。

In machine learning (ML), a widespread adage is that the area under the precision-recall curve (AUPRC) is a superior metric for model comparison to the area under the receiver operating characteristic (AUROC) for binary classification tasks with class imbalance. This paper challenges this notion through novel mathematical analysis, illustrating that AUROC and AUPRC can be concisely related in probabilistic terms. We demonstrate that AUPRC, contrary to popular belief, is not superior in cases of class imbalance and might even be a harmful metric, given its inclination to unduly favor model improvements in subpopulations with more frequent positive labels. This bias can inadvertently heighten algorithmic disparities. Prompted by these insights, a thorough review of existing ML literature was conducted, utilizing large language models to analyze over 1.5 million papers from arXiv. Our investigation focused on the prevalence and substantiation of the purported AUPRC superiority. The results expose a significant deficit in empirical backing and a trend of misattributions that have fuelled the widespread acceptance of AUPRC's supposed advantages. Our findings represent a dual contribution: a significant technical advancement in understanding metric behaviors and a stark warning about unchecked assumptions in the ML community. All experiments are accessible at https://github.com/mmcdermott/AUC_is_all_you_need.
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# 量子論は非局所隠れ変数理論によって支えられるか?

Can quantum theory be underpinned by a non-local hidden variable theory ? ( http://arxiv.org/abs/2401.13889v2 )

ライセンス: Link先を確認
Bryan J Dalton, (参考訳) 本稿では,2つの観測可能な部分系を持つ二部量子状態の一般ベル型非局所隠れ変数理論(NLHVT)による記述について考察する。 我々はコリンズ・ギシンのベル不等式を導出する。 CGLMP (Liden-Massar-Popescu) は,4組のサブシステムオブザーバブルの測定において,関連する結果の確率の組合せを含む。 対応する量子論の式は、二分儀系の最大絡み合った状態の場合、ベルの不等式に反することを示した。 CHSHベルの不等式はこの一般的なCGLMPベル型非局所隠れ変数理論に由来する。 このことは、量子論がベル型非局所隠れ変数理論によって支えられないことを示している。 したがって、一般的なベル型局所隠れ変数理論は、既に量子理論と矛盾することが示されており、量子論はCGLMPベル型隠れ変数理論(局所的あるいは非局所的)では理解できない。

In this paper we consider the description by a general Bell-type non-local hidden variable theory (NLHVT) of bipartite quantum states with two observables per sub-system. We derive Bell inequalities of the Collins-Gisin.-Liden-Massar-Popescu (CGLMP) type which involve combinations of the probabilities of related outcomes for measurements for the four pairs of sub-system observables. It is shown that the corresponding quantum theory expressions violate the Bell inequalities in the case of the maximally entangled state of the bipartitite system. The CHSH Bell inequality is also derived from this general CGLMP Bell-type non-local hidden variable theory. This shows that quantum theory can not be underpinned by a Bell-type non-local hidden variable theory. So as a general Bell-type local hidden variable theory has already been shown to conflict with quantum theory, it follows that quantum theory can not be understood in terms of any CGLMP Bell-type hidden variable theory - local or non-local.
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# 量子チェーク

Quantum Cheques ( http://arxiv.org/abs/2401.16116v4 )

ライセンス: Link先を確認
Mohammed Barhoush, Louis Salvail, (参考訳) 公に検証可能な量子マネーは、量子暗号において中心的で挑戦的な目標である。 現在に至るまで、標準的な前提に基づく建設物は存在しない。 本研究では、より達成可能で技術的に実現可能なQC(quantum cheques)という代替概念を提案する。 量子チェークは公開鍵を使用して検証できるが、単一のユーザによってのみ検証できる。 具体的には、支払い者は、そのIDを使用して特定の受信者の量子チェークに署名し、受信者は銀行の助けなしにそれを検証でき、支払い者は別のIDを持つ別のユーザに同じチェークを割り当てることができない。 量子マネーとは違って、QCは銀行によって発行されたチークがすべて古典的である場合にのみ量子通信を必要とする。 本稿では,LWE(Learning-with-errors)の仮定に基づいてQCを構築する方法を示す。 その過程で、我々は独立した関心を持つ2つの新しいプリミティブを構築します。 まず、LWEの下で公に検証可能な削除が可能なシグネチャを構築する。 このプリミティブは、メッセージ$m$の署名を可能にするので、受信者は、$m$の署名を再現できないことを公に証明する古典的な文字列を生成できる。 次に,このプリミティブを用いて2メッセージ署名トークンを構築する方法を示す。 このプリミティブは、単一ビットに署名し、自己分解するために使用できるトークンの生成を可能にする。 最後に、2-messageシグネチャトークンを用いてQCを構築する方法を示す。

Publicly-verifiable quantum money has been a central and challenging goal in quantum cryptography. To this day, no constructions exist based on standard assumptions. In this study, we propose an alternative notion called quantum cheques (QCs) that is more attainable and technologically feasible. A quantum cheque can be verified using a public-key but only by a single user. Specifically, the payer signs the quantum cheque for a particular recipient using their ID, and the recipient can validate it without the assistance of the bank, ensuring that the payer cannot assign the same cheque to another user with a different ID. Unlike quantum money, QCs only necessitate quantum communication when a cheque is issued by the bank, meaning all payments and deposits are entirely classical! We demonstrate how to construct QCs based on the well-studied learning-with-errors (LWE) assumption. In the process, we build two novel primitives which are of independent interest. Firstly, we construct signatures with publicly-verifiable deletion under LWE. This primitive enables the signing of a message $m$ such that the recipient can produce a classical string that publicly proves the inability to reproduce a signature of $m$. We then demonstrate how this primitive can be used to construct 2-message signature tokens. This primitive enables the production of a token that can be used to sign a single bit and then self-destructs. Finally, we show that 2-message signature tokens can be used to construct QCs.
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# 効率的な並列推論セグメンテーションネットワークのための多層アグリゲーションと再帰アライメントアーキテクチャ

Multi-Level Aggregation and Recursive Alignment Architecture for Efficient Parallel Inference Segmentation Network ( http://arxiv.org/abs/2402.02286v3 )

ライセンス: Link先を確認
Yanhua Zhang, Ke Zhang, Jingyu Wang, Yulin Wu, Wuwei Wang, (参考訳) リアルタイムセマンティックセグメンテーションは、現実世界のアプリケーションにとって重要な研究である。 しかし、多くの手法は計算の複雑さとモデルサイズを減らすことに特に重点を置いており、精度を犠牲にしている。 この問題に対処するために,セマンティックセグメンテーションタスク用にカスタマイズされた並列推論ネットワークを提案する。 実時間速度を確保するために浅いバックボーンを使用し、モデル容量の削減と精度の向上のために3つのコアコンポーネントを提案する。 具体的には、まず、エンコーダから各スケールまでのマルチレベル特徴を集約し、その後の空間的アライメントとそれに対応するネットワーク内推論のための階層的な手がかりを提供する、デュアルピラミダルパスアーキテクチャ(Multi-level Feature Aggregation Module, MFAM)を設計する。 次に,フローベースアライメントモジュールと再帰的アライメントアーキテクチャを組み合わせることで,マルチスケール特徴写像間の空間的アライメントの精度を,直列アライメント法の半分の計算量で向上させることにより,再帰的アライメントモジュール(RAM)を構築する。 最後に,アダプティブ・スコア・フュージョン・モジュール (ASFM) を用いて,アダプティブ・スコア・フュージョン・モジュール (ASFM) を用いて,アダプティブ・スコア・スコア・フュージョン・モジュール (ASFM) を用いて,アダプティブ・スコア・スコア・フュージョン・モジュール (ASFM) とアダプティブ・スコア・スコア・モジュール (ASFM) を用いて,アダプティブ・スコア・アダプティブ・スコア・アダプティブ・スコア・フュージョン・モジュール (ASFM) を用いて,アダプティブ・スコア・スコアを複数スケールのオブジェクトに最適化する。 我々のフレームワークは、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、速度と精度のバランスが良くなっている。 我々はまた、モチベーションとアーキテクチャ設計に関する洞察を得るために、体系的アブレーション研究も行った。 コードはhttps://github.com/Yanhua-Zhang/MFARANet.comで入手できる。

Real-time semantic segmentation is a crucial research for real-world applications. However, many methods lay particular emphasis on reducing the computational complexity and model size, while largely sacrificing the accuracy. To tackle this problem, we propose a parallel inference network customized for semantic segmentation tasks to achieve a good trade-off between speed and accuracy. We employ a shallow backbone to ensure real-time speed, and propose three core components to compensate for the reduced model capacity to improve accuracy. Specifically, we first design a dual-pyramidal path architecture (Multi-level Feature Aggregation Module, MFAM) to aggregate multi-level features from the encoder to each scale, providing hierarchical clues for subsequent spatial alignment and corresponding in-network inference. Then, we build Recursive Alignment Module (RAM) by combining the flow-based alignment module with recursive upsampling architecture for accurate spatial alignment between multi-scale feature maps with half the computational complexity of the straightforward alignment method. Finally, we perform independent parallel inference on the aligned features to obtain multi-scale scores, and adaptively fuse them through an attention-based Adaptive Scores Fusion Module (ASFM) so that the final prediction can favor objects of multiple scales. Our framework shows a better balance between speed and accuracy than state-of-the-art real-time methods on Cityscapes and CamVid datasets. We also conducted systematic ablation studies to gain insight into our motivation and architectural design. Code is available at: https://github.com/Yanhua-Zhang/MFARANet.
翻訳日:2024-04-19 14:19:22 公開日:2024-04-18
# DimVis: 説明可能なブースティングマシンによる視覚クラスタの次元化の解釈

DimVis: Interpreting Visual Clusters in Dimensionality Reduction With Explainable Boosting Machine ( http://arxiv.org/abs/2402.06885v2 )

ライセンス: Link先を確認
Parisa Salmanian, Angelos Chatzimparmpas, Ali Can Karaca, Rafael M. Martins, (参考訳) t-SNEやUMAPのようなDR技術は、複雑なデータセットを単純な視覚表現に変換するのに人気がある。 しかし、一般的なデータセットパターンを明らかにするのに効果的であるが、これらの手法はアーティファクトを導入し、解釈可能性の問題に悩まされる可能性がある。 本稿では,DRプロジェクションの解釈アシスタントとして,教師付き説明可能なブースティングマシン(EBM)モデルを用いた可視化ツールDimVisを提案する。 UMAPプロジェクションのインタラクティブな探索により,視覚クラスタの特徴的関連性を解釈し,高次元データ解析を容易にする。 具体的には、DimVisはコントラストのあるEMMモデルを使用して、リアルタイムにトレーニングされ、関心のクラスタ内と外部のデータを区別する。 EBMの本質的に説明可能な性質を生かして、このモデルを用いて、ESMモデルの特徴的重要性に基づいたランキングにおいて、クラスタ自体をシングルとペアの特徴的比較によって解釈する。 DimVisの適用性と有効性は、実世界のデータを使ったユースケースと利用シナリオを通じて実証される。 また,今後の研究の限界と今後の方向性についても論じる。

Dimensionality Reduction (DR) techniques such as t-SNE and UMAP are popular for transforming complex datasets into simpler visual representations. However, while effective in uncovering general dataset patterns, these methods may introduce artifacts and suffer from interpretability issues. This paper presents DimVis, a visualization tool that employs supervised Explainable Boosting Machine (EBM) models (trained on user-selected data of interest) as an interpretation assistant for DR projections. Our tool facilitates high-dimensional data analysis by providing an interpretation of feature relevance in visual clusters through interactive exploration of UMAP projections. Specifically, DimVis uses a contrastive EBM model that is trained in real time to differentiate between the data inside and outside a cluster of interest. Taking advantage of the inherent explainable nature of the EBM, we then use this model to interpret the cluster itself via single and pairwise feature comparisons in a ranking based on the EBM model's feature importance. The applicability and effectiveness of DimVis are demonstrated via a use case and a usage scenario with real-world data. We also discuss the limitations and potential directions for future research.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-18
# 深部強化学習に基づく計算流体力学におけるアクティブフロー制御のための最適並列化法

Optimal Parallelization Strategies for Active Flow Control in Deep Reinforcement Learning-Based Computational Fluid Dynamics ( http://arxiv.org/abs/2402.11515v2 )

ライセンス: Link先を確認
Wang Jia, Hang Xu, (参考訳) Deep Reinforcement Learning (DRL) は、高ダイナミックかつ非線形なアクティブフロー制御(AFC)問題を扱うための有望なアプローチとして登場した。 しかし、DRLモデルのトレーニングに伴う計算コストは、大きなパフォーマンスボトルネックを生じさせる。 この課題に対処し、高性能コンピューティングアーキテクチャの効率的なスケーリングを実現するために、DRLベースのアルゴリズムを並列設定で最適化することに焦点を当てた。 我々は、AFC問題に使用される既存の最先端DRLフレームワークを検証し、その効率ボトルネックについて議論する。 その後、フレームワーク全体を分解し、個々のコンポーネントの広範なスケーラビリティベンチマークを行うことで、様々なハイブリッド並列化構成を調査し、効率的な並列化戦略を提案する。 さらに、多環境DRLトレーニングにおける入出力(I/O)操作を洗練し、データ移動に伴う重大なオーバーヘッドに対処する。 最後に,一般のAFC問題に対して,フレームワーク全体に対してほぼ線形なスケーリングが得られる最適化されたフレームワークを実演する。 並列効率を約49%から約78%に向上させ,60コアで約47倍の高速化を実現した。 これらの知見は、DRLに基づくAFC研究のさらなる進歩に有用な知見をもたらすことが期待されている。

Deep Reinforcement Learning (DRL) has emerged as a promising approach for handling highly dynamic and nonlinear Active Flow Control (AFC) problems. However, the computational cost associated with training DRL models presents a significant performance bottleneck. To address this challenge and enable efficient scaling on high-performance computing architectures, this study focuses on optimizing DRL-based algorithms in parallel settings. We validate an existing state-of-the-art DRL framework used for AFC problems and discuss its efficiency bottlenecks. Subsequently, by deconstructing the overall framework and conducting extensive scalability benchmarks for individual components, we investigate various hybrid parallelization configurations and propose efficient parallelization strategies. Moreover, we refine input/output (I/O) operations in multi-environment DRL training to tackle critical overhead associated with data movement. Finally, we demonstrate the optimized framework for a typical AFC problem where near-linear scaling can be obtained for the overall framework. We achieve a significant boost in parallel efficiency from around 49% to approximately 78%, and the training process is accelerated by approximately 47 times using 60 CPU cores. These findings are expected to provide valuable insights for further advancements in DRL-based AFC studies.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-18
# デーモン期待効用における量子相関の役割

Role of quantum correlations in daemonic expected utility ( http://arxiv.org/abs/2402.15912v2 )

ライセンス: Link先を確認
Gianluca Francica, Luca Dell'Anna, (参考訳) ゆらぎは、量子相関から仕事の抽出を改善する可能性に挑戦することができる。 作業抽出プロセスにおけるこの不確実性は、作業抽出の最適な方法を提供するための期待された実用性仮説に頼って対処することができる。 本研究では, ある局所演算と古典的通信によって行われるデーモン的作業抽出における二部量子システムについて検討し, 量子相関の役割について検討する。 具体的には、いわゆる絶対リスク回避によって、変動の影響を受けない非中立リスクエージェントが、平均的な作業にのみ影響を受ける中立リスクエージェントとは異なる量子相関をどう見るかを示し、説明する。

Fluctuations can challenge the possibility of improving work extraction from quantum correlations. This uncertainty in the work extraction process can be addressed resorting to the expected utility hypothesis which can provide an optimal method for work extraction. We study a bipartite quantum system and examine the role of quantum correlations in a daemonic work extraction performed by certain local operations and classical communication. Specifically, we demonstrate and explain how, depending on the so-called absolute risk aversion, a non-neutral risk agent, influenced by fluctuations, views quantum correlations differently from a neutral risk agent who is affected solely by the average work.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-18
# 単語よりも話者に耳を傾ける行動:生成レコメンデーションのためのトリリオンパラメータシークエンシャルトランスデューサ

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations ( http://arxiv.org/abs/2402.17152v2 )

ライセンス: Link先を確認
Jiaqi Zhai, Lucy Liao, Xing Liu, Yueming Wang, Rui Li, Xuan Cao, Leon Gao, Zhaojie Gong, Fangda Gu, Michael He, Yinghai Lu, Yu Shi, (参考訳) 大規模レコメンデーションシステムは、高濃度、不均一な特徴に頼り、毎日数千億のユーザーアクションを扱う必要があることが特徴である。 何千もの機能を備えた大量のデータでトレーニングされているにも関わらず、業界におけるほとんどのDeep Learning Recommendation Model(DLRM)は、計算処理ではスケールできない。 言語および視覚領域におけるトランスフォーマーの成功に触発され、推奨システムの基本設計選択を再考する。 我々は、生成的モデリングフレームワークにおける逐次的変換タスクとしてレコメンデーション問題を再構成し、高濃度非定常ストリーミングレコメンデーションデータ用に設計された新しいアーキテクチャHSTUを提案する。 HSTUはNDCGの合成データセットと公開データセットのベースラインを65.8倍に上回り、FlashAttention2ベースの8192のトランスフォーマーよりも5.3倍から15.2倍高速である。 HSTUベースのGenerative Recommendersは1.5兆のパラメータを持ち、オンラインA/Bテストのメトリクスを12.4\%改善し、数十億のユーザがいる大規模なインターネットプラットフォームの複数の面にデプロイされている。 さらに重要なのは、ジェネレーティブ・リコメンダのモデル品質は、GPT-3/LLaMa-2スケールまでの3桁のトレーニング計算の強力な法則として実証的にスケールし、将来のモデル開発に必要な炭素フットプリントを減らすとともに、推奨の最初の基礎モデルへの道を開くことである。

Large-scale recommendation systems are characterized by their reliance on high cardinality, heterogeneous features and the need to handle tens of billions of user actions on a daily basis. Despite being trained on huge volume of data with thousands of features, most Deep Learning Recommendation Models (DLRMs) in industry fail to scale with compute. Inspired by success achieved by Transformers in language and vision domains, we revisit fundamental design choices in recommendation systems. We reformulate recommendation problems as sequential transduction tasks within a generative modeling framework (``Generative Recommenders''), and propose a new architecture, HSTU, designed for high cardinality, non-stationary streaming recommendation data. HSTU outperforms baselines over synthetic and public datasets by up to 65.8\% in NDCG, and is 5.3x to 15.2x faster than FlashAttention2-based Transformers on 8192 length sequences. HSTU-based Generative Recommenders, with 1.5 trillion parameters, improve metrics in online A/B tests by 12.4\% and have been deployed on multiple surfaces of a large internet platform with billions of users. More importantly, the model quality of Generative Recommenders empirically scales as a power-law of training compute across three orders of magnitude, up to GPT-3/LLaMa-2 scale, which reduces carbon footprint needed for future model developments, and further paves the way for the first foundational models in recommendations.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-18
# Beacon - フロー制御のための軽量深部強化学習ベンチマークライブラリ

Beacon, a lightweight deep reinforcement learning benchmark library for flow control ( http://arxiv.org/abs/2402.17402v2 )

ライセンス: Link先を確認
Jonathan Viquerat, Philippe Meliga, Pablo Jeken, Elie Hachem, (参考訳) 近年,流れ制御問題に対する深部強化学習の利用が増加し,数値流体力学環境の制御に対する既存アルゴリズムの結合と適応に着目した新たな研究領域が生まれている。 初期段階ではあるが、この分野は短期間で複数の成功を経験しており、その開発ペースは間違いなく、コミュニティの拡大を推進しているオープンソースの取り組みの一部に委ねられている。 しかし、この新興ドメインは依然として共通の根拠を逃している。 一 結果の再現性を確保すること。 (ii)適切なアドホックベンチマークベースを提供する。 そこで本研究では,7つの軽量1次元および2次元フロー制御問題からなるオープンソースのベンチマークライブラリであるBeaconを提案する。 このコントリビューションでは、考慮すべき7つの問題を記述し、参照制御ソリューションを提供する。 以下の作業のソースはhttps://github.com/jviquerat/beacon.comにある。

Recently, the increasing use of deep reinforcement learning for flow control problems has led to a new area of research, focused on the coupling and the adaptation of the existing algorithms to the control of numerical fluid dynamics environments. Although still in its infancy, the field has seen multiple successes in a short time span, and its fast development pace can certainly be partly imparted to the open-source effort that drives the expansion of the community. Yet, this emerging domain still misses a common ground to (i) ensure the reproducibility of the results, and (ii) offer a proper ad-hoc benchmarking basis. To this end, we propose Beacon, an open-source benchmark library composed of seven lightweight 1D and 2D flow control problems with various characteristics, action and observation space characteristics, and CPU requirements. In this contribution, the seven considered problems are described, and reference control solutions are provided. The sources for the following work are available at https://github.com/jviquerat/beacon.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-18
# ソーシャルリンク vs. 言語障壁: ストリーミングコンテンツのグローバルな拡散をデコードする

Social Links vs. Language Barriers: Decoding the Global Spread of Streaming Content ( http://arxiv.org/abs/2402.19329v2 )

ライセンス: Link先を確認
Seoyoung Park, Sanghyeok Park, Taekho You, Jinhyuk Yun, (参考訳) インターネットの発展により、様々なストリーミングプラットフォームを通じてコンテンツがグローバルに配信され、メディア通信とプロパティ構造を再定義できるようになった。 これまでの研究では、各ストリーミングサービスのトレンドに影響を及ぼす要因を明らかにすることに成功したが、プラットフォーム間の類似性や相違は一般には明らかにされていない。 ここでは、Netflix、Spotify、YouTubeの3つの重要なストリーミングサービスの社会的側面を、各国のコンテンツの普及に重点を置いて検討する。 2年間のトレンドチャートデータセットを使用して、ストリーミングコンテンツは、ビデオ指向(Netflix)とオーディオ指向(Spotify)の2つのタイプに分けることができる。 この特徴は、ソーシャル・コネクティビティと言語的類似性(音声指向のコンテンツはソーシャル・リンクを経由するが、ビデオ指向のコンテンツは言語的に類似した国に広がる傾向にある。 興味深いことに、ユーザ生成コンテンツであるYouTubeは、視覚的特徴と聴覚的特徴を統合することで、ビデオメディアとオーディオメディアの中間点に留まらず、プラットフォームがユニークなメディアへと進化していることを示す、二重的な特徴を示している。

The development of the internet has allowed for the global distribution of content, redefining media communication and property structures through various streaming platforms. Previous studies successfully clarified the factors contributing to trends in each streaming service, yet the similarities and differences between platforms are commonly unexplored; moreover, the influence of social connections and cultural similarity is usually overlooked. We hereby examine the social aspects of three significant streaming services--Netflix, Spotify, and YouTube--with an emphasis on the dissemination of content across countries. Using two-year-long trending chart datasets, we find that streaming content can be divided into two types: video-oriented (Netflix) and audio-oriented (Spotify). This characteristic is differentiated by accounting for the significance of social connectedness and linguistic similarity: audio-oriented content travels via social links, but video-oriented content tends to spread throughout linguistically akin countries. Interestingly, user-generated contents, YouTube, exhibits a dual characteristic by integrating both visual and auditory characteristics, indicating the platform is evolving into unique medium rather than simply residing a midpoint between video and audio media.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-18
# コントラスト学習のためのデータ拡張による制御ベースグラフ埋め込み

Control-based Graph Embeddings with Data Augmentation for Contrastive Learning ( http://arxiv.org/abs/2403.04923v2 )

ライセンス: Link先を確認
Obaid Ullah Ahmad, Anwar Said, Mudassir Shabbir, Waseem Abbas, Xenofon Koutsoukos, (参考訳) 本稿では,グラフ上に定義された動的ネットワークの制御特性を利用した教師なしグラフ表現学習の問題点について検討する。 提案手法では,教師なし表現学習の手法として,コントラスト学習の新たな枠組みを導入する。 対照的な学習における重要なステップは、入力グラフから'拡張'グラフを作成することである。 元のグラフと異なるが、これらの拡張グラフは元のグラフの構造的特性を保持する。 本稿では,ネットワークの制御特性を活用して,これらの拡張グラフを生成するユニークな手法を提案する。 コアコンセプトは、ネットワークやグラフに特有の制御性特性を維持しながら、元のグラフを摂動して新しいグラフを作成する、というものだ。 従来の手法と比較して、この革新的な手法は対照的な学習フレームワークの有効性を高め、分類タスクの精度に関する優れた結果をもたらすことを実証する。 重要なイノベーションは、これらの制御特性を使ってネットワーク構造をデコードし、教師なしグラフ表現学習のための新たな道を開くことです。

In this paper, we study the problem of unsupervised graph representation learning by harnessing the control properties of dynamical networks defined on graphs. Our approach introduces a novel framework for contrastive learning, a widely prevalent technique for unsupervised representation learning. A crucial step in contrastive learning is the creation of 'augmented' graphs from the input graphs. Though different from the original graphs, these augmented graphs retain the original graph's structural characteristics. Here, we propose a unique method for generating these augmented graphs by leveraging the control properties of networks. The core concept revolves around perturbing the original graph to create a new one while preserving the controllability properties specific to networks and graphs. Compared to the existing methods, we demonstrate that this innovative approach enhances the effectiveness of contrastive learning frameworks, leading to superior results regarding the accuracy of the classification tasks. The key innovation lies in our ability to decode the network structure using these control properties, opening new avenues for unsupervised graph representation learning.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-18
# 推薦システムにおける人間とAIの共有機関の交渉

Negotiating the Shared Agency between Humans & AI in the Recommender System ( http://arxiv.org/abs/2403.15919v2 )

ライセンス: Link先を確認
Mengke Wu, Weizi Liu, Yanyun Wang, Mike Zhengyu Yao, (参考訳) スマートレコメンデーションアルゴリズムは、情報の普及、効率の向上、さまざまな領域にわたるコンテンツ配信の再構築に革命をもたらした。 しかし、ユーザエージェンシーに対する懸念は、アルゴリズムにおける固有の不透明性(情報非対称性)と一方的な出力(パワー非対称性)の性質に起因する。 どちらの問題も、説明可能なAI(XAI)と人間とAIの協調的意思決定(HACD)を提唱する学者によって批判されているが、ユーザに対する統合的な影響を評価する研究はほとんどなく、結果の改善とフィルタリング以上のレコメンデーションシステムにおけるHACDの議論もほとんどない。 本研究では,AIが推奨するコンテンツの度合いをユーザが制御できるHACDに欠けているステップとして,インキュベーションのアイデアを提案する。 そして,既存のXAIと統合し,ユーザエージェンシーの強化を評価するためのフロープロトタイプを構築する。 我々は,エージェントの種類がユーザの知覚や経験にどのように影響するかを理解し,人間とAIの対話システムのためのガイドラインや設計を洗練するための実証的な証拠を提供する。

Smart recommendation algorithms have revolutionized information dissemination, enhancing efficiency and reshaping content delivery across various domains. However, concerns about user agency have arisen due to the inherent opacity (information asymmetry) and the nature of one-way output (power asymmetry) on algorithms. While both issues have been criticized by scholars via advocating explainable AI (XAI) and human-AI collaborative decision-making (HACD), few research evaluates their integrated effects on users, and few HACD discussions in recommender systems beyond improving and filtering the results. This study proposes an incubating idea as a missing step in HACD that allows users to control the degrees of AI-recommended content. Then, we integrate it with existing XAI to a flow prototype aimed at assessing the enhancement of user agency. We seek to understand how types of agency impact user perception and experience, and bring empirical evidence to refine the guidelines and designs for human-AI interactive systems.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-18
# モノトニックなパラフレーズが言語モデルプロンプティングの一般化を改善

Monotonic Paraphrasing Improves Generalization of Language Model Prompting ( http://arxiv.org/abs/2403.16038v2 )

ライセンス: Link先を確認
Qin Liu, Fei Wang, Nan Xu, Tianyi Yan, Tao Meng, Muhao Chen, (参考訳) 大きな言語モデル(LLM)の性能は、同じタスクの異なるプロンプトや命令によって異なる場合がある。 この現象の一般的な要因の1つは、モデルが与えられたプロンプトや命令に精通していることであり、典型的にはその難易度によって推定される。 しかし、可能なフレーズの膨大なスペースを考えると、最も難易度が低いプロンプトを見つけることは困難である。 本稿では,プロンプト(あるいは命令)書き換えのためのパラフレーズLMのアンサンブルと,低パープレキシティの生成を制限するターゲットLM(すなわち,プロンプトや命令実行子)に基づいて,プロンプトや命令を下位パープレキシティに付与するエンドツーエンドのデコーディング戦略であるモノトニック・パラフレーズ(MonoPara)を提案する。 アンサンブル復号処理は、ターゲットLMによって計算された各世代を単調に減少させながら、意味的意味を変えることなく、元のプロンプトを効率的にパラフレーズ化することができる。 我々は、MonoParaの2つの代替デコードスキームとして、欲求と検索に基づくデコードの両方を詳細に検討する。 特に、MonoParaはトレーニングを一切必要とせず、パラフレーズのプロンプトや命令の難易度を単調に下げることができる。 さらにMonoParaは、乱れたタスク命令や見えないタスク命令に対するLMの一般化を効果的に改善することが示されている。

Performance of large language models (LLMs) may vary with different prompts or instructions of even the same task. One commonly recognized factor for this phenomenon is the model's familiarity with the given prompt or instruction, which is typically estimated by its perplexity. However, finding the prompt with the lowest perplexity is challenging, given the enormous space of possible prompting phrases. In this paper, we propose monotonic paraphrasing (MonoPara), an end-to-end decoding strategy that paraphrases given prompts or instructions into their lower perplexity counterparts based on an ensemble of a paraphrase LM for prompt (or instruction) rewriting, and a target LM (i.e. the prompt or instruction executor) that constrains the generation for lower perplexity. The ensemble decoding process can efficiently paraphrase the original prompt without altering its semantic meaning, while monotonically decreasing the perplexity of each generation as calculated by the target LM. We explore in detail both greedy and search-based decoding as two alternative decoding schemes of MonoPara. Notably, MonoPara does not require any training and can monotonically lower the perplexity of the paraphrased prompt or instruction, leading to improved performance of zero-shot LM prompting as evaluated on a wide selection of tasks. In addition, MonoPara is also shown to effectively improve LMs' generalization on perturbed and unseen task instructions.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-18
# Egocentric Human Poseの3次元評価に関する調査

A Survey on 3D Egocentric Human Pose Estimation ( http://arxiv.org/abs/2403.17893v2 )

ライセンス: Link先を確認
Md Mushfiqur Azam, Kevin Desai, (参考訳) エゴセントリックな人間のポーズ推定は、人間のポーズを推定し、ファースト・パーソン・カメラの観点から身体表現を開発することを目的としている。 近年、XR技術、人間とコンピュータのインタラクション、フィットネストラッキングといった分野に幅広く応用されているため、広く普及している。 しかし、我々の知る限りでは、エゴセントリックな3次元ポーズ推定に関する提案された解決策に基づく体系的な文献レビューは行われていない。 そこで本研究では,エゴセントリックポーズ推定研究の現状を概観する。 本稿では、一般的なデータセットと異なるポーズ推定モデルを分類し、比較分析により異なる手法の長所と短所を明らかにする。 この調査は、エゴセントリックなポーズ推定における重要な概念と最先端のソリューション、広範囲のアプリケーション、そして将来のスコープに関するオープンな問題に関する洞察を提供する、この分野の研究者と実践者の両方にとって貴重なリソースとなり得る。

Egocentric human pose estimation aims to estimate human body poses and develop body representations from a first-person camera perspective. It has gained vast popularity in recent years because of its wide range of applications in sectors like XR-technologies, human-computer interaction, and fitness tracking. However, to the best of our knowledge, there is no systematic literature review based on the proposed solutions regarding egocentric 3D human pose estimation. To that end, the aim of this survey paper is to provide an extensive overview of the current state of egocentric pose estimation research. In this paper, we categorize and discuss the popular datasets and the different pose estimation models, highlighting the strengths and weaknesses of different methods by comparative analysis. This survey can be a valuable resource for both researchers and practitioners in the field, offering insights into key concepts and cutting-edge solutions in egocentric pose estimation, its wide-ranging applications, as well as the open problems with future scope.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-18
# 一次元フェルミオンにおける二部体ゆらぎの厳密解

Exact Solution of Bipartite Fluctuations in One-Dimensional Fermions ( http://arxiv.org/abs/2403.18523v2 )

ライセンス: Link先を確認
Kazuya Fujimoto, Tomohiro Sasamoto, (参考訳) 量子多体系における流体力学の出現は、近年、関心が高まっている。 極低温原子[J]の最近の実験 F. Wienand {\it et al }, arXiv:2306.11457] は、粒子数がサブシステム内でどのように変動するかを定量化するバイパートイト揺らぎを用いて、ハードコアボソンの創発的流体力学を研究した。 本稿では, 1次元非相互作用性フェルミオン動力学における二分位ゆらぎのばらつきについて理論的に検討し, その分散の正確な解法と時間的力学に対する漸近線形成長則を導出する。 理論予測と実験を比較するために, 一般線形成長法則を解析的に導出し, 初期交互状態の不完全性を組み込むことにより, 正確な解を一般化する。 その結果, 実験で観測された分散成長と, 適合パラメータを伴わずに定量的に一致していることが判明した。

Emergence of hydrodynamics in quantum many-body systems has recently garnered growing interest. The recent experiment of ultracold atoms [J. F. Wienand {\it et al.}, arXiv:2306.11457] studied emergent hydrodynamics in hard-core bosons using a bipartite fluctuation, which quantifies how the particle number fluctuates in a subsystem. In this Letter, we theoretically study the variance of a bipartite fluctuation in one-dimensional noninteracting fermionic dynamics starting from an alternating state, deriving the exact solution of the variance and its asymptotic linear growth law for the long-time dynamics. To compare the theoretical prediction with the experiment, we generalize our exact solution by incorporating the incompleteness of the initial alternating state, deriving the general linear growth law analytically. We find that it shows quantitative agreement with the experimentally observed variance growth without any fitting parameters.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-18
# 極秘再建とテレポーテーションとベルの不平等

Maximal Secret Reconstruction, Teleportation and Bell's Inequality ( http://arxiv.org/abs/2404.01212v2 )

ライセンス: Link先を確認
Pratishtha Abrol, Pahulpreet Singh, Indranil Chakrabarty, (参考訳) 三国間国家は、国家再建に有用なことに加えて、二国間ディーラーとディーラーのテレポーテーションの信条に制限を課す場合、秘密共有のための潜在的資源であると言われている。 純粋な3ビット系における秘密の共有可能な状態が与えられた場合、両ディーラー-受信チャネルから得られる最大テレポーテーション忠実度(MSR状態)の固定値に対して、可能な限りの復元忠実度(MSR状態)を持つ状態の集合を特徴づけることができる。 同様に、ディーラー-リコンストラクタとディーラー-アシスタントチャネルの双方のベル-CHSH値の最大値を与える値に対して、達成可能な最大再構成忠実度を求めることができる。 興味深いことに、すべての秘密の共有可能な国家は、ディーラーとリコンストラクタの両方でベルの不平等を満足している。 これにより、秘密の共有可能な状態とベルの不平等違反の間の新たな相互排他性がもたらされる。 本結果は,秘密共有資源状態の最適候補を特定する方法として,秘密共有の可能なリソース理論拡張において,現実的な情報伝達限界を設定することによって,最大再構成忠実度を達成する方法である。 また、二部構成の相関関係と三部構成の秘密共有能力の間に新たな相互排他性をもたらす。

A tripartite state is said to be a potential resource for secret sharing if the state imposes restrictions on the teleportation fidelity of the bipartite dealer--reconstructor and dealer--assistant channels in addition of being useful for the state reconstruction. Given a secret shareable state in a pure three-qubit system, we are able to characterize the set of states with maximum possible reconstruction fidelity (abbreviated as MSR states) for a fixed value of the maximum teleportation fidelity that can be obtained out of both the dealer--receiver channels. Similarly for a value giving the maximum of Bell-CHSH value of both dealer--reconstructor and dealer--assistant channels, we are able to find the maximum achievable reconstruction fidelity. Interestingly, we find that all secret shareable states satisfy Bell's inequality in both dealer--reconstructor and dealer--assistant partitions. This brings out a new mutual exclusivity between secret shareable state and Bell's inequality violations. Our result paves the way in identifying the best candidate among the secret sharing resource states in achieving the maximum reconstruction fidelity thus by setting the practical information transfer limit in a possible resource theoretic extension of secret sharing. It also brings out a new kind of mutual exclusiveness between the bipartite correlation and in the ability of secret sharing in a tripartite setting.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-18
# 時間量子消光器:区別可能な光子を持つ核融合ゲート

Temporal quantum eraser: Fusion gates with distinguishable photons ( http://arxiv.org/abs/2404.01516v3 )

ライセンス: Link先を確認
Ziv Aqua, Barak Dayan, (参考訳) フォトニック量子情報処理の可能なツールである線形光学ゲートは、非線形動作を達成するために量子干渉を利用するため、区別不可能な光子に依存する。 伝統的に、この基準を満たすには純粋に同一の光子を生成する必要がある。 しかし、必要となる不明瞭性は多光子波動関数の空間交換対称性と結びついており、厳密に同一の光子を必要としない。 ここでは,2光子ゲート,特に核融合ゲートの理想的な操作は,入力フォトニック状態の交換対称性を保証することにより,識別可能な光子から回収可能であることを示す。 この目的のために, 2光子状態の対称性を伝達する一対の変調入射単光子源の間に時間量子消去器を導入する。 パラメトリック光子対生成と単一量子エミッタによる単一光子抽出の2つの関連プラットフォームでこの機構を実証する。 同一光子の要求を解除する能力は、線形光学量子情報処理においてかなりの可能性を秘めている。

Linear-optics gates, the enabling tool of photonic quantum information processing, depend on indistinguishable photons, as they harness quantum interference to achieve nonlinear operations. Traditionally, meeting this criterion involves generating pure identical photons, a task that remains a significant challenge in the field. Yet, the required indistinguishability is linked to the spatial exchange symmetry of the multiphoton wavefunction and does not strictly necessitate identical photons. Here, we show that the ideal operation of two-photon gates, particularly fusion gates, can be recovered from distinguishable photons by ensuring the exchange symmetry of the input photonic state. To this end, we introduce a temporal quantum eraser between a pair of modally-impure single-photon sources, which heralds the symmetry of the generated two-photon state. We demonstrate this mechanism in two relevant platforms: parametric photon pair generation and single-photon extraction by a single quantum emitter. The ability to lift the requirement for identical photons bears considerable potential in linear-optics quantum information processing.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-18
# 大規模言語モデルによる数学多重選択問題に対する自動ディトラクタ生成の探索

Exploring Automated Distractor Generation for Math Multiple-choice Questions via Large Language Models ( http://arxiv.org/abs/2404.02124v3 )

ライセンス: Link先を確認
Wanyong Feng, Jaewook Lee, Hunter McNichols, Alexander Scarlatos, Digory Smith, Simon Woodhead, Nancy Otero Ornelas, Andrew Lan, (参考訳) 多重選択質問(MCQ)は、管理しやすく、格付けしやすく、評価や実践の信頼性の高いフォーマットであるため、ほぼ全てのレベルの教育においてユビキタスである。 MCQの最も重要な側面の1つは、実際の学生の間でよくある誤りや誤解を狙った誤った選択肢である。 現在まで、高品質なイントラクタを開発するというタスクは、拡張性に制限のある教師や学習コンテンツデザイナにとって、労働力と時間を要するプロセスのままである。 本研究では,数学MCQの領域における自動散逸器生成の課題について検討し,文脈内学習から微調整に至るまで,多種多様な大規模言語モデル(LLM)に基づくアプローチを探索する。 実世界の数学MCQデータセットを用いて広範な実験を行い、LLMは数学的に有効な散逸器を生成できるが、実際の学生の間での一般的な誤りや誤解を予測できないことを発見した。

Multiple-choice questions (MCQs) are ubiquitous in almost all levels of education since they are easy to administer, grade, and are a reliable format in assessments and practices. One of the most important aspects of MCQs is the distractors, i.e., incorrect options that are designed to target common errors or misconceptions among real students. To date, the task of crafting high-quality distractors largely remains a labor and time-intensive process for teachers and learning content designers, which has limited scalability. In this work, we study the task of automated distractor generation in the domain of math MCQs and explore a wide variety of large language model (LLM)-based approaches, from in-context learning to fine-tuning. We conduct extensive experiments using a real-world math MCQ dataset and find that although LLMs can generate some mathematically valid distractors, they are less adept at anticipating common errors or misconceptions among real students.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-18
# オープンメタバースの基盤としてのWebXR, Aフレーム, Networked-Aframe

WebXR, A-Frame and Networked-Aframe as a Basis for an Open Metaverse: A Conceptual Architecture ( http://arxiv.org/abs/2404.05317v4 )

ライセンス: Link先を確認
Giuseppe Macario, (参考訳) 本研究では、オープンでアクセス可能で相互運用可能なメタバースの開発を容易にするために、Aフレームフレームワークとネットワークフレームフレームワークを活用する、WebXRベースのクロスプラットフォーム概念アーキテクチャを提案する。 空間的ウェブアプリの概念を導入することにより、この研究はメタバースについての議論に寄与し、仮想環境へのアクセスを民主化し、ウェブを通じて現実を拡張したアーキテクチャを提供し、Tim Berners-Lee氏のWorld Wide Webという当初のビジョンをデジタル領域のオープンプラットフォームとして扱う。

This work proposes a WebXR-based cross-platform conceptual architecture, leveraging the A-Frame and Networked-Aframe frameworks, in order to facilitate the development of an open, accessible, and interoperable metaverse. By introducing the concept of spatial web app, this research contributes to the discourse on the metaverse, offering an architecture that democratizes access to virtual environments and extended reality through the web, and aligns with Tim Berners-Lee's original vision of the World Wide Web as an open platform in the digital realm.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-18
# 量子データを正確に読み書きできますか?

Can we accurately read or write quantum data? ( http://arxiv.org/abs/2404.05633v2 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica, (参考訳) 量子力学の応用はデータの読み書きの精度に依存する。 これは正確な量子状態の測定と準備を必要とする。 正確な測定と準備は、全ハミルトニアンが下から(我々の宇宙にあると考えられる)有界であれば不可能であることを示す。 この結果は、量子制御、量子コンピューティング、その他の量子技術の限界の再評価を、量子準備と測定の正確性に依存し、そしておそらくハミルトンが下から有界であるという仮定の再評価を招いている。

Applications of quantum mechanics rely on the accuracy of reading and writing data. This requires accurate measurements and preparations of the quantum states. I show that accurate measurements and preparations are impossible if the total Hamiltonian is bounded from below (as thought to be in our universe). This result invites a reevaluation of the limitations of quantum control, quantum computing, and other quantum technologies dependent on the accuracy of quantum preparations and measurements, and maybe of the assumption that the Hamiltonian is bounded from below.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-18
# CoReS: 推論とセグメンテーションの踊りを編成する

CoReS: Orchestrating the Dance of Reasoning and Segmentation ( http://arxiv.org/abs/2404.05673v2 )

ライセンス: Link先を確認
Xiaoyi Bao, Siyang Sun, Shuailei Ma, Kecheng Zheng, Yuxin Guo, Guosheng Zhao, Yun Zheng, Xingang Wang, (参考訳) 複雑なクエリの微妙な理解を要求される推論セグメンテーションタスクは、オブジェクト領域を正確に特定するものであり、注目を集めている。 しかし、MLLM(Multi-modal Large Language Models)は複雑な推論コンテキストで記述されたオブジェクトを正確にローカライズすることが難しいことが多い。 分割を推論する行為は、人間の視覚探索の認知段階を反映すべきであり、各ステップは最終対象に対する思考の進歩的な洗練である。 そこで我々は,Reasoning and Segmenting (CoReS) の連鎖を導入し,このトップダウンの視覚階層がビジュアル検索プロセスを強化していることを確認した。 具体的には、セグメント化プロセスを支援するために、マルチモーダル、チェーンライクな出力を生成する二重鎖構造を提案する。 さらに、MLLMの出力をこの階層にステアリングするために、インコンテキスト入力をガイダンスとして組み込む。 ReasonSegデータセットでは、最先端の手法を7.1\%以上上回るCoReSの優れた性能を示す。 プロジェクト:https://chain-of-reasoning-and-segmentation.github.io/。

The reasoning segmentation task, which demands a nuanced comprehension of intricate queries to accurately pinpoint object regions, is attracting increasing attention. However, Multi-modal Large Language Models (MLLM) often find it difficult to accurately localize the objects described in complex reasoning contexts. We believe that the act of reasoning segmentation should mirror the cognitive stages of human visual search, where each step is a progressive refinement of thought toward the final object. Thus we introduce the Chains of Reasoning and Segmenting (CoReS) and find this top-down visual hierarchy indeed enhances the visual search process. Specifically, we propose a dual-chain structure that generates multi-modal, chain-like outputs to aid the segmentation process. Furthermore, to steer the MLLM's outputs into this intended hierarchy, we incorporate in-context inputs as guidance. Extensive experiments demonstrate the superior performance of our CoReS, which surpasses the state-of-the-art method by 7.1\% on the ReasonSeg dataset. Project: https://chain-of-reasoning-and-segmentation.github.io/.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-18
# 統一物理デジタル攻撃検出チャレンジ

Unified Physical-Digital Attack Detection Challenge ( http://arxiv.org/abs/2404.06211v2 )

ライセンス: Link先を確認
Haocheng Yuan, Ajian Liu, Junze Zheng, Jun Wan, Jiankang Deng, Sergio Escalera, Hugo Jair Escalante, Isabelle Guyon, Zhen Lei, (参考訳) Face Anti-Spoofing (FAS) は、顔認識(FR)システムを保護するために重要である。 現実のシナリオでは、FRは物理的攻撃とデジタル攻撃の両方に直面します。 しかし、既存のアルゴリズムは一度に1つのタイプの攻撃にのみ対処することが多く、FRシステムがハイブリッドな物理デジタル脅威に直面している現実のシナリオでは大きな制限が生じる。 統一攻撃検出(UAD)アルゴリズムの研究を容易にするため、大規模なUniAttackDataデータセットが収集された。 UniAttackDataは、Unified Detectionの最大の公開データセットであり、合計28,706本のビデオがあり、それぞれが高度な攻撃タイプをすべて含む。 このデータセットに基づいて、統一的攻撃検出の研究を促進するために、統一的物理デジタル顔検出チャレンジを組織した。 開発段階では136チームが参加し、最終ラウンドでは13チームが出場した。 組織チームによって再検証された結果は、最終ランキングに使用された。 本稿では,データセットの導入,プロトコル定義,評価基準,公開結果の概要などを概説する。 最後に,性能の高いアルゴリズムの詳細な解析に焦点をあて,この競合にインスパイアされた物理デジタル攻撃検出のための潜在的な方向を提供する。 Challenge Webサイト: https://sites.google.com/view/face-anti-spoofing-challenge/welcome/challengecvpr2024

Face Anti-Spoofing (FAS) is crucial to safeguard Face Recognition (FR) Systems. In real-world scenarios, FRs are confronted with both physical and digital attacks. However, existing algorithms often address only one type of attack at a time, which poses significant limitations in real-world scenarios where FR systems face hybrid physical-digital threats. To facilitate the research of Unified Attack Detection (UAD) algorithms, a large-scale UniAttackData dataset has been collected. UniAttackData is the largest public dataset for Unified Attack Detection, with a total of 28,706 videos, where each unique identity encompasses all advanced attack types. Based on this dataset, we organized a Unified Physical-Digital Face Attack Detection Challenge to boost the research in Unified Attack Detections. It attracted 136 teams for the development phase, with 13 qualifying for the final round. The results re-verified by the organizing team were used for the final ranking. This paper comprehensively reviews the challenge, detailing the dataset introduction, protocol definition, evaluation criteria, and a summary of published results. Finally, we focus on the detailed analysis of the highest-performing algorithms and offer potential directions for unified physical-digital attack detection inspired by this competition. Challenge Website: https://sites.google.com/view/face-anti-spoofing-challenge/welcome/challengecvpr2024.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-18
# HCL-MTSAD:産業用多変量時系列異常の高精度検出のための階層的コントラスト整合学習

HCL-MTSAD: Hierarchical Contrastive Consistency Learning for Accurate Detection of Industrial Multivariate Time Series Anomalies ( http://arxiv.org/abs/2404.08224v2 )

ライセンス: Link先を確認
Haili Sun, Yan Huang, Lansheng Han, Cai Fu, Chunjie Zhou, (参考訳) 多変量時系列(MTS)異常検出は、産業用アプリケーションの安全性と安全性を確保する上で重要な、標準的な運用パターンから分岐するサンプルをピンポイントで検出することに焦点を当てている。 この領域の最大の課題は、異常を効果的に識別できる表現を開発することである。 文献における異常検出の一般的な方法は、主に再構築ベースで、自然界で予測的である。 しかし、それらは典型的には一次元のインスタンスレベルに集中しており、工業的MSSに固有の複雑な関連を十分に利用していない。 この問題に対処するために,HCL-MTSADと呼ばれるMTSの異常を検出するための,自己教師付き階層的コントラスト整合学習手法を提案する。 産業MSSに固有の複数のレベルでデータの一貫性を革新的に活用し、4つの潜伏レベル、サンプル、チャネル、プロセスにわたる一貫性のある関連を体系的にキャプチャする。 HCL-MTSADは、多層的な対照的な損失を発生させることで、データの一貫性と時空間的関連を広範囲にマイニングし、より情報的な表現をもたらす。 その後、自己教師付き階層的コントラスト学習に基づく異常識別モジュールが、マルチスケールデータの一貫性を計算してタイムスタンプレベルの異常を検出するように設計されている。 HCL-MTSADの異常検出能力は、実際のサイバー物理システムとサーバマシンから取得した6つの多様なMSSデータセットで実施された大規模な実験により、F1スコアの平均1.8\%で最先端のベンチマークモデルより優れていることが示されている。

Multivariate Time Series (MTS) anomaly detection focuses on pinpointing samples that diverge from standard operational patterns, which is crucial for ensuring the safety and security of industrial applications. The primary challenge in this domain is to develop representations capable of discerning anomalies effectively. The prevalent methods for anomaly detection in the literature are predominantly reconstruction-based and predictive in nature. However, they typically concentrate on a single-dimensional instance level, thereby not fully harnessing the complex associations inherent in industrial MTS. To address this issue, we propose a novel self-supervised hierarchical contrastive consistency learning method for detecting anomalies in MTS, named HCL-MTSAD. It innovatively leverages data consistency at multiple levels inherent in industrial MTS, systematically capturing consistent associations across four latent levels-measurement, sample, channel, and process. By developing a multi-layer contrastive loss, HCL-MTSAD can extensively mine data consistency and spatio-temporal association, resulting in more informative representations. Subsequently, an anomaly discrimination module, grounded in self-supervised hierarchical contrastive learning, is designed to detect timestamp-level anomalies by calculating multi-scale data consistency. Extensive experiments conducted on six diverse MTS datasets retrieved from real cyber-physical systems and server machines, in comparison with 20 baselines, indicate that HCL-MTSAD's anomaly detection capability outperforms the state-of-the-art benchmark models by an average of 1.8\% in terms of F1 score.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-18
# 敵防衛と肩を並べる : 拡散を試してみる

Struggle with Adversarial Defense? Try Diffusion ( http://arxiv.org/abs/2404.08273v2 )

ライセンス: Link先を確認
Yujie Li, Yanbin Wang, Haitao Xu, Bin Liu, Jianguo Sun, Zhenhao Guo, Wenrui Ma, (参考訳) 敵攻撃は微妙な摂動を導入して誤分類を引き起こす。 近年、画像分類器に拡散モデルを適用し、対向訓練や対向雑音の浄化により対向ロバスト性を向上させる。 しかし、拡散に基づく敵の訓練は、しばしば収束課題と高い計算費用に遭遇する。 さらに、拡散ベースの浄化は必然的にデータシフトを引き起こし、より強い適応攻撃の影響を受けやすいと考えられる。 これらの問題に対処するために,事前学習した拡散モデルとベイズ定理に基づく生成ベイズ分類器である真最大拡散分類器 (TMDC) を提案する。 データ駆動型分類器とは異なり、TMDCは拡散モデルからの条件付き確率を利用して入力画像のクラス確率を判定し、データシフトの影響と敵対的訓練の限界に対して絶縁する。 さらに,TMDCの強力な敵攻撃に対するレジリエンスを高めるため,拡散分類器の最適化戦略を提案する。 この戦略は、乱れたデータセット上の拡散モデルを条件として訓練し、拡散モデルを誘導し、データ分布を学習し、地絡ラベル下での確率を最大化する。 提案手法は,CIFAR10データセットにおける重度ホワイトボックス攻撃と強い適応攻撃に対する最先端性能を実現する。 具体的には、TMDCは、標準有界摂動に対して82.81%、標準有界摂動で86.05%、標準有界摂動で86.05%、それぞれ$\epsilon=0.05$である。

Adversarial attacks induce misclassification by introducing subtle perturbations. Recently, diffusion models are applied to the image classifiers to improve adversarial robustness through adversarial training or by purifying adversarial noise. However, diffusion-based adversarial training often encounters convergence challenges and high computational expenses. Additionally, diffusion-based purification inevitably causes data shift and is deemed susceptible to stronger adaptive attacks. To tackle these issues, we propose the Truth Maximization Diffusion Classifier (TMDC), a generative Bayesian classifier that builds upon pre-trained diffusion models and the Bayesian theorem. Unlike data-driven classifiers, TMDC, guided by Bayesian principles, utilizes the conditional likelihood from diffusion models to determine the class probabilities of input images, thereby insulating against the influences of data shift and the limitations of adversarial training. Moreover, to enhance TMDC's resilience against more potent adversarial attacks, we propose an optimization strategy for diffusion classifiers. This strategy involves post-training the diffusion model on perturbed datasets with ground-truth labels as conditions, guiding the diffusion model to learn the data distribution and maximizing the likelihood under the ground-truth labels. The proposed method achieves state-of-the-art performance on the CIFAR10 dataset against heavy white-box attacks and strong adaptive attacks. Specifically, TMDC achieves robust accuracies of 82.81% against $l_{\infty}$ norm-bounded perturbations and 86.05% against $l_{2}$ norm-bounded perturbations, respectively, with $\epsilon=0.05$.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-18
# FaceFilterSense: フィルタ型顔認識と顔属性分析フレームワーク

FaceFilterSense: A Filter-Resistant Face Recognition and Facial Attribute Analysis Framework ( http://arxiv.org/abs/2404.08277v2 )

ライセンス: Link先を確認
Shubham Tiwari, Yash Sethia, Ritesh Kumar, Ashwani Tanwar, Rudresh Dwivedi, (参考訳) ソーシャルメディアの出現に伴い、楽しい自撮りフィルターは顔の生体認証システムだけでなく、画像認識システムの機能にも大きな影響を与えている。 これらのフィルターは、美容フィルターや拡張現実(AR)ベースのフィルターから、顔のランドマークを変更するフィルターまで様々である。 したがって,既存の顔認識システムの性能に及ぼすフィルタの影響を評価する必要がある。 既存の解にまつわる制限は、これらの解がより美化フィルタに焦点をあてることである。 しかし、顔のキーポイントを歪ませる現在のARベースのフィルターやフィルターは、最近流行し、肉眼でも顔が認識不能になっている。 また、考慮されたフィルタはほとんどが時代遅れであり、バリエーションは限られている。 これらの制約を緩和するため、我々は最新のフィルタの全体的影響分析を行い、フィルタ画像を用いたユーザ認識モデルを提案する。 ベースライン画像のベンチマークデータセットを利用して、最新のフィルタを適用して、美容/フィルタデータセットを生成しました。 次に、美化ユーザ認識のためのモデルFaceFilterNetを紹介した。 この枠組みでは、年齢、性別、民族など、個人のさまざまな属性について、モデルを用いてコメントする。 また, 顔認識, 年齢推定, 性別, 民族性予測に対するフィルタによる影響分析も行った。 提案手法は,87.25%の精度でデータセットの有効性を確認し,顔の属性分析に最適な精度を示す。

With the advent of social media, fun selfie filters have come into tremendous mainstream use affecting the functioning of facial biometric systems as well as image recognition systems. These filters vary from beautification filters and Augmented Reality (AR)-based filters to filters that modify facial landmarks. Hence, there is a need to assess the impact of such filters on the performance of existing face recognition systems. The limitation associated with existing solutions is that these solutions focus more on the beautification filters. However, the current AR-based filters and filters which distort facial key points are in vogue recently and make the faces highly unrecognizable even to the naked eye. Also, the filters considered are mostly obsolete with limited variations. To mitigate these limitations, we aim to perform a holistic impact analysis of the latest filters and propose an user recognition model with the filtered images. We have utilized a benchmark dataset for baseline images, and applied the latest filters over them to generate a beautified/filtered dataset. Next, we have introduced a model FaceFilterNet for beautified user recognition. In this framework, we also utilize our model to comment on various attributes of the person including age, gender, and ethnicity. In addition, we have also presented a filter-wise impact analysis on face recognition, age estimation, gender, and ethnicity prediction. The proposed method affirms the efficacy of our dataset with an accuracy of 87.25% and an optimal accuracy for facial attribute analysis.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-18
# ベンチマークによるニューラルセマンティック構文解析への洞察獲得

Gaining More Insight into Neural Semantic Parsing with Challenging Benchmarks ( http://arxiv.org/abs/2404.08354v2 )

ライセンス: Link先を確認
Xiao Zhang, Chunliu Wang, Rik van Noord, Johan Bos, (参考訳) Parallel Meaning Bank (PMB) はセマンティック処理のためのコーパスとして機能し、セマンティック解析とテキスト生成に重点を置いている。 現在、我々はPMBにおけるニューラルパーサーとジェネレータの優れたパフォーマンスを目撃している。 これは、このようなセマンティックな処理タスクが、大きく解決されたことを示唆するかもしれない。 PMBにおける過去のパフォーマンススコアは、最適でないデータ分割とテストセットによって膨らませられている、と我々は主張する。 これに応えて、いくつかの変更を加えます。 まず、事前のランダム分割の代わりに、標準的なテストデータの信頼性を向上させるために、より体系的な分割手法を提案する。 第二に、標準的なテストセットを除いて、談話構造を含む長いテキストを持つものと、構成的一般化に対処するものという2つの課題セットを提案する。 意味解析と意味テキスト生成のための5つのニューラルモデルを評価する。 以上の結果から,モデルの性能は(場合によっては)課題セットで低下し,このような課題に直面する際のニューラルネットワークの限界が明らかになった。

The Parallel Meaning Bank (PMB) serves as a corpus for semantic processing with a focus on semantic parsing and text generation. Currently, we witness an excellent performance of neural parsers and generators on the PMB. This might suggest that such semantic processing tasks have by and large been solved. We argue that this is not the case and that performance scores from the past on the PMB are inflated by non-optimal data splits and test sets that are too easy. In response, we introduce several changes. First, instead of the prior random split, we propose a more systematic splitting approach to improve the reliability of the standard test data. Second, except for the standard test set, we also propose two challenge sets: one with longer texts including discourse structure, and one that addresses compositional generalization. We evaluate five neural models for semantic parsing and meaning-to-text generation. Our results show that model performance declines (in some cases dramatically) on the challenge sets, revealing the limitations of neural models when confronting such challenges.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# NeuroLGP-SM: ディープニューラルネットワークのためのスケーラブルなサロゲート支援神経進化

NeuroLGP-SM: Scalable Surrogate-Assisted Neuroevolution for Deep Neural Networks ( http://arxiv.org/abs/2404.08786v2 )

ライセンス: Link先を確認
Fergal Stapleton, Edgar Galván, (参考訳) 進化的アルゴリズム(EA)は、神経進化として知られるプロセスであるArtificial Deep Neural Networks(DNN)のアーキテクチャ構成とトレーニングにおいて重要な役割を果たす。 しかし、神経進化は、その固有の計算コストによって妨げられ、複数の世代、多数の人口、多くのエポックを必要としている。 最も計算集約的な側面は、単一の候補解の適合関数を評価することである。 この課題に対処するため、我々はSurrogate-assisted EAs (SAEAs) を採用する。 神経進化においていくつかのSAEAアプローチが提案されているが、難解な情報利用のような問題のため、真のDNNには適用されていない。 本研究では、遺伝的プログラミングのセマンティクスからインスピレーションを得て、DNNから出力される表現型距離ベクトルと、これらの大きなベクトルを扱うのに有効なKPLS(Partial Least Squares)とを併用し、探索に適した手法を提案する。 提案手法はニューロLinear Genetic Programming surrogate model (NeuroLGP-SM) と名付けられ, 完全評価を必要とせず, DNNの適合性を効率的に正確に推定する。 NeuroLGP-SMは、SMを持たないNeuroLGP、畳み込みニューラルネットワーク、サポートベクターマシン、オートエンコーダなど、他の12の方法と比較して、競合的または優れた結果を示す。 また、NeuroLGP-SMはNeuroLGPよりも25%エネルギー効率が高い。 この効率性は,提案したNeuroLGP-SMが大規模DNNの構成を最適化する際の全体的な魅力を増す。

Evolutionary Algorithms (EAs) play a crucial role in the architectural configuration and training of Artificial Deep Neural Networks (DNNs), a process known as neuroevolution. However, neuroevolution is hindered by its inherent computational expense, requiring multiple generations, a large population, and numerous epochs. The most computationally intensive aspect lies in evaluating the fitness function of a single candidate solution. To address this challenge, we employ Surrogate-assisted EAs (SAEAs). While a few SAEAs approaches have been proposed in neuroevolution, none have been applied to truly large DNNs due to issues like intractable information usage. In this work, drawing inspiration from Genetic Programming semantics, we use phenotypic distance vectors, outputted from DNNs, alongside Kriging Partial Least Squares (KPLS), an approach that is effective in handling these large vectors, making them suitable for search. Our proposed approach, named Neuro-Linear Genetic Programming surrogate model (NeuroLGP-SM), efficiently and accurately estimates DNN fitness without the need for complete evaluations. NeuroLGP-SM demonstrates competitive or superior results compared to 12 other methods, including NeuroLGP without SM, convolutional neural networks, support vector machines, and autoencoders. Additionally, it is worth noting that NeuroLGP-SM is 25% more energy-efficient than its NeuroLGP counterpart. This efficiency advantage adds to the overall appeal of our proposed NeuroLGP-SM in optimising the configuration of large DNNs.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# データ駆動モデルによる都市間交通渋滞予測

Predicting Traffic Congestion at Urban Intersections Using Data-Driven Modeling ( http://arxiv.org/abs/2404.08838v4 )

ライセンス: Link先を確認
Tara Kelly, Jessica Gupta, (参考訳) 交差点での交通渋滞は都市部で大きな問題であり、通勤時間の増加、安全上の危険、運用上の不効率につながっている。 本研究では,米国の主要都市における交差点の混雑予測モデルの構築を目的として,4800の交差点にまたがる商用車両の走行記録データを用いて,都市間における混雑予測モデルを構築した。 データセットには、交差点座標、通り名、日時、交通メトリクス(Kashyap et al , 2019)を含む27の機能が含まれている。 降雨/降雪率、中心街と郊外からの距離、道路タイプといった追加の特徴は、モデルの予測力を高めるために組み込まれた。 この手法には、データ探索、特徴変換、低ランクモデルとラベルエンコーディングによる欠落値の処理が含まれる。 提案モデルでは,交通ホットスポットの予測,運用の最適化,インフラの課題の特定などにおいて,都市計画者や政府を支援する可能性を秘めている。

Traffic congestion at intersections is a significant issue in urban areas, leading to increased commute times, safety hazards, and operational inefficiencies. This study aims to develop a predictive model for congestion at intersections in major U.S. cities, utilizing a dataset of trip-logging metrics from commercial vehicles across 4,800 intersections. The dataset encompasses 27 features, including intersection coordinates, street names, time of day, and traffic metrics (Kashyap et al., 2019). Additional features, such as rainfall/snowfall percentage, distance from downtown and outskirts, and road types, were incorporated to enhance the model's predictive power. The methodology involves data exploration, feature transformation, and handling missing values through low-rank models and label encoding. The proposed model has the potential to assist city planners and governments in anticipating traffic hot spots, optimizing operations, and identifying infrastructure challenges.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# RoNID: 生成可能なラベルとクラスタフレンドリな表現を備えた新たなインテントディスカバリ

RoNID: New Intent Discovery with Generated-Reliable Labels and Cluster-friendly Representations ( http://arxiv.org/abs/2404.08977v2 )

ライセンス: Link先を確認
Shun Zhang, Chaoran Yan, Jian Yang, Changyu Ren, Jiaqi Bai, Tongliang Li, Zhoujun Li, (参考訳) New Intent Discovery (NID) は、オープンワールドシナリオにおいて、既知の、合理的に推論可能な新規な意図グループを特定しようとする試みである。 しかし、現在の手法では、不正確な擬似ラベルと表現学習の貧弱な問題に直面し、正のフィードバックループを生成し、精度と調整されたランドインデックスを含む全体のモデルパフォーマンスを劣化させる。 上記の課題に対処するため,EMスタイルの手法により最適化されたロバスト・ニュー・インテント・ディスカバリ(RoNID)フレームワークを提案する。 RoNIDは、信頼できる擬似ラベル生成モジュールとクラスタフレンドリーな表現学習モジュールの2つの主要なモジュールから構成される。 具体的には、Eステップにおいて最適な輸送問題を解くことにより、疑似ラベル生成モジュールが信頼できる合成ラベルを割り当て、クラスタフレンドリーな表現学習モジュールの入力に高品質な教師付き信号が効果的に提供される。 クラスタ内コンパクト性とクラスタ間分離の大きいクラスタフレンドリーな表現を学習するために、表現学習モジュールは、クラスタ内コントラスト学習とクラスタ間コントラスト学習をMステップで組み合わせ、より差別的な特徴を生成モジュールに供給する。 RoNIDは、最終的に信頼できる擬似ラベルとクラスタフレンドリーな表現を持つ堅牢なモデルを生成するために反復的に実行できる。 複数のベンチマークによる実験結果から,本手法は従来の最先端手法よりも+1〜+4ポイントの差で大幅に改善されていることが示された。

New Intent Discovery (NID) strives to identify known and reasonably deduce novel intent groups in the open-world scenario. But current methods face issues with inaccurate pseudo-labels and poor representation learning, creating a negative feedback loop that degrades overall model performance, including accuracy and the adjusted rand index. To address the aforementioned challenges, we propose a Robust New Intent Discovery (RoNID) framework optimized by an EM-style method, which focuses on constructing reliable pseudo-labels and obtaining cluster-friendly discriminative representations. RoNID comprises two main modules: reliable pseudo-label generation module and cluster-friendly representation learning module. Specifically, the pseudo-label generation module assigns reliable synthetic labels by solving an optimal transport problem in the E-step, which effectively provides high-quality supervised signals for the input of the cluster-friendly representation learning module. To learn cluster-friendly representation with strong intra-cluster compactness and large inter-cluster separation, the representation learning module combines intra-cluster and inter-cluster contrastive learning in the M-step to feed more discriminative features into the generation module. RoNID can be performed iteratively to ultimately yield a robust model with reliable pseudo-labels and cluster-friendly representations. Experimental results on multiple benchmarks demonstrate our method brings substantial improvements over previous state-of-the-art methods by a large margin of +1~+4 points.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# 既知のクラスタを超えて - 効率的な一般化されたクラスディスカバリのための新しいプロトタイプ

Beyond Known Clusters: Probe New Prototypes for Efficient Generalized Class Discovery ( http://arxiv.org/abs/2404.08995v2 )

ライセンス: Link先を確認
Ye Wang, Yaxiong Wang, Yujiao Wu, Bingchen Zhao, Xueming Qian, (参考訳) Generalized Class Discovery (GCD) は、ラベル付きデータから学んだ知識に基づいてラベルを部分的にラベル付きデータに動的に割り当てることを目的としている。 一般的なアプローチは、すべてのデータと学習概念を、原型的な対照的な学習によってクラスタリングすることである。 しかし、既存の手法はクラスタリングアルゴリズムの性能に大きく影響し、そのため固有の制限が課せられる。 第一に、推定されたクラスタ数は、しばしば基礎的な真実よりも小さく、既存の手法は包括的な概念学習のためのプロトタイプの欠如に悩まされる。 この問題に対処するために,学習可能な潜在的なプロトタイプを導入し,クラスタプロトタイプ(中央)を拡張する適応型探索機構を提案する。 本研究は,プロトタイプをエンド・ツー・エンドで最適化する自己教師型プロトタイプ学習フレームワークを開発した。 第二に、クラスタリングは計算集約的であり、ラベル付きインスタンスと非ラベル付きインスタンスの両方をクラスタリングするという従来の戦略は、この問題を悪化させる。 この非効率性に対抗するために、私たちは、未実装のインスタンスのみをクラスタ化し、その後、新しいクラスを素早く探索するために、導入可能なプロトタイプでクラスタのプロトタイプを拡張することを選択しました。 提案手法の単純さにもかかわらず、広範囲のデータセットに対する広範な実験分析により、我々の手法が常に最先端の結果を提供することを確認した。 具体的には、Stanford Cars データセット内の \textbf{9.7}$\%$ と、Herbarium 19 データセット内の \textbf{12$\times$} クラスタリング効率によって、最も近い競合相手を上回る。 コードとチェックポイントは \url{https://github.com/xjtuYW/PNP.git} で公開します。

Generalized Class Discovery (GCD) aims to dynamically assign labels to unlabelled data partially based on knowledge learned from labelled data, where the unlabelled data may come from known or novel classes. The prevailing approach generally involves clustering across all data and learning conceptions by prototypical contrastive learning. However, existing methods largely hinge on the performance of clustering algorithms and are thus subject to their inherent limitations. Firstly, the estimated cluster number is often smaller than the ground truth, making the existing methods suffer from the lack of prototypes for comprehensive conception learning. To address this issue, we propose an adaptive probing mechanism that introduces learnable potential prototypes to expand cluster prototypes (centers). As there is no ground truth for the potential prototype, we develop a self-supervised prototype learning framework to optimize the potential prototype in an end-to-end fashion. Secondly, clustering is computationally intensive, and the conventional strategy of clustering both labelled and unlabelled instances exacerbates this issue. To counteract this inefficiency, we opt to cluster only the unlabelled instances and subsequently expand the cluster prototypes with our introduced potential prototypes to fast explore novel classes. Despite the simplicity of our proposed method, extensive empirical analysis on a wide range of datasets confirms that our method consistently delivers state-of-the-art results. Specifically, our method surpasses the nearest competitor by a significant margin of \textbf{9.7}$\%$ within the Stanford Cars dataset and \textbf{12$\times$} clustering efficiency within the Herbarium 19 dataset. We will make the code and checkpoints publicly available at \url{https://github.com/xjtuYW/PNP.git}.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# 相対論的量子力学における因果関係の明瞭な違反

Apparent violation of causality in relativistic quantum mechanics ( http://arxiv.org/abs/2404.09205v2 )

ライセンス: Link先を確認
Iwo Bialynicki-Birula, Zofia Bialynicka-Birula, (参考訳) 相対論的理論において、微視的因果性の原理は「情報の移動は光の速度よりも速くは行えない」と述べている。 本研究では,相対論的波動関数の時間発展がこの原理に反することを示す。 ここでは、質量を持たない粒子と質量粒子の波動関数を考える。 無質量粒子の場合、微視的因果性に反する波動関数は解析形式を持ち、大質量粒子の場合は数値計算に頼らなければならない。 どちらの場合も、厳密な局所化が$t=0$である波動関数は、後になって将来の光円錐が消えることはない。 \end{abstract}

In relativistic theories the principle of microscopic causality states that ``information cannot travel faster than the speed of light'' \cite{kaku}. In the present work we show that the time evolution of relativistic wave functions violates this principle. We consider here the wave functions of massless and massive particles. In the case of massless particles the wave functions which violate the microscopic causality have an analytic form while in the case of massive particles we have to rely on numerical calculations. In both cases the wave functions which are strictly localized at $t=0$, at later times do not vanish {\it outside} the future light cone. \end{abstract}
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# AesExpert:画像美観知覚のためのマルチモーダリティ基礎モデル

AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception ( http://arxiv.org/abs/2404.09624v2 )

ライセンス: Link先を確認
Yipo Huang, Xiangfei Sheng, Zhichao Yang, Quan Yuan, Zhichao Duan, Pengfei Chen, Leida Li, Weisi Lin, Guangming Shi, (参考訳) 画像美学知覚(IAP)の高度に抽象的な性質は、現在のマルチモーダル大言語モデル(MLLM)に重大な課題をもたらす。 このジレンマはさらに悪化し、MLLMは美学の知覚能力に欠ける。 上記の課題に対処するため,我々はまず,マルチモーダルな美学基礎モデル構築の基盤となる,包括的アノテーション付きマルチモーダル・インストラクション・チューニング(AesMMIT)データセットを導入する。 具体的には,MLLMを人間の審美的知覚に合わせるために,コーパスリッチな審美的批判データベースを構築した。 MLLMが多様なクエリを扱えるようにするために、GPTに麻酔的批評を洗練させ、大規模な麻酔的指導訓練データセット、すなわち409Kのマルチタイプ命令からなるAesMMITを組み立て、より強力な麻酔的能力を活性化させる。 AesMMITデータベースをベースとして,オープンソース基盤モデルを微調整し,AesExpertと呼ばれるマルチモダリティAesthetic Expertモデルを実現する。 大規模な実験により、提案されたAesExpertモデルは、最先端のGPT-4VやGemini-Pro-Visionを含む最先端のMLLMよりもはるかに優れた審美的知覚性能を提供することが示された。 ソースデータはhttps://github.com/yipoh/AesExpert.comで入手できる。

The highly abstract nature of image aesthetics perception (IAP) poses significant challenge for current multimodal large language models (MLLMs). The lack of human-annotated multi-modality aesthetic data further exacerbates this dilemma, resulting in MLLMs falling short of aesthetics perception capabilities. To address the above challenge, we first introduce a comprehensively annotated Aesthetic Multi-Modality Instruction Tuning (AesMMIT) dataset, which serves as the footstone for building multi-modality aesthetics foundation models. Specifically, to align MLLMs with human aesthetics perception, we construct a corpus-rich aesthetic critique database with 21,904 diverse-sourced images and 88K human natural language feedbacks, which are collected via progressive questions, ranging from coarse-grained aesthetic grades to fine-grained aesthetic descriptions. To ensure that MLLMs can handle diverse queries, we further prompt GPT to refine the aesthetic critiques and assemble the large-scale aesthetic instruction tuning dataset, i.e. AesMMIT, which consists of 409K multi-typed instructions to activate stronger aesthetic capabilities. Based on the AesMMIT database, we fine-tune the open-sourced general foundation models, achieving multi-modality Aesthetic Expert models, dubbed AesExpert. Extensive experiments demonstrate that the proposed AesExpert models deliver significantly better aesthetic perception performances than the state-of-the-art MLLMs, including the most advanced GPT-4V and Gemini-Pro-Vision. Source data will be available at https://github.com/yipoh/AesExpert.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# 3次元医用画像分割のためのトレーニング後ネットワーク圧縮:タッカー分解による計算効率の低減

Post-Training Network Compression for 3D Medical Image Segmentation: Reducing Computational Efforts via Tucker Decomposition ( http://arxiv.org/abs/2404.09683v2 )

ライセンス: Link先を確認
Tobias Weber, Jakob Dexl, David Rügamer, Michael Ingrisch, (参考訳) 本稿では, テンソル分解によるネットワーク圧縮の有効性を検討することにより, 高度な深層学習セグメンテーションモデルを臨床環境に展開する際の計算障壁に対処する。 本稿では,既存のモデルの分解により,セグメント化精度を損なうことなく,計算要求を低減できるタッカー因数分解法を提案する。 TotalSegmentator(TS)モデルの畳み込みカーネルにTucker分解を適用した。これは117の解剖構造の自動セグメンテーションのための包括的データセットに基づいて訓練されたnnU-Netモデルである。 提案手法では,推定時に必要となる浮動小数点演算(FLOP)とメモリを削減し,計算効率とセグメンテーション品質のトレードオフを調整可能とした。 本研究では,TSデータセットを用いて,モデルサイズ,推論速度,セグメンテーション性能の関係について検討した。 TSモデルへのタッカー分解の適用により、様々な圧縮速度でモデルパラメータとFLOPが大幅に減少し、セグメンテーション精度が低下した。 モデルパラメータの88%を除去したが、微調整後、ほとんどのクラスで顕著な性能変化は見られなかった。 現実的な利点はグラフィックス処理ユニット(GPU)のアーキテクチャによって様々であり、低消費電力のハードウェアではスピードアップがより顕著であった。 タッカー分解によるポストホックネットワーク圧縮は、精度を大幅に犠牲にすることなく、医療画像セグメンテーションモデルの計算要求を減らすための実行可能な戦略を示す。 このアプローチは、ハードウェア機能の制約をナビゲートする方法を提供する、臨床実践における高度なディープラーニングテクノロジの広範な採用を可能にする。

We address the computational barrier of deploying advanced deep learning segmentation models in clinical settings by studying the efficacy of network compression through tensor decomposition. We propose a post-training Tucker factorization that enables the decomposition of pre-existing models to reduce computational requirements without impeding segmentation accuracy. We applied Tucker decomposition to the convolutional kernels of the TotalSegmentator (TS) model, an nnU-Net model trained on a comprehensive dataset for automatic segmentation of 117 anatomical structures. Our approach reduced the floating-point operations (FLOPs) and memory required during inference, offering an adjustable trade-off between computational efficiency and segmentation quality. This study utilized the publicly available TS dataset, employing various downsampling factors to explore the relationship between model size, inference speed, and segmentation performance. The application of Tucker decomposition to the TS model substantially reduced the model parameters and FLOPs across various compression rates, with limited loss in segmentation accuracy. We removed up to 88% of the model's parameters with no significant performance changes in the majority of classes after fine-tuning. Practical benefits varied across different graphics processing unit (GPU) architectures, with more distinct speed-ups on less powerful hardware. Post-hoc network compression via Tucker decomposition presents a viable strategy for reducing the computational demand of medical image segmentation models without substantially sacrificing accuracy. This approach enables the broader adoption of advanced deep learning technologies in clinical practice, offering a way to navigate the constraints of hardware capabilities.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# 光ツイーザーフォノンレーザーのコヒーレント制御

Coherent control of an optical tweezer phonon laser ( http://arxiv.org/abs/2404.10173v2 )

ライセンス: Link先を確認
Kai Zhang, Kewen Xiao, Danika Luntz-Martin, Ping Sun, S. Sharma, M. Bhattacharya, A. N. Vamivakas, (参考訳) コヒーレンスの創造と操作は、科学者や技術者の注意を引い続けている。 光レーザーは、原理的には完全なコヒーレンスを示すシステムの標準的な例である。 最近の研究は、他の物理系におけるコヒーレントなレーザーのような状態の生成に焦点を当てている。 フォノンレーザー(英: phonon laser)は、自給自足の機械振動を増幅できる一例である。 静止光ツイーザにおける単一モードフォノンレーザーは、アクティブフィードバックゲインと減衰の適切なバランスによって実証されている。 本研究では、光ツイーザーフォノンレーザーのダイナミックスのコヒーレント制御を用いて、異なる振動モード間のコヒーレンスを共有し、マルチモードフォノンレーザーを生成する。 トラップレーザ偏光回転を介してトラップビームの横焦点面における非対称光電位を周期的に回転させることにより、モードの結合を実現する。 提案した理論と実験は、コヒーレンスを光ツイーザーフォノンレーザーの異なるモードで転送できることを示し、精度測定や量子情報処理にこれらのシステムを利用するための一歩である。

The creation and manipulation of coherence continues to capture the attention of scientists and engineers. The optical laser is a canonical example of a system that, in principle, exhibits complete coherence. Recent research has focused on the creation of coherent, laser-like states in other physical systems. The phonon laser is one example where it is possible to amplify self-sustained mechanical oscillations. A single mode phonon laser in a levitated optical tweezer has been demonstrated through appropriate balance of active feedback gain and damping. In this work, coherent control of the dynamics of an optical tweezer phonon laser is used to share coherence between its different modes of oscillation, creating a multimode phonon laser. The coupling of the modes is achieved by periodically rotating the asymmetric optical potential in the transverse focal plane of the trapping beam via trap laser polarization rotation. The presented theory and experiment demonstrate that coherence can be transferred across different modes of an optical tweezer phonon laser, and are a step toward using these systems for precision measurement and quantum information processing.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# 大規模言語モデルを用いた次世代データインタラクションシステムDB-GPTの実証

Demonstration of DB-GPT: Next Generation Data Interaction System Empowered by Large Language Models ( http://arxiv.org/abs/2404.10209v2 )

ライセンス: Link先を確認
Siqiao Xue, Danrui Qi, Caigao Jiang, Wenhui Shi, Fangyin Cheng, Keting Chen, Hongjun Yang, Zhiping Zhang, Jianshan He, Hongyang Zhang, Ganglin Wei, Wang Zhao, Fan Zhou, Hong Yi, Shaodong Liu, Hongjun Yang, Faqiang Chen, (参考訳) 大規模言語モデル(LLM)の最近のブレークスルーは、ソフトウェアの多くの領域を移行する位置にある。 データと対話する技術は、特にLLMと重要な絡み合いを持ち、効率的で直感的なデータインタラクションが最重要である。 本稿では,従来のデータインタラクションタスクにLLMを統合し,ユーザエクスペリエンスとアクセシビリティを向上させる,革新的で製品対応のPythonライブラリDB-GPTを提案する。 DB-GPTは、自然言語で記述されたデータインタラクションタスクを理解し、LLMによるコンテキスト認識応答を提供するように設計されており、初心者から専門家まで、ユーザにとって必須のツールである。 システム設計は、ローカル、分散、およびクラウド環境へのデプロイをサポートする。 LLMでText-to-SQLのような基本的なデータインタラクションタスクを扱うだけでなく、Multi-AgentsフレームワークやAエージェントワークフロー表現言語(AWEL)を通じて生成データ分析のような複雑なタスクを処理できる。 サービス指向マルチモデル管理フレームワーク(SMMF)は、データのプライバシとセキュリティを保証する。 さらに、DB-GPTは、ユーザがDB-GPTを製品環境に簡単に統合できるように設計された一連の製品対応機能を提供している。 DB-GPTのコードはGithub(https://github.com/eosphoros-ai/DB-GPT)で公開されている。 手順(https://github.com/eosphoros-ai/DB-GPT#install)でDB-GPTをインストールし、Youtube(https://youtu.be/n_8RI1ENyl4)で5分間の紹介ビデオを見て、DB-GPTをさらに調査してください。

The recent breakthroughs in large language models (LLMs) are positioned to transition many areas of software. The technologies of interacting with data particularly have an important entanglement with LLMs as efficient and intuitive data interactions are paramount. In this paper, we present DB-GPT, a revolutionary and product-ready Python library that integrates LLMs into traditional data interaction tasks to enhance user experience and accessibility. DB-GPT is designed to understand data interaction tasks described by natural language and provide context-aware responses powered by LLMs, making it an indispensable tool for users ranging from novice to expert. Its system design supports deployment across local, distributed, and cloud environments. Beyond handling basic data interaction tasks like Text-to-SQL with LLMs, it can handle complex tasks like generative data analysis through a Multi-Agents framework and the Agentic Workflow Expression Language (AWEL). The Service-oriented Multi-model Management Framework (SMMF) ensures data privacy and security, enabling users to employ DB-GPT with private LLMs. Additionally, DB-GPT offers a series of product-ready features designed to enable users to integrate DB-GPT within their product environments easily. The code of DB-GPT is available at Github(https://github.com/eosphoros-ai/DB-GPT) which already has over 10.7k stars. Please install DB-GPT for your own usage with the instructions(https://github.com/eosphoros-ai/DB-GPT#install) and watch a 5-minute introduction video on Youtube(https://youtu.be/n_8RI1ENyl4) to further investigate DB-GPT.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# CARE to Compare:風力タービンデータにおける異常検出のための実世界のデータセット

CARE to Compare: A real-world dataset for anomaly detection in wind turbine data ( http://arxiv.org/abs/2404.10320v2 )

ライセンス: Link先を確認
Christian Gück, Cyriana M. A. Roelofs, Stefan Faulstich, (参考訳) 風力タービンの予測保守分野において異常検出は重要な役割を担っているが、ドメイン固有のパブリックデータセットが不足しているため、異なるアルゴリズムの比較は難しい課題となる。 さまざまなアプローチの比較では、さまざまなドメインのデータで構成されたベンチマーク、アクセス不可能なデータ、あるいは障害に関する詳細な情報を持たない数少ない公開データセットのいずれかが使用されている。 さらに、多くの出版物は、障害検出が成功したいくつかのケーススタディを強調している。 本稿では、3つの異なる風力発電所にわたる36基の風力タービンのデータと、我々の知る限りの公的な風力タービンデータセットの最も詳細な故障情報を含む高品質なデータセットを公表する。 この新しいデータセットには、89年分の風力タービンの実際の運用データが含まれており、異常につながる異常の44のラベル付きタイムフレームと、正常な振る舞いを表す51の時系列に分散されている。 さらに、トレーニングデータの質は、各データポイントのタービン統計に基づくラベルによって保証される。 さらに、データセットに存在する情報深度を利用して、良好な全周異常検出モデルを特定する、CARE(Coverage, Accuracy, Reliability and Earliness)と呼ばれる新たなスコアリング手法を提案する。 このスコアは、異常検出性能、正常な動作を適切に認識する能力、および、異常を早期に同時に検出しながら、可能な限り誤報を発生させる能力について考察する。

Anomaly detection plays a crucial role in the field of predictive maintenance for wind turbines, yet the comparison of different algorithms poses a difficult task because domain specific public datasets are scarce. Many comparisons of different approaches either use benchmarks composed of data from many different domains, inaccessible data or one of the few publicly available datasets which lack detailed information about the faults. Moreover, many publications highlight a couple of case studies where fault detection was successful. With this paper we publish a high quality dataset that contains data from 36 wind turbines across 3 different wind farms as well as the most detailed fault information of any public wind turbine dataset as far as we know. The new dataset contains 89 years worth of real-world operating data of wind turbines, distributed across 44 labeled time frames for anomalies that led up to faults, as well as 51 time series representing normal behavior. Additionally, the quality of training data is ensured by turbine-status-based labels for each data point. Furthermore, we propose a new scoring method, called CARE (Coverage, Accuracy, Reliability and Earliness), which takes advantage of the information depth that is present in the dataset to identify a good all-around anomaly detection model. This score considers the anomaly detection performance, the ability to recognize normal behavior properly and the capability to raise as few false alarms as possible while simultaneously detecting anomalies early.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# 拡散モデルを用いた目標移動シナリオ下での視覚言語モデルの効率的な逆例生成

Efficiently Adversarial Examples Generation for Visual-Language Models under Targeted Transfer Scenarios using Diffusion Models ( http://arxiv.org/abs/2404.10335v2 )

ライセンス: Link先を確認
Qi Guo, Shanmin Pang, Xiaojun Jia, Qing Guo, (参考訳) 敵の例を含むターゲット転送ベースの攻撃は、大きな視覚言語モデル(VLM)に重大な脅威をもたらす。 しかし、最先端のSOTA(State-of-the-art)トランスファーベースの攻撃は、過度な反復数のために高いコストを発生させる。 さらに, 生成した逆方向の例は, 明らかな逆方向雑音を示し, DiffPure などの防御方法の回避に限定した効果を示した。 スコアマッチングにインスパイアされたこれらの問題に対処するために,拡散モデルを用いて自然な非制限逆例を生成するAdvDiffVLMを提案する。 具体的には、AdvDiffVLMは適応アンサンブル勾配推定を用いて拡散モデルの逆生成過程のスコアを修正し、生成した逆数例が自然な逆数意味論を含むことを保証する。 同時に、敵対的事例の質を高めるために、特定の領域に集中するのではなく、GradCAM誘導マスク法を用いて、画像全体にわたって敵対的意味論を分散させる。 実験結果から,既存のトランスファーベース攻撃法と比較して10Xから30Xまでの高速化を実現し,対向例の優れた品質を維持した。 さらに, 生成した対人例は強い伝達性を有し, 対人防御法に対するロバスト性を高めた。 特にAdvDiffVLMは、GPT-4Vを含む商用VLMをブラックボックス方式で攻撃できる。

Targeted transfer-based attacks involving adversarial examples pose a significant threat to large visual-language models (VLMs). However, the state-of-the-art (SOTA) transfer-based attacks incur high costs due to excessive iteration counts. Furthermore, the generated adversarial examples exhibit pronounced adversarial noise and demonstrate limited efficacy in evading defense methods such as DiffPure. To address these issues, inspired by score matching, we introduce AdvDiffVLM, which utilizes diffusion models to generate natural, unrestricted adversarial examples. Specifically, AdvDiffVLM employs Adaptive Ensemble Gradient Estimation to modify the score during the diffusion model's reverse generation process, ensuring the adversarial examples produced contain natural adversarial semantics and thus possess enhanced transferability. Simultaneously, to enhance the quality of adversarial examples further, we employ the GradCAM-guided Mask method to disperse adversarial semantics throughout the image, rather than concentrating them in a specific area. Experimental results demonstrate that our method achieves a speedup ranging from 10X to 30X compared to existing transfer-based attack methods, while maintaining superior quality of adversarial examples. Additionally, the generated adversarial examples possess strong transferability and exhibit increased robustness against adversarial defense methods. Notably, AdvDiffVLM can successfully attack commercial VLMs, including GPT-4V, in a black-box manner.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# 拡散に基づく二重生成再生による連続的オフライン強化学習

Continual Offline Reinforcement Learning via Diffusion-based Dual Generative Replay ( http://arxiv.org/abs/2404.10662v2 )

ライセンス: Link先を確認
Jinmei Liu, Wenbin Li, Xiangyu Yue, Shilin Zhang, Chunlin Chen, Zhi Wang, (参考訳) 連続的オフライン強化学習(Continuous offline reinforcement learning)は、前向きの転送を容易にし、連続的なオフラインタスクに取り組む破滅的な忘れを緩和する実践パラダイムである。 本稿では,生成した擬似データの同時再生により,過去の知識を保持できる2つの生成再生フレームワークを提案する。 まず、継続学習政策を拡散に基づく生成行動モデルと多頭部行動評価モデルに分離し、多様な行動の範囲を包含する分布表現性を継承する。 第2に,過去のタスクの状態分布を模倣するタスク条件拡散モデルを訓練する。 生成された状態は、動作生成器からの対応する応答と組み合わせて、高忠実度再生されたサンプルで古いタスクを表現する。 最後に, 疑似サンプルを新たなタスクの実際のものとインターリーブすることにより, 状態と行動生成器を継続的に更新し, 段階的に多様な振る舞いをモデル化し, 動作クローニングにより多面的批判を正則化し, 忘れを緩和する。 実験により, 提案手法は, より少ない精度で前向き転送を実現し, 試料空間の高忠実な再生により, 過去の地中構造データを用いた結果と密に近似できることを示した。 我々のコードは \href{https://github.com/NJU-RL/CuGRO}{https://github.com/NJU-RL/CuGRO} で入手できる。

We study continual offline reinforcement learning, a practical paradigm that facilitates forward transfer and mitigates catastrophic forgetting to tackle sequential offline tasks. We propose a dual generative replay framework that retains previous knowledge by concurrent replay of generated pseudo-data. First, we decouple the continual learning policy into a diffusion-based generative behavior model and a multi-head action evaluation model, allowing the policy to inherit distributional expressivity for encompassing a progressive range of diverse behaviors. Second, we train a task-conditioned diffusion model to mimic state distributions of past tasks. Generated states are paired with corresponding responses from the behavior generator to represent old tasks with high-fidelity replayed samples. Finally, by interleaving pseudo samples with real ones of the new task, we continually update the state and behavior generators to model progressively diverse behaviors, and regularize the multi-head critic via behavior cloning to mitigate forgetting. Experiments demonstrate that our method achieves better forward transfer with less forgetting, and closely approximates the results of using previous ground-truth data due to its high-fidelity replay of the sample space. Our code is available at \href{https://github.com/NJU-RL/CuGRO}{https://github.com/NJU-RL/CuGRO}.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# 複雑ネットワーク理論によるディープニューラルネットワークの展望

Deep Neural Networks via Complex Network Theory: a Perspective ( http://arxiv.org/abs/2404.11172v2 )

ライセンス: Link先を確認
Emanuele La Malfa, Gabriele La Malfa, Giuseppe Nicosia, Vito Latora, (参考訳) ディープニューラルネットワーク(DNN)は、リンクと頂点が反復的にデータを処理し、タスクを亜最適に解くグラフとして表現することができる。 複素ネットワーク理論(CNT)は、統計物理学とグラフ理論を融合させ、その重みとニューロン構造を分析してニューラルネットワークを解釈する方法を提供する。 しかし古典的な研究は、入力データの影響を考慮しないトポロジカル解析のみを許すCNTメトリクスを適用している。 さらに、CNTメトリクスは、主にFully Connected Neural Networkを含む、限られた範囲のアーキテクチャに適用されている。 本研究では,DNNのトレーニング分布から抽出した測定値を用いて既存のCNTメトリクスを拡張し,純粋なトポロジカル解析からディープラーニングの解釈可能性へ移行する。 新たなメトリクスについては、既存のメトリクスに加えて、Fully Connected、AutoEncoder、Convolutional、Recurrentニューラルネットワークの数学的形式を提供し、アクティベーション関数と隠れたレイヤの数を変える。 これらのメトリクスは、アーキテクチャ、隠蔽層数、アクティベーション関数に基づいてDNNを区別する。 我々の貢献は、従来の入出力関係とCNTトポロジカル解析を超えた洞察を提供するDNNを解釈するための物理学に根ざした手法を提供する。

Deep Neural Networks (DNNs) can be represented as graphs whose links and vertices iteratively process data and solve tasks sub-optimally. Complex Network Theory (CNT), merging statistical physics with graph theory, provides a method for interpreting neural networks by analysing their weights and neuron structures. However, classic works adapt CNT metrics that only permit a topological analysis as they do not account for the effect of the input data. In addition, CNT metrics have been applied to a limited range of architectures, mainly including Fully Connected neural networks. In this work, we extend the existing CNT metrics with measures that sample from the DNNs' training distribution, shifting from a purely topological analysis to one that connects with the interpretability of deep learning. For the novel metrics, in addition to the existing ones, we provide a mathematical formalisation for Fully Connected, AutoEncoder, Convolutional and Recurrent neural networks, of which we vary the activation functions and the number of hidden layers. We show that these metrics differentiate DNNs based on the architecture, the number of hidden layers, and the activation function. Our contribution provides a method rooted in physics for interpreting DNNs that offers insights beyond the traditional input-output relationship and the CNT topological analysis.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# SERENE: 回復力のあるレプリケーションベースの検証フレームワーク

SERENE: A Collusion Resilient Replication-based Verification Framework ( http://arxiv.org/abs/2404.11410v2 )

ライセンス: Link先を確認
Amir Esmaeili, Abderrahmen Mtibaa, (参考訳) 自動運転技術の急速な進歩には重大な課題、特に信頼性と正確性を保証することなく遠隔タスクの実行に依存することが伴う。 この外部のコンピュータサーバーへの依存は、悪意のある、あるいは悪質なものであり、重大なセキュリティ上の脅威である。 研究者は検証可能な計算と複製に基づくタスク検証を、結果の正確性を評価するための単純で高速で信頼性の高い方法として検討してきた。 しかし、悪質な労働者の衝突は容易にこの方法を打ち負かすことができる。 既存の畳み込み検出と緩和ソリューションでは、信頼できるサードパーティサーバの使用や、保証が難しい検証されたタスク、あるいは少数の畳み込みサーバの存在を前提とするソリューションが必要となることが多い。 本稿では, 衝突作業者を検出し, 軽減する, 回復力のあるレプリケーションベースの検証フレームワークSERENEを提案する。 最先端のソリューションとは異なり、SERENEは単一の検証タスクに基づいて衝突を検出する軽量な検出アルゴリズムを使用している。 緩和には、労働者をグループ化し、誠実な労働者からの衝突を特定するための2段階のプロセスが必要である。 我々はSERENEのパフォーマンスをStaabなどと比較する。 その結果,検出精度と緩和精度は平均50\%,60\%向上した。

The rapid advancement of autonomous driving technology is accompanied by substantial challenges, particularly the reliance on remote task execution without ensuring a reliable and accurate returned results. This reliance on external compute servers, which may be malicious or rogue, represents a major security threat. While researchers have been exploring verifiable computing, and replication-based task verification as a simple, fast, and dependable method to assess the correctness of results. However, colluding malicious workers can easily defeat this method. Existing collusion detection and mitigation solutions often require the use of a trusted third party server or verified tasks which may be hard to guarantee, or solutions that assume the presence of a minority of colluding servers. We propose SERENE, a collusion resilient replication-based verification framework that detects, and mitigates colluding workers. Unlike state-of-the-art solutions, SERENE uses a lightweight detection algorithm that detects collusion based on a single verification task. Mitigation requires a two stage process to group the workers and identifying colluding from honest workers. We implement and compare SERENE's performance to Staab et. al, resulting in an average of 50\% and 60\% accuracy improvement in detection and mitigation accuracy respectively.
翻訳日:2024-04-19 13:50:01 公開日:2024-04-18
# 都市ハイウェイは社会的結びつきの障壁である

Urban highways are barriers to social ties ( http://arxiv.org/abs/2404.11596v2 )

ライセンス: Link先を確認
Luca Maria Aiello, Anastassia Vybornova, Sándor Juhász, Michael Szell, Eszter Bokányi, (参考訳) 都市ハイウェイは、特にアメリカでは一般的であり、都市を自動車中心にしている。 彼らは距離の消滅を約束するが、歩行者の移動を妨げる。 この制限的役割は都市研究で広く認められているが、都市高速道路と社会関係の量的関係は、ほとんど検証されていない。 ここでは、大規模で位置情報のあるオンラインソーシャルネットワークデータを、米国50大都市の高速道路に関連付けるバリアースコアを定義します。 前例のない社会関係の粒度では、都市ハイウェイが社会的つながりの低下に結びついていることが示される。 この障壁効果は特に短い距離で強く、ブラック地区を意図的に破壊したり孤立させたりするために建設された道路の歴史的事例と一致している。 空間的基盤と社会的結びつきデータを組み合わせることで,社会分離の人口動態研究に新たな次元を付加する。 本研究は,実証に基づく空間不平等の低減のためのレパートリープランニングを図り,より一般的には,都市計画におけるソーシャルファブリックのより良い統合を支援する。

Urban highways are common, especially in the US, making cities more car-centric. They promise the annihilation of distance but obstruct pedestrian mobility, thus playing a key role in limiting social interactions locally. Although this limiting role is widely acknowledged in urban studies, the quantitative relationship between urban highways and social ties is barely tested. Here we define a Barrier Score that relates massive, geolocated online social network data to highways in the 50 largest US cities. At the unprecedented granularity of individual social ties, we show that urban highways are associated with decreased social connectivity. This barrier effect is especially strong for short distances and consistent with historical cases of highways that were built to purposefully disrupt or isolate Black neighborhoods. By combining spatial infrastructure with social tie data, our method adds a new dimension to demographic studies of social segregation. Our study can inform reparative planning for an evidence-based reduction of spatial inequality, and more generally, support a better integration of the social fabric in urban planning.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-18
# 物理インフォームドアクティブラーニングによる量子化学シミュレーションの高速化

Physics-informed active learning for accelerating quantum chemical simulations ( http://arxiv.org/abs/2404.11811v1 )

ライセンス: Link先を確認
Yi-Fan Hou, Lina Zhang, Quanhao Zhang, Fuchun Ge, Pavlo O. Dral, (参考訳) 量子化学シミュレーションは、しばしばアクティブラーニング(AL)を使用して行われる機械学習ポテンシャルを構築することで、大幅に加速することができる。 構築されたポテンシャルの有用性は、必要とされる高い労力とシミュレーションにおいて不十分なロバスト性によって制限されることが多い。 ここでは、時間とリソースを手頃な価格で投資し、人間の干渉を最小限に抑えて、堅牢なデータ効率ポテンシャルを構築するためのエンドツーエンドALを紹介する。 我々のALプロトコルは、物理インフォームドによるトレーニングポイントのサンプリング、初期データの自動選択、不確実性定量化に基づいている。 このプロトコルの汎用性は、振動スペクトルをシミュレートするための準古典分子動力学、重要な生化学分子のコンホメータ探索、ディールス・アルダー反応の時間分解機構の実装において示される。 これらの調査は、高性能コンピューティングクラスタ上での純粋な量子化学計算ではなく、数週間を要した。

Quantum chemical simulations can be greatly accelerated by constructing machine learning potentials, which is often done using active learning (AL). The usefulness of the constructed potentials is often limited by the high effort required and their insufficient robustness in the simulations. Here we introduce the end-to-end AL for constructing robust data-efficient potentials with affordable investment of time and resources and minimum human interference. Our AL protocol is based on the physics-informed sampling of training points, automatic selection of initial data, and uncertainty quantification. The versatility of this protocol is shown in our implementation of quasi-classical molecular dynamics for simulating vibrational spectra, conformer search of a key biochemical molecule, and time-resolved mechanism of the Diels-Alder reaction. These investigations took us days instead of weeks of pure quantum chemical calculations on a high-performance computing cluster.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-18
# アクアソニック:水中データセンターの音響操作と資源管理

AquaSonic: Acoustic Manipulation of Underwater Data Center Operations and Resource Management ( http://arxiv.org/abs/2404.11815v1 )

ライセンス: Link先を確認
Jennifer Sheldon, Weidong Zhu, Adnan Abdullah, Sri Hrushikesh Varma Bhupathiraju, Takeshi Sugawara, Kevin R. B. Butler, Md Jahidul Islam, Sara Rampazzi, (参考訳) 水中データセンター(UDC)は、そのエネルギー効率と環境サステナビリティの恩恵により、次世代のデータストレージとして約束する。 貯水力の自然冷却特性は、孤立した水環境と水中における長距離音波伝搬は、陸域のデータセンターとは異なる独特の脆弱性を生み出す。 本研究は, 耐故障性記憶装置, 資源配分ソフトウェア, 分散ファイルシステムのUDCにおける音響インジェクション攻撃に対する特異な脆弱性を明らかにする。 UDCサーバ操作を現実的に評価することにより,水中での音響注入の能力を実証的に評価し,攻撃者が耐故障性RAID 5ストレージシステムのスループットを最大で17%削減できることを確認した。 クローズドウォーターの分析によると、攻撃者は攻撃できる (i) 分散ファイルシステムにおいて、持続的な音響注入を2.4分で行うと、応答性が低下し、自動的にノードを除去する。 (ii) システムの信頼性を低下させるために、分散データベースのレイテンシを最大92.7%向上させる。 3) 負荷バランスマネージャは、最大74%のリソースをターゲットサーバにリダイレクトして、オーバーロードやリソースのコロケーションを強制する。 さらに,湖沼でのオープンウォーター実験を行い,商業用スピーカを用いた最大許容距離6.35mで,攻撃者が制御可能なスループット劣化を引き起こすことを発見した。 また,アコースティック・インジェクション・アタックに対する標準防御の有効性について検討し,検討した。 最後に、30秒のFIOベンチマーク実行下で、プロファイルされたハードディスクドライブのデータセットでトレーニングされた偽陽性率と98.2%のTrue Positive Rateに到達した、機械学習に基づく新しい検出システムを定式化する。 本研究は,UDCをアコースティックインジェクション攻撃から積極的に保護し,海底コンピューティングインフラのセキュリティを確保することを目的としている。

Underwater datacenters (UDCs) hold promise as next-generation data storage due to their energy efficiency and environmental sustainability benefits. While the natural cooling properties of water save power, the isolated aquatic environment and long-range sound propagation in water create unique vulnerabilities which differ from those of on-land data centers. Our research discovers the unique vulnerabilities of fault-tolerant storage devices, resource allocation software, and distributed file systems to acoustic injection attacks in UDCs. With a realistic testbed approximating UDC server operations, we empirically characterize the capabilities of acoustic injection underwater and find that an attacker can reduce fault-tolerant RAID 5 storage system throughput by 17% up to 100%. Our closed-water analyses reveal that attackers can (i) cause unresponsiveness and automatic node removal in a distributed filesystem with only 2.4 minutes of sustained acoustic injection, (ii) induce a distributed database's latency to increase by up to 92.7% to reduce system reliability, and (iii) induce load-balance managers to redirect up to 74% of resources to a target server to cause overload or force resource colocation. Furthermore, we perform open-water experiments in a lake and find that an attacker can cause controlled throughput degradation at a maximum allowable distance of 6.35 m using a commercial speaker. We also investigate and discuss the effectiveness of standard defenses against acoustic injection attacks. Finally, we formulate a novel machine learning-based detection system that reaches 0% False Positive Rate and 98.2% True Positive Rate trained on our dataset of profiled hard disk drives under 30-second FIO benchmark execution. With this work, we aim to help manufacturers proactively protect UDCs against acoustic injection attacks and ensure the security of subsea computing infrastructures.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-18
# バイアス軽減と精度向上のための逆例の利用

Utilizing Adversarial Examples for Bias Mitigation and Accuracy Enhancement ( http://arxiv.org/abs/2404.11819v1 )

ライセンス: Link先を確認
Pushkar Shukla, Dhruv Srikanth, Lee Cohen, Matthew Turk, (参考訳) 本稿では,コンピュータビジョンモデルにおけるバイアスを軽減するための新しい手法を提案する。 反事実は、DNNモデルのバイアスを分析し、対処するために使われてきたが、反事実そのものは、しばしばバイアス付き生成モデルから生成される。 この問題に対処するために、フェアモデルトレーニングの対物として、深層ニューラルネットワークを欺くが人間ではない逆画像を用いることを提案する。 提案手法は,カリキュラム学習フレームワークと詳細な逆数損失を組み合わせることで,逆数例を用いてモデルを微調整する。 学習データに逆画像を組み込むことで,パイプライン内のバイアスが伝播するのを防ぐことを目指している。 我々は,定性評価と定量的評価を併用し,従来の方法と比較してバイアス緩和と精度の向上を実証した。 定性的に,本研究の結果から,モデルによる決定は感度属性に依存せず,モデルが感度属性と分類変数の関係をよりよく歪めていることが明らかとなった。

We propose a novel approach to mitigate biases in computer vision models by utilizing counterfactual generation and fine-tuning. While counterfactuals have been used to analyze and address biases in DNN models, the counterfactuals themselves are often generated from biased generative models, which can introduce additional biases or spurious correlations. To address this issue, we propose using adversarial images, that is images that deceive a deep neural network but not humans, as counterfactuals for fair model training. Our approach leverages a curriculum learning framework combined with a fine-grained adversarial loss to fine-tune the model using adversarial examples. By incorporating adversarial images into the training data, we aim to prevent biases from propagating through the pipeline. We validate our approach through both qualitative and quantitative assessments, demonstrating improved bias mitigation and accuracy compared to existing methods. Qualitatively, our results indicate that post-training, the decisions made by the model are less dependent on the sensitive attribute and our model better disentangles the relationship between sensitive attributes and classification variables.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-18
# TextCenGen: テキスト-画像生成のための注意ガイド付きテキスト-中心背景適応

TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation ( http://arxiv.org/abs/2404.11824v1 )

ライセンス: Link先を確認
Tianyi Liang, Jiangqi Liu, Sicheng Song, Shiqi Jiang, Yifei Huang, Changbo Wang, Chenhui Li, (参考訳) テキスト・ツー・イメージ(T2I)生成の最近の進歩は、テキストの適応から固定背景へのシフトを目撃している。 従来のアプローチは、テキストの配置を効果的にするために静的なイメージ内でレイアウトを生成するために制限されることが多い。 提案手法であるTextCenGenは,テキスト中心の設計と視覚調和生成を重視した,テキストフレンドリーな画像生成のための空白領域の動的適応を導入している。 本手法では,T2Iモデルにおいて,テキストやアイコンの黄金比であっても,予め定義されたテキスト領域に対して,ホワイトスペースを戦略的に保留する画像を生成する。 クロスアテンションマップが物体の配置にどのように影響するかを観察し、力によるグラフアプローチを用いて衝突する物体を検出し、退避させ、空間的排他的制約と組み合わせて、白地におけるスムーズな注意を喚起する。 グラフィックデザインにおける新しいタスクとして、TextCenGenは、より調和した構成で既存のメソッドよりも優れています。 さらに,本手法は,テキスト位置の異なる特別に収集したプロンプトデータセットにおいて,T2Iモデルの結果を大幅に向上させる。 これらの結果は、より調和し統合されたテキストイメージの合成におけるTextCenGenの有効性を示す。

Recent advancements in Text-to-image (T2I) generation have witnessed a shift from adapting text to fixed backgrounds to creating images around text. Traditional approaches are often limited to generate layouts within static images for effective text placement. Our proposed approach, TextCenGen, introduces a dynamic adaptation of the blank region for text-friendly image generation, emphasizing text-centric design and visual harmony generation. Our method employs force-directed attention guidance in T2I models to generate images that strategically reserve whitespace for pre-defined text areas, even for text or icons at the golden ratio. Observing how cross-attention maps affect object placement, we detect and repel conflicting objects using a force-directed graph approach, combined with a Spatial Excluding Cross-Attention Constraint for smooth attention in whitespace areas. As a novel task in graphic design, experiments indicate that TextCenGen outperforms existing methods with more harmonious compositions. Furthermore, our method significantly enhances T2I model outcomes on our specially collected prompt datasets, catering to varied text positions. These results demonstrate the efficacy of TextCenGen in creating more harmonious and integrated text-image compositions.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-18
# AdvisorQA: 包括的インテリジェンスによる無害かつ無害なアドバイス検索質問への回答

AdvisorQA: Towards Helpful and Harmless Advice-seeking Question Answering with Collective Intelligence ( http://arxiv.org/abs/2404.11826v1 )

ライセンス: Link先を確認
Minbeom Kim, Hwanhee Lee, Joonsuk Park, Hwaran Lee, Kyomin Jung, (参考訳) 大規模言語モデルの日常生活への統合が進んでいるため、主観的および個人的ジレンマに助言するベンチマークには明らかなギャップがある。 これを解決するために、LifeProTips subredditフォーラムを利用して、深いパーソナライズされた関心事に対するアドバイスを提供するLLMの機能を評価するために開発された最初のベンチマークであるAdvancedQAを紹介する。 このフォーラムでは、ユーザがアドバイスを求める質問を投稿し、クエリ毎に平均8.9のアドバイスを受け取り、数百人のユーザから164.2のアップボレートを受け取り、集合的なインテリジェンスフレームワークを具現化している。 そこで本研究では,日常生活の質問,多様な回答,助力指標をトレーニングするための過半数の投票ランキングを含むベンチマークを完了した。 ベースライン実験では, 有用度測定, GPT-4, 人体評価を用いて, 有用性と無害性のトレードオフを超えた現象を解析し, アドバイザQAの有効性を検証した。 AdvisorQAは、パーソナライズされた共感的なアドバイスを提供するためのQAシステムを強化し、LLMが人間の主観性に対する理解を改善したことを示している。

As the integration of large language models into daily life is on the rise, there is a clear gap in benchmarks for advising on subjective and personal dilemmas. To address this, we introduce AdvisorQA, the first benchmark developed to assess LLMs' capability in offering advice for deeply personalized concerns, utilizing the LifeProTips subreddit forum. This forum features a dynamic interaction where users post advice-seeking questions, receiving an average of 8.9 advice per query, with 164.2 upvotes from hundreds of users, embodying a collective intelligence framework. Therefore, we've completed a benchmark encompassing daily life questions, diverse corresponding responses, and majority vote ranking to train our helpfulness metric. Baseline experiments validate the efficacy of AdvisorQA through our helpfulness metric, GPT-4, and human evaluation, analyzing phenomena beyond the trade-off between helpfulness and harmlessness. AdvisorQA marks a significant leap in enhancing QA systems for providing personalized, empathetic advice, showcasing LLMs' improved understanding of human subjectivity.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-18
# 効率のレンズによる言語モデルによる計画

Planning with Language Models Through The Lens of Efficiency ( http://arxiv.org/abs/2404.11833v1 )

ライセンス: Link先を確認
Michael Katz, Harsha Kokel, Kavitha Srinivas, Shirin Sohrabi, (参考訳) 我々は、LSMを計画に使用するコストを分析し、最近の傾向が極めて不経済的であることを強調する。 我々は、計算資源の責任ある利用を議論し、効率を裏付けるLCMベースのアプローチを研究コミュニティに調査するよう促す。

We analyse the cost of using LLMs for planning and highlight that recent trends are profoundly uneconomical. We propose a significantly more efficient approach and argue for a responsible use of compute resources; urging research community to investigate LLM-based approaches that upholds efficiency.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-18
# CAUS:大規模言語モデルを活用した人間の認知に基づく質問生成のためのデータセット

CAUS: A Dataset for Question Generation based on Human Cognition Leveraging Large Language Models ( http://arxiv.org/abs/2404.11835v1 )

ライセンス: Link先を確認
Minjung Shin, Donghyun Kim, Jeh-Kwang Ryu, (参考訳) 本稿では,大規模言語モデル,特に GPT-4 を用いて不確実性を解決するための認知過程をエミュレートするためのCAUS(Curious About Uncertain Scene)データセットを紹介する。 このデータセットを活用することで,LLMが質問を効果的に行う可能性について検討する。 我々のアプローチは、推論とクエリの生成を刺激するために、不確実性に埋め込まれたシーン記述を提供することである。 クエリは多次元の基準に従って分類される。 すべての手順は、LLMと人間の研究者の両方が参加する協調システムによって促進される。 以上の結果から, GPT-4は, 適切な文脈や指示が与えられた場合に, 適切な質問を効果的に生成し, そのニュアンスを把握できることが示唆された。 この研究は、人間のような質問をAIモデルに組み込むことで、不確実性を管理する能力が向上し、人工知能(AI)の今後の進歩への道が開かれたことを示唆している。

We introduce the CAUS (Curious About Uncertain Scene) dataset, designed to enable Large Language Models, specifically GPT-4, to emulate human cognitive processes for resolving uncertainties. Leveraging this dataset, we investigate the potential of LLMs to engage in questioning effectively. Our approach involves providing scene descriptions embedded with uncertainties to stimulate the generation of reasoning and queries. The queries are then classified according to multi-dimensional criteria. All procedures are facilitated by a collaborative system involving both LLMs and human researchers. Our results demonstrate that GPT-4 can effectively generate pertinent questions and grasp their nuances, particularly when given appropriate context and instructions. The study suggests that incorporating human-like questioning into AI models improves their ability to manage uncertainties, paving the way for future advancements in Artificial Intelligence (AI).
翻訳日:2024-04-19 13:20:47 公開日:2024-04-18
# ハイブリッドCNNトランスフォーマアーキテクチャを用いた胸部X線胸部疾患のコンピュータ診断

Computer-Aided Diagnosis of Thoracic Diseases in Chest X-rays using hybrid CNN-Transformer Architecture ( http://arxiv.org/abs/2404.11843v1 )

ライセンス: Link先を確認
Sonit Singh, (参考訳) 医療画像は様々な疾患の診断に使われており、効果的な患者医療のための最も強力な資源の1つである。 胸部X線検査は胸部疾患の診断において最も望まれる疾患の1つである。 医療画像技術の進歩と患者負荷の増加により、現在の放射線学のワークフローは、バックログの増加、長時間労働、診断エラーの増加など、様々な課題に直面している。 胸部X線を解析して放射線科医を増強できる自動コンピュータ支援診断システムにおいて、実行可能な洞察を提供することにより、放射線科医に第2の意見を与え、画像内の関連領域を強調し、臨床ワークフローを高速化し、診断エラーを低減し、患者のケアを改善する可能性がある。 本研究では, 胸部X線で複数の胸部疾患を同定できるトランスフォーマー, SA-DenseNet121を用いて, マルチヘッド自己保持機構を備えたDenseNet121 Convolutional Neural Network (CNN) を付加した新しいアーキテクチャを適用した。 胸部X線データセットのうち,ChestX-ray14,CheXpert,MIMIC-CXR-JPG,IU-CXRの4つの実験を行った。 AUC-ROCは, 胸部X線による胸部疾患の診断において, 自己注意でCNNを増強する可能性が示唆された。 提案手法は,読解ワークフローをサポートし,効率を向上し,診断誤差を低減することができる。

Medical imaging has been used for diagnosis of various conditions, making it one of the most powerful resources for effective patient care. Due to widespread availability, low cost, and low radiation, chest X-ray is one of the most sought after radiology examination for the diagnosis of various thoracic diseases. Due to advancements in medical imaging technologies and increasing patient load, current radiology workflow faces various challenges including increasing backlogs, working long hours, and increase in diagnostic errors. An automated computer-aided diagnosis system that can interpret chest X-rays to augment radiologists by providing actionable insights has potential to provide second opinion to radiologists, highlight relevant regions in the image, in turn expediting clinical workflow, reducing diagnostic errors, and improving patient care. In this study, we applied a novel architecture augmenting the DenseNet121 Convolutional Neural Network (CNN) with multi-head self-attention mechanism using transformer, namely SA-DenseNet121, that can identify multiple thoracic diseases in chest X-rays. We conducted experiments on four of the largest chest X-ray datasets, namely, ChestX-ray14, CheXpert, MIMIC-CXR-JPG, and IU-CXR. Experimental results in terms of area under the receiver operating characteristics (AUC-ROC) shows that augmenting CNN with self-attention has potential in diagnosing different thoracic diseases from chest X-rays. The proposed methodology has the potential to support the reading workflow, improve efficiency, and reduce diagnostic errors.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-18
# 超解像能率のための部分大カーネルCNN

Partial Large Kernel CNNs for Efficient Super-Resolution ( http://arxiv.org/abs/2404.11848v1 )

ライセンス: Link先を確認
Dongheon Lee, Seokju Yun, Youngmin Ro, (参考訳) 近年、超高分解能(SR)領域において、変圧器は長距離依存に対処し、例えば重みを適応的に調整できるため、FLOPが少なく、パラメータも少ないCNNよりも優れています。 本稿では,現在のSR領域では注目されていないCNNが,直接効率測定においてトランスフォーマーを上回っていることを示す。 トランスフォーマーの利点をCNNに組み込むことで,計算効率と性能向上の両立を図っている。 しかし、大きなイメージを主に処理するSRドメインで大きなカーネルを使用すると、大きな計算オーバーヘッドが発生する。 そこで,本研究では,大規模カーネルのレイテンシを86%削減し,インスタンス依存の重みを模倣するElement-wise Attentionモジュールを活用する,大規模カーネルの新たなアプローチを提案する。 その結果、PLKSR(Partial Large Kernel CNNs for Efficient Super-Resolution)を導入し、SRFormer-lightと比較して、レイテンシが68.1\%、最大GPUメモリ占有率が80.2\%の4つのデータセットで、最先端のパフォーマンスを実現した。

Recently, in the super-resolution (SR) domain, transformers have outperformed CNNs with fewer FLOPs and fewer parameters since they can deal with long-range dependency and adaptively adjust weights based on instance. In this paper, we demonstrate that CNNs, although less focused on in the current SR domain, surpass Transformers in direct efficiency measures. By incorporating the advantages of Transformers into CNNs, we aim to achieve both computational efficiency and enhanced performance. However, using a large kernel in the SR domain, which mainly processes large images, incurs a large computational overhead. To overcome this, we propose novel approaches to employing the large kernel, which can reduce latency by 86\% compared to the naive large kernel, and leverage an Element-wise Attention module to imitate instance-dependent weights. As a result, we introduce Partial Large Kernel CNNs for Efficient Super-Resolution (PLKSR), which achieves state-of-the-art performance on four datasets at a scale of $\times$4, with reductions of 68.1\% in latency and 80.2\% in maximum GPU memory occupancy compared to SRFormer-light.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-18
# SGRU:交通流予測のための高性能構造ゲート型リカレントユニット

SGRU: A High-Performance Structured Gated Recurrent Unit for Traffic Flow Prediction ( http://arxiv.org/abs/2404.11854v1 )

ライセンス: Link先を確認
Wenfeng Zhang, Xin Li, Anqi Li, Xiaoting Huang, Ti Wang, Honglei Gao, (参考訳) 交通流予測は、スマートシティの構築において不可欠な課題であり、典型的な多変量時系列(MTS)問題である。 近年、GRUを廃止し、拡張畳み込みや時間スライシングを特徴抽出に利用し、(1)拡張畳み込みは隣接する時間ステップの特徴を捉えるのに失敗し、重要な遷移データを失うという欠点がある。 2)同じ時間スライス内の接続は強いが,時間スライス間の接続は緩すぎる。 これらの制約を踏まえて、我々は、連続した時系列を解析することの重要性と、MTSにおけるGRUの重要な役割を強調した。 そこで,本研究では,構造化GRU層と非線形ユニットを含む構造化Gated Recurrent Unitsと,モデルの適合性を高めるために複数の時間層を埋め込んだSGRUを提案する。 我々は,カリフォルニアの4つの公共交通データセット(PeMS03,PeMS04,PeMS07,PeMS08)を回帰予測として評価した。 実験結果から, 平均改善率11.7%, 18.6%, 18.5%, 12.0%のベースラインモデルを上回る結果を得た。

Traffic flow prediction is an essential task in constructing smart cities and is a typical Multivariate Time Series (MTS) Problem. Recent research has abandoned Gated Recurrent Units (GRU) and utilized dilated convolutions or temporal slicing for feature extraction, and they have the following drawbacks: (1) Dilated convolutions fail to capture the features of adjacent time steps, resulting in the loss of crucial transitional data. (2) The connections within the same temporal slice are strong, while the connections between different temporal slices are too loose. In light of these limitations, we emphasize the importance of analyzing a complete time series repeatedly and the crucial role of GRU in MTS. Therefore, we propose SGRU: Structured Gated Recurrent Units, which involve structured GRU layers and non-linear units, along with multiple layers of time embedding to enhance the model's fitting performance. We evaluate our approach on four publicly available California traffic datasets: PeMS03, PeMS04, PeMS07, and PeMS08 for regression prediction. Experimental results demonstrate that our model outperforms baseline models with average improvements of 11.7%, 18.6%, 18.5%, and 12.0% respectively.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-18
# プログレッシブ・マルチモーダル・コンディショナル・プロンプトチューニング

Progressive Multi-modal Conditional Prompt Tuning ( http://arxiv.org/abs/2404.11864v1 )

ライセンス: Link先を確認
Xiaoyu Qiu, Hao Feng, Yuechen Wang, Wengang Zhou, Houqiang Li, (参考訳) 事前学習された視覚言語モデル(VLM)は、VLMを知識ベースとして活用し、下流タスクに有用な情報を抽出するプロンプトを通じて、顕著な一般化能力を示す。 しかし、既存の手法は主にユニモーダルプロンプトを採用しており、これはユニモーダル分岐のみを介し、視覚言語(V-L)の機能を同時に調整することができない。 さらに、VLMエンコーディングにおけるワンパスフォワードパイプラインは、大きなギャップを持つV-L機能を調整するのに苦労している。 これらの課題を克服し,Progressive Multi-modal Conditional Prompt Tuning (ProMPT)を提案する。 ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。 初期化と多モード反復進化(MIE)モジュールを含む。 初期化は、VLMを使用して画像とテキストを符号化し、続いて、画像に似たテキスト特徴を選択する特徴フィルタが続く。 MIEは、クラス条件の視覚プロンプト、インスタンス条件のテキストプロンプト、機能フィルタリングによるマルチモーダルプロンプトを容易にする。 各MIEイテレーションでは、視覚生成器を介してフィルタリングされたテキスト特徴から視覚プロンプトが得られ、視覚プロンプト中に対象物にもっと焦点を合わせるように画像特徴が促進される。 エンコードされたイメージ機能はテキストジェネレータに入力され、クラスシフトに対して堅牢なテキストプロンプトを生成する。 したがって、V-L の特徴は徐々に整列され、粗い分類から正確な分類へと進むことができる。 ProMPTの有効性を評価するために, 広範囲な実験を3つの環境で行った。 その結果, ProMPTはすべての設定において, 既存の手法よりも優れており, より優れた一般化が示されている。

Pre-trained vision-language models (VLMs) have shown remarkable generalization capabilities via prompting, which leverages VLMs as knowledge bases to extract information beneficial for downstream tasks. However, existing methods primarily employ uni-modal prompting, which only engages a uni-modal branch, failing to simultaneously adjust vision-language (V-L) features. Additionally, the one-pass forward pipeline in VLM encoding struggles to align V-L features that have a huge gap. Confronting these challenges, we propose a novel method, Progressive Multi-modal conditional Prompt Tuning (ProMPT). ProMPT exploits a recurrent structure, optimizing and aligning V-L features by iteratively utilizing image and current encoding information. It comprises an initialization and a multi-modal iterative evolution (MIE) module. Initialization is responsible for encoding image and text using a VLM, followed by a feature filter that selects text features similar to image. MIE then facilitates multi-modal prompting through class-conditional vision prompting, instance-conditional text prompting, and feature filtering. In each MIE iteration, vision prompts are obtained from the filtered text features via a vision generator, promoting image features to focus more on target object during vision prompting. The encoded image features are fed into a text generator to produce text prompts that are more robust to class shift. Thus, V-L features are progressively aligned, enabling advance from coarse to exact classifications. Extensive experiments are conducted in three settings to evaluate the efficacy of ProMPT. The results indicate that ProMPT outperforms existing methods on average across all settings, demonstrating its superior generalization.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-18
# Image to Video からマルチモーダル LLM には何が必要か?

From Image to Video, what do we need in multimodal LLMs? ( http://arxiv.org/abs/2404.11865v1 )

ライセンス: Link先を確認
Suyuan Huang, Haoxin Zhang, Yan Gao, Yao Hu, Zengchang Qin, (参考訳) MLLM(Multimodal Large Language Models)は、画像LLMからより複雑なビデオLLMまで、多モーダル情報を理解するための重要な機能を示している。 多くの研究が、その例外的なクロスモーダル理解を描いている。 近年,映像基盤モデルと大規模言語モデルを統合することで,映像理解システムの構築が,特定の視覚タスクの限界を克服するために提案されている。 しかしながら、現在のビデオLLMの進歩は、画像LLMの基礎的な貢献を見落とし、より複雑な構造と様々なマルチモーダルデータを事前学習のために選択する傾向にある。 このアプローチは,これらの手法に関連するコストを大幅に高めるとともに,画像LLMの先行を戦略的に活用する効率的な手法を導入し,画像LLMから映像LLMへのリソース効率の転換を容易にする。 我々は、画像LLMのイメージ融合モジュール内の時間適応プラグ・アンド・プレイ構造を利用する、画像LLMからの映像LLMのためのリソース効率の高い開発パイプラインRED-VILLMを提案する。 この適応は、時間的情報を含むように理解能力を拡張し、ベースラインのパフォーマンスを超越するだけでなく、最小限の教育データやトレーニングリソースで行うビデオLLMの開発を可能にする。 提案手法は,マルチモーダルモデルにおけるコスト効率の向上と拡張性向上の可能性を浮き彫りにし,画像LLMの基礎的成果を効果的に構築するものである。

Multimodal Large Language Models (MLLMs) have demonstrated profound capabilities in understanding multimodal information, covering from Image LLMs to the more complex Video LLMs. Numerous studies have illustrated their exceptional cross-modal comprehension. Recently, integrating video foundation models with large language models to build a comprehensive video understanding system has been proposed to overcome the limitations of specific pre-defined vision tasks. However, the current advancements in Video LLMs tend to overlook the foundational contributions of Image LLMs, often opting for more complicated structures and a wide variety of multimodal data for pre-training. This approach significantly increases the costs associated with these methods.In response to these challenges, this work introduces an efficient method that strategically leverages the priors of Image LLMs, facilitating a resource-efficient transition from Image to Video LLMs. We propose RED-VILLM, a Resource-Efficient Development pipeline for Video LLMs from Image LLMs, which utilizes a temporal adaptation plug-and-play structure within the image fusion module of Image LLMs. This adaptation extends their understanding capabilities to include temporal information, enabling the development of Video LLMs that not only surpass baseline performances but also do so with minimal instructional data and training resources. Our approach highlights the potential for a more cost-effective and scalable advancement in multimodal models, effectively building upon the foundational work of Image LLMs.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-18
# グラフ粗化による多視点グラフ構造表現学習

Multi-view Graph Structural Representation Learning via Graph Coarsening ( http://arxiv.org/abs/2404.11869v1 )

ライセンス: Link先を確認
Xiaorui Qi, Qijie Bai, Yanlong Wen, Haiwei Zhang, Xiaojie Yuan, (参考訳) グラフトランスフォーマー(GT)は、グラフレベルのタスクにおいて顕著な成果を上げている。 しかし、既存のほとんどの研究はグラフ構造をノード表現の拡張のためのガイダンスやバイアスの一種と見なしており、これはノード中心の視点に焦点を当てており、エッジや構造の明示的な表現を欠いている。 1つの自然な疑問は、グラフ構造全体をノード的に扱うことで、高レベルの機能を学ぶことができるか、ということです。 実験分析を通じて,この仮定の実現可能性について検討する。 本稿では,グラフ分類のためのGTアーキテクチャ上でのグラフ粗大化(MSLgo)を用いた多視点グラフ構造表現学習モデルを提案する。 具体的には、完全な構造表現を学ぶために、オリジナル、粗大化、変換の3つのユニークなビューを構築します。 階層的ヒューリスティックグラフを通じてループと斜めを圧縮し、適切に設計された制約でそれらを制限し、構造間の高レベルな相互作用を学習するための粗いビューを構築する。 また、エッジ埋め込みのための線グラフを導入し、変換ビューを構築するためにエッジ中央の視点に切り替える。 6つの実世界のデータセットの実験は、様々なアーキテクチャから14のベースラインでMSLgoの改善を実証している。

Graph Transformers (GTs) have made remarkable achievements in graph-level tasks. However, most existing works regard graph structures as a form of guidance or bias for enhancing node representations, which focuses on node-central perspectives and lacks explicit representations of edges and structures. One natural question is, can we treat graph structures node-like as a whole to learn high-level features? Through experimental analysis, we explore the feasibility of this assumption. Based on our findings, we propose a novel multi-view graph structural representation learning model via graph coarsening (MSLgo) on GT architecture for graph classification. Specifically, we build three unique views, original, coarsening, and conversion, to learn a thorough structural representation. We compress loops and cliques via hierarchical heuristic graph coarsening and restrict them with well-designed constraints, which builds the coarsening view to learn high-level interactions between structures. We also introduce line graphs for edge embeddings and switch to edge-central perspective to construct the conversion view. Experiments on six real-world datasets demonstrate the improvements of MSLgo over 14 baselines from various architectures.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# Group-On: サポートクエリによるワンショットセグメンテーションの強化

Group-On: Boosting One-Shot Segmentation with Supportive Query ( http://arxiv.org/abs/2404.11871v1 )

ライセンス: Link先を確認
Hanjing Zhou, Mingze Yin, JinTai Chen, Danny Chen, Jian Wu, (参考訳) ワンショットセマンティックセグメンテーション(One-shot semantic segmentation)は、ONEアノテートされた同じクラスのサポートイメージのみを与えられたクエリイメージをセグメントすることを目的としている。 このタスクは、サポートやクエリ画像のターゲットオブジェクトが外観やポーズ(クラス内のバリエーション)において大きく異なる可能性があるため、難しい。 以前の作業では、アノテーション付きのサポートイメージを数ショット設定に組み込むことでパフォーマンスが向上するが、手動ラベリングの追加によるコストの上昇が示唆されていた。 本稿では,複数の問合せイメージをバッチにまとめて,同じカテゴリ内での相互知識支援のメリットを享受するグループオンという,ワンショットセマンティックセマンティックセマンティックセマンティクスの新たなアプローチを提案する。 具体的には、クエリのバッチの粗いセグメンテーションマスクが予測された後、クエリマスクペアが擬似サポートデータとして機能し、単純なGroup-On Votingモジュールのガイダンスの下で、マスク予測を相互に強化する。 3つの標準ベンチマークに関する総合的な実験によると、One-shot設定では、Group-Onアプローチは、以前の研究よりもかなりのマージンで大幅に優れていた。 例えば、COCO-20iデータセットでは、それぞれASNetとHSNetのベースラインでmIoUスコアが8.21%増加し、7.46%増加した。 1つのサポートイメージだけで、Group-Onは5つのアノテートされたサポートイメージを使用するものと競合する。

One-shot semantic segmentation aims to segment query images given only ONE annotated support image of the same class. This task is challenging because target objects in the support and query images can be largely different in appearance and pose (i.e., intra-class variation). Prior works suggested that incorporating more annotated support images in few-shot settings boosts performances but increases costs due to additional manual labeling. In this paper, we propose a novel approach for ONE-shot semantic segmentation, called Group-On, which packs multiple query images in batches for the benefit of mutual knowledge support within the same category. Specifically, after coarse segmentation masks of the batch of queries are predicted, query-mask pairs act as pseudo support data to enhance mask predictions mutually, under the guidance of a simple Group-On Voting module. Comprehensive experiments on three standard benchmarks show that, in the ONE-shot setting, our Group-On approach significantly outperforms previous works by considerable margins. For example, on the COCO-20i dataset, we increase mIoU scores by 8.21% and 7.46% on ASNet and HSNet baselines, respectively. With only one support image, Group-On can be even competitive with the counterparts using 5 annotated support images.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# LLMを用いた概念誘導 : ユーザによる評価実験

Concept Induction using LLMs: a user experiment for assessment ( http://arxiv.org/abs/2404.11875v1 )

ライセンス: Link先を確認
Adrita Barua, Cara Widmer, Pascal Hitzler, (参考訳) 説明可能な人工知能(XAI)は、複雑なAIモデルに対して透明で理解可能な洞察を提供する上で、大きな課題となる。 従来のポストホックアルゴリズムは有用だが、しばしば解釈可能な説明を提供するのに苦労する。 概念に基づくモデルは、解釈可能性を高めるために概念の明示的な表現を取り入れることで、有望な道を提供する。 しかし、既存の自動概念発見手法の研究は、低レベルの概念、コストのかかる人間のアノテーション要求、背景知識の制限された領域によって制限されることが多い。 本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,そのドメイン知識と常識能力を活用して,人間の説明として意味のある高レベルな概念を画像分類の特定の設定のために生成する。 我々は、このプロセスを促進するために、データで利用可能な最小限のテキストオブジェクト情報を使用する。 出力を評価するために,LLMによって生成された概念と,人間によって生成された概念とECIIヒューリスティックな概念誘導システムを比較した。 概念の人間的理解性を決定するための確立された尺度が存在しないため、LLM生成概念の有効性を評価するために人間による研究を行った。 人為的な説明は依然として優れているが, GPT-4 から派生した概念は, ECII が生成した概念よりも人間にとって理解しやすいことが示唆された。

Explainable Artificial Intelligence (XAI) poses a significant challenge in providing transparent and understandable insights into complex AI models. Traditional post-hoc algorithms, while useful, often struggle to deliver interpretable explanations. Concept-based models offer a promising avenue by incorporating explicit representations of concepts to enhance interpretability. However, existing research on automatic concept discovery methods is often limited by lower-level concepts, costly human annotation requirements, and a restricted domain of background knowledge. In this study, we explore the potential of a Large Language Model (LLM), specifically GPT-4, by leveraging its domain knowledge and common-sense capability to generate high-level concepts that are meaningful as explanations for humans, for a specific setting of image classification. We use minimal textual object information available in the data via prompting to facilitate this process. To evaluate the output, we compare the concepts generated by the LLM with two other methods: concepts generated by humans and the ECII heuristic concept induction system. Since there is no established metric to determine the human understandability of concepts, we conducted a human study to assess the effectiveness of the LLM-generated concepts. Our findings indicate that while human-generated explanations remain superior, concepts derived from GPT-4 are more comprehensible to humans compared to those generated by ECII.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# イベントカメラによる夜間の視線

Seeing Motion at Nighttime with an Event Camera ( http://arxiv.org/abs/2404.11884v1 )

ライセンス: Link先を確認
Haoyue Liu, Shihan Peng, Lin Zhu, Yi Chang, Hanyu Zhou, Luxin Yan, (参考訳) 私たちは、夜間のダイナミックシーンを撮影する、非常に難しいタスクに重点を置いています。 これまでの方法では、従来のRGBカメラの低照度化に頼っていた。 しかし、彼らは必然的に、夜間の長時間露光時間と、ダイナミックなシーンの運動のぼやけの間にジレンマに直面した。 イベントカメラは、高時間分解能(マイクロ秒)と高ダイナミックレンジ(120dB)で動的変化に反応し、代替ソリューションを提供する。 本研究では,イベントカメラを用いた夜間ダイナミックイメージング手法を提案する。 具体的には、夜間の事象は時間的経過特性と空間的非定常分布を示す。 その結果、学習可能なイベントタイムスタンプ校正モジュール(LETC)と、時空間の時空間分布を安定化させる非一様照明認識モジュール(NIAM)を主に含む夜間イベント再構築ネットワーク(NER-Net)を提案する。 さらに,64,200の空間的および時間的に整列した画像GTと低照度イベントを含む同軸イメージングシステムを用いて,ペア化された実低照度イベントデータセット(RLED)を構築した。 広汎な実験により,提案手法は実世界の夜間データセット上での視覚的品質と一般化能力において,最先端の手法よりも優れていた。 プロジェクトはhttps://github.com/Liu-haoyue/NER-Net.comで入手できる。

We focus on a very challenging task: imaging at nighttime dynamic scenes. Most previous methods rely on the low-light enhancement of a conventional RGB camera. However, they would inevitably face a dilemma between the long exposure time of nighttime and the motion blur of dynamic scenes. Event cameras react to dynamic changes with higher temporal resolution (microsecond) and higher dynamic range (120dB), offering an alternative solution. In this work, we present a novel nighttime dynamic imaging method with an event camera. Specifically, we discover that the event at nighttime exhibits temporal trailing characteristics and spatial non-stationary distribution. Consequently, we propose a nighttime event reconstruction network (NER-Net) which mainly includes a learnable event timestamps calibration module (LETC) to align the temporal trailing events and a non-uniform illumination aware module (NIAM) to stabilize the spatiotemporal distribution of events. Moreover, we construct a paired real low-light event dataset (RLED) through a co-axial imaging system, including 64,200 spatially and temporally aligned image GTs and low-light events. Extensive experiments demonstrate that the proposed method outperforms state-of-the-art methods in terms of visual quality and generalization ability on real-world nighttime datasets. The project are available at: https://github.com/Liu-haoyue/NER-Net.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# FCNCP:フェデレート学習に基づく非負CANDECOMP/PARAFAC分離

FCNCP: A Coupled Nonnegative CANDECOMP/PARAFAC Decomposition Based on Federated Learning ( http://arxiv.org/abs/2404.11890v1 )

ライセンス: Link先を確認
Yukai Cai, Hang Liu, Xiulin Wang, Hongjin Li, Ziyi Wang, Chuanshuai Yang, Fengyu Cong, (参考訳) 脳科学の分野では、業界競争、プライバシーのセキュリティ、行政手続きのポリシーや規制といった問題により、サーバ間でのデータ共有がますます難しくなってきている。 そのため,データ共有を伴わない科学的コラボレーションを実現するため,新たなデータ解析・処理手法の開発が急務である。 そこで本研究では,異なるサーバ上に配置された脳波データに対して,FCNCPと呼ばれるフェデレート学習に基づく,効率的な非負結合テンソル分解アルゴリズムを開発・開発することを提案する。 高次元データ表現と分解におけるテンソル分解の優れた識別性能、クロスサンプルテンソルデータ解析における結合テンソル分解の利点、分散サーバにおけるジョイントモデリングのためのフェデレーション学習の特徴を組み合わせる。 このアルゴリズムはフェデレーション学習を利用して、異なるサーバに分散したデータの結合制約を確立する。 実験では、まずシミュレーション実験を行い、安定かつ一貫した分解結果を求め、提案手法の有効性を検証した。 そこで, FCNCPアルゴリズムを用いて, 5次事象関連電位(ERP)テンソルデータの分解を行った。 片側刺激は左右半球の活性化領域においてより対称な成分を誘導することがわかった。 結論は、認知神経科学における関連する研究の解釈と一致しており、この手法が高次脳波データを効率的に処理し、いくつかの重要な隠蔽情報を保存できることを実証している。

In the field of brain science, data sharing across servers is becoming increasingly challenging due to issues such as industry competition, privacy security, and administrative procedure policies and regulations. Therefore, there is an urgent need to develop new methods for data analysis and processing that enable scientific collaboration without data sharing. In view of this, this study proposes to study and develop a series of efficient non-negative coupled tensor decomposition algorithm frameworks based on federated learning called FCNCP for the EEG data arranged on different servers. It combining the good discriminative performance of tensor decomposition in high-dimensional data representation and decomposition, the advantages of coupled tensor decomposition in cross-sample tensor data analysis, and the features of federated learning for joint modelling in distributed servers. The algorithm utilises federation learning to establish coupling constraints for data distributed across different servers. In the experiments, firstly, simulation experiments are carried out using simulated data, and stable and consistent decomposition results are obtained, which verify the effectiveness of the proposed algorithms in this study. Then the FCNCP algorithm was utilised to decompose the fifth-order event-related potential (ERP) tensor data collected by applying proprioceptive stimuli on the left and right hands. It was found that contralateral stimulation induced more symmetrical components in the activation areas of the left and right hemispheres. The conclusions drawn are consistent with the interpretations of related studies in cognitive neuroscience, demonstrating that the method can efficiently process higher-order EEG data and that some key hidden information can be preserved.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# 大規模言語モデルでは、形式検証ツールで旅行を厳格に計画できる

Large Language Models Can Plan Your Travels Rigorously with Formal Verification Tools ( http://arxiv.org/abs/2404.11891v1 )

ライセンス: Link先を確認
Yilun Hao, Yongchao Chen, Yang Zhang, Chuchu Fan, (参考訳) 近年のLarge Language Models (LLM) の進歩は、豊富な世界知識とツールの使用と推論能力によって、多くのLLM計画アルゴリズムを育成した。 しかし、LLMは複雑な組合せ最適化問題を正確に解くことができない。 Xie et al (2024) において、著者らは米国国内旅行計画ベンチマークであるTravelPlannerを提案し、LSM自体がユーザー要求を満たす旅行計画を作成することができないことを示した。 本研究では,LSMをSMT問題として形式的に定式化し,旅行計画問題の解決を可能にするフレームワークを提案し,SMTソルバを対話的に使用し,組合せ探索問題を自動解決する。 SMTソルバは入力制約を満たすことを保証し、LLMは我々のフレームワークとの言語ベースの対話を可能にする。 入力制約が満足できない場合、私たちのLLMベースのフレームワークは、SMTソルバを用いた自動推論により、ユーザに対して、旅行要求を変更するための提案を対話的に提供します。 当社のフレームワークをTravelPlannerで評価し,97%の成功率を達成した。 また、国際旅行ベンチマークを含む別のデータセットを作成し、両方のデータセットを使用して、初期ユーザクエリが満足できない場合に、インタラクティブな計画フレームワークの有効性を評価する。 我々のフレームワークは、データセットの平均成功率は78.6%、TravelPlannerは85.0%の有効なプランを生成することができる。

The recent advancements of Large Language Models (LLMs), with their abundant world knowledge and capabilities of tool-using and reasoning, fostered many LLM planning algorithms. However, LLMs have not shown to be able to accurately solve complex combinatorial optimization problems. In Xie et al. (2024), the authors proposed TravelPlanner, a U.S. domestic travel planning benchmark, and showed that LLMs themselves cannot make travel plans that satisfy user requirements with a best success rate of 0.6%. In this work, we propose a framework that enables LLMs to formally formulate and solve the travel planning problem as a satisfiability modulo theory (SMT) problem and use SMT solvers interactively and automatically solve the combinatorial search problem. The SMT solvers guarantee the satisfiable of input constraints and the LLMs can enable a language-based interaction with our framework. When the input constraints cannot be satisfiable, our LLM-based framework will interactively offer suggestions to users to modify their travel requirements via automatic reasoning using the SMT solvers. We evaluate our framework with TravelPlanner and achieve a success rate of 97%. We also create a separate dataset that contain international travel benchmarks and use both dataset to evaluate the effectiveness of our interactive planning framework when the initial user queries cannot be satisfied. Our framework could generate valid plans with an average success rate of 78.6% for our dataset and 85.0% for TravelPlanner according to diverse humans preferences.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# FreeDiff:拡散モデルを用いた画像編集のための進行周波数トランケーション

FreeDiff: Progressive Frequency Truncation for Image Editing with Diffusion Models ( http://arxiv.org/abs/2404.11895v1 )

ライセンス: Link先を確認
Wei Wu, Qingnan Fan, Shuai Qin, Hong Gu, Ruoyu Zhao, Antoni B. Chan, (参考訳) テキスト・ツー・イメージ・モデルによる高精度な画像編集は、その顕著な生成能力とユーザフレンドリーな性質から、関心を集めている。 しかし、これらの試みは、意図した正確な編集対象領域と、実際的なガイダンスの影響を受けやすい領域との相違という重要な課題に直面している。 編集指導を洗練させるために開発された注意機構を活用する優れた手法にもかかわらず、これらの手法は複雑なネットワークアーキテクチャによる修正を必要とし、特定の編集タスクに限定されている。 そこで本研究では,自然画像のパワー則やノイズスケジュールの減衰により,低周波画像成分を初期処理時に主に回収し,過度に低周波信号を編集する手法を提案する。 この知見を生かして、プログレッシブな$\textbf{Fre}$qu$\textbf{e}$ncy truncationを用いて、ユニバーサルな編集タスクに対する$\textbf{Diff}$usionモデルのガイダンスを洗練させる、新しい微調整自由アプローチを導入する(\textbf{FreeDiff}$)。 本手法は,画像編集における汎用ツールとしての可能性を強調し,様々な編集タスクや多様な画像に対して,最先端の手法で同等の結果を得る。

Precise image editing with text-to-image models has attracted increasing interest due to their remarkable generative capabilities and user-friendly nature. However, such attempts face the pivotal challenge of misalignment between the intended precise editing target regions and the broader area impacted by the guidance in practice. Despite excellent methods leveraging attention mechanisms that have been developed to refine the editing guidance, these approaches necessitate modifications through complex network architecture and are limited to specific editing tasks. In this work, we re-examine the diffusion process and misalignment problem from a frequency perspective, revealing that, due to the power law of natural images and the decaying noise schedule, the denoising network primarily recovers low-frequency image components during the earlier timesteps and thus brings excessive low-frequency signals for editing. Leveraging this insight, we introduce a novel fine-tuning free approach that employs progressive $\textbf{Fre}$qu$\textbf{e}$ncy truncation to refine the guidance of $\textbf{Diff}$usion models for universal editing tasks ($\textbf{FreeDiff}$). Our method achieves comparable results with state-of-the-art methods across a variety of editing tasks and on a diverse set of images, highlighting its potential as a versatile tool in image editing applications.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# AG-NeRF:マルチハイト大規模屋外レンダリングのための注意誘導型ニューラルネットワーク

AG-NeRF: Attention-guided Neural Radiance Fields for Multi-height Large-scale Outdoor Scene Rendering ( http://arxiv.org/abs/2404.11897v1 )

ライセンス: Link先を確認
Jingfeng Guo, Xiaohan Zhang, Baozhu Zhao, Qi Liu, (参考訳) 既存のニューラルラジアンス場(NeRF)をベースとした大規模屋外シーンのための新しいビュー合成法は主に1つの高度上に構築されている。 さらに、カメラの撮影高度とシーンスコープを必要とすることが多く、カメラの高度が変化すると非効率で非実用的になる。 本稿では,AG-NeRFと呼ばれるエンド・ツー・エンドのフレームワークを提案し,様々なシーンの高度に基づいて自由視点画像を合成することにより,良好な再構築を行うためのトレーニングコストを削減することを目的とする。 具体的には、低高度(水位)から高高度(衛星レベル)までの細部変化問題に対処するため、高精細レンダリングのために、高精細画像からターゲットビューの最も関連性の高い特徴を抽出し、融合させるため、ソース画像選択法とアテンションベース特徴融合法を開発した。 AG-NeRFは56のLeonardとTransamericaのベンチマークでSOTAのパフォーマンスを達成し、最新のBunggeeNeRFと比較して競争力のあるPSNRに到達するのに30時間のトレーニング時間しか必要としないことを示した。

Existing neural radiance fields (NeRF)-based novel view synthesis methods for large-scale outdoor scenes are mainly built on a single altitude. Moreover, they often require a priori camera shooting height and scene scope, leading to inefficient and impractical applications when camera altitude changes. In this work, we propose an end-to-end framework, termed AG-NeRF, and seek to reduce the training cost of building good reconstructions by synthesizing free-viewpoint images based on varying altitudes of scenes. Specifically, to tackle the detail variation problem from low altitude (drone-level) to high altitude (satellite-level), a source image selection method and an attention-based feature fusion approach are developed to extract and fuse the most relevant features of target view from multi-height images for high-fidelity rendering. Extensive experiments demonstrate that AG-NeRF achieves SOTA performance on 56 Leonard and Transamerica benchmarks and only requires a half hour of training time to reach the competitive PSNR as compared to the latest BungeeNeRF.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# ファイナンシャル・インクルージョンとレギュレーション・チャレンジの強化:デジタル・プラットフォーム、機械学習、大規模言語モデル統合によるデジタル・バンクとオルタナティブ・レンダーの批判的分析

Enhancing Financial Inclusion and Regulatory Challenges: A Critical Analysis of Digital Banks and Alternative Lenders Through Digital Platforms, Machine Learning, and Large Language Models Integration ( http://arxiv.org/abs/2404.11898v1 )

ライセンス: Link先を確認
Luke Lee, (参考訳) 本稿では,デジタル銀行と代替銀行が金融包摂性に与える影響とビジネスモデルがもたらす規制課題について考察する。 デジタルプラットフォーム、機械学習(ML)、Large Language Models(LLM)の統合について論じる。 本研究は、運用フレームワークと技術基盤の詳細な分析を通じて、より広範な金融アクセスを促進し、従来の障壁を緩和する鍵となるメカニズムを特定する。 さらに、データプライバシ、アルゴリズムバイアス、金融安定、消費者保護に関する重要な規制上の懸念にも対処する。 本稿では、量的財務データ分析と産業専門家の質的洞察を組み合わせた混合手法を用いて、デジタル技術を活用した金融インクリビティの育成の複雑さを解明する。 この調査結果は、イノベーションと包括的リスク管理を調和させる規制フレームワークの進化の必要性を浮き彫りにした。 本稿では, 規制当局, 金融機関, 技術提供者に対して, 慎重なデジタル技術統合を通じて, より包括的で安定した金融エコシステムを育成することを目的とした政策勧告をまとめる。

This paper explores the dual impact of digital banks and alternative lenders on financial inclusion and the regulatory challenges posed by their business models. It discusses the integration of digital platforms, machine learning (ML), and Large Language Models (LLMs) in enhancing financial services accessibility for underserved populations. Through a detailed analysis of operational frameworks and technological infrastructures, this research identifies key mechanisms that facilitate broader financial access and mitigate traditional barriers. Additionally, the paper addresses significant regulatory concerns involving data privacy, algorithmic bias, financial stability, and consumer protection. Employing a mixed-methods approach, which combines quantitative financial data analysis with qualitative insights from industry experts, this paper elucidates the complexities of leveraging digital technology to foster financial inclusivity. The findings underscore the necessity of evolving regulatory frameworks that harmonize innovation with comprehensive risk management. This paper concludes with policy recommendations for regulators, financial institutions, and technology providers, aiming to cultivate a more inclusive and stable financial ecosystem through prudent digital technology integration.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# 物体中心行動認識のための同時検出と相互作用推論

Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition ( http://arxiv.org/abs/2404.11903v1 )

ライセンス: Link先を確認
Xunsong Li, Pengzhan Sun, Yangcen Liu, Lixin Duan, Wen Li, (参考訳) 人間と物体の相互作用は、物体中心の行動を認識するために重要である。 既存の手法は通常2段階のパイプラインを採用しており、まず事前に訓練された検出器を用いてオブジェクトの提案を検知し、次にアクション認識モデルに入力してビデオの特徴を抽出し、アクション認識のためのオブジェクト関係を学習する。 しかし、オブジェクト検出段階では、アクション先行が不明であるため、重要なオブジェクトが容易に見落とされ、アクション認識性能が劣る。 本稿では,一段階における検出とインタラクションの共振を同時に行う,エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。 特に,ビデオの特徴をベースネットワークで抽出した後,並列オブジェクト検出と対話推論のための3つのモジュールを作成する。 まず、パッチベースのObject Decoderがビデオパッチトークンから提案を生成する。 そして、対話的オブジェクト精錬と集約により、アクション認識のための重要なオブジェクトを特定し、位置と外観に基づいて提案スコアを調整し、オブジェクトレベルの情報をグローバルなビデオ表現に集約する。 最後に、オブジェクト関係モデリングモジュールはオブジェクト関係をエンコードする。 これら3つのモジュールとビデオ特徴抽出器は、エンドツーエンドで共同で訓練することができるため、市販の物体検出器への重度依存を回避でき、多段階の訓練負担を軽減できる。 本研究では,2つのデータセット,Some-Else と Ikea-Assembly を用いて,従来型,構成型,少数ショットのアクション認識タスクにおける提案手法の性能評価を行う。 詳細な実験分析を通じて,対話的物体が行動認識の学習において重要な役割を担っていることを示す。

The interactions between human and objects are important for recognizing object-centric actions. Existing methods usually adopt a two-stage pipeline, where object proposals are first detected using a pretrained detector, and then are fed to an action recognition model for extracting video features and learning the object relations for action recognition. However, since the action prior is unknown in the object detection stage, important objects could be easily overlooked, leading to inferior action recognition performance. In this paper, we propose an end-to-end object-centric action recognition framework that simultaneously performs Detection And Interaction Reasoning in one stage. Particularly, after extracting video features with a base network, we create three modules for concurrent object detection and interaction reasoning. First, a Patch-based Object Decoder generates proposals from video patch tokens. Then, an Interactive Object Refining and Aggregation identifies important objects for action recognition, adjusts proposal scores based on position and appearance, and aggregates object-level info into a global video representation. Lastly, an Object Relation Modeling module encodes object relations. These three modules together with the video feature extractor can be trained jointly in an end-to-end fashion, thus avoiding the heavy reliance on an off-the-shelf object detector, and reducing the multi-stage training burden. We conduct experiments on two datasets, Something-Else and Ikea-Assembly, to evaluate the performance of our proposed approach on conventional, compositional, and few-shot action recognition tasks. Through in-depth experimental analysis, we show the crucial role of interactive objects in learning for action recognition, and we can outperform state-of-the-art methods on both datasets.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# FedMID:フェデレートラーニングにおける攻撃に対する防御メカニズムとして中間出力を使用するデータフリー手法

FedMID: A Data-Free Method for Using Intermediate Outputs as a Defense Mechanism Against Poisoning Attacks in Federated Learning ( http://arxiv.org/abs/2404.11905v1 )

ライセンス: Link先を確認
Sungwon Han, Hyeonho Song, Sungwon Park, Meeyoung Cha, (参考訳) フェデレーション学習は、クライアントからのローカルアップデートを組み合わせてグローバルモデルを生成する。 従来の防衛戦略はユークリッド空間上の局所更新の投影から導かれるベクトルに依存していたが、これらの手法は局所モデルの機能や構造を正確に表現できず、矛盾した性能をもたらす。 本稿では,中間出力に基づく局所モデルの関数的マッピングを用いて,フェデレート学習における中毒攻撃を防御する新しいパラダイムを提案する。 実験により、我々のメカニズムは幅広い計算条件と高度な攻撃シナリオの下で堅牢であることを示し、フェデレートされた学習を通して、データに敏感な参加者間のより安全なコラボレーションを可能にする。

Federated learning combines local updates from clients to produce a global model, which is susceptible to poisoning attacks. Most previous defense strategies relied on vectors derived from projections of local updates on a Euclidean space; however, these methods fail to accurately represent the functionality and structure of local models, resulting in inconsistent performance. Here, we present a new paradigm to defend against poisoning attacks in federated learning using functional mappings of local models based on intermediate outputs. Experiments show that our mechanism is robust under a broad range of computing conditions and advanced attack scenarios, enabling safer collaboration among data-sensitive participants via federated learning.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# チャンス制約モノトン部分モジュラー問題に対するサンプリングに基づくパレート最適化

Sampling-based Pareto Optimization for Chance-constrained Monotone Submodular Problems ( http://arxiv.org/abs/2404.11907v1 )

ライセンス: Link先を確認
Xiankun Yan, Aneta Neumann, Frank Neumann, (参考訳) 近年、進化計算の文脈における確率制約を評価するために尾の不等式に基づく代理関数が開発され、これらのサロゲートを用いたパレート最適化アルゴリズムが、確率制約付き単調部分モジュラー問題の最適化に成功している。 しかし,サロゲートを用いたアルゴリズムと直接サンプリングに基づく評価を用いたアルゴリズムの性能の違いは明らかでない。 本論文では,確率制約を直接評価するために,サンプリングに基づく手法を提案する。 さらに、より困難な設定で問題に対処するため、ASW-GSEMOと呼ばれる適応的なスライディングウインドウと統合された拡張GSEMOアルゴリズムが導入された。 実験では,サンプルベースアプローチを用いたASW-GSEMOを,設定の異なる最大カバレッジ問題の確率制約版で検証した。 結果は、異なる代理関数を用いた他のアルゴリズムと比較される。 実験結果から,サンプリングベース評価手法を用いたASW-GSEMOは,他のアルゴリズムよりも優れており,異なる評価手法を用いたアルゴリズムの性能が同等であることが示唆された。 さらに、ASW-GSEMOの挙動を可視化し、代理関数を利用したアルゴリズムとの違いを説明する。

Recently surrogate functions based on the tail inequalities were developed to evaluate the chance constraints in the context of evolutionary computation and several Pareto optimization algorithms using these surrogates were successfully applied in optimizing chance-constrained monotone submodular problems. However, the difference in performance between algorithms using the surrogates and those employing the direct sampling-based evaluation remains unclear. Within the paper, a sampling-based method is proposed to directly evaluate the chance constraint. Furthermore, to address the problems with more challenging settings, an enhanced GSEMO algorithm integrated with an adaptive sliding window, called ASW-GSEMO, is introduced. In the experiments, the ASW-GSEMO employing the sampling-based approach is tested on the chance-constrained version of the maximum coverage problem with different settings. Its results are compared with those from other algorithms using different surrogate functions. The experimental findings indicate that the ASW-GSEMO with the sampling-based evaluation approach outperforms other algorithms, highlighting that the performances of algorithms using different evaluation methods are comparable. Additionally, the behaviors of ASW-GSEMO are visualized to explain the distinctions between it and the algorithms utilizing the surrogate functions.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# 線形非ガウス非巡回モデルの最短経路問題の定式化の再定義--Pairwise Likelihood Ratios, Prior Knowledge, and Path Enumeration

Redefining the Shortest Path Problem Formulation of the Linear Non-Gaussian Acyclic Model: Pairwise Likelihood Ratios, Prior Knowledge, and Path Enumeration ( http://arxiv.org/abs/2404.11922v1 )

ライセンス: Link先を確認
Hans Jarett J. Ong, Brian Godwin S. Lim, (参考訳) 因果探索は観測データから因果グラフを学習するために不可欠である。 線形非ガウス非巡回モデル(LiNGAM)は、因果グラフを決定する際に非ガウス雑音を持つ線形データ生成過程を仮定して動作する。 しかし、計測されていない共同創設者が欠席しているという仮定は、現実的な制限を生じさせる。 これに対し,LiNGAMを最短経路問題 (LiNGAM-SPP) として再検討した。 LiNGAM-SPP内では、相互情報が独立の尺度として選ばれる。 パラメータチューニングは、kNN相互情報推定器に依存するため、現在必要となっている。 本稿では,LiNGAM-SPPフレームワークの3倍拡張を提案する。 まず、kNNベースの相互情報の代わりに、ペアワイズ確率比を用いてパラメータチューニングの必要性を解消する。 この置換は、一般的なデータ生成プロセスと実世界のデータセットのベンチマークで検証され、特に大きな機能セットが与えられた場合、既存の手法よりも優れている。 その後、全ての因果順序のグラフ表現上に実装されたノードスキッピング戦略により、事前知識の組み入れが可能となり、相対順序の入力に基づいて違反を排除できる。 既存のアプローチに対する柔軟性が達成されます。 最後の3つの拡張は、すべての因果順序のグラフ表現における経路の分布の利用である。 このことから、測定されていない共同設立者やスパーシティの存在のような真の因果グラフの重要な性質を推測することができる。 ある程度は、因果探索アルゴリズムの期待性能を予測することができる。 上述の改良によりLiNGAM-SPPの実用性と性能が向上し、因果発見を推し進めるグラフ検索手法の可能性を示している。

Effective causal discovery is essential for learning the causal graph from observational data. The linear non-Gaussian acyclic model (LiNGAM) operates under the assumption of a linear data generating process with non-Gaussian noise in determining the causal graph. Its assumption of unmeasured confounders being absent, however, poses practical limitations. In response, empirical research has shown that the reformulation of LiNGAM as a shortest path problem (LiNGAM-SPP) addresses this limitation. Within LiNGAM-SPP, mutual information is chosen to serve as the measure of independence. A challenge is introduced - parameter tuning is now needed due to its reliance on kNN mutual information estimators. The paper proposes a threefold enhancement to the LiNGAM-SPP framework. First, the need for parameter tuning is eliminated by using the pairwise likelihood ratio in lieu of kNN-based mutual information. This substitution is validated on a general data generating process and benchmark real-world data sets, outperforming existing methods especially when given a larger set of features. The incorporation of prior knowledge is then enabled by a node-skipping strategy implemented on the graph representation of all causal orderings to eliminate violations based on the provided input of relative orderings. Flexibility relative to existing approaches is achieved. Last among the three enhancements is the utilization of the distribution of paths in the graph representation of all causal orderings. From this, crucial properties of the true causal graph such as the presence of unmeasured confounders and sparsity may be inferred. To some extent, the expected performance of the causal discovery algorithm may be predicted. The refinements above advance the practicality and performance of LiNGAM-SPP, showcasing the potential of graph-search-based methodologies in advancing causal discovery.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# CGM時系列に基づく短時間のグルコース予測に向けて

Toward Short-Term Glucose Prediction Solely Based on CGM Time Series ( http://arxiv.org/abs/2404.11924v1 )

ライセンス: Link先を確認
Ming Cheng, Xingjian Diao, Ziyi Zhou, Yanjun Cui, Wenjun Liu, Shitong Cheng, (参考訳) 世界的な糖尿病の流行は、優れた血糖コントロールを維持することの重要性を強調している。 グルコース予測は糖尿病管理の基本的な側面であり、リアルタイムな意思決定を促進する。 近年の研究では、リアルタイムな意思決定には適さない長期血糖傾向予測に焦点をあてたモデルを導入し、結果として反応が遅れている。 逆に、グルコースレベルの即時変化に対応するように設計されたモデルでは、グルコースの変動を包括的に分析することはできない。 さらに、現代の研究では、様々な生理的パラメータ(例えば、インスリン摂取量、食物摂取量など)を統合することで、データプライバシーの懸念が必然的に高まる。 このような研究ギャップを埋めるため,CGM時系列データのみに基づく短時間のグルコース予測のためのエンドツーエンドパイプラインであるTimeGluを提案する。 モデルの性能の包括的比較分析を行うために,4つのベースライン手法を実装した。 2つのコントラストデータセット(CGM GlucoseとColasデータセット)に関する広範な実験を通じて、TimeGluは患者の個人データを追加することなく最先端のパフォーマンスを達成し、現実の糖尿病血糖管理のための効果的なガイダンスを提供する。

The global diabetes epidemic highlights the importance of maintaining good glycemic control. Glucose prediction is a fundamental aspect of diabetes management, facilitating real-time decision-making. Recent research has introduced models focusing on long-term glucose trend prediction, which are unsuitable for real-time decision-making and result in delayed responses. Conversely, models designed to respond to immediate glucose level changes cannot analyze glucose variability comprehensively. Moreover, contemporary research generally integrates various physiological parameters (e.g. insulin doses, food intake, etc.), which inevitably raises data privacy concerns. To bridge such a research gap, we propose TimeGlu -- an end-to-end pipeline for short-term glucose prediction solely based on CGM time series data. We implement four baseline methods to conduct a comprehensive comparative analysis of the model's performance. Through extensive experiments on two contrasting datasets (CGM Glucose and Colas dataset), TimeGlu achieves state-of-the-art performance without the need for additional personal data from patients, providing effective guidance for real-world diabetic glucose management.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# 宇宙デシッター時空における2つの衝突するウンルー・デウィット検出器間の絡み合い発生

Entanglement generation between two comoving Unruh-DeWitt detectors in the cosmological de Sitter spacetime ( http://arxiv.org/abs/2404.11931v1 )

ライセンス: Link先を確認
Sourav Bhattacharya, Shagun Kaushal, (参考訳) 宇宙空間における2つの同一のUnruh-DeWitt検出器間の絡み合いの発生や収穫について検討する。 2つの共振型2レベル検出器を同時に空間的位置で検討する。 検出器は最初は絡まっていないと仮定される。 検出器は個別にスカラー場に結合し、2つの検出器間の結合につながる。 我々は、実数体と複素数体の両方に対して、2種類のスカラー場(共形対称および無質量最小結合)を考える。 スカラー場に対応する自由度を追従することにより、2つの検出器の密度行列を構築し、その固有値が検出器のエネルギー準位間の遷移を特徴づける。 これらのフィールドの単位固有時間当たりの検出器応答関数に対する既存の結果を用いて、次に対数ネガティビティを計算し、2つの検出器間の遅い時間に発生する絡み合いの度合いを定量化する。 異なる種類のスカラー場に対するこれらの結果の類似性と相違について論じている。

We investigate the entanglement generation or harvesting between two identical Unruh-DeWitt detectors in the cosmological de Sitter spacetime. We consider two comoving two-level detectors at a coincident spatial position. The detectors are assumed to be unentangled initially. The detectors are individually coupled to a scalar field, which eventually leads to coupling between the two detectors. We consider two kinds of scalar fields -- conformally symmetric and massless minimally coupled, for both real and complex cases. By tracing out the degrees of freedom corresponding to the scalar field, we construct the reduced density matrix for the two detectors, whose eigenvalues characterise transitions between the energy levels of the detectors. By using the existing results for the detector response functions per unit proper time for these fields, we next compute the logarithmic negativity, quantifying the degree of entanglement generated at late times between the two detectors. The similarities and differences of these results for different kind of scalar fields have been discussed.
翻訳日:2024-04-19 13:11:02 公開日:2024-04-18
# 量子アルゴリズムに対する耐故障性の評価

Tailoring Fault-Tolerance to Quantum Algorithms ( http://arxiv.org/abs/2404.11953v1 )

ライセンス: Link先を確認
Zhuangzhuang Chen, Narayanan Rengaswamy, (参考訳) 普遍的フォールトトレラント量子コンピューティングの標準的なアプローチは、論理ゲートの普遍的集合をフォールトトレラント的に実装できる汎用的な量子エラー補正機構を開発することである。 このようなスキームが与えられた場合、任意の量子アルゴリズムは、この集合から関連する論理ゲートを構成することで、フォールトトレラントに実現できる。 しかし、量子コンピュータは特定の量子アルゴリズムに対してのみ有意義な量子優位性を提供する。 したがって、普遍的な量子コンピュータは、調整された量子エラー補正スキームを使用して、そのような特定のアルゴリズムをコンパイルすることで得られる可能性がある。 本研究では,このようなアルゴリズムによる量子フォールトトレランスに向けた第一歩を踏み出す。 本稿では,量子シミュレーションにおけるトロッター回路について考察する。 クラフォード・トロッター回路の物理実現をよく知られた$[\! [n,n-2,2 ]\! エラー検出コードファミリ。 解析の結果,この回路は最適深度でトロッター回路を実装しており,量子誤差補正の照明例として機能していることがわかった。 フラグガジェットを用いてこれらの回路の耐故障性を実現し,オーバーヘッドを最小限に抑える。 解とスティッチのアルゴリズムは、この特定の例を超えてスケールする可能性があり、従って量子コンピューティングにおける調整されたフォールトトレランスに対する原則化されたアプローチを提供する。

The standard approach to universal fault-tolerant quantum computing is to develop a general purpose quantum error correction mechanism that can implement a universal set of logical gates fault-tolerantly. Given such a scheme, any quantum algorithm can be realized fault-tolerantly by composing the relevant logical gates from this set. However, we know that quantum computers provide a significant quantum advantage only for specific quantum algorithms. Hence, a universal quantum computer can likely gain from compiling such specific algorithms using tailored quantum error correction schemes. In this work, we take the first steps towards such algorithm-tailored quantum fault-tolerance. We consider Trotter circuits in quantum simulation, which is an important application of quantum computing. We develop a solve-and-stitch algorithm to systematically synthesize physical realizations of Clifford Trotter circuits on the well-known $[\![ n,n-2,2 ]\!]$ error-detecting code family. Our analysis shows that this family implements Trotter circuits with optimal depth, thereby serving as an illuminating example of tailored quantum error correction. We achieve fault-tolerance for these circuits using flag gadgets, which add minimal overhead. The solve-and-stitch algorithm has the potential to scale beyond this specific example and hence provide a principled approach to tailored fault-tolerance in quantum computing.
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# 金堂スピン遮蔽雲の電気制御

Electrical control of a Kondo spin screening cloud ( http://arxiv.org/abs/2404.11955v1 )

ライセンス: Link先を確認
Ngoc Han Tu, Donghoon Kim, Minsoo Kim, Jeongmin Shim, Ryo Ito, David Pomaranski, Ivan V. Borzenets, Arne Ludwig, Andreas D. Wieck, Heung-Sun Sim, Michihisa Yamamoto, (参考訳) 金属や半導体では、不純物スピンは量子的絡み合い、金堂遮蔽雲と呼ばれる低温で周囲の伝導電子によって遮蔽される。 近藤箱と呼ばれる地域における近藤遮蔽雲の量子閉じ込めは、本来の雲延長長よりも小さい長さで、遮蔽雲を強固に変形させ、絡みを抑える手段を提供する。 ここでは、このような近藤箱を実現し、絡みを制御・監視するためのアプローチを開発する。 これは半導体量子ドットに局在したスピンに基づいており、準1次元のチャネルに沿った伝導電子によって遮蔽される。 ボックスは、ドットとチャネル上に配置された量子点接触との間に形成される。 量子点接触が閉じ込めを強くするために調整されると、温度の関数としてのドットを通しての電子伝導は、単一のエネルギースケールであるコンド温度の既知の普遍関数から逸脱し始める。 それでも, エンタングルメントは, 理論的な展開に応じて測定されたコンダクタンスによって監視される。 観測された絡み合いが閉じ込め強度と温度に依存することは、コンドスクリーニングが量子点接触を調整することによって制御されることを意味する。 すなわち、近藤雲は、原雲の長さを越えて地域内の近藤箱によって変形する。 電気的手法により固体中の空間的に拡張された量子多体絡みを操作・検出する方法を提供する。

In metals and semiconductors, an impurity spin is quantum entangled with and thereby screened by surrounding conduction electrons at low temperatures, called the Kondo screening cloud. Quantum confinement of the Kondo screening cloud in a region, called a Kondo box, with a length smaller than the original cloud extension length strongly deforms the screening cloud and provides a way of controlling the entanglement. Here we realize such a Kondo box and develop an approach to controlling and monitoring the entanglement. It is based on a spin localized in a semiconductor quantum dot, which is screened by conduction electrons along a quasi-one-dimensional channel. The box is formed between the dot and a quantum point contact placed on a channel. As the quantum point contact is tuned to make the confinement stronger, electron conductance through the dot as a function of temperature starts to deviate from the known universal function of the single energy scale, the Kondo temperature. Nevertheless, the entanglement is monitored by the measured conductance according to our theoretical development. The dependence of the monitored entanglement on the confinement strength and temperature implies that the Kondo screening is controlled by tuning the quantum point contact. Namely, the Kondo cloud is deformed by the Kondo box in the region across the original cloud length. Our findings offer a way of manipulating and detecting spatially extended quantum many-body entanglement in solids by electrical means.
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# 悪魔はオブジェクト境界にある:ファンデーションモデルを用いたアノテーションのないインスタンスセグメンテーションへ

The devil is in the object boundary: towards annotation-free instance segmentation using Foundation Models ( http://arxiv.org/abs/2404.11957v1 )

ライセンス: Link先を確認
Cheng Shi, Sibei Yang, (参考訳) 大量のデータに基づいて事前トレーニングされたファンデーションモデルは、さまざまな下流タスクで印象的なゼロショット機能を示している。 しかし、オブジェクト検出とインスタンスのセグメンテーションにおいて、2つの基本的なコンピュータビジョンタスクは広範囲な人間のアノテーションに大きく依存しており、SAMやDINOのような基礎モデルは満足できる性能を達成するのに苦労している。 本研究では,デヴィルが対象境界内にあることを明らかにする。 インスタンスレベルのアノテーションにアクセスしたことがないCLIPが、特定の中間層のクラスタリング結果に先立って、非常に有益で強力なインスタンスレベルのバウンダリを提供できることを、私たちは初めて調査します。 この驚くべき観察の後、新しい分類優先発見パイプラインにおいて、$\textbf{Zip}$$\textbf{Z}$ips up CL$\textbf{ip}$ and SAMを提案し、アノテーションのない複雑なシーン対応のオープンボキャブラリオブジェクト検出とインスタンスセグメンテーションを可能にした。 Zipは、COCOデータセット上のSAMのマスクAPを12.5%向上させ、トレーニング不要、セルフトレーニング、ラベル効率の微調整など、さまざまな環境で最先端のパフォーマンスを確立する。 さらに、アノテーションのないZipは、ベースアノテーションを使用して最高のパフォーマンスのオープン語彙オブジェクト検出器に匹敵するパフォーマンスを実現している。 Codeはhttps://github.com/ChengShiest/Zip-Your-CLIPでリリースされる

Foundation models, pre-trained on a large amount of data have demonstrated impressive zero-shot capabilities in various downstream tasks. However, in object detection and instance segmentation, two fundamental computer vision tasks heavily reliant on extensive human annotations, foundation models such as SAM and DINO struggle to achieve satisfactory performance. In this study, we reveal that the devil is in the object boundary, \textit{i.e.}, these foundation models fail to discern boundaries between individual objects. For the first time, we probe that CLIP, which has never accessed any instance-level annotations, can provide a highly beneficial and strong instance-level boundary prior in the clustering results of its particular intermediate layer. Following this surprising observation, we propose $\textbf{Zip}$ which $\textbf{Z}$ips up CL$\textbf{ip}$ and SAM in a novel classification-first-then-discovery pipeline, enabling annotation-free, complex-scene-capable, open-vocabulary object detection and instance segmentation. Our Zip significantly boosts SAM's mask AP on COCO dataset by 12.5% and establishes state-of-the-art performance in various settings, including training-free, self-training, and label-efficient finetuning. Furthermore, annotation-free Zip even achieves comparable performance to the best-performing open-vocabulary object detecters using base annotations. Code is released at https://github.com/ChengShiest/Zip-Your-CLIP
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# 表面化学の系統最適化のための横勾配ダイヤモンド表面 -低圧プラズマによるアプローチ-

Diamond surfaces with lateral gradients for systematic optimization of surface chemistry for relaxometry -- A low pressure plasma-based approach ( http://arxiv.org/abs/2404.11961v1 )

ライセンス: Link先を確認
Yuchen Tian, Ari R. Ortiz Moreno, Mayeul Chipaux, Kaiqi Wu, Felipe P. Perona Martinez, Hoda Shirzad, Thamir Hamoh, Aldona Mzyk, Patrick van Rijn, Romana Schirhagl, (参考訳) ダイヤモンドはその独特の材料特性のために人気が増している。 窒素空孔(NV)中心と呼ばれるダイヤモンドの欠陥は、前例のない感度で測定できる。 しかし、理想的なセンシング性能を達成するためには、NV中心は表面からナノメートルの範囲内にある必要があり、したがって局所的な表面化学に強く依存する。 ダイヤモンドの表面を比較するためにいくつかの試みがなされている。 しかし、NV中心が浅いダイヤモンド結晶の価格が高いため、限られた数の化学修飾が研究されている。 そこで本研究では, 単一ダイヤモンド板上での単一実験において, 異なる局所環境の連続性を, 異なる密度と表面群の性質で調査する手法を開発した。 この目的を達成するために、我々はNV中心の浅いアンサンブルを持つダイヤモンドを使用し、表面に化学勾配を導入した。 具体的には、空気と水素プラズマを使いました。 傾斜は, 三角形のプリズムシールドでマスキングした後, 低圧プラズマ処理により形成された。 その結果、表面はシールドの開口端に向かって酸素/水素を徐々に多く含んでいた。 次に, 表面化学がセンシング性能に与える影響を判定するために, 広視野緩和計測を行った。 予想通り、緩和時間と感覚性能は、実際には勾配に沿って変化する。

Diamond is increasingly popular because of its unique material properties. Diamond defects called nitrogen vacancy (NV) centers allow measurements with unprecedented sensitivity. However, to achieve ideal sensing performance NV centers need to be within nanometers from the surface and are thus strongly dependent on the local surface chemistry. Several attempts have been made to compare diamond surfaces. However, due to the high price of diamond crystals with shallow NV centers, a limited number of chemical modifications have been studied. Here, we developed a systematic method to investigate a continuity of different local environments with a varying density and nature of surface groups in a single experiment on a single diamond plate. To achieve this goal, we used diamonds with a shallow ensemble of NV centers and introduced a chemical gradient across the surface. More specifically we used air and hydrogen plasma. The gradients were formed by low pressure plasma treatment after masking with a right-angled triangular prism shield. As a result, the surface contained gradually more oxygen/hydrogen towards the open end of the shield. We then performed widefield relaxometry to determine the effect of surface chemistry on the sensing performance. As expected, relaxation times and thus sensing performance indeed varies along the gradient.
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# 言語モデルから実践的自己改善型コンピュータエージェントへ

From Language Models to Practical Self-Improving Computer Agents ( http://arxiv.org/abs/2404.11964v1 )

ライセンス: Link先を確認
Alex Sheng, (参考訳) 我々は、多種多様なコンピュータタスクを実行し、より複雑なタスクを解決できるようにツールや拡張を開発することで自己改善できるAIコンピュータエージェントを作成するための、シンプルで簡単な方法論を開発する。 大規模言語モデル(LLM)は、非パラメトリックな拡張の恩恵を受けることが示されているため、近年の多くの研究は、LLMを様々な機能で拡張するソフトウェアの開発に重点を置いている。 人的工学的努力によってLLMを増強する静的ソフトウェアを手動で開発するのではなく,LLMエージェントが自己増強のためのソフトウェアを体系的に生成できることを提案する。 いくつかのケーススタディを通して、適切なプロンプトエンジニアリングを備えた最小限のクエリループにより、LLMは様々な拡張を生成し、使用することができ、現実のコンピュータタスクを実行するための独自の能力を自由に拡張できることを示した。 端末のみのアクセスから始めて、LLMエージェントに検索、インターネット検索、Webナビゲーション、テキストエディタ機能の拡張を促す。 このエージェントは、これらの様々なツールを効果的に利用して、自動ソフトウェア開発やWebベースのタスクを含む問題を解決する。

We develop a simple and straightforward methodology to create AI computer agents that can carry out diverse computer tasks and self-improve by developing tools and augmentations to enable themselves to solve increasingly complex tasks. As large language models (LLMs) have been shown to benefit from non-parametric augmentations, a significant body of recent work has focused on developing software that augments LLMs with various capabilities. Rather than manually developing static software to augment LLMs through human engineering effort, we propose that an LLM agent can systematically generate software to augment itself. We show, through a few case studies, that a minimal querying loop with appropriate prompt engineering allows an LLM to generate and use various augmentations, freely extending its own capabilities to carry out real-world computer tasks. Starting with only terminal access, we prompt an LLM agent to augment itself with retrieval, internet search, web navigation, and text editor capabilities. The agent effectively uses these various tools to solve problems including automated software development and web-based tasks.
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# P-NAL: 有効かつ解釈可能なエンティティアライメント法

P-NAL: an Effective and Interpretable Entity Alignment Method ( http://arxiv.org/abs/2404.11968v1 )

ライセンス: Link先を確認
Chuanhao Xu, Jingwei Cheng, Fu Zhang, (参考訳) エンティティアライメント(EA)は、2つの知識グラフの間に等価なエンティティを見つけることを目的としている。 既存の埋め込みベースのEAメソッドは通常、エンティティを埋め込みとしてエンコードする。 構造情報と側情報は通常、埋め込み伝播、凝集、相互作用を通じて利用される。 しかしながら、アライメントプロセスの根底にある論理的推論ステップの詳細は通常省略され、不適切な推論プロセスとなる。 本稿では,非公理論理(NAL)を用いた2種類の論理推論経路をキャプチャするエンティティアライメント手法であるP-NALを紹介する。 タイプ1は2つの関係/属性の3つ組と、他の2つのエンティティ間の類似文からなる、To-be-alignedエンティティペア間のブリッジのような推論パスである。 Type 2はエンティティペアを埋め込みでリンクする。 P-NALは推論パスの結論を統合することで、実体と関係を反復的に整列する。 さらに,本手法は,NALの表現性から論理的に解釈可能であり,拡張可能である。 提案手法は各種EA設定に適している。 実験結果から,本手法はHits@1で最先端の手法より優れており,DBP15Kの3つのデータセットで0.98以上,教師なし設定と教師なし設定の両方で達成できることがわかった。 我々の知る限り、我々は統一論理的観点から、エンティティアライメントの基本原則の詳細な分析を初めて提示する。

Entity alignment (EA) aims to find equivalent entities between two Knowledge Graphs. Existing embedding-based EA methods usually encode entities as embeddings, triples as embeddings' constraint and learn to align the embeddings. The structural and side information are usually utilized via embedding propagation, aggregation or interaction. However, the details of the underlying logical inference steps among the alignment process are usually omitted, resulting in inadequate inference process. In this paper, we introduce P-NAL, an entity alignment method that captures two types of logical inference paths with Non-Axiomatic Logic (NAL). Type 1 is the bridge-like inference path between to-be-aligned entity pairs, consisting of two relation/attribute triples and a similarity sentence between the other two entities. Type 2 links the entity pair by their embeddings. P-NAL iteratively aligns entities and relations by integrating the conclusions of the inference paths. Moreover, our method is logically interpretable and extensible due to the expressiveness of NAL. Our proposed method is suitable for various EA settings. Experimental results show that our method outperforms state-of-the-art methods in terms of Hits@1, achieving 0.98+ on all three datasets of DBP15K with both supervised and unsupervised settings. To our knowledge, we present the first in-depth analysis of entity alignment's basic principles from a unified logical perspective.
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# あいまいさを明示的に扱えるように言語モデルを調整する

Aligning Language Models to Explicitly Handle Ambiguity ( http://arxiv.org/abs/2404.11972v1 )

ライセンス: Link先を確認
Hyuhng Joon Kim, Youna Kim, Cheonbok Park, Junyeob Kim, Choonghyun Park, Kang Min Yoo, Sang-goo Lee, Taeuk Kim, (参考訳) 音声言語では、発話は効率性のために不完全または曖昧な形をしていることが多い。 これは、コンテキストに関する様々な仮定に基づいて、同じ入力の異なる解釈につながる可能性がある。 このようなシナリオにおける信頼性の高いユーザモデルインタラクションを保証するためには、モデルがユーザクエリの本質的なあいまいさを十分に処理することが不可欠である。 しかし,最近の大規模言語モデル (LLMs) においても,(1) LLM は適切に管理するには不明瞭すぎる入力を扱うために直接訓練されていないこと,(2) LLM の本質的な知識によって,入力のあいまいさの程度が変化すること,という2つのハードルがある。 これらの問題に対処するため,本論文では,不明瞭な入力を明示的に処理するためにLLMを整列する手法を提案する。 具体的には,所与の入力を自明にするために,本質的な知識を活用するためにLLMを誘導するプロキシタスクを導入する。 両モデルが入力を曖昧であると知覚する程度を測る尺度として,曖昧な手続きから得られる情報を定量化する。 この尺度は、モデルの観点から曖昧であると考えられるサンプルを選択するためのキューとして機能し、アライメントに使用される。 いくつかの質問応答データセットによる実験結果から、我々のアプローチで微調整されたLLMは、タスク内の明確な質問に対して競争力を維持しながら、あいまいな入力を処理可能であることが示された。

In spoken languages, utterances are often shaped to be incomplete or vague for efficiency. This can lead to varying interpretations of the same input, based on different assumptions about the context. To ensure reliable user-model interactions in such scenarios, it is crucial for models to adeptly handle the inherent ambiguity in user queries. However, conversational agents built upon even the most recent large language models (LLMs) face challenges in processing ambiguous inputs, primarily due to the following two hurdles: (1) LLMs are not directly trained to handle inputs that are too ambiguous to be properly managed; (2) the degree of ambiguity in an input can vary according to the intrinsic knowledge of the LLMs, which is difficult to investigate. To address these issues, this paper proposes a method to align LLMs to explicitly handle ambiguous inputs. Specifically, we introduce a proxy task that guides LLMs to utilize their intrinsic knowledge to self-disambiguate a given input. We quantify the information gain from the disambiguation procedure as a measure of the extent to which the models perceive their inputs as ambiguous. This measure serves as a cue for selecting samples deemed ambiguous from the models' perspectives, which are then utilized for alignment. Experimental results from several question-answering datasets demonstrate that the LLMs fine-tuned with our approach are capable of handling ambiguous inputs while still performing competitively on clear questions within the task.
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# 大規模言語モデルの展望を探る:基礎、技法、課題

Exploring the landscape of large language models: Foundations, techniques, and challenges ( http://arxiv.org/abs/2404.11973v1 )

ライセンス: Link先を確認
Milad Moradi, Ke Yan, David Colwell, Matthias Samwald, Rhona Asgari, (参考訳) 本稿では,Large Language Models(LLMs)の領域を掘り下げ,基礎原則,多様なアプリケーション,微妙なトレーニングプロセスについて述べる。 この記事では、文脈内学習の力学と微調整アプローチのスペクトルに光を当て、パラメータの使用効率を最適化する手法に特に焦点を当てている。 さらに、革新的な強化学習フレームワークや、人間のフィードバックを取り入れた新しい手法を通じて、LLMが人間の好みとより緊密に連携する方法について検討している。 本稿では,LLMに外部知識を組み込むことにより,検索拡張生成の新たな技術についても検討する。 LLMデプロイメントの倫理的側面は議論され、マインドフルで責任あるアプリケーションの必要性を浮き彫りにしている。 今後の研究軌跡を概観して、このレビューはLLMの進化する風景における現在の状況と新たなトレンドを簡潔かつ包括的に概観し、人工知能の研究者と実践者の両方にとって洞察力のあるガイドとして機能する。

In this review paper, we delve into the realm of Large Language Models (LLMs), covering their foundational principles, diverse applications, and nuanced training processes. The article sheds light on the mechanics of in-context learning and a spectrum of fine-tuning approaches, with a special focus on methods that optimize efficiency in parameter usage. Additionally, it explores how LLMs can be more closely aligned with human preferences through innovative reinforcement learning frameworks and other novel methods that incorporate human feedback. The article also examines the emerging technique of retrieval augmented generation, integrating external knowledge into LLMs. The ethical dimensions of LLM deployment are discussed, underscoring the need for mindful and responsible application. Concluding with a perspective on future research trajectories, this review offers a succinct yet comprehensive overview of the current state and emerging trends in the evolving landscape of LLMs, serving as an insightful guide for both researchers and practitioners in artificial intelligence.
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# Corpus Christi氏: ブレッドの共有が許されていないときのリプリケータビリティを確立する

Corpus Christi: Establishing Replicability when Sharing the Bread is Not Allowed ( http://arxiv.org/abs/2404.11977v1 )

ライセンス: Link先を確認
René Helmke, Elmar Padilla, Nils Aschenbruck, (参考訳) 本稿では,最先端以上のファームウェアコーパスの科学的健全性を向上させるための実践的ツールを提供する。 コーパス生成に大きな影響を及ぼすバイナリ分析の課題を特定する。 私たちは、複製性と代表性という科学的目標を育むための重要なコーパス要件の枠組みを導き出すためにそれらを使用します。 このフレームワークを44階層の論文に適用し,704個のデータポイントを収集し,現在コーパス作成の共通基盤がないことを示す。 不完全なドキュメントと膨らませたコーパスサイズは、代表性や複製性を曖昧にします。 この厳密な枠組みは,音質に大きな影響を与えるコーパス生成における微小なステップストーンを識別するための,有用かつ実用的なガイドラインを提供する。 最後に, LFwCという新しいコーパスを提供する。 Linuxベースのファームウェアの大規模静的解析のために設計されており、2,365のネットワークアプライアンスをカバーする10,913の高品質なイメージで構成されている。 私たちは、リッチなメタデータと、複製可能なスクリプトをコミュニティと共有しています。 我々は、アンパックを検証し、重複を解消し、内容を識別し、バグ基盤の真実を提供する。 ISAとLinuxカーネルを識別する。 すべてのサンプルはオープンソースツールのFACTでアンパックできる。

In this paper, we provide practical tools to improve the scientific soundness of firmware corpora beyond the state of the art. We identify binary analysis challenges that significantly impact corpus creation. We use them to derive a framework of key corpus requirements that nurture the scientific goals of replicability and representativeness. We apply the framework to 44 top tier papers and collect 704 data points to show that there is currently no common ground on corpus creation. We discover in otherwise excellent work, that incomplete documentation and inflated corpus sizes blur visions on representativeness and hinder replicability. Our results show that the strict framework provides useful and practical guidelines that can identify miniscule step stones in corpus creation with significant impact on soundness. Finally, we show that it is possible to meet all requirements: We provide a new corpus called LFwC. It is designed for large-scale static analyses on Linux-based firmware and consists of 10,913 high-quality images, covering 2,365 network appliances. We share rich meta data and scripts for replicability with the community. We verify unpacking, perform deduplication, identify contents, and provide bug ground truth. We identify ISAs and Linux kernels. All samples can be unpacked with the open source tool FACT.
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# EVIT: イベント推論のためのイベント指向のインストラクションチューニング

EVIT: Event-Oriented Instruction Tuning for Event Reasoning ( http://arxiv.org/abs/2404.11978v1 )

ライセンス: Link先を確認
Zhengwei Tao, Xiancai Chen, Zhi Jin, Xiaoying Bai, Haiyan Zhao, Yiwei Lou, (参考訳) イベント(英: Event)とは、特定の背景の下で発生する特定の出来事、出来事、または出来事を指す。 イベント推論は、特定の関係に従ってイベントを推論し、将来のイベントを予測することを目的としている。 イベント推論の最先端技術は、様々な自然言語処理アプリケーションにおいて重要な役割を担っている。 大規模言語モデル(LLM)は、その豊富な知識と推論能力のために、イベント推論において大きな進歩を遂げている。 しかし、現在使われている命令調整モデルでは、これらのタスクを管理するのに例外的な習熟度を一貫して示していない。 この違いは、イベントの明示的なモデリングや命令データ内のイベントの相互接続がないことから生じる。 その結果、これらのモデルは、解釈と出来事の人間の理解のギャップを埋めるのに苦労しながら、イベント構造とセマンティクスを理解する上で困難に直面します。 さらに、イベント関係の把握における制限は、関連するイベント知識を効果的に推論し、組み込む制約付きイベント推論能力をもたらす。 本稿では,LLMを学習するためのイベント指向インストラクションチューニング(EvIT)を提案する。 具体的には、まず、イベントの構造とセマンティクスを含むイベント四重項という新しい構造を提案し、イベント表現で完結する。 次に、構造に基づいてイベント関連学習を設計する。 学習を命令チューニングの定式化にカプセル化することで,モデルの事象推論能力の向上を図る。 大規模コーパスからイベント四重項を抽出するためのヒューリスティックな教師なし手法を設計する。 最後に、イベント指向のインストラクションチューニングでLlamaモデルを微調整します。 いくつかのデータセット上でイベント推論タスクに関する広範な実験を行う。 自動的および人的評価は、イベント推論においてEvITが競合性能を達成することを示す。

Events refer to specific occurrences, incidents, or happenings that take place under a particular background. Event reasoning aims to infer events according to certain relations and predict future events. The cutting-edge techniques for event reasoning play a crucial role in various natural language processing applications. Large language models (LLMs) have made significant advancements in event reasoning owing to their wealth of knowledge and reasoning capabilities. However, smaller instruction-tuned models currently in use do not consistently demonstrate exceptional proficiency in managing these tasks. This discrepancy arises from the absence of explicit modeling of events and the interconnections of them within their instruction data. Consequently, these models face challenges in comprehending event structures and semantics while struggling to bridge the gap between their interpretations and human understanding of events. Additionally, their limitations in grasping event relations lead to constrained event reasoning abilities to effectively deduce and incorporate pertinent event knowledge. In this paper, we propose Event-Oriented Instruction Tuning (EvIT) to train our LLM. Specifically, we first propose a novel structure named event quadruple which contains the structure and semantics of events and is complete in the event representation. We then design event-relation learning based on the structures. We encapsulate the learning into the instruction-tuning formulation to better stimulate the event reasoning capacity of our model. We design a heuristic unsupervised method to mine event quadruple from a large-scale corpus. At last, we finetune a Llama model on our Event-Oriented Instruction Tuning. We conduct extensive experiments on event reasoning tasks on several datasets. Automatic and human evaluations demonstrate EvIT achieves competitive performances on event reasoning.
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# MTGA:イベントベースのリップ読み取りのための多視点時間粒度アグリゲーション

MTGA: Multi-view Temporal Granularity aligned Aggregation for Event-based Lip-reading ( http://arxiv.org/abs/2404.11979v1 )

ライセンス: Link先を確認
Wenhao Zhang, Jun Wang, Yong Luo, Lei Yu, Wei Yu, Zheng He, (参考訳) 唇読みは、話者の唇の動きの視覚情報を利用して、単語や文を認識することである。 既存のイベントベースのリップ読み取りソリューションは、異なるフレームレートブランチを統合して、様々な粒度の時空間的特徴を学習する。 しかし、イベントをイベントフレームに集約すると、必然的にフレーム内の微細な時間情報が失われる。 この欠点を解消するために,MTGA(Multi-view Temporal Granularity aligned Aggregation)と呼ばれる新しいフレームワークを提案する。 具体的には、まず、時間分割されたボクセルグラフリストという新しいイベント表現法を提案し、そこでは、最も重要な局所ボクセルを時間的にグラフリストに接続する。 次に、時間的粒度アライメントに基づく時空間融合モジュールを設計し、イベントフレームから抽出した大域的空間的特徴と、ボクセルグラフリストに含まれる局所的空間的特徴と時間的特徴を効果的にアライメントし統合する。 最後に,位置符号化を組み込んだ時間アグリゲーションモジュールを設計し,局所的な絶対的空間的・大域的時間的情報の取得を可能にする。 実験により,本手法は,イベントベースおよびビデオベースの唇読解法よりも優れていることが示された。 私たちのコードは公開されます。

Lip-reading is to utilize the visual information of the speaker's lip movements to recognize words and sentences. Existing event-based lip-reading solutions integrate different frame rate branches to learn spatio-temporal features of varying granularities. However, aggregating events into event frames inevitably leads to the loss of fine-grained temporal information within frames. To remedy this drawback, we propose a novel framework termed Multi-view Temporal Granularity aligned Aggregation (MTGA). Specifically, we first present a novel event representation method, namely time-segmented voxel graph list, where the most significant local voxels are temporally connected into a graph list. Then we design a spatio-temporal fusion module based on temporal granularity alignment, where the global spatial features extracted from event frames, together with the local relative spatial and temporal features contained in voxel graph list are effectively aligned and integrated. Finally, we design a temporal aggregation module that incorporates positional encoding, which enables the capture of local absolute spatial and global temporal information. Experiments demonstrate that our method outperforms both the event-based and video-based lip-reading counterparts. Our code will be publicly available.
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# 弱教師付きインクリメンタルセマンティックセマンティックセグメンテーションにおけるテンディエンス駆動による相互排他性

Tendency-driven Mutual Exclusivity for Weakly Supervised Incremental Semantic Segmentation ( http://arxiv.org/abs/2404.11981v1 )

ライセンス: Link先を確認
Chongjie Si, Xuehui Wang, Xiaokang Yang, Wei Shen, (参考訳) Weakly Incremental Learning for Semantic Segmentation (WILSS)は、トレーニング済みのセグメンテーションモデルを利用して、コスト効率と容易に利用できるイメージレベルのラベルを使用して、新しいクラスをセグメンテーションする。 WILSSを解く最も一般的な方法は、各新しいクラスのシード領域の生成であり、ピクセルレベルの監視の一形態として機能する。 しかしながら、シナリオは通常、事前訓練されたセグメンテーションモデルによってピクセルが古いクラスとして同時に予測され、シード領域によって新しいクラスが生成される。 WILSSでは、新しいクラスにピクセルレベルのアノテーションが欠如しているため、このシナリオが特に問題となる。 この問題を克服するため,本研究では,シード領域の挙動と,事前学習されたセグメンテーションモデルによって生成された予測を慎重に調整した,相互排他性に関する革新的で傾向駆動的な関係を提案する。 この関係は、新しいクラスと古いクラスの予測は、矛盾する予測問題に対処するだけでなく、漸進的な学習の固有の課題である破滅的な忘れを効果的に軽減する古いクラスの予測の保存を優先しながら、矛盾しないように規定している。 さらに、この傾向駆動の相互排他性関係の後援のもと、新しいクラスに対して擬似マスクを生成し、二段階最適化問題の解決によるモデルパラメータの更新と同時実行を可能にした。 大規模な実験により、我々のフレームワークの有効性が実証され、その結果、新しいベンチマークが確立され、この分野におけるさらなる研究の道が開けた。

Weakly Incremental Learning for Semantic Segmentation (WILSS) leverages a pre-trained segmentation model to segment new classes using cost-effective and readily available image-level labels. A prevailing way to solve WILSS is the generation of seed areas for each new class, serving as a form of pixel-level supervision. However, a scenario usually arises where a pixel is concurrently predicted as an old class by the pre-trained segmentation model and a new class by the seed areas. Such a scenario becomes particularly problematic in WILSS, as the lack of pixel-level annotations on new classes makes it intractable to ascertain whether the pixel pertains to the new class or not. To surmount this issue, we propose an innovative, tendency-driven relationship of mutual exclusivity, meticulously tailored to govern the behavior of the seed areas and the predictions generated by the pre-trained segmentation model. This relationship stipulates that predictions for the new and old classes must not conflict whilst prioritizing the preservation of predictions for the old classes, which not only addresses the conflicting prediction issue but also effectively mitigates the inherent challenge of incremental learning - catastrophic forgetting. Furthermore, under the auspices of this tendency-driven mutual exclusivity relationship, we generate pseudo masks for the new classes, allowing for concurrent execution with model parameter updating via the resolution of a bi-level optimization problem. Extensive experiments substantiate the effectiveness of our framework, resulting in the establishment of new benchmarks and paving the way for further research in this field.
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# 孤立系における観測エントロピーの一般的な増加について

On the generic increase of observational entropy in isolated systems ( http://arxiv.org/abs/2404.11985v1 )

ライセンス: Link先を確認
Teruaki Nagasawa, Kohtaro Kato, Eyuri Wakakuwa, Francesco Buscemi, (参考訳) 観測エントロピー - ボルツマンのエントロピー、ギブスのエントロピー、フォン・ノイマンのマクロエントロピー、対角エントロピーを統一する量 - は、最近、統計力学の現代的な定式化において重要な役割を果たすと議論されている。 ここでは、ペッツの統計十分性理論とレヴィ型濃度境界から得られる代数的手法を頼りに、ランダムに選択されたユニタリ進化の系における観測エントロピーが圧倒的な確率で増加し、その最大値に達する傾向を示す厳密な定理を証明している。 より正確には、システムの初期状態(純粋または混合状態)に関わらず、システムの大きさに関して十分に粗い観察が、ランダムな進化は、システムのサイズが大きくなるにつれて、その状態がマイクロカノニカル分布と実質的に区別できないことを示す。 同じ結論は、単位不変なハール分布に従ってサンプリングされたランダムな進化だけでなく、確率的進化をモデル化するより物理的に合理的な方法をもたらすと考えられる近似2-設計に対しても成立する。

Observational entropy - a quantity that unifies Boltzmann's entropy, Gibbs' entropy, von Neumann's macroscopic entropy, and the diagonal entropy - has recently been argued to play a key role in a modern formulation of statistical mechanics. Here, relying on algebraic techniques taken from Petz's theory of statistical sufficiency and on a Levy-type concentration bound, we prove rigorous theorems showing how the observational entropy of a system undergoing a unitary evolution chosen at random tends to increase with overwhelming probability and to reach its maximum very quickly. More precisely, we show that for any observation that is sufficiently coarse with respect to the size of the system, regardless of the initial state of the system (be it pure or mixed), random evolution renders its state practically indistinguishable from the microcanonical distribution with a probability approaching one as the size of the system grows. The same conclusion holds not only for random evolutions sampled according to the unitarily invariant Haar distribution, but also for approximate 2-designs, which are thought to provide a more physically reasonable way to model random evolutions.
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# マルチPhys:マルチパーソン物理を意識した3次元運動推定

MultiPhys: Multi-Person Physics-aware 3D Motion Estimation ( http://arxiv.org/abs/2404.11987v1 )

ライセンス: Link先を確認
Nicolas Ugrinovic, Boxiao Pan, Georgios Pavlakos, Despoina Paschalidou, Bokui Shen, Jordi Sanchez-Riera, Francesc Moreno-Noguer, Leonidas Guibas, (参考訳) モノクロビデオから多人数動作を復元する手法であるMultiPhysを紹介する。 私たちの焦点は、様々なエンゲージメントの度合いで、ペアの個人間のコヒーレントな空間配置をキャプチャすることにあります。 MultiPhysは物理的に認識されており、発破や閉塞に対する堅牢性を示し、2人の個人間の侵入問題を効果的に排除する。 本研究では,運動量に基づく運動を物理シミュレーターに自動回帰的に供給するパイプラインを考案する。 そこで本研究では,シミュレーションの精度を損なうことなく,モデルがシミュレータの特性を活用できるようにするコンポーネントについて紹介する。 これにより、運動的コヒーレントかつ物理的に準拠する最終的な運動推定が得られる。 個人間相互作用を特徴とする3つの挑戦的データセットの広範囲な評価により,本手法は,動作精度と滑稽性に関する最先端技術と競合しながら,侵入や足のスケートに伴う誤差を著しく低減することが示された。 結果とコードはプロジェクトのページ(http://www.iri.upc.edu/people/nugrinovic/multiphys/)で確認できます。

We introduce MultiPhys, a method designed for recovering multi-person motion from monocular videos. Our focus lies in capturing coherent spatial placement between pairs of individuals across varying degrees of engagement. MultiPhys, being physically aware, exhibits robustness to jittering and occlusions, and effectively eliminates penetration issues between the two individuals. We devise a pipeline in which the motion estimated by a kinematic-based method is fed into a physics simulator in an autoregressive manner. We introduce distinct components that enable our model to harness the simulator's properties without compromising the accuracy of the kinematic estimates. This results in final motion estimates that are both kinematically coherent and physically compliant. Extensive evaluations on three challenging datasets characterized by substantial inter-person interaction show that our method significantly reduces errors associated with penetration and foot skating, while performing competitively with the state-of-the-art on motion accuracy and smoothness. Results and code can be found on our project page (http://www.iri.upc.edu/people/nugrinovic/multiphys/).
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# 多行動レコメンデーションのための知識を考慮した多言語コントラスト学習

Knowledge-Aware Multi-Intent Contrastive Learning for Multi-Behavior Recommendation ( http://arxiv.org/abs/2404.11993v1 )

ライセンス: Link先を確認
Shunpan Liang, Junjie Zhao, Chen Li, Yu Lei, (参考訳) マルチ振る舞いレコメンデーションは、ビュー、カートの追加、購入といったさまざまな行動に基づいて、より正確な選択をユーザに提供することで、ユーザエクスペリエンスを最適化する。 マルチビヘイビアレコメンデーションに関する最近の研究は、主に暗黙的な視点から、マルチビヘイビア間の接続と差異を探求している。 具体的には、ブラックボックスニューラルネットワークを使ってそれらの関係を直接モデル化する。 実際、異なる行動下でのユーザとアイテムとのインタラクションは、異なる意図によって駆動される。 例えば、ユーザーが製品を見るとき、評価やブランドといった情報にもっと注意を払う傾向がある。 しかし、購入フェーズに関しては、ユーザーはより価格に敏感になる。 マルチビヘイビア・リコメンデーションにおけるこの課題とデータ分散性の問題に対処するため,我々は,KAMCL(Knowledge-Aware Multi-Intent Contrastive Learning)モデルを提案する。 このモデルは、インテントを構築するために知識グラフ内の関係を利用し、より正確なレコメンデーションを達成するためのインテントの観点から、ユーザのマルチビヘイビア間の接続をマイニングすることを目的としている。 KAMCLは、データの不足を軽減し、ユーザ表現をさらに強化する2つの対照的な学習スキームを備えている。 3つの実際のデータセットに対する大規模な実験は、我々のモデルの優位性を示している。

Multi-behavioral recommendation optimizes user experiences by providing users with more accurate choices based on their diverse behaviors, such as view, add to cart, and purchase. Current studies on multi-behavioral recommendation mainly explore the connections and differences between multi-behaviors from an implicit perspective. Specifically, they directly model those relations using black-box neural networks. In fact, users' interactions with items under different behaviors are driven by distinct intents. For instance, when users view products, they tend to pay greater attention to information such as ratings and brands. However, when it comes to the purchasing phase, users become more price-conscious. To tackle this challenge and data sparsity problem in the multi-behavioral recommendation, we propose a novel model: Knowledge-Aware Multi-Intent Contrastive Learning (KAMCL) model. This model uses relationships in the knowledge graph to construct intents, aiming to mine the connections between users' multi-behaviors from the perspective of intents to achieve more accurate recommendations. KAMCL is equipped with two contrastive learning schemes to alleviate the data scarcity problem and further enhance user representations. Extensive experiments on three real datasets demonstrate the superiority of our model.
翻訳日:2024-04-19 13:01:02 公開日:2024-04-18
# DST-GTN:トラフィック予測のための動的時空間グラフトランスネットワーク

DST-GTN: Dynamic Spatio-Temporal Graph Transformer Network for Traffic Forecasting ( http://arxiv.org/abs/2404.11996v1 )

ライセンス: Link先を確認
Songtao Huang, Hongjin Song, Tianqi Jiang, Akbar Telikani, Jun Shen, Qingguo Zhou, Binbin Yong, Qiang Wu, (参考訳) 正確な交通予測は効果的な都市計画と混雑管理に不可欠である。 深層学習(DL)アプローチは、トラフィック予測において非常に成功したが、トラフィックダイナミクスの複雑さを捉える上ではまだ課題に直面している。 本稿では,空間的特徴が本質的に動的であり,時間とともに変化することが強調され,この問題に対処する。 動的時空間(Dyn-ST)特徴と呼ばれる,空間的特徴を様々な時間にわたってカプセル化する,詳細な特徴表現が導入された。 さらに,Dyn-ST特徴と他の交点間の動的隣接関係を捉えることにより,動的時空間グラフ変換ネットワーク(DST-GTN)を提案する。 DST-GTNは、低域通過フィルタと全域通過フィルタに適応重みを適用して、ノード間の動的ST関係を正確にモデル化し、グローバルおよび局所ST特性の表現を洗練し、トラフィック時系列データからDyn-ST特徴の抽出を可能にする。 公共データセットに関する数値実験を通じて、DST-GTNは、様々な交通予測タスクに対して最先端のパフォーマンスを達成し、安定性を向上する。

Accurate traffic forecasting is essential for effective urban planning and congestion management. Deep learning (DL) approaches have gained colossal success in traffic forecasting but still face challenges in capturing the intricacies of traffic dynamics. In this paper, we identify and address this challenges by emphasizing that spatial features are inherently dynamic and change over time. A novel in-depth feature representation, called Dynamic Spatio-Temporal (Dyn-ST) features, is introduced, which encapsulates spatial characteristics across varying times. Moreover, a Dynamic Spatio-Temporal Graph Transformer Network (DST-GTN) is proposed by capturing Dyn-ST features and other dynamic adjacency relations between intersections. The DST-GTN can model dynamic ST relationships between nodes accurately and refine the representation of global and local ST characteristics by adopting adaptive weights in low-pass and all-pass filters, enabling the extraction of Dyn-ST features from traffic time-series data. Through numerical experiments on public datasets, the DST-GTN achieves state-of-the-art performance for a range of traffic forecasting tasks and demonstrates enhanced stability.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# 重み付き参照画像セグメント化のためのカリキュラムポイントプロンプト

Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation ( http://arxiv.org/abs/2404.11998v1 )

ライセンス: Link先を確認
Qiyuan Dai, Sibei Yang, (参考訳) Referring Image segmentation (RIS)は、画像中の参照を対応する自然言語表現を通じて正確にセグメント化することを目的としており、コスト集中型のマスクアノテーションに依存している。 したがって、弱教師付きRISは、画像テキストペアからピクセルレベルのセマンティクスへと学習する。 セグメンテーション精度を高めるための自然なアプローチは、イメージセグメンテーション基礎モデルSAMで弱教師付きRISを強化することである。 それでも、SAMの統合は限られた利益をもたらし、必然的なノイズ問題やオブジェクト部品に過度にフォーカスする際の課題のためにパフォーマンスの低下につながる可能性があることを観察する。 本稿では,これらの課題に対処するための多元的カリキュラム学習戦略を取り入れた,革新的なフレームワークであるPoint PrompTing(PPT)を提案する。 具体的には、PPTのコアは、CLIPのテキストイメージアライメント能力とSAMの強力なマスク生成能力を利用するだけでなく、ノイズや過度のフォーカス問題に本質的に効果的に対処するための負のポイントプロンプトを生成するポイントジェネレータである。 さらに,PPTがより単純かつ高精度なセマンティックアライメントからより複雑なRISまで,徐々に学習できるように,オブジェクト中心の画像を用いたカリキュラム学習戦略を導入する。 実験により、我々のPTは、mIoUの弱い監督技術よりも11.34%、14.14%、および6.97%、それぞれRefCOCO+、RefCOCOCO+、G-Refで著しく優れていた。

Referring image segmentation (RIS) aims to precisely segment referents in images through corresponding natural language expressions, yet relying on cost-intensive mask annotations. Weakly supervised RIS thus learns from image-text pairs to pixel-level semantics, which is challenging for segmenting fine-grained masks. A natural approach to enhancing segmentation precision is to empower weakly supervised RIS with the image segmentation foundation model SAM. Nevertheless, we observe that simply integrating SAM yields limited benefits and can even lead to performance regression due to the inevitable noise issues and challenges in excessive focus on object parts. In this paper, we present an innovative framework, Point PrompTing (PPT), incorporated with the proposed multi-source curriculum learning strategy to address these challenges. Specifically, the core of PPT is a point generator that not only harnesses CLIP's text-image alignment capability and SAM's powerful mask generation ability but also generates negative point prompts to address the noisy and excessive focus issues inherently and effectively. In addition, we introduce a curriculum learning strategy with object-centric images to help PPT gradually learn from simpler yet precise semantic alignment to more complex RIS. Experiments demonstrate that our PPT significantly and consistently outperforms prior weakly supervised techniques on mIoU by 11.34%, 14.14%, and 6.97% across RefCOCO, RefCOCO+, and G-Ref, respectively.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# 多モード関係抽出のための変分多モードハイパーグラフアテンションネットワーク

Variational Multi-Modal Hypergraph Attention Network for Multi-Modal Relation Extraction ( http://arxiv.org/abs/2404.12006v1 )

ライセンス: Link先を確認
Qian Li, Cheng Ji, Shu Guo, Yong Zhao, Qianren Mao, Shangguang Wang, Yuntao Wei, Jianxin Li, (参考訳) マルチモーダル関係抽出(MMRE)は,画像情報を利用したテキスト中のエンティティ間の関係の同定を目的とした課題である。 既存の方法は、複数のエンティティペアを1つの文で無視することによって制限され(つまり、同じテキストと画像)、MMREタスクの難しさが増大する。 この制限に対処するため,マルチモーダル関係抽出のための変分多モードハイパーグラフ注意ネットワーク(VM-HAN)を提案する。 具体的には、まず、各文に対して対応する画像を持つマルチモーダルハイパーグラフを構築し、各文の異なるエンティティペアに対して、高階内/インターモーダルな相関関係を確立する。 さらに、変分ハイパーグラフ注意ネットワーク(V-HAN)を設計し、ガウス分布を用いて異なる実体対間の表現多様性を求め、変分注意によるより良いハイパーグラフ構造を学習する。 VM-HANは、マルチモーダル関係抽出タスクにおける最先端のパフォーマンスを達成し、精度と効率の点で既存の手法より優れている。

Multi-modal relation extraction (MMRE) is a challenging task that aims to identify relations between entities in text leveraging image information. Existing methods are limited by their neglect of the multiple entity pairs in one sentence sharing very similar contextual information (ie, the same text and image), resulting in increased difficulty in the MMRE task. To address this limitation, we propose the Variational Multi-Modal Hypergraph Attention Network (VM-HAN) for multi-modal relation extraction. Specifically, we first construct a multi-modal hypergraph for each sentence with the corresponding image, to establish different high-order intra-/inter-modal correlations for different entity pairs in each sentence. We further design the Variational Hypergraph Attention Networks (V-HAN) to obtain representational diversity among different entity pairs using Gaussian distribution and learn a better hypergraph structure via variational attention. VM-HAN achieves state-of-the-art performance on the multi-modal relation extraction task, outperforming existing methods in terms of accuracy and efficiency.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# 出力出力を有する線形フィードバックシフトレジスタを用いた擬似ランダム発生器

Pseudo-random generators using linear feedback shift registers with output extraction ( http://arxiv.org/abs/2404.12011v1 )

ライセンス: Link先を確認
Holger Nobach, (参考訳) 擬似ランダムビットストリームを生成するために,線形フィードバックシフトレジスタ(LFSR)によって供給される3つの抽出器について検討した。 具体的には、標準LFSRをフォン・ノイマン抽出器と組み合わせ、全ゼロ状態で拡張された修正LFSRを出力論理と組み合わせ、LFSRから最大2つの出力ビットに3ビットずつ変換し、入力ビットストリームを1つの出力ビットに抽出する。 後者の2つは、プライマリビットストリームからのビットの使用効率が向上し、最後の1つは50%に達する。 他のジェネレータの論理と比較すると、解析された3つの抽出器は暗号強度の点で性能が低い。 しかし,本報告の焦点は,真にランダムなビットに比べて疑似ランダムなビットストリームの品質と,LFSRからの一次ストリームのビットを使用し,有効な出力ビットを生成する効率に重点を置いている。

The use of three extractors, fed by linear feedback shift registers (LFSR) for generating pseudo-random bit streams is investigated. Specifically, a standard LFSR is combined with a von Neumann extractor, a modified LFSR, extended by the all-zero state, is combined with an output logic, which translates every three bits from the LFSR into up to two output bits and a run extraction of the input bit stream into single output bits are investigated. The latter two achieve better efficiency in using bits from the primary bit stream, the last one reaches 50\%. Compared to other generator logics, the three extractors investigated are less performant in terms of their cryptographic strength. However, the focus of this report is on the quality of the pseudo-random bit stream in comparison to really random bits and on the efficiency of using the bits of the primary stream from the LFSR and generating valid output bits, while fulfilling a minimum cryptographic strength only, beyond that of the pure LFSR.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# 多モードモデルにおける逐次構成一般化

Sequential Compositional Generalization in Multimodal Models ( http://arxiv.org/abs/2404.12013v1 )

ライセンス: Link先を確認
Semih Yagcioglu, Osman Batur İnce, Aykut Erdem, Erkut Erdem, Desmond Elliott, Deniz Yuret, (参考訳) 大規模マルチモーダルモデルの台頭は、様々な複雑なタスクにおける変換的応用を解き放ち、生成的モデリングと推論の進歩を画期的に進める道を開いた。 しかし、まだ残っているという強い疑問は、より強い一般化の形の真の能力であり、これは多モーダルなセッティングにおいてほとんど過小評価されていない。 本研究の目的は,エゴセントリックなキッチンアクティビティビデオのリッチな背景に,注意深く構築され,知覚的に根ざしたデータセットであるtextsc{CompAct} (\underline{Comp}ositional \underline{Act}ivities);footnote{Project Page: \url{http://cyberiada.github.io/CompAct}} を用いて,連続的な構成の一般化を検討することである。 データセットの各インスタンスは、生のビデオ映像、自然発生音、クラウドソースによるステップバイステップ記述の組み合わせで表現されます。 さらに重要なことは、我々の設定は、個々の概念がトレーニングセットと評価セットに一貫して分散していることを保証する一方で、それらの構成が評価セットで新しくなっていることである。 我々は,複数の一様モデルと多様モデルの総合的な評価を行う。 以上の結果から,バイモーダルモデルとトリモーダルモデルでは,テキストのみに比較して明確なエッジがみられた。 これは、この領域における将来の研究の軌跡をチャート化しながら、マルチモーダリティの重要性を強調している。

The rise of large-scale multimodal models has paved the pathway for groundbreaking advances in generative modeling and reasoning, unlocking transformative applications in a variety of complex tasks. However, a pressing question that remains is their genuine capability for stronger forms of generalization, which has been largely underexplored in the multimodal setting. Our study aims to address this by examining sequential compositional generalization using \textsc{CompAct} (\underline{Comp}ositional \underline{Act}ivities)\footnote{Project Page: \url{http://cyberiada.github.io/CompAct}}, a carefully constructed, perceptually grounded dataset set within a rich backdrop of egocentric kitchen activity videos. Each instance in our dataset is represented with a combination of raw video footage, naturally occurring sound, and crowd-sourced step-by-step descriptions. More importantly, our setup ensures that the individual concepts are consistently distributed across training and evaluation sets, while their compositions are novel in the evaluation set. We conduct a comprehensive assessment of several unimodal and multimodal models. Our findings reveal that bi-modal and tri-modal models exhibit a clear edge over their text-only counterparts. This highlights the importance of multimodality while charting a trajectory for future research in this domain.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# グラフ統合による変分攻撃に対する言語モデルのロバスト性向上

Enhance Robustness of Language Models Against Variation Attack through Graph Integration ( http://arxiv.org/abs/2404.12014v1 )

ライセンス: Link先を確認
Zi Xiong, Lizhi Qing, Yangyang Kang, Jiawei Liu, Hongsong Li, Changlong Sun, Xiaozhong Liu, Wei Lu, (参考訳) 自然言語処理(NLP)における事前学習言語モデル(PLM)の普及により、性能が大幅に向上した。 しかし、これらのモデルが敵対的攻撃に対する脆弱性(例えば、麻薬ディーラーからのヒントを偽造するなど)は、特に中国語では、その多様性と多様性と複雑な構造が豊富であり、致命的な理解を欠いている。 本研究では,中国コンテンツにおける文字変動攻撃に対するPLMのロバスト性を高めるため,CHANGE(Chenese vAriatioN Graph Enhancement)を提案する。 CHANGEは漢字変化グラフをPLMに組み込む新しい手法を提案する。 グラフ構造を利用した様々な補足タスクを設計することで、CHANGEは本質的に PLM の逆操作されたテキストの解釈を強化する。 多数のNLPタスクで実施された実験は、CHANGEが敵の攻撃と戦う際に現在の言語モデルよりも優れており、堅牢な言語モデル研究に重要な貢献をすることを示している。 これらの知見は、ロバスト言語モデルの基礎研究に寄与し、実世界のアプリケーションのためのグラフ誘導事前学習戦略のかなりの可能性を強調している。

The widespread use of pre-trained language models (PLMs) in natural language processing (NLP) has greatly improved performance outcomes. However, these models' vulnerability to adversarial attacks (e.g., camouflaged hints from drug dealers), particularly in the Chinese language with its rich character diversity/variation and complex structures, hatches vital apprehension. In this study, we propose a novel method, CHinese vAriatioN Graph Enhancement (CHANGE), to increase the robustness of PLMs against character variation attacks in Chinese content. CHANGE presents a novel approach for incorporating a Chinese character variation graph into the PLMs. Through designing different supplementary tasks utilizing the graph structure, CHANGE essentially enhances PLMs' interpretation of adversarially manipulated text. Experiments conducted in a multitude of NLP tasks show that CHANGE outperforms current language models in combating against adversarial attacks and serves as a valuable contribution to robust language model research. These findings contribute to the groundwork on robust language models and highlight the substantial potential of graph-guided pre-training strategies for real-world applications.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# CLIPはバナナの皮をむくことについて何を知っているのか?

What does CLIP know about peeling a banana? ( http://arxiv.org/abs/2404.12015v1 )

ライセンス: Link先を確認
Claudia Cuttano, Gabriele Rosi, Gabriele Trivigno, Giuseppe Averta, (参考訳) 人間は、特定のアクションをサポートするツールを識別する能力を示す。 対象部品とそれらが促進する行動の関連は通常、余裕と呼ばれる。 知的なロボットが日々の生活の物体を使えるようにするためには、必要なタスクに応じて物体を分割できることが不可欠だ。 従来の割当セグメンテーションのための教師付き学習手法は、コストの高いピクセルレベルのアノテーションを必要とするが、弱い教師付きアプローチは、要求の少ないものの、それでもオブジェクト-インタラクションの例に頼り、クローズドなアクションのセットをサポートする。 これらの制限はスケーラビリティを妨げ、バイアスを生じさせ、通常、事前定義されたアクションの限られたセットにモデルを制限します。 本稿では,CLIPのような大規模トレーニング済みビジョンランゲージモデルに埋め込まれた暗黙のアベイランス知識を活用することで,これらの制限を克服する。 CLIPは, 空き時間検出のために明示的に訓練されていないが, タスクに有用な情報を保持することを実験的に実証した。 私たちのAffordanceCLIPは、特別なトレーニングを行う方法と比較して、競争力のあるゼロショットのパフォーマンスを実現しています。 i) 予め定義されたセットだけでなく,いかなるアクションプロンプトでも機能する。 二 既存のソリューションと比べ、少数の追加パラメータのみを訓練すること。 三 行動対象ペアの直接監督の必要性を排除し、モデルの機能に基づく推論のための新たな視点を開くこと。

Humans show an innate capability to identify tools to support specific actions. The association between objects parts and the actions they facilitate is usually named affordance. Being able to segment objects parts depending on the tasks they afford is crucial to enable intelligent robots to use objects of daily living. Traditional supervised learning methods for affordance segmentation require costly pixel-level annotations, while weakly supervised approaches, though less demanding, still rely on object-interaction examples and support a closed set of actions. These limitations hinder scalability, may introduce biases, and usually restrict models to a limited set of predefined actions. This paper proposes AffordanceCLIP, to overcome these limitations by leveraging the implicit affordance knowledge embedded within large pre-trained Vision-Language models like CLIP. We experimentally demonstrate that CLIP, although not explicitly trained for affordances detection, retains valuable information for the task. Our AffordanceCLIP achieves competitive zero-shot performance compared to methods with specialized training, while offering several advantages: i) it works with any action prompt, not just a predefined set; ii) it requires training only a small number of additional parameters compared to existing solutions and iii) eliminates the need for direct supervision on action-object pairs, opening new perspectives for functionality-based reasoning of models.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering

Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering ( http://arxiv.org/abs/2404.12020v1 )

ライセンス: Link先を確認
Jie Ma, Min Hu, Pinghui Wang, Wangchun Sun, Lingyun Song, Hongbin Pei, Jun Liu, Youtian Du, (参考訳) AVQA(Audio-Visual Question Answering)は複雑なマルチモーダル推論タスクであり、音声とビデオの入力ペアに基づいて、インテリジェントなシステムが自然言語クエリに正確に応答するよう要求する。 それでも、一般的なAVQAアプローチは、データセットのバイアスを過度に学習する傾向があり、結果としてロバスト性が低下する。 さらに、現在のデータセットはこれらの方法の正確な診断を提供していないかもしれない。 これらの課題に対処するために、まず、公開データセット(\textit{MUSIC-AVQA})のテストスプリット内の質問を表現し、その後、分割された質問に分配シフトを導入するという、2つのステップで構築された新しいデータセットである \textit{MUSIC-AVQA-R} を提案する。 前者は多様で多様なテストスペースを導き、後者は稀で頻繁で全体的な質問に対する包括的な堅牢性評価をもたらす。 次に, バイアス学習を克服するために, 多面サイクル協調型バイアス回避戦略を利用する頑健なアーキテクチャを提案する。 実験の結果、このアーキテクチャは両方のデータセットで最先端のパフォーマンスを実現し、特に提案したデータセットでは9.68\%の大幅な改善が得られた。 これら2つのデータセットに対して大規模なアブレーション実験を行い、デバイアスング戦略の有効性を検証した。 さらに,既存のマルチモーダルQA手法の限界ロバスト性を,データセットの評価を通じて強調する。

Audio-Visual Question Answering (AVQA) is a complex multi-modal reasoning task, demanding intelligent systems to accurately respond to natural language queries based on audio-video input pairs. Nevertheless, prevalent AVQA approaches are prone to overlearning dataset biases, resulting in poor robustness. Furthermore, current datasets may not provide a precise diagnostic for these methods. To tackle these challenges, firstly, we propose a novel dataset, \textit{MUSIC-AVQA-R}, crafted in two steps: rephrasing questions within the test split of a public dataset (\textit{MUSIC-AVQA}) and subsequently introducing distribution shifts to split questions. The former leads to a large, diverse test space, while the latter results in a comprehensive robustness evaluation on rare, frequent, and overall questions. Secondly, we propose a robust architecture that utilizes a multifaceted cycle collaborative debiasing strategy to overcome bias learning. Experimental results show that this architecture achieves state-of-the-art performance on both datasets, especially obtaining a significant improvement of 9.68\% on the proposed dataset. Extensive ablation experiments are conducted on these two datasets to validate the effectiveness of the debiasing strategy. Additionally, we highlight the limited robustness of existing multi-modal QA methods through the evaluation on our dataset.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# ロスレス大言語モデル高速化のための隠れ転送による並列デコーディング

Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration ( http://arxiv.org/abs/2404.12022v1 )

ライセンス: Link先を確認
Pengfei Wu, Jiahao Liu, Zhuocheng Gong, Qifan Wang, Jinpeng Li, Jingang Wang, Xunliang Cai, Dongyan Zhao, (参考訳) 大規模言語モデル(LLM)は、最近、幅広いタスクで顕著なパフォーマンスを示している。 しかし、LLMのかなりの数のパラメータは、モデル推論における大きな遅延に寄与する。 これは、単一のフォワードプロセスでトークンを1つ生成し、GPUの並列コンピューティング能力を十分に活用できない自動回帰復号法を利用する場合、特に顕著である。 本稿では,複数の連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわち「textit{hidden transfer}」を提案する。 この考え方は、前のコンテキストの中間的な隠れ状態が生成すべき未来のトークンの隠れ状態であるtextit{pseudo}に転送し、擬似隠蔽状態が次のトランスフォーマー層を通過させることで、より多くの意味情報を同化し、将来のトークンの予測精度を優れたものにするというものである。 さらに,新たなツリーアテンション機構を用いて,出力シーケンスの複数の候補を同時に生成し,検証することにより,損失のない生成を保証し,提案手法の生成効率をさらに向上する。 実験により,本手法の有効性が示された。 モチベーションを証明するために、多くの分析実験を行います。 加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。

Large language models (LLMs) have recently shown remarkable performance across a wide range of tasks. However, the substantial number of parameters in LLMs contributes to significant latency during model inference. This is particularly evident when utilizing autoregressive decoding methods, which generate one token in a single forward process, thereby not fully capitalizing on the parallel computing capabilities of GPUs. In this paper, we propose a novel parallel decoding approach, namely \textit{hidden transfer}, which decodes multiple successive tokens simultaneously in a single forward pass. The idea is to transfer the intermediate hidden states of the previous context to the \textit{pseudo} hidden states of the future tokens to be generated, and then the pseudo hidden states will pass the following transformer layers thereby assimilating more semantic information and achieving superior predictive accuracy of the future tokens. Besides, we use the novel tree attention mechanism to simultaneously generate and verify multiple candidates of output sequences, which ensure the lossless generation and further improves the generation efficiency of our method. Experiments demonstrate the effectiveness of our method. We conduct a lot of analytic experiments to prove our motivation. In terms of acceleration metrics, we outperform all the single-model acceleration techniques, including Medusa and Self-Speculative decoding.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# マイクロ圧縮認識のためのメタ補助学習

Meta-Auxiliary Learning for Micro-Expression Recognition ( http://arxiv.org/abs/2404.12024v1 )

ライセンス: Link先を確認
Jingyao Wang, Yunhan Tian, Yuxuan Yang, Xiaoxin Chen, Changwen Zheng, Wenwen Qiang, (参考訳) マイクロ・エクスプレッション(ME)は、人々の隠れた感情を明らかにする不随意運動であり、感情検出においてその客観性に多くの関心を集めている。 しかし、様々なシナリオで広く応用されているにもかかわらず、MER(micro-Expression Recognition)は3つの理由から現実生活において難しい問題となっている。 (i)データレベル:データ不足と不均衡なクラス。 (二)機能レベル:微妙、急激な変化、及びMEの複雑な特徴 (三)意思決定レベル:個人差の影響。 これらの問題に対処するために,高速かつ堅牢なマイクロ圧縮認識のための,LightmanNetと呼ばれる二分岐メタ補助学習手法を提案する。 具体的には、LightmanNetは二分岐二レベル最適化プロセスを通じて、限られたデータから一般的なMER知識を学習する。 二 第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第一段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第一段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階において、第二段階的に、第二段階において、第二段階的に、第二段階的に、第二段階において、第二段階的に、第二段階において、第二段階において、第二段階を学習する。 学習の2つの分野は、意味のあるタスク固有のMER知識の学習モデルと、その一般化能力を損なう可能性のあるMEと感情の間の学習ノイズや表面的つながりを避けながら、協調的に制約する。 第二に、LightmanNetは学習したタスク固有の知識をさらに洗練し、モデルの一般化と効率を改善します。 さまざまなベンチマークデータセットに対する大規模な実験は、LightmanNetの優れた堅牢性と効率を示している。

Micro-expressions (MEs) are involuntary movements revealing people's hidden feelings, which has attracted numerous interests for its objectivity in emotion detection. However, despite its wide applications in various scenarios, micro-expression recognition (MER) remains a challenging problem in real life due to three reasons, including (i) data-level: lack of data and imbalanced classes, (ii) feature-level: subtle, rapid changing, and complex features of MEs, and (iii) decision-making-level: impact of individual differences. To address these issues, we propose a dual-branch meta-auxiliary learning method, called LightmanNet, for fast and robust micro-expression recognition. Specifically, LightmanNet learns general MER knowledge from limited data through a dual-branch bi-level optimization process: (i) In the first level, it obtains task-specific MER knowledge by learning in two branches, where the first branch is for learning MER features via primary MER tasks, while the other branch is for guiding the model obtain discriminative features via auxiliary tasks, i.e., image alignment between micro-expressions and macro-expressions since their resemblance in both spatial and temporal behavioral patterns. The two branches of learning jointly constrain the model of learning meaningful task-specific MER knowledge while avoiding learning noise or superficial connections between MEs and emotions that may damage its generalization ability. (ii) In the second level, LightmanNet further refines the learned task-specific knowledge, improving model generalization and efficiency. Extensive experiments on various benchmark datasets demonstrate the superior robustness and efficiency of LightmanNet.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# クロスエントロピー深層学習を用いたPIDチューニング:リアプノフ安定性解析

PID Tuning using Cross-Entropy Deep Learning: a Lyapunov Stability Analysis ( http://arxiv.org/abs/2404.12025v1 )

ライセンス: Link先を確認
Hector Kohler, Benoit Clement, Thomas Chaffre, Gilles Le Chenadec, (参考訳) 水中無人機(UUV)は、身体に作用する外部の妨害力を常に補償しなければならない。 適応制御理論(Adaptive Control theory)は、一般に、プロセスの変動に対する応答の柔軟性を制御法に付与するために用いられる。 今日では、モデルベース制御構造と深層モデルフリー学習アルゴリズムが組み合わさる分野において、学習ベース(LB)適応手法が先導されている。 この研究は、そのようなコントローラの安定性を実証的に研究する実験とメトリクスを提案する。 クロスエントロピー深層学習法を用いて適応パラメータを決定するLB適応制御系において,この安定性解析を行う。

Underwater Unmanned Vehicles (UUVs) have to constantly compensate for the external disturbing forces acting on their body. Adaptive Control theory is commonly used there to grant the control law some flexibility in its response to process variation. Today, learning-based (LB) adaptive methods are leading the field where model-based control structures are combined with deep model-free learning algorithms. This work proposes experiments and metrics to empirically study the stability of such a controller. We perform this stability analysis on a LB adaptive control system whose adaptive parameters are determined using a Cross-Entropy Deep Learning method.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# MLSトラック:RMOTにおけるマルチレベルセマンティックインタラクション

MLS-Track: Multilevel Semantic Interaction in RMOT ( http://arxiv.org/abs/2404.12031v1 )

ライセンス: Link先を確認
Zeliang Ma, Song Yang, Zhe Cui, Zhicheng Zhao, Fei Su, Delong Liu, Jingyu Wang, (参考訳) マルチオブジェクト追跡タスクの新たなトレンドは、自然言語を用いて関心の対象を追跡することである。 しかし、ペアのプロンプト・インスタンスデータの不足は、その進歩を妨げている。 この課題に対処するために,Unreal Engine 5をベースとした高品質で低コストなデータ生成手法を提案するとともに,交差点監視ビデオのシーンを主眼として,人や車両の外観と動作を詳述した,新たなベンチマークデータセットであるRefer-UE-Cityを構築した。 具体的には、14のビデオに合計714の式を提供し、Refer-KITTIデータセットに匹敵する規模である。 さらに,SGM (Semantic Guidance Module) とSCB (Semantic correlation Branch) を導入することで,モデルとテキスト間の相互作用を階層的に強化するマルチレベル意味誘導型マルチオブジェクトフレームワーク MLS-Track を提案する。 Refer-UE-City と Refer-KITTI データセットの大規模な実験により,提案手法の有効性が実証された。 コードとデータセットが利用可能になる。

The new trend in multi-object tracking task is to track objects of interest using natural language. However, the scarcity of paired prompt-instance data hinders its progress. To address this challenge, we propose a high-quality yet low-cost data generation method base on Unreal Engine 5 and construct a brand-new benchmark dataset, named Refer-UE-City, which primarily includes scenes from intersection surveillance videos, detailing the appearance and actions of people and vehicles. Specifically, it provides 14 videos with a total of 714 expressions, and is comparable in scale to the Refer-KITTI dataset. Additionally, we propose a multi-level semantic-guided multi-object framework called MLS-Track, where the interaction between the model and text is enhanced layer by layer through the introduction of Semantic Guidance Module (SGM) and Semantic Correlation Branch (SCB). Extensive experiments on Refer-UE-City and Refer-KITTI datasets demonstrate the effectiveness of our proposed framework and it achieves state-of-the-art performance. Code and datatsets will be available.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# 無人航空機の監視 - 仕様, 統合, 教訓-

Monitoring Unmanned Aircraft: Specification, Integration, and Lessons-learned ( http://arxiv.org/abs/2404.12035v1 )

ライセンス: Link先を確認
Jan Baumeister, Bernd Finkbeiner, Florian Kohn, Florian Löhr, Guido Manfredi, Sebastian Schirmer, Christoph Torens, (参考訳) 本稿では,ドイツの航空機メーカーであるVolocopterが設計した完全電動機へのランタイム監視の統合について報告する。 ランタイムモニタは、危険な状況とシステム障害を認識する。 モニターの正確な操作は航空機の安全のために重要であるため、モニターの開発は厳格な航空基準に従う必要がある。 これには、ログファイル分析、ハードウェア/ソフトウェア・イン・ザ・ループテスト、テスト飛行など、さまざまな開発環境へのモニタの統合が含まれている。 ストリームベースのモニタリングフレームワークであるRTLolaを使って、さまざまな要求に対してモニタを生成しました。 本稿では,代表的なモニタリング仕様と,生成したモニタの統合から学んだ教訓について述べる。 私たちの主な発見は、仕様と統合を分離する必要があるということです。なぜなら、仕様は開発プロセスを通して安定していますが、異なる開発段階では、それぞれの環境にモニターを別々に統合する必要があります。 この分離は、監視フレームワークにおいて、仕様から生成されたコアコンポーネントに影響を与えることなく、各環境にモニタを適応させる新しい抽象化レイヤとの分離を実現する。 統合の分離により、スタートアップ企業における航空機の急激な開発により、モニターのハードウェアとソフトウェア環境の頻繁な変化に迅速に対応できるようになりました。

This paper reports on the integration of runtime monitoring into fully-electric aircraft designed by Volocopter, a German aircraft manufacturer of electric multi-rotor helicopters. The runtime monitor recognizes hazardous situations and system faults. Since the correct operation of the monitor is critical for the safety of the aircraft, the development of the monitor must follow strict aeronautical standards. This includes the integration of the monitor into different development environments, such as log-file analysis, hardware/software-in-the-loop testing, and test flights. We have used the stream-based monitoring framework RTLola to generate monitors for a range of requirements. In this paper, we present representative monitoring specifications and our lessons learned from integrating the generated monitors. Our main finding is that the specification and the integration need to be decoupled, because the specification remains stable throughout the development process, whereas the different development stages require a separate integration of the monitor into each environment. We achieve this decoupling with a novel abstraction layer in the monitoring framework that adapts the monitor to each environment without affecting the core component generated from the specification. The decoupling of the integration has also allowed us to react quickly to the frequent changes in the hardware and software environment of the monitor due to the fast-paced development of the aircraft in a startup company.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# きめ細かい視覚分類のためのデータフリー知識蒸留

Data-free Knowledge Distillation for Fine-grained Visual Categorization ( http://arxiv.org/abs/2404.12037v1 )

ライセンス: Link先を確認
Renrong Shao, Wei Zhang, Jianhua Yin, Jun Wang, (参考訳) データフリー知識蒸留(DFKD)は、モデル圧縮、セキュリティプライバシ、送信制限に関連する問題に対処するための有望なアプローチである。 DFKDを利用した既存手法は, 粗粒度分類の達成に寄与しているが, 類似のカテゴリ間のより詳細な区別を必要とする細粒度分類タスクの実践的応用では, 準最適結果が得られる。 この問題に対処するため,DFKDをきめ細かな視覚分類へ拡張するDFKD-FGVC(DFKD-FGVC)という手法を提案する。 提案手法では,アテンションジェネレータ,混合高次アテンション蒸留,セマンティック特徴コントラスト学習を併用した逆蒸留方式を用いる。 具体的には、細粒度画像を識別部品の詳細で合成する空間的注意機構をジェネレータに導入する。 また, 局所的特徴と意味的文脈関係の両方に注意を払って, 部分間の複雑な相互作用と, 細粒度カテゴリーの識別的特徴の微妙な相違を捉えるために, 混合高次アテンション機構を利用する。 さらに, 蒸留フレームワークの教師モデルと学生モデルを用いて, ハイパースペースにおける高レベルの意味的特徴マップを対比し, 異なるカテゴリの差異を比較した。 本研究では,広く使用されている3つのFGVCベンチマーク(Aircraft,Cars196,CUB200)に対するアプローチを評価し,その性能を実証した。

Data-free knowledge distillation (DFKD) is a promising approach for addressing issues related to model compression, security privacy, and transmission restrictions. Although the existing methods exploiting DFKD have achieved inspiring achievements in coarse-grained classification, in practical applications involving fine-grained classification tasks that require more detailed distinctions between similar categories, sub-optimal results are obtained. To address this issue, we propose an approach called DFKD-FGVC that extends DFKD to fine-grained visual categorization~(FGVC) tasks. Our approach utilizes an adversarial distillation framework with attention generator, mixed high-order attention distillation, and semantic feature contrast learning. Specifically, we introduce a spatial-wise attention mechanism to the generator to synthesize fine-grained images with more details of discriminative parts. We also utilize the mixed high-order attention mechanism to capture complex interactions among parts and the subtle differences among discriminative features of the fine-grained categories, paying attention to both local features and semantic context relationships. Moreover, we leverage the teacher and student models of the distillation framework to contrast high-level semantic feature maps in the hyperspace, comparing variances of different categories. We evaluate our approach on three widely-used FGVC benchmarks (Aircraft, Cars196, and CUB200) and demonstrate its superior performance.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# コンセプトアクティベーションベクトルによるオープンソースLCMの安全性リスクの解明

Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector ( http://arxiv.org/abs/2404.12038v1 )

ライセンス: Link先を確認
Zhihao Xu, Ruixuan Huang, Xiting Wang, Fangzhao Wu, Jing Yao, Xing Xie, (参考訳) 現在のオープンソースの大規模言語モデル(LLM)は、パブリックリリース前に慎重に安全アライメントされることが多い。 また、LCMの安全性上の脆弱性のチェックとアライメントの堅牢性を確保するための攻撃方法も提案されている。 しかし、これらの手法の多くは中程度の攻撃成功率を有する。 成功しても、そのアウトプットの有害性は保証できないため、これらの手法がLSMの安全性の脆弱性を正確に特定していないという疑いが生じる。 本稿では, LLM のアクティベーション空間から安全概念アクティベーションベクトル (SCAV) を抽出し, LLaMA-2 のようなよく整合した LLM に対する効率的な攻撃を可能にし, LLM が完全に不整合であるかのように, 100% 近い攻撃成功率を達成する, 概念に基づくモデル説明を利用した LLM 攻撃手法を提案する。 このことは、LLMが徹底的な安全調整をした後でも、社会に公開時に潜在的リスクを及ぼす可能性があることを示唆している。 各種攻撃手法によるアウトプットの有害性を評価するため,既存の評価の潜在的な不正確さを低減し,さらに有害な内容を引き起こすことを検証した総合評価手法を提案する。 さらに、SCAVは、異なるオープンソースLLM間での転送可能性を示す。

Current open-source large language models (LLMs) are often undergone careful safety alignment before public release. Some attack methods have also been proposed that help check for safety vulnerabilities in LLMs to ensure alignment robustness. However, many of these methods have moderate attack success rates. Even when successful, the harmfulness of their outputs cannot be guaranteed, leading to suspicions that these methods have not accurately identified the safety vulnerabilities of LLMs. In this paper, we introduce a LLM attack method utilizing concept-based model explanation, where we extract safety concept activation vectors (SCAVs) from LLMs' activation space, enabling efficient attacks on well-aligned LLMs like LLaMA-2, achieving near 100% attack success rate as if LLMs are completely unaligned. This suggests that LLMs, even after thorough safety alignment, could still pose potential risks to society upon public release. To evaluate the harmfulness of outputs resulting with various attack methods, we propose a comprehensive evaluation method that reduces the potential inaccuracies of existing evaluations, and further validate that our method causes more harmful content. Additionally, we discover that the SCAVs show some transferability across different open-source LLMs.
翻訳日:2024-04-19 12:51:17 公開日:2024-04-18
# 攻撃的・ヘイトスピーチにおける境界と強度の探索 : ソーシャルメディア談話の複雑なスペクトルを明らかにする

Exploring Boundaries and Intensities in Offensive and Hate Speech: Unveiling the Complex Spectrum of Social Media Discourse ( http://arxiv.org/abs/2404.12042v1 )

ライセンス: Link先を確認
Abinew Ali Ayele, Esubalew Alemneh Jalew, Adem Chanie Ali, Seid Muhie Yimam, Chris Biemann, (参考訳) デジタルメディアの普及と社会政治学の進化は、ヘイトフルコンテンツの拡散を著しく増幅している。 現存する研究は主にテキストを二進分類に分類することに焦点を当てており、しばしばテキストに固有の攻撃性と憎悪の連続的なスペクトルを見下ろしている。 本研究では、カテゴリー分類、ヘイトターゲットの識別、評価攻撃性、ヘイトフルネス強度の3つのタスクに注釈付けされた8,258のツイートを含む、アムハラ語に対する広範なベンチマークデータセットを提案する。 私たちの研究は、ツイートの大多数が攻撃的で憎悪の度合いの低いレベルに属しており、利害関係者による早期介入の必要性が強調されていることを強調しています。 民族的および政治的憎悪の対象の出現は、我々のデータセットに顕著に重複しており、エチオピアの社会政治の景観における複雑な関係を強調している。 分類と回帰モデルを構築し、これらのタスクを扱うモデルの有効性について検討する。 以上の結果から,憎しみと不快な言葉は単純二項分類では対処できず,連続的な値範囲の変数として表されることが明らかとなった。 Afro-XLMR-largeモデルはそれぞれ75.30%、70.59%、29.42%のF1スコアを達成している。 Afro-XLMR-largeモデルの80.22%の相関係数は強いアライメントを示す。

The prevalence of digital media and evolving sociopolitical dynamics have significantly amplified the dissemination of hateful content. Existing studies mainly focus on classifying texts into binary categories, often overlooking the continuous spectrum of offensiveness and hatefulness inherent in the text. In this research, we present an extensive benchmark dataset for Amharic, comprising 8,258 tweets annotated for three distinct tasks: category classification, identification of hate targets, and rating offensiveness and hatefulness intensities. Our study highlights that a considerable majority of tweets belong to the less offensive and less hate intensity levels, underscoring the need for early interventions by stakeholders. The prevalence of ethnic and political hatred targets, with significant overlaps in our dataset, emphasizes the complex relationships within Ethiopia's sociopolitical landscape. We build classification and regression models and investigate the efficacy of models in handling these tasks. Our results reveal that hate and offensive speech can not be addressed by a simplistic binary classification, instead manifesting as variables across a continuous range of values. The Afro-XLMR-large model exhibits the best performances achieving F1-scores of 75.30%, 70.59%, and 29.42% for the category, target, and regression tasks, respectively. The 80.22% correlation coefficient of the Afro-XLMR-large model indicates strong alignments.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# セキュアコーディングコースにおける実世界のバグバウンティプログラムの利用:経験報告

Using Real-world Bug Bounty Programs in Secure Coding Course: Experience Report ( http://arxiv.org/abs/2404.12043v1 )

ライセンス: Link先を確認
Kamil Malinka, Anton Firc, Pavel Loutocký, Jakub Vostoupal, Andrej Krištofík, František Kasl, (参考訳) サイバー攻撃の増加とそれに伴う脅威に追随するため、サイバーセキュリティの専門家や新しい方法や技術に対する需要はますます高まっている。 新しいサイバーセキュリティ専門家の育成は、地域の範囲が広いため難しい課題である。 専門家が不足している分野のひとつにEthical Hackingがある。 その複雑さのため、しばしば教育上の制約に直面している。 これらの課題を認識し、現実のバグ報奨金プログラムをサイバーセキュリティカリキュラムに統合するソリューションを提案する。 この革新的なアプローチは、実践的なサイバーセキュリティ教育のギャップを埋めることと、プラスのメリットをもたらすことを目的としています。 この考え方を評価するため、我々は、IT指向の教員のためのセキュアなコーディングコースに提案されたソリューションを含める。 セキュアなプログラミングコースにおいて,学期課題の選択肢として,学生にバグ報奨金プログラムへの参加を選択させる。 結果(改善されたスキル、報告された脆弱性、セキュリティとの関係の改善など)を評価するため、学生から回答を収集しました。 課題の評価は、学生がそのような現実世界の問題を解決するのを楽しんだこと、本当の脆弱性を見つけられること、そしてそれが彼らのスキルとサイバーセキュリティの認知を高めるのに役立ったことを示していた。 実際のバグ報奨金プログラムへの参加も、テスト対象製品のセキュリティレベルに肯定的な影響を及ぼす。 また、このアプローチの潜在的なリスクと、それらを緩和する方法についても論じる。

To keep up with the growing number of cyber-attacks and associated threats, there is an ever-increasing demand for cybersecurity professionals and new methods and technologies. Training new cybersecurity professionals is a challenging task due to the broad scope of the area. One particular field where there is a shortage of experts is Ethical Hacking. Due to its complexity, it often faces educational constraints. Recognizing these challenges, we propose a solution: integrating a real-world bug bounty programme into cybersecurity curriculum. This innovative approach aims to fill the gap in practical cybersecurity education and also brings additional positive benefits. To evaluate our idea, we include the proposed solution to a secure coding course for IT-oriented faculty. We let students choose to participate in a bug bounty programme as an option for the semester assignment in a secure coding course. We then collected responses from the students to evaluate the outcomes (improved skills, reported vulnerabilities, a better relationship with security, etc.). Evaluation of the assignment showed that students enjoyed solving such real-world problems, could find real vulnerabilities, and that it helped raise their skills and cybersecurity awareness. Participation in real bug bounty programmes also positively affects the security level of the tested products. We also discuss the potential risks of this approach and how to mitigate them.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# RAM:コミュニケーションから学習したメモリシステムの実現に向けて

RAM: Towards an Ever-Improving Memory System by Learning from Communications ( http://arxiv.org/abs/2404.12045v1 )

ライセンス: Link先を確認
Jiaqi Li, Xiaobo Wang, Zihao Wang, Zilong Zheng, (参考訳) メモリを継続的に改善する革新的なRAGベースのフレームワークであるRAMを紹介します。 人間の教育的プロセスにインスパイアされたRAMは、再帰的推論に基づく検索と経験的リフレクションを利用して、メモリを継続的に更新し、ユーザのコミュニケーション的フィードバック、すなわちコミュニケーション的学習から学習する。 シミュレーションと実ユーザの両方による大規模な実験は、従来のRAG法や自己知識法よりも大幅に改善されている。 さらに、RAMは様々なフィードバックや検索方法チェーンタイプへの有望な適応性を示し、動的知識獲得と生涯学習におけるAI能力向上の可能性を示している。

We introduce RAM, an innovative RAG-based framework with an ever-improving memory. Inspired by humans' pedagogical process, RAM utilizes recursively reasoning-based retrieval and experience reflections to continually update the memory and learn from users' communicative feedback, namely communicative learning. Extensive experiments with both simulated and real users demonstrate significant improvements over traditional RAG and self-knowledge methods, particularly excelling in handling false premise and multi-hop questions. Furthermore, RAM exhibits promising adaptability to various feedback and retrieval method chain types, showcasing its potential for advancing AI capabilities in dynamic knowledge acquisition and lifelong learning.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# emrQA-msquad:SQuAD V2.0フレームワークで構築された医療データセット。

emrQA-msquad: A Medical Dataset Structured with the SQuAD V2.0 Framework, Enriched with emrQA Medical Information ( http://arxiv.org/abs/2404.12050v1 )

ライセンス: Link先を確認
Jimenez Eladio, Hao Wu, (参考訳) 機械読解包括(MRC)は、医療質問回答システム(QAS)を形作り、医療情報へのアクセスと適用の景観を変革する上で重要な役割を担っている。 しかし、複雑な用語や問題あいまいさといった医学分野における固有の課題は、革新的な解決策を必要としている。 ひとつの重要なソリューションは、専門的な医療データセットの統合と、専用のデータセットの作成である。 この戦略的アプローチはQASの精度を高め、臨床意思決定と医学研究の進歩に寄与する。 医学用語の複雑さに対処するため、特殊なデータセットが統合され、 emrQA から派生した新しい Span 抽出データセットで例示されるが、163,695 の質問と 4,136 の回答に再構成され、この新しいデータセットは emrQA-msquad データセットと呼ばれた。 さらに、曖昧な質問に対して、Span抽出タスク専用の医療データセットが導入され、システムの堅牢性が強化された。 BERT、RoBERTa、Tiny RoBERTaといった医療用モデルの微調整により、F1スコアの範囲での応答精度は10.1%から37.4%、18.7%から44.7%、16.0%から46.8%と大幅に改善された。 EmrQA-msquadデータセットはhttps://huggingface.co/datasets/Eladio/emrqa-msquadで公開されている。

Machine Reading Comprehension (MRC) holds a pivotal role in shaping Medical Question Answering Systems (QAS) and transforming the landscape of accessing and applying medical information. However, the inherent challenges in the medical field, such as complex terminology and question ambiguity, necessitate innovative solutions. One key solution involves integrating specialized medical datasets and creating dedicated datasets. This strategic approach enhances the accuracy of QAS, contributing to advancements in clinical decision-making and medical research. To address the intricacies of medical terminology, a specialized dataset was integrated, exemplified by a novel Span extraction dataset derived from emrQA but restructured into 163,695 questions and 4,136 manually obtained answers, this new dataset was called emrQA-msquad dataset. Additionally, for ambiguous questions, a dedicated medical dataset for the Span extraction task was introduced, reinforcing the system's robustness. The fine-tuning of models such as BERT, RoBERTa, and Tiny RoBERTa for medical contexts significantly improved response accuracy within the F1-score range of 0.75 to 1.00 from 10.1% to 37.4%, 18.7% to 44.7% and 16.0% to 46.8%, respectively. Finally, emrQA-msquad dataset is publicy available at https://huggingface.co/datasets/Eladio/emrqa-msquad.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# 等価述語句構造を持つ文間の単語列パターンに対応する構成詞:スパンマッチングによる教師なし構成詞解析

Constituents Correspond to Word Sequence Patterns among Sentences with Equivalent Predicate-Argument Structures: Unsupervised Constituency Parsing by Span Matching ( http://arxiv.org/abs/2404.12059v1 )

ライセンス: Link先を確認
Junjie Chen, Xiangheng He, Danushka Bollegala, Yusuke Miyao, (参考訳) 教師なし選挙区パーシング(英: Unsupervised constituency parsing)とは、目的の文において構文単位(つまり、構成要素)を形成する単語列を識別することである。 言語学者は、その成分が頻繁な単語列に対応するのを見つける述語-代名詞構造(PAS)等価文の集合を評価することによって、構成成分を識別する。 しかし、これらの情報は、多様なPASで文を観察することによって構成を識別する従来の解析手法では利用できない。 本研究では,<textbf{constituents>がPAS等価文集合内の単語列パターンに対応することを実証的に検証する。 本稿では,単語列パターンを教師なし解析に初めて適用し,周波数ベースの手法であるemph{span-overlap}を提案する。 パーシング実験は、10言語中8言語において、オーバーラップパーサーが最先端のパーサーより優れていることを示している。 さらなる差別分析により、スパンオーバーラップ法は非構成成分から非自明に分離できることを確認した。 この結果は、単語シーケンスパターンの有用性を強調している。 さらに、多言語現象が発見される: \textbf{participant-denoting componentsは、イベント記述成分よりも頻繁に起こる。 この現象は2つの構成要素の挙動の違いを示し、将来のラベル付き教師なし構文解析の基礎となる。

Unsupervised constituency parsing is about identifying word sequences that form a syntactic unit (i.e., constituents) in a target sentence. Linguists identify the constituent by evaluating a set of Predicate-Argument Structure (PAS) equivalent sentences where we find the constituent corresponds to frequent word sequences. However, such information is unavailable to previous parsing methods which identify the constituent by observing sentences with diverse PAS. In this study, we empirically verify that \textbf{constituents correspond to word sequence patterns in the PAS-equivalent sentence set}. We propose a frequency-based method \emph{span-overlap}, applying the word sequence pattern to computational unsupervised parsing for the first time. Parsing experiments show that the span-overlap parser outperforms state-of-the-art parsers in eight out of ten languages. Further discrimination analysis confirms that the span-overlap method can non-trivially separate constituents from non-constituents. This result highlights the utility of the word sequence pattern. Additionally, we discover a multilingual phenomenon: \textbf{participant-denoting constituents are more frequent than event-denoting constituents}. The phenomenon indicates a behavioral difference between the two constituent types, laying the foundation for future labeled unsupervised parsing.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# MIDGET:音楽コンディション付き3Dダンスジェネレーション

MIDGET: Music Conditioned 3D Dance Generation ( http://arxiv.org/abs/2404.12062v1 )

ライセンス: Link先を確認
Jinwu Wang, Wei Mao, Miaomiao Liu, (参考訳) 本稿では,ダンスモーションベクトル量子変分オートエンコーダ(VQ-VAE)モデルと運動生成前訓練(GPT)モデルに基づいて,MIDGETと命名されたMuseIc条件付き3DダンスGeneraTionモデルを紹介し,音楽リズムに適合する鮮明で高品質なダンスを生成する。 この分野の課題に取り組むために、我々は3つの新しいコンポーネントを紹介します。 1)モーションVQ-VAEモデルに基づく事前学習されたメモリコードブックで、異なる人間のポーズコードを保存する。 2)Motion GPTモデルを用いて音楽とモーションエンコーダによるポーズコードを生成する。 3)音楽特徴抽出のためのシンプルなフレームワーク。 我々は、既存の最先端モデルと比較し、AIST++上でアブレーション実験を行う。 実験により,提案するフレームワークは,動作品質と音楽との整合性に関する最先端のパフォーマンスを実現することを示す。

In this paper, we introduce a MusIc conditioned 3D Dance GEneraTion model, named MIDGET based on Dance motion Vector Quantised Variational AutoEncoder (VQ-VAE) model and Motion Generative Pre-Training (GPT) model to generate vibrant and highquality dances that match the music rhythm. To tackle challenges in the field, we introduce three new components: 1) a pre-trained memory codebook based on the Motion VQ-VAE model to store different human pose codes, 2) employing Motion GPT model to generate pose codes with music and motion Encoders, 3) a simple framework for music feature extraction. We compare with existing state-of-the-art models and perform ablation experiments on AIST++, the largest publicly available music-dance dataset. Experiments demonstrate that our proposed framework achieves state-of-the-art performance on motion quality and its alignment with the music.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# E-Vote Your Conscience: Perceptions of Coercion and Vote Buying and the Usability of Fake Credentials in Online Voting

E-Vote Your Conscience: Perceptions of Coercion and Vote Buying, and the Usability of Fake Credentials in Online Voting ( http://arxiv.org/abs/2404.12075v1 )

ライセンス: Link先を確認
Louis-Henri Merino, Alaleh Azhir, Haoqian Zhang, Simone Colombo, Bernhard Tellenbach, Vero Estrada-Galiñanes, Bryan Ford, (参考訳) オンライン投票は利便性とアクセシビリティに魅力があるが、個人投票よりも投票者の強制と購入に敏感である。 1つの緩和策は、有権者に偽の投票資格を付与し、強制執行者に与えることである。 偽の資格証は実際のものと同一に見えるが、最終集計から無言で省略された投下票である。 重要な未解決の疑問は、一般の有権者がこのような緩和をどう感じているか、すなわち、偽の認証情報を理解して利用できるか、そして強制的なリスクが緩和のコストを正当化するかどうかである。 本研究は,マサチューセッツ州ボストンで150名の多様な個人を対象とする,これらの質問に対する最初の体系的研究である。 全参加者が「登録」され、「投票」され、120人が偽の認証情報を通じて強制的な抵抗にさらされ、残りの参加者はコントロールグループを形成した。 120人の参加者のうち、96%が偽の認証情報を入手した。 53%が、偽の認証情報を現実世界の投票シナリオで生成する、と報告している。 しかし、10%は誤って偽の信任状で投票した。 22%は、個人的経験や、強制または投票購入事件の直接的知識を報告している。 後者の参加者は、強制力に強いシステムを、手書きの紙投票による個人投票と同じくらい信頼できると評価した。 システムを使用した参加者150人のうち、87%が支援なしに認証を作成した。 参加者はシステム・ユーザビリティ・スケールのスコアを70.4とし、これは業界の平均スコアをわずかに上回っている。 本研究の結果は, 一般的な強制問題の重要性と, 偽認証の可能性を緩和する可能性を支持するものと思われるが, ユーザエラー率は今後の作業において重要なユーザビリティの課題である。

Online voting is attractive for convenience and accessibility, but is more susceptible to voter coercion and vote buying than in-person voting. One mitigation is to give voters fake voting credentials that they can yield to a coercer. Fake credentials appear identical to real ones, but cast votes that are silently omitted from the final tally. An important unanswered question is how ordinary voters perceive such a mitigation: whether they could understand and use fake credentials, and whether the coercion risks justify the costs of mitigation. We present the first systematic study of these questions, involving 150 diverse individuals in Boston, Massachusetts. All participants "registered" and "voted" in a mock election: 120 were exposed to coercion resistance via fake credentials, the rest forming a control group. Of the 120 participants exposed to fake credentials, 96% understood their use. 53% reported that they would create fake credentials in a real-world voting scenario, given the opportunity. 10% mistakenly voted with a fake credential, however. 22% reported either personal experience with or direct knowledge of coercion or vote-buying incidents. These latter participants rated the coercion-resistant system essentially as trustworthy as in-person voting via hand-marked paper ballots. Of the 150 total participants to use the system, 87% successfully created their credentials without assistance; 83% both successfully created and properly used their credentials. Participants give a System Usability Scale score of 70.4, which is slightly above the industry's average score of 68. Our findings appear to support the importance of the coercion problem in general, and the promise of fake credentials as a possible mitigation, but user error rates remain an important usability challenge for future work.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# MaskCD:マスク分類に基づくリモートセンシング変更検出ネットワーク

MaskCD: A Remote Sensing Change Detection Network Based on Mask Classification ( http://arxiv.org/abs/2404.12081v1 )

ライセンス: Link先を確認
Weikang Yu, Xiaokang Zhang, Samiran Das, Xiao Xiang Zhu, Pedram Ghamisi, (参考訳) 深層学習を用いたリモートセンシング(RS)画像からの変化検出(CD)を文献で広く研究している。 一般的には、各ピクセルを変更または変更せずに分類することを目的とした、ピクセルワイドなラベリングタスクと見なされる。 エンコーダ・デコーダ構造における画素単位の分類網は優位性を示しているが、様々な場面で不正確な境界や不完全な物体のデライン化に悩まされている。 高解像度のRS画像の場合、部分的または完全に変更されたオブジェクトは単一のピクセルよりも注目に値する。 そこで、マスク予測と分類の観点からCDタスクを再検討し、入力画像対から分類マスクを適応的に生成することにより変化領域を検出するMaskCDを提案する。 具体的には、CLCRP(cross-level change representation perceiver)を使用して、変形可能なマルチヘッド自己アテンション(DeformMHSA)を利用して、マルチスケールな変化認識表現を学習し、符号化された特徴から時空間関係をキャプチャする。 その後、マスクアテンションに基づく検出トランスフォーマ(MA-DETR)デコーダを開発し、マスクアテンションと自己アテンション機構に基づいて、変更対象を正確に特定・識別する。 ピクセルワイズ表現を学習可能なマスク提案に復号し、これらの候補から最終的な予測を行うことで、望まれる変更対象を再構築する。 5つのベンチマークデータセットの実験結果は、提案手法が他の最先端モデルよりも優れていることを示している。 コードと事前訓練されたモデルはオンラインで入手できる(https://github.com/EricYu97/MaskCD)。

Change detection (CD) from remote sensing (RS) images using deep learning has been widely investigated in the literature. It is typically regarded as a pixel-wise labeling task that aims to classify each pixel as changed or unchanged. Although per-pixel classification networks in encoder-decoder structures have shown dominance, they still suffer from imprecise boundaries and incomplete object delineation at various scenes. For high-resolution RS images, partly or totally changed objects are more worthy of attention rather than a single pixel. Therefore, we revisit the CD task from the mask prediction and classification perspective and propose MaskCD to detect changed areas by adaptively generating categorized masks from input image pairs. Specifically, it utilizes a cross-level change representation perceiver (CLCRP) to learn multiscale change-aware representations and capture spatiotemporal relations from encoded features by exploiting deformable multihead self-attention (DeformMHSA). Subsequently, a masked-attention-based detection transformers (MA-DETR) decoder is developed to accurately locate and identify changed objects based on masked attention and self-attention mechanisms. It reconstructs the desired changed objects by decoding the pixel-wise representations into learnable mask proposals and making final predictions from these candidates. Experimental results on five benchmark datasets demonstrate the proposed approach outperforms other state-of-the-art models. Codes and pretrained models are available online (https://github.com/EricYu97/MaskCD).
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# MambaPupil: イベントベースのアイトラッキングのための双方向選択リカレントモデル

MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking ( http://arxiv.org/abs/2404.12083v1 )

ライセンス: Link先を確認
Zhong Wang, Zengyu Wan, Han Han, Bohao Liao, Yuliang Wu, Wei Zhai, Yang Cao, Zheng-jun Zha, (参考訳) イベントベースのアイトラッキングは、イベントカメラによって提供される高時間分解能と低冗長性で非常に有望である。 しかし、点眼、固定、サケード、スムーズな追跡を含む眼球運動パターンの多様性と急激な変化は、眼球運動の局所化に重大な課題をもたらす。 安定した事象に基づく視線追跡システムを実現するため,眼球運動の変動に応答し,時間的時間的情報を完全に活用する双方向の長期シーケンスモデリングと時間的状態選択機構を提案する。 具体的には、イベント表現から特徴を抽出する多層畳み込みエンコーダ、双方向GRU、LTV-SSM(Linear Time-Varying State Space Module)からなるMambaPupilネットワークを提案する。 さらに、Bina-repをコンパクトなイベント表現として利用し、イベント画像に空間ランダムマスキングを適用してモデルのロバスト性を高めるために、Event-Cutoutと呼ばれるテーラーメイドデータ拡張を提案する。 ThreeET-plusベンチマークの評価は、CVPR'2024 AISイベントベースのアイトラッキングチャレンジで1位を獲得したMambaPupilの優れた性能を示している。

Event-based eye tracking has shown great promise with the high temporal resolution and low redundancy provided by the event camera. However, the diversity and abruptness of eye movement patterns, including blinking, fixating, saccades, and smooth pursuit, pose significant challenges for eye localization. To achieve a stable event-based eye-tracking system, this paper proposes a bidirectional long-term sequence modeling and time-varying state selection mechanism to fully utilize contextual temporal information in response to the variability of eye movements. Specifically, the MambaPupil network is proposed, which consists of the multi-layer convolutional encoder to extract features from the event representations, a bidirectional Gated Recurrent Unit (GRU), and a Linear Time-Varying State Space Module (LTV-SSM), to selectively capture contextual correlation from the forward and backward temporal relationship. Furthermore, the Bina-rep is utilized as a compact event representation, and the tailor-made data augmentation, called as Event-Cutout, is proposed to enhance the model's robustness by applying spatial random masking to the event image. The evaluation on the ThreeET-plus benchmark shows the superior performance of the MambaPupil, which secured the 1st place in CVPR'2024 AIS Event-based Eye Tracking challenge.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# X-Light: 変圧器上の変圧器をメタマルチエージェント強化学習器として用いた都市横断信号制御

X-Light: Cross-City Traffic Signal Control Using Transformer on Transformer as Meta Multi-Agent Reinforcement Learner ( http://arxiv.org/abs/2404.12090v1 )

ライセンス: Link先を確認
Haoyuan Jiang, Ziyue Li, Hua Wei, Xuantang Xiong, Jingqing Ruan, Jiaming Lu, Hangyu Mao, Rui Zhao, (参考訳) 交通光制御の有効性は、複数の信号機間の協調により、現在の強化学習に基づくアプローチによって著しく改善されている。 しかし、持続的な問題として、多様な都市にまたがる顕著な転送性を持つマルチエージェント交通信号制御アルゴリズムの取得方法がある。 本稿では,都市間メタマルチエージェント交通信号制御のためのトランスフォーマー(TonT)モデルを提案する。X-Light:我々はマルコフ決定プロセスの完全なトラジェクトリを入力し,ローワートランスフォーマーは,都市内における目標交差点とその周辺地域の状態,行動,報酬を集約し,アッパートランスフォーマーは,各都市間の一般的な決定トラジェクトリを学習する。 この二重レベルアプローチはモデルの堅牢な一般化と伝達可能性を促進する。 特に、目に見えないシナリオへの直接転送では、平均で+7.91%、場合によっては+16.3%のベースラインメソッドを超越し、最良の結果が得られる。

The effectiveness of traffic light control has been significantly improved by current reinforcement learning-based approaches via better cooperation among multiple traffic lights. However, a persisting issue remains: how to obtain a multi-agent traffic signal control algorithm with remarkable transferability across diverse cities? In this paper, we propose a Transformer on Transformer (TonT) model for cross-city meta multi-agent traffic signal control, named as X-Light: We input the full Markov Decision Process trajectories, and the Lower Transformer aggregates the states, actions, rewards among the target intersection and its neighbors within a city, and the Upper Transformer learns the general decision trajectories across different cities. This dual-level approach bolsters the model's robust generalization and transferability. Notably, when directly transferring to unseen scenarios, ours surpasses all baseline methods with +7.91% on average, and even +16.3% in some cases, yielding the best results.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# 複雑な降雨を除去する降雨・細部認識表現のハーネス化

Harnessing Joint Rain-/Detail-aware Representations to Eliminate Intricate Rains ( http://arxiv.org/abs/2404.12091v1 )

ライセンス: Link先を確認
Wu Ran, Peirong Ma, Zhiquan He, Hao Ren, Hong Lu, (参考訳) 近年,降雨の種類や背景が多種多様である混成データセット上での強力なモデルの訓練に焦点が当てられている。 しかし、このアプローチは降雨画像の固有の相違を見落とし、最適以下の結果をもたらす傾向にある。 この制限を克服するために、雨と背景の両方をカプセル化した有意義な表現を掘り下げることで、様々な雨のイメージに対処することに注力する。 これらの表現を指導的ガイダンスとして活用し、CNNやTransformerベースのモデルを効率的に制御できるコンテキストベースのインスタンスレベル変調(CoI-M)機構を考案した。 さらに,降雨・降雨・降雨・降雨・降雨・降雨の表現の抽出を支援するために,降雨・降雨・降雨・降雨・降雨の対比学習戦略を考案した。 CoI-Mと雨量/深度を意識したコントラスト学習を組み合わせることで、混合データセットのトレーニングモデルに適した、革新的で強力なアルゴリズムであるCoICを開発する。 さらに、CoICはデータセットのモデリング関係に関する洞察を提供し、雨の影響と復元の詳細を定量的に評価し、多様な入力が与えられたモデルの異なる振る舞いを明らかにする。 大規模実験により, CNNモデルとトランスフォーマーモデルの劣化促進効果が実証された。 CoICはまた、現実世界のデータセットが組み込まれている場合、デラリニングの能力が著しく向上する。

Recent advances in image deraining have focused on training powerful models on mixed multiple datasets comprising diverse rain types and backgrounds. However, this approach tends to overlook the inherent differences among rainy images, leading to suboptimal results. To overcome this limitation, we focus on addressing various rainy images by delving into meaningful representations that encapsulate both the rain and background components. Leveraging these representations as instructive guidance, we put forth a Context-based Instance-level Modulation (CoI-M) mechanism adept at efficiently modulating CNN- or Transformer-based models. Furthermore, we devise a rain-/detail-aware contrastive learning strategy to help extract joint rain-/detail-aware representations. By integrating CoI-M with the rain-/detail-aware Contrastive learning, we develop CoIC, an innovative and potent algorithm tailored for training models on mixed datasets. Moreover, CoIC offers insight into modeling relationships of datasets, quantitatively assessing the impact of rain and details on restoration, and unveiling distinct behaviors of models given diverse inputs. Extensive experiments validate the efficacy of CoIC in boosting the deraining ability of CNN and Transformer models. CoIC also enhances the deraining prowess remarkably when real-world dataset is included.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# モノのインターネットにおけるメルクルツリーのセキュリティ評価:データファルシフィケーション確率の分析

Evaluating the Security of Merkle Trees in the Internet of Things: An Analysis of Data Falsification Probabilities ( http://arxiv.org/abs/2404.12093v1 )

ライセンス: Link先を確認
Oleksandr Kuznetsov, Alex Rusnak, Anton Yezhov, Kateryna Kuznetsova, Dzianis Kanonik, Oleksandr Domin, (参考訳) 分散システムにおけるデータの整合性を保証するという重要な課題に対処するため、本論文では、ブロックチェーンやIoT(Internet of Things)技術において重要な、Merkle Trees内のデータ改ざん確率の未調査領域について論じる。 広く使われているにもかかわらず、これらの構造におけるデータセキュリティの確率的側面の包括的理解は、現在の研究のギャップとして残っている。 本研究の目的は,メルクル経路の長さとハッシュ長に基づく様々なシナリオを考慮した,データファルシフィケーションの確率を計算する理論的枠組みを開発することにより,このギャップを埋めることである。 この研究は、ファルシフィケーション確率の正確な公式の導出から、かなり大きなハッシュ長を持つ場合に適した近似へと進展する。 実験的な実験により理論モデルが検証され、様々なハッシュ長とメルクルパス長を持つシミュレーションが探索された。 以上の結果より, より長いメルクル経路との逆関係と, ハッシュ長の増加に伴うファルシフィケーション確率の低下が示唆された。 数値解析は, 近似確率の精度と近似確率の差を定量化し, 近似の有効適用条件を推定する。 この作業は、ブロックチェーンとIoTシステムのセキュリティを強化するためにMerkle Tree構造を最適化するための重要な洞察を提供する。

Addressing the critical challenge of ensuring data integrity in decentralized systems, this paper delves into the underexplored area of data falsification probabilities within Merkle Trees, which are pivotal in blockchain and Internet of Things (IoT) technologies. Despite their widespread use, a comprehensive understanding of the probabilistic aspects of data security in these structures remains a gap in current research. Our study aims to bridge this gap by developing a theoretical framework to calculate the probability of data falsification, taking into account various scenarios based on the length of the Merkle path and hash length. The research progresses from the derivation of an exact formula for falsification probability to an approximation suitable for cases with significantly large hash lengths. Empirical experiments validate the theoretical models, exploring simulations with diverse hash lengths and Merkle path lengths. The findings reveal a decrease in falsification probability with increasing hash length and an inverse relationship with longer Merkle paths. A numerical analysis quantifies the discrepancy between exact and approximate probabilities, underscoring the conditions for the effective application of the approximation. This work offers crucial insights into optimizing Merkle Tree structures for bolstering security in blockchain and IoT systems, achieving a balance between computational efficiency and data integrity.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# メタラーニングによるニューラル予測モデルの高速適応のための不確かさ非線形システムのMPC

MPC of Uncertain Nonlinear Systems with Meta-Learning for Fast Adaptation of Neural Predictive Models ( http://arxiv.org/abs/2404.12097v1 )

ライセンス: Link先を確認
Jiaqi Yan, Ankush Chakrabarty, Alisa Rupenyan, John Lygeros, (参考訳) 本稿では,不確実な非線形システムにおける参照追跡の問題について考察する。 ニューラルステートスペースモデル(NSSM)は、ディープエンコーダネットワークがデータから非線形性を学習し、状態空間コンポーネントが時間的関係をキャプチャする非線形システムを近似するために使用される。 これにより非線形系を潜在空間の線形系に変換し、モデル予測制御(MPC)を用いて効果的な制御動作を決定する。 本研究の目的は, <textit{target system} (利害関係システム) の限られたデータを用いた最適制御器の設計である。 この目的のために、ターゲットシステムにおけるトレーニングの迅速化と制御性能の向上のために、textit{source system}(ターゲットシステムと類似性を共有するシステム)の情報を活用する暗黙的なモデルに依存しないメタラーニング(iMAML)フレームワークを採用している。 このフレームワークは2つのフェーズから構成される: (オフライン) メタトレーニングフェーズは、ソースシステムからのデータを使用して集約されたNSSMを学習し、(オンライン) メタ推論フェーズは、この集約されたモデルをターゲットシステムに迅速に適応する。 iMAMLアルゴリズムは暗黙の関数定理を利用して、最適化パス全体に依存することなく、トレーニング中の勾配を正確に計算する。 パスではなく最適なソリューションにのみ焦点を合わせることで、従来のメタ学習アルゴリズムよりもストレージの複雑さが少なく、近似も少ないメタトレーニングが可能になる。 我々は,提案手法が適応によって正確な予測モデルが得られることを示す数値例を通して,下流のMPCがいくつかのベースラインを上回っていることを示す。

In this paper, we consider the problem of reference tracking in uncertain nonlinear systems. A neural State-Space Model (NSSM) is used to approximate the nonlinear system, where a deep encoder network learns the nonlinearity from data, and a state-space component captures the temporal relationship. This transforms the nonlinear system into a linear system in a latent space, enabling the application of model predictive control (MPC) to determine effective control actions. Our objective is to design the optimal controller using limited data from the \textit{target system} (the system of interest). To this end, we employ an implicit model-agnostic meta-learning (iMAML) framework that leverages information from \textit{source systems} (systems that share similarities with the target system) to expedite training in the target system and enhance its control performance. The framework consists of two phases: the (offine) meta-training phase learns a aggregated NSSM using data from source systems, and the (online) meta-inference phase quickly adapts this aggregated model to the target system using only a few data points and few online training iterations, based on local loss function gradients. The iMAML algorithm exploits the implicit function theorem to exactly compute the gradient during training, without relying on the entire optimization path. By focusing solely on the optimal solution, rather than the path, we can meta-train with less storage complexity and fewer approximations than other contemporary meta-learning algorithms. We demonstrate through numerical examples that our proposed method can yield accurate predictive models by adaptation, resulting in a downstream MPC that outperforms several baselines.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# 近接する近傍相互作用を持つジェネリックフリーフェルミオン

Generic free fermions with nearest neighbour interactions ( http://arxiv.org/abs/2404.12100v1 )

ライセンス: Link先を確認
Jonathon Riddell, Bruno Bertini, (参考訳) 一般自由フェルミオン(英: Generic free fermion)は、単一粒子スペクトルを持つ自由フェルミオンで、$q$0共鳴条件を満たす。 この性質は、それらが退化性を持たず、一般系の性質とよりよく似た緩和性を与えることを示唆している。 本稿では、近傍相互作用が近い一般自由フェルミオンモデルの最小例として、複素ホッピングを持つ強結合モデルを挙げる。 数論の標準的な結果を用いて、格子点の数が素数であるとき、このモデルが$q$no共鳴条件を満たすことを証明する。 これがそうでないときは、サイトの数の因子に対応するサイト間のホッピング項を追加することで、$q$ no resonance conditionを回復することができる。 さらに、多体スペクトル統計を議論し、ポアソン統計が期待するものと非常によく似ていることを示す。 しかしながら、自由フェルミオンモデルがスペクトル形成係数のモーメントを解析することで、ポアソン統計を持つことができないことを示す。

Generic free fermions are free fermions with a single particle spectrum that satisfies the $q$ no resonance condition, i.e., where equal sums of single-particle energies are unique. This property guaranties that they have no degeneracies and gives them relaxation properties more similar to those of generic systems. In this article we provide a minimal example of a generic free fermionic model with nearest neighbour interactions -- a tight-binding model with complex hopping. Using some standard results from number theory we prove that this model fulfils the $q$ no resonance condition when the number of lattice sites is prime. Whenever this is not the case one can recover the $q$ no resonance condition by adding hopping terms between sites corresponding to the divisors of the number of sites. We further discuss its many-body spectral statistics and show that local probes -- like the ratio of consecutive level spacings -- look very similar to what is expected for the Poisson statistics. We however demonstrate that free fermion models can never have Poisson statistics with an analysis of the moments of the spectral form factor.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# 極小散逸原理を用いたスピン-ボソンモデルの量子熱力学

Quantum thermodynamics of the spin-boson model using the principle of minimal dissipation ( http://arxiv.org/abs/2404.12118v1 )

ライセンス: Link先を確認
Salvatore Gatto, Alessandra Colla, Heinz-Peter Breuer, Michael Thoss, (参考訳) 最近開発されたオープン量子系の熱力学へのアプローチは、極小散逸の原理に基づいてスピン-ボソンモデルに適用されている。 階層型運動方程式(HEOM)法に基づく数値的正確な量子力学処理を用いて,弱結合限界を超え,非断熱型と断熱型の両方を含むパラメータの作業量,熱量,エントロピー生成量に対する環境の影響を調べた。 その結果, 弱い結合形態の作業, 熱, エントロピー生成に有意な差異が認められた。

A recently developed approach to the thermodynamics of open quantum systems, on the basis of the principle of minimal dissipation, is applied to the spin-boson model. Employing a numerically exact quantum dynamical treatment based on the hierarchical equations of motion (HEOM) method, we investigate the influence of the environment on quantities such as work, heat and entropy production in a range of parameters which go beyond the weak-coupling limit and include both the non-adiabatic and the adiabatic regimes. The results reveal significant differences to the weak-coupling forms of work, heat and entropy production, which are analyzed in some detail.
翻訳日:2024-04-19 12:41:30 公開日:2024-04-18
# 概念駆動型知識トレースを用いた個人化予測機構

Personalized Forgetting Mechanism with Concept-Driven Knowledge Tracing ( http://arxiv.org/abs/2404.12127v1 )

ライセンス: Link先を確認
Shanshan Wang, Ying Hu, Xun Yang, Zhongzhou Zhang, Keyang Wang, Xingyi Zhang, (参考訳) 知識追跡(KT)は、過去の学習データを分析し、将来の学習成績を予測することによって、学習プロセス全体を通して、学生の知識状態の変化を追跡することを目的としている。 既存の曲線理論に基づく知識追跡モデルでは、学生の個人化や、忘れる過程の因果関係を無視して、時間間隔によって引き起こされる一般的な忘れについてのみ考慮している。 これらの課題に対処するために,知識概念間の階層的関係を統合し,学生の認知能力を取り入れた概念駆動型パーソナライズド・フォーッティング・ナレッジ・トレーシング・モデル(CPF)を提案する。 まず,学習過程と学習過程の両方に,生徒のパーソナライズされた能力を統合することにより,学習者の個人的学習の獲得と,認知能力による学習率の差を明確に識別する。 第二に、知識点間の階層的関係を考慮し、先駆的知識概念行列を設計し、忘れる過程における因果関係をシミュレートするとともに、それに続く知識点を忘れることによる潜在的影響を統合する。 提案手法は,特定知識概念の学習だけでなく,生涯学習プロセスにも適用可能である。 3つの公開データセットの総合的な実験結果から、CPFは、生徒のパフォーマンスを予測するために、現在の忘れる曲線理論に基づく手法よりも優れており、CPFは、パーソナライズされた忘れるメカニズムを通じて、生徒の知識状態の変化をより良くシミュレートできることを示した。

Knowledge Tracing (KT) aims to trace changes in students' knowledge states throughout their entire learning process by analyzing their historical learning data and predicting their future learning performance. Existing forgetting curve theory based knowledge tracing models only consider the general forgetting caused by time intervals, ignoring the individualization of students and the causal relationship of the forgetting process. To address these problems, we propose a Concept-driven Personalized Forgetting knowledge tracing model (CPF) which integrates hierarchical relationships between knowledge concepts and incorporates students' personalized cognitive abilities. First, we integrate the students' personalized capabilities into both the learning and forgetting processes to explicitly distinguish students' individual learning gains and forgetting rates according to their cognitive abilities. Second, we take into account the hierarchical relationships between knowledge points and design a precursor-successor knowledge concept matrix to simulate the causal relationship in the forgetting process, while also integrating the potential impact of forgetting prior knowledge points on subsequent ones. The proposed personalized forgetting mechanism can not only be applied to the learning of specifc knowledge concepts but also the life-long learning process. Extensive experimental results on three public datasets show that our CPF outperforms current forgetting curve theory based methods in predicting student performance, demonstrating CPF can better simulate changes in students' knowledge status through the personalized forgetting mechanism.
翻訳日:2024-04-19 12:31:46 公開日:2024-04-18
# 局所モデルダイバーシティの強化による非IIDデータのワンショット連続フェデレーション学習

One-Shot Sequential Federated Learning for Non-IID Data by Enhancing Local Model Diversity ( http://arxiv.org/abs/2404.12130v1 )

ライセンス: Link先を確認
Naibo Wang, Yuchen Deng, Wenjie Feng, Shichen Fan, Jianwei Yin, See-Kiong Ng, (参考訳) 従来の連合学習は主に並列設定(PFL)に焦点を当てており、通信と計算のコストが大幅に低下する可能性がある。 対照的に、ワンショットおよびシーケンシャル・フェデレート・ラーニング(SFL)は、これらのコストを軽減する革新的なパラダイムとして登場した。 しかし、非IID(Independent and Identically Distributed)データの問題は、クライアント間の制限された通信によって悪化するワンショットおよびSFL設定において重要な課題として持続する。 本稿では,局所モデルの多様性向上戦略を提案することにより,非IIDデータに対する一発の逐次フェデレーション学習を改善する。 具体的には、モデル性能を向上させるために、局所モデル多様性のポテンシャルを活用するために、局所訓練中に生成される多様なモデルからなる各クライアント用の局所モデルプールを導入し、モデル多様性をさらに強化し、非IIDデータの効果を緩和する2つの距離測定を提案する。 その結果,提案フレームワークは通信コストを低く抑えつつ,グローバルモデルの性能を向上させることができることがわかった。 実験の結果,本手法は既存のワンショットPFL法よりも優れた性能を示し,ラベルスキューおよびドメインシフトタスク(CIFAR-10データセットの6%以上の精度向上)における最先端のワンショットSFL法と比較して精度が向上していることがわかった。

Traditional federated learning mainly focuses on parallel settings (PFL), which can suffer significant communication and computation costs. In contrast, one-shot and sequential federated learning (SFL) have emerged as innovative paradigms to alleviate these costs. However, the issue of non-IID (Independent and Identically Distributed) data persists as a significant challenge in one-shot and SFL settings, exacerbated by the restricted communication between clients. In this paper, we improve the one-shot sequential federated learning for non-IID data by proposing a local model diversity-enhancing strategy. Specifically, to leverage the potential of local model diversity for improving model performance, we introduce a local model pool for each client that comprises diverse models generated during local training, and propose two distance measurements to further enhance the model diversity and mitigate the effect of non-IID data. Consequently, our proposed framework can improve the global model performance while maintaining low communication costs. Extensive experiments demonstrate that our method exhibits superior performance to existing one-shot PFL methods and achieves better accuracy compared with state-of-the-art one-shot SFL methods on both label-skew and domain-shift tasks (e.g., 6%+ accuracy improvement on the CIFAR-10 dataset).
翻訳日:2024-04-19 12:31:46 公開日:2024-04-18
# mABC: マイクロサービスアーキテクチャにおける根本原因分析のためのマルチエージェントブロックチェーン-インスパイアされたコラボレーション

mABC: multi-Agent Blockchain-Inspired Collaboration for root cause analysis in micro-services architecture ( http://arxiv.org/abs/2404.12135v1 )

ライセンス: Link先を確認
Wei Zhang, Hongcheng Guo, Jian Yang, Yi Zhang, Chaoran Yan, Zhoujin Tian, Hangyuan Ji, Zhoujun Li, Tongliang Li, Tieqiao Zheng, Chao Chen, Yi Liang, Xu Shi, Liangfan Zheng, Bo Zhang, (参考訳) クラウドネイティブなテクノロジにおけるマイクロサービスアーキテクチャのエスカレートする複雑性は、システムの安定性と効率性を維持する上で大きな課題となる。 根本原因分析(RCA)と警告イベントの解決を目的として,マイクロサービスアーキテクチャ(mABC)における根本原因分析のための先駆的フレームワークであるマルチエージェントブロックチェーンによるコラボレーションを提案し,IT運用(AIOps)ドメインに革命をもたらす。 具体的には、Agens Workflowから派生した7つの専門エージェントが、それぞれの専門知識と分散チェーン内で協調するLLMの本質的なソフトウェア知識に基づいて、根本原因分析に関する貴重な洞察を提供する。 LLMの潜在的な不安定性の問題を避け、分散構造に固有の透明性と平等的優位性を完全に活用するために、mABCは、各エージェントの貢献指標と専門指標を考慮して、ブロックチェーンガバナンス原則にインスパイアされた意思決定プロセスを採用する。 公開ベンチマークのAIOpsチャレンジデータセットと作成したトレインチケットデータセットの実験結果から,根本原因を正確に同定し,有効なソリューションを定式化する上で,従来の強力なベースラインと比較して優れたパフォーマンスを示した。 アブレーション調査は、mABC内の各コンポーネントの重要性をさらに強調している。最適なパフォーマンスを達成する上では、Agent Workflow、マルチエージェント、ブロックチェーンにインスパイアされた投票が不可欠である。 mABCは、マイクロサービスアーキテクチャにおける包括的な自動化された根本原因分析と解決を提供し、既存のベースラインと比較してAIOpsドメインの大幅な改善を実現している。

The escalating complexity of micro-services architecture in cloud-native technologies poses significant challenges for maintaining system stability and efficiency. To conduct root cause analysis (RCA) and resolution of alert events, we propose a pioneering framework, multi-Agent Blockchain-inspired Collaboration for root cause analysis in micro-services architecture (mABC), to revolutionize the AI for IT operations (AIOps) domain, where multiple agents based on the powerful large language models (LLMs) perform blockchain-inspired voting to reach a final agreement following a standardized process for processing tasks and queries provided by Agent Workflow. Specifically, seven specialized agents derived from Agent Workflow each provide valuable insights towards root cause analysis based on their expertise and the intrinsic software knowledge of LLMs collaborating within a decentralized chain. To avoid potential instability issues in LLMs and fully leverage the transparent and egalitarian advantages inherent in a decentralized structure, mABC adopts a decision-making process inspired by blockchain governance principles while considering the contribution index and expertise index of each agent. Experimental results on the public benchmark AIOps challenge dataset and our created train-ticket dataset demonstrate superior performance in accurately identifying root causes and formulating effective solutions, compared to previous strong baselines. The ablation study further highlights the significance of each component within mABC, with Agent Workflow, multi-agent, and blockchain-inspired voting being crucial for achieving optimal performance. mABC offers a comprehensive automated root cause analysis and resolution in micro-services architecture and achieves a significant improvement in the AIOps domain compared to existing baselines
翻訳日:2024-04-19 12:31:46 公開日:2024-04-18
# キャラクタは運命である: 大規模言語モデルはロールプレイングにおけるペルソナ駆動決定をシミュレートできるか?

Character is Destiny: Can Large Language Models Simulate Persona-Driven Decisions in Role-Playing? ( http://arxiv.org/abs/2404.12138v1 )

ライセンス: Link先を確認
Rui Xu, Xintao Wang, Jiangjie Chen, Siyu Yuan, Xinfeng Yuan, Jiaqing Liang, Zulong Chen, Xiaoqing Dong, Yanghua Xiao, (参考訳) 大規模言語モデルは人間に代えて重要な決定を下せるか? 近年の研究では、LLMが役割に割り当てられたペルソナを演じる可能性を明らかにしており、その知識や言語的習慣を模倣している。 しかし、模倣的な意思決定には、ペルソナをより微妙に理解する必要がある。 本稿では、ペルソナ駆動意思決定におけるLLMの能力のベンチマークを行う。 具体的には,高品質な小説において,先行する物語の登場人物の判断をLLMが予測できるかどうかを検討する。 文芸専門家による文字分析を活用し、395冊の本から1,401冊の文字決定点からなるデータセットLIFECHOICEを構築した。 次に, LIFECHOICE に関する総合的な実験を行い, 様々な LLM と LLM ロールプレイングの手法について述べる。 その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は十分にあることが示された。 そこで我々は,ペルソナによるメモリ検索により精度を6.01%向上させるCHARMAP法を提案する。 データセットとコードを公開します。

Can Large Language Models substitute humans in making important decisions? Recent research has unveiled the potential of LLMs to role-play assigned personas, mimicking their knowledge and linguistic habits. However, imitative decision-making requires a more nuanced understanding of personas. In this paper, we benchmark the ability of LLMs in persona-driven decision-making. Specifically, we investigate whether LLMs can predict characters' decisions provided with the preceding stories in high-quality novels. Leveraging character analyses written by literary experts, we construct a dataset LIFECHOICE comprising 1,401 character decision points from 395 books. Then, we conduct comprehensive experiments on LIFECHOICE, with various LLMs and methods for LLM role-playing. The results demonstrate that state-of-the-art LLMs exhibit promising capabilities in this task, yet there is substantial room for improvement. Hence, we further propose the CHARMAP method, which achieves a 6.01% increase in accuracy via persona-based memory retrieval. We will make our datasets and code publicly available.
翻訳日:2024-04-19 12:31:46 公開日:2024-04-18
# Omniview-Tuning:ビジョンランゲージ事前学習モデルの視点不変性向上

Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models ( http://arxiv.org/abs/2404.12139v1 )

ライセンス: Link先を確認
Shouwei Ruan, Yinpeng Dong, Hanqing Liu, Yao Huang, Hang Su, Xingxing Wei, (参考訳) CLIPのようなVLP(Vision-Language Pre-Training)モデルはコンピュータビジョンにおいて顕著な成功を収め、特に2D画像の分布シフトに対して優れたロバスト性を示している。 しかし、3次元視点の違い下でのロバスト性はまだ限られており、現実のアプリケーションの開発を妨げる可能性がある。 本稿では,2つの障害を突破することで,VLPの本来の性能を維持しながら,この問題に対処する。 1【トレーニングデータの不足】 2)準最適微調整パラダイム。 データ不足に対処するため、Multi-View Caption(MVCap)データセットを構築しました。これは100万以上のオブジェクトにまたがる400万以上のマルチビューイメージテキストペアの包括的なコレクションです。 そこで我々は,Omniview-Tuning(OVT)という新たな微調整フレームワークを設計した。 具体的には、OVTは、ミニマックスのような最適化戦略により、オーバーフィッティングを引き起こすことなく、様々な視点から同一のオブジェクトの表現を効果的に整合させるクロスビューアライメントの目的を導入する。 さらに、OVTはパラメータ効率のよいVLPモデルを微調整し、計算コストを最小化する。 異なるアーキテクチャを持つ様々なVLPモデルの大規模な実験により、OVTは視点シフトに対するモデルのレジリエンスを著しく改善し、元の性能を維持し、VLPモデルの視点不変性を高めるための先駆的な標準を確立した。

Vision-Language Pre-training (VLP) models like CLIP have achieved remarkable success in computer vision and particularly demonstrated superior robustness to distribution shifts of 2D images. However, their robustness under 3D viewpoint variations is still limited, which can hinder the development for real-world applications. This paper successfully addresses this concern while keeping VLPs' original performance by breaking through two primary obstacles: 1) the scarcity of training data and 2) the suboptimal fine-tuning paradigms. To combat data scarcity, we build the Multi-View Caption (MVCap) dataset -- a comprehensive collection of over four million multi-view image-text pairs across more than 100K objects, providing more potential for VLP models to develop generalizable viewpoint-invariant representations. To address the limitations of existing paradigms in performance trade-offs and training efficiency, we design a novel fine-tuning framework named Omniview-Tuning (OVT). Specifically, OVT introduces a Cross-Viewpoint Alignment objective through a minimax-like optimization strategy, which effectively aligns representations of identical objects from diverse viewpoints without causing overfitting. Additionally, OVT fine-tunes VLP models in a parameter-efficient manner, leading to minimal computational cost. Extensive experiments on various VLP models with different architectures validate that OVT significantly improves the models' resilience to viewpoint shifts and keeps the original performance, establishing a pioneering standard for boosting the viewpoint invariance of VLP models.
翻訳日:2024-04-19 12:31:46 公開日:2024-04-18
# MolCRAFT:連続パラメータ空間における構造に基づく医薬品設計

MolCRAFT: Structure-Based Drug Design in Continuous Parameter Space ( http://arxiv.org/abs/2404.12141v1 )

ライセンス: Link先を確認
Yanru Qu, Keyue Qiu, Yuxuan Song, Jingjing Gong, Jiawei Han, Mingyue Zheng, Hao Zhou, Wei-Ying Ma, (参考訳) 近年, 構造に基づく医薬品デザイン(SBDD)の創成モデルが有望な成果を上げている。 既存の研究は主に、高い結合親和性を持つ分子を生成する方法に焦点を当てており、生成された3Dポーズに対する実現可能性の前提条件を無視し、偽陽性をもたらす。 我々は,モード崩壊やハイブリッド連続離散空間を含む自己回帰的手法を適用し,SBDDに拡散する際の不整合問題の要因を徹底的に研究する。 本稿では,連続パラメータ空間で動作する最初のSBDDモデルであるShaoursと,新しいノイズ低減サンプリング戦略を紹介する。 実験により,本モデルはより安定な3次元構造との結合親和性において常に優れた性能を示し,原子間相互作用を正確にモデル化する能力を示している。 我々の知る限りでは、MollCRAFTは参照レベルVina Scores (-6.59 kcal/mol) を初めて達成し、他の強いベースラインよりも広いマージン (-0.84 kcal/mol) で優れている。 コードはhttps://github.com/AlgoMole/MolCRAFTで入手できる。

Generative models for structure-based drug design (SBDD) have shown promising results in recent years. Existing works mainly focus on how to generate molecules with higher binding affinity, ignoring the feasibility prerequisites for generated 3D poses and resulting in false positives. We conduct thorough studies on key factors of ill-conformational problems when applying autoregressive methods and diffusion to SBDD, including mode collapse and hybrid continuous-discrete space. In this paper, we introduce \ours, the first SBDD model that operates in the continuous parameter space, together with a novel noise reduced sampling strategy. Empirical results show that our model consistently achieves superior performance in binding affinity with more stable 3D structure, demonstrating our ability to accurately model interatomic interactions. To our best knowledge, MolCRAFT is the first to achieve reference-level Vina Scores (-6.59 kcal/mol), outperforming other strong baselines by a wide margin (-0.84 kcal/mol). Code is available at https://github.com/AlgoMole/MolCRAFT.
翻訳日:2024-04-19 12:31:46 公開日:2024-04-18
# 遺伝的ドリフトによる高速最適化

Faster Optimization Through Genetic Drift ( http://arxiv.org/abs/2404.12147v1 )

ライセンス: Link先を確認
Cella Florescu, Marc Kaufmann, Johannes Lengler, Ulysse Schaller, (参考訳) コンパクト遺伝的アルゴリズム(cGA)は、その仮想的な集団サイズ$K$でパラメータ化され、大きな子孫の解を進化させるための低メモリの代替手段を提供する。 確率分布を進化させ、有望なサンプルに偏りを与える。 古典的なベンチマークであるOneMaxでは、cGAには2つの異なる操作モードがある: 小さなステップサイズを持つ保守的な1つ$\Theta(1/(\sqrt{n}\log n))$、大きなステップサイズを持つ攻撃的な1つ$\Theta(1/\log n)$。 簡単なヒルクライミング問題であるOneMaxでは、どちらのモードも$\Theta(n\log n)$の最適化時間につながり、したがって等しく効率的である。 本稿では,OneMaxに代えて,より難しい丘登上問題であるDynamicBinValで両制度がどう変化するかを検討する。 その結果、アグレッシブモードは影響を受けず、準線形ランタイムである$O(n\cdot polylog (n))$を引き続き得ることがわかった。 しかし、保守モードは著しく遅くなり、遺伝的ドリフトはO(1/n)$より小さいステップサイズでしか回避できないため、$\Omega(n^2)$のランタイムが得られる。 我々は理論結果をシミュレーションで補完する。

The compact Genetic Algorithm (cGA), parameterized by its hypothetical population size $K$, offers a low-memory alternative to evolving a large offspring population of solutions. It evolves a probability distribution, biasing it towards promising samples. For the classical benchmark OneMax, the cGA has to two different modes of operation: a conservative one with small step sizes $\Theta(1/(\sqrt{n}\log n))$, which is slow but prevents genetic drift, and an aggressive one with large step sizes $\Theta(1/\log n)$, in which genetic drift leads to wrong decisions, but those are corrected efficiently. On OneMax, an easy hill-climbing problem, both modes lead to optimization times of $\Theta(n\log n)$ and are thus equally efficient. In this paper we study how both regimes change when we replace OneMax by the harder hill-climbing problem DynamicBinVal. It turns out that the aggressive mode is not affected and still yields quasi-linear runtime $O(n\cdot polylog (n))$. However, the conservative mode becomes substantially slower, yielding a runtime of $\Omega(n^2)$, since genetic drift can only be avoided with smaller step sizes of $O(1/n)$. We complement our theoretical results with simulations.
翻訳日:2024-04-19 12:31:46 公開日:2024-04-18
# AccidentBlip2:Multi-View MotionBlip2による事故検出

AccidentBlip2: Accident Detection With Multi-View MotionBlip2 ( http://arxiv.org/abs/2404.12149v1 )

ライセンス: Link先を確認
Yihua Shao, Hongyi Cai, Wenxin Long, Weiyi Lang, Zhe Wang, Haoran Wu, Yan Wang, Yang Yang, Zhen Lei, (参考訳) MLLM(Multimodal Large Language Models)は、多モーダル推論の多くの分野で際立った能力を示している。 そこで我々は,複雑な交通環境における環境記述とシーン理解のために,マルチモーダル大規模言語モデルの推論能力を利用する。 本稿では,事故リスクをリアルタイムに予測できる多モーダル大規模言語モデルであるAccidentBlip2を提案する。 提案手法は,視覚変換器による6次元サラウンドビューグラフの時間的シーンに基づく特徴抽出と,時間的ブリップフレームワークを用いた時間的推測を含む。 次に、発生した時間トークンをMLLMに入力し、事故が発生するか否かを推測する。 AccidentBlip2はいかなるBEV画像やLiDARにも依存しないため、MLLMの推論パラメータの数と推論コストは大幅に削減され、トレーニング中に大きなトレーニングオーバーヘッドを発生させることはない。 AccidentBlip2はDeepAccidentデータセットの既存のソリューションよりも優れており、エンドツーエンドの自動運転事故予測のリファレンスソリューションを提供することもできる。

Multimodal Large Language Models (MLLMs) have shown outstanding capabilities in many areas of multimodal reasoning. Therefore, we use the reasoning ability of Multimodal Large Language Models for environment description and scene understanding in complex transportation environments. In this paper, we propose AccidentBlip2, a multimodal large language model that can predict in real time whether an accident risk will occur. Our approach involves feature extraction based on the temporal scene of the six-view surround view graphs and temporal inference using the temporal blip framework through the vision transformer. We then input the generated temporal token into the MLLMs for inference to determine whether an accident will occur or not. Since AccidentBlip2 does not rely on any BEV images and LiDAR, the number of inference parameters and the inference cost of MLLMs can be significantly reduced, and it also does not incur a large training overhead during training. AccidentBlip2 outperforms existing solutions on the DeepAccident dataset and can also provide a reference solution for end-to-end automated driving accident prediction.
翻訳日:2024-04-19 12:31:46 公開日:2024-04-18
# FecTek: 特徴コンテキストと項レベルの知識を用いた辞書検索における用語ウェイト向上

FecTek: Enhancing Term Weight in Lexicon-Based Retrieval with Feature Context and Term-level Knowledge ( http://arxiv.org/abs/2404.12152v1 )

ライセンス: Link先を確認
Zunran Wang, Zhonghua Li, Wei Shen, Qi Ye, Liqiang Nie, (参考訳) 辞書に基づく検索は、その効率的で堅牢な性能のため、テキスト検索において顕著な人気を得ている。 辞書に基づく検索の性能を高めるために、研究者はニューラル検索やテキストレベルのコントラスト学習アプローチのような最先端の方法論を精力的に取り入れてきた。 それにもかかわらず、現在の語彙に基づく検索手法は、期待された結果にもかかわらず、特徴文脈表現や項レベルの知識指導の潜在的な利点を探究する上で、限られた関心を集めている。 本稿では,FEature Context と TErm レベルの知識モジュール (FecTek) を導入することで,革新的な手法を提案する。 項重みの特徴文脈表現を効果的に強化するために、BERTの表現の力を利用して埋め込みの各要素の動的重みを決定するFCM(Feature Context Module)が導入された。 さらに,用語レベルの知識を効果的に活用し,用語重みのモデル化プロセスをインテリジェントに導くための用語レベルの知識誘導モジュール(TKGM)を開発した。 提案手法の評価は,従来の最先端手法よりも優れていることを示す。

Lexicon-based retrieval has gained siginificant popularity in text retrieval due to its efficient and robust performance. To further enhance performance of lexicon-based retrieval, researchers have been diligently incorporating state-of-the-art methodologies like Neural retrieval and text-level contrastive learning approaches. Nonetheless, despite the promising outcomes, current lexicon-based retrieval methods have received limited attention in exploring the potential benefits of feature context representations and term-level knowledge guidance. In this paper, we introduce an innovative method by introducing FEature Context and TErm-level Knowledge modules(FecTek). To effectively enrich the feature context representations of term weight, the Feature Context Module (FCM) is introduced, which leverages the power of BERT's representation to determine dynamic weights for each element in the embedding. Additionally, we develop a term-level knowledge guidance module (TKGM) for effectively utilizing term-level knowledge to intelligently guide the modeling process of term weight. Evaluation of the proposed method on MS Marco benchmark demonstrates its superiority over the previous state-of-the-art approaches.
翻訳日:2024-04-19 12:31:46 公開日:2024-04-18
# StyleBooth:マルチモーダルなインストラクションによるイメージスタイルの編集

StyleBooth: Image Style Editing with Multimodal Instruction ( http://arxiv.org/abs/2404.12154v1 )

ライセンス: Link先を確認
Zhen Han, Chaojie Mao, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, (参考訳) 原画像が与えられた場合、画像編集は提供された命令に一致した画像を生成することを目的としている。 課題は、マルチモーダル入力を命令として受け入れ、ソース/ターゲットイメージペアの重要な三つ子やマルチモーダル(テキストとイメージ)命令を含む高品質なトレーニングデータの不足である。 本稿では,画像編集のための総合的なフレームワークであるStyleBoothと,高品質なスタイル編集データセットを構築するための実行可能な戦略を提案する。 我々は,拡散モデルの統一条件として,エンコードされたテキスト命令と画像例を統合し,マルチモーダル命令に従って原画像の編集を可能にする。 さらに、反復的なスタイル記述のチューニングと編集とユーザビリティのフィルタリングにより、StyleBoothデータセットは、スタイルのさまざまなカテゴリにおいて、コンテンツ一貫性のあるスタイリング/プレーンイメージペアを提供する。 StyleBoothの柔軟性を示すために、テキストベースのスタイル編集、模範的なスタイル編集、作曲スタイル編集など様々なタスクについて実験を行う。 その結果,学習データの質と多様性は,編集作業におけるコンテンツの保存能力と生成画像の全体的な品質向上を著しく向上させることがわかった。 プロジェクトページはhttps://ali-vilab.github.io/stylebooth-page/にある。

Given an original image, image editing aims to generate an image that align with the provided instruction. The challenges are to accept multimodal inputs as instructions and a scarcity of high-quality training data, including crucial triplets of source/target image pairs and multimodal (text and image) instructions. In this paper, we focus on image style editing and present StyleBooth, a method that proposes a comprehensive framework for image editing and a feasible strategy for building a high-quality style editing dataset. We integrate encoded textual instruction and image exemplar as a unified condition for diffusion model, enabling the editing of original image following multimodal instructions. Furthermore, by iterative style-destyle tuning and editing and usability filtering, the StyleBooth dataset provides content-consistent stylized/plain image pairs in various categories of styles. To show the flexibility of StyleBooth, we conduct experiments on diverse tasks, such as text-based style editing, exemplar-based style editing and compositional style editing. The results demonstrate that the quality and variety of training data significantly enhance the ability to preserve content and improve the overall quality of generated images in editing tasks. Project page can be found at https://ali-vilab.github.io/stylebooth-page/.
翻訳日:2024-04-19 12:31:46 公開日:2024-04-18
# SU(3)格子ゲージ理論の力学におけるゲージ対称性の保護

Protecting gauge symmetries in the the dynamics of SU(3) lattice gauge theories ( http://arxiv.org/abs/2404.12158v1 )

ライセンス: Link先を確認
Emil Mathew, Indrakshi Raychowdhury, (参考訳) 格子ゲージ理論の力学の量子シミュレーションは、オンサイト制約を課す必要がある。 理想的には、力学は物理的ヒルベルト空間に留まり、すべての状態がそれらの制約を満たす。 非アベリアゲージ理論では、局所的な制約を実装することは自明であり、物理的ヒルベルト空間に閉じ込められた力学は、誤った量子デバイスを考慮に入れている。 SU(3)ゲージ群は自然の強い相互作用を記述するのに不可欠であるが、ハミルトンシミュレーションによる研究で有名である。 この研究は、SU(3)ゲージ理論の正確な力学を1+1$次元でシミュレートするための対称性保護プロトコルを2つ提示する。 最初のプロトコルは局所対称性を課す必要はないが、グローバル対称性の保護に依存している。 より高次元への一般化は可能であるが、保護スキームはその場合局所的である必要があるが、それでもアベリアであり、したがって有利である。 ここで提示される対称性保護スキームは、量子色力学の完全な理論をシミュレートするための重要なステップである。

Quantum simulation of the dynamics of a lattice gauge theory demands imposing on-site constraints. Ideally, the dynamics remain confined within the physical Hilbert space, where all the states satisfy those constraints. For non-Abelian gauge theories, implementing local constraints is non-trivial, as is keeping the dynamics confined in the physical Hilbert space, considering the erroneous quantum devices. SU(3) gauge group, albeit crucial for describing the strong interaction of nature, is notorious for studying via Hamiltonian simulation. This work presents a couple of symmetry protection protocols for simulating the exact dynamics of SU(3) gauge theory in $1+1$ dimension. The first protocol doesn't require imposing any local symmetry but relies on protecting global symmetries, which are Abelian with a preferred choice of framework, namely the loop-string-hadron framework. Generalization to a higher dimension is possible, however, the protection scheme needs to be local for that case but is still Abelian and thus advantageous. The symmetry protection schemes presented here are important steps towards quantum simulating the full theory of quantum chromodynamics.
翻訳日:2024-04-19 12:31:46 公開日:2024-04-18
# クレームチェック-Worthiness Detection: LLMs Grasp Annotation Guidelinesはどの程度有効か?

Claim Check-Worthiness Detection: How Well do LLMs Grasp Annotation Guidelines? ( http://arxiv.org/abs/2404.12174v1 )

ライセンス: Link先を確認
Laura Majer, Jan Šnajder, (参考訳) 偽情報に対する脅威が高まるにつれ、ファクトチェックパイプラインの一部を自動化することが求められている。 ファクトチェックを必要とするテキストセグメントを識別することは、クレーム検出(CD)とクレームチェック能の検出(CW)として知られている。 ラベル付きデータセットの必要性を回避し、言語化されたクレームと価値のある基準を直接使用できるようにするため、ゼロショットと少数ショットのLLMプロンプトは両方のタスクにとって魅力的な選択肢である。 各種領域の5つのCD/CWデータセットに対して,LLMの予測精度と校正精度を評価し,それぞれ異なる価値基準を用いて評価した。 本研究は,(1) 事実性および有益性基準の抽出方法と,(2) 各クレームにどのような文脈を提供するかという2つの重要な側面を考察する。 この目的のために、我々は、モデルに提供された素早い冗長性レベルと文脈情報の量を変化させて実験を行った。 本研究の結果から, 最適急激な冗長性はドメイン依存であり, コンテキストの追加は性能向上には至らず, 信頼度スコアを直接利用して, 信頼度ランキングを作成できることがわかった。

The increasing threat of disinformation calls for automating parts of the fact-checking pipeline. Identifying text segments requiring fact-checking is known as claim detection (CD) and claim check-worthiness detection (CW), the latter incorporating complex domain-specific criteria of worthiness and often framed as a ranking task. Zero- and few-shot LLM prompting is an attractive option for both tasks, as it bypasses the need for labeled datasets and allows verbalized claim and worthiness criteria to be directly used for prompting. We evaluate the LLMs' predictive and calibration accuracy on five CD/CW datasets from diverse domains, each utilizing a different worthiness criterion. We investigate two key aspects: (1) how best to distill factuality and worthiness criteria into a prompt and (2) what amount of context to provide for each claim. To this end, we experiment with varying the level of prompt verbosity and the amount of contextual information provided to the model. Our results show that optimal prompt verbosity is domain-dependent, adding context does not improve performance, and confidence scores can be directly used to produce reliable check-worthiness rankings.
翻訳日:2024-04-19 12:31:46 公開日:2024-04-18
# 量子多体状態生成のための準粒子冷却アルゴリズム

Quasiparticle cooling algorithms for quantum many-body state preparation ( http://arxiv.org/abs/2404.12175v1 )

ライセンス: Link先を確認
Jerome Lloyd, Alexios Michailidis, Xiao Mi, Vadim Smelyanskiy, Dmitry A. Abanin, (参考訳) マルチボディシステムの相関状態を求めることは、量子シミュレータやプロセッサの中心的なタスクの1つである。 状態準備への有望なアプローチは、工学的散逸進化の定常状態として望ましい相関状態を実現することである。 Googleの超伝導量子プロセッサ(X. Mi et al , Science 383, 1332 (2024))による最近の実験では、準粒子を定期的にリセットして基底状態へと誘導する補助的な自由度を利用した冷却アルゴリズムが実証された。 本研究では, 準粒子冷却力学を記述するための動力学理論フレームワークを開発し, 異なる冷却アルゴリズムの効率を比較する。 特に,加熱過程を最小化するために補助体への結合を時間的に変調するプロトコルを導入し,異なる量子相における基底状態の高忠実化を可能にすることを示す。 本研究では, 1次元逆場イジングモデルの数値シミュレーションとの比較により, 可解モデルとテンソルネットワーク技術を用いて, 運動理論記述の有効性を検証した。 さらに、近未来の量子プロセッサにおける変分量子アルゴリズムの効率を制限するノイズの効果は、運動論的理論の中で自然に説明できる。 本研究では, 定常状態準粒子群を雑音強度関数として検討し, 高忠実度基底状態を達成するための最大雑音値を確立する。 この研究は、準粒子冷却アルゴリズムを、短期量子プロセッサ上での多体状態準備のための実用的で堅牢な方法として確立する。

Probing correlated states of many-body systems is one of the central tasks for quantum simulators and processors. A promising approach to state preparation is to realize desired correlated states as steady states of engineered dissipative evolution. A recent experiment with a Google superconducting quantum processor [X. Mi et al., Science 383, 1332 (2024)] demonstrated a cooling algorithm utilizing auxiliary degrees of freedom that are periodically reset to remove quasiparticles from the system, thereby driving it towards the ground state. We develop a kinetic theory framework to describe quasiparticle cooling dynamics, and employ it to compare the efficiency of different cooling algorithms. In particular, we introduce a protocol where coupling to auxiliaries is modulated in time to minimize heating processes, and demonstrate that it allows a high-fidelity preparation of ground states in different quantum phases. We verify the validity of the kinetic theory description by an extensive comparison with numerical simulations of a 1d transverse-field Ising model using a solvable model and tensor-network techniques. Further, the effect of noise, which limits efficiency of variational quantum algorithms in near-term quantum processors, can be naturally described within the kinetic theory. We investigate the steady state quasiparticle population as a function of noise strength, and establish maximum noise values for achieving high-fidelity ground states. This work establishes quasiparticle cooling algorithms as a practical, robust method for many-body state preparation on near-term quantum processors.
翻訳日:2024-04-19 12:31:46 公開日:2024-04-18
# EuSQuAD: バスク語の自動翻訳およびアライメントSQuAD2.0

EuSQuAD: Automatically Translated and Aligned SQuAD2.0 for Basque ( http://arxiv.org/abs/2404.12177v1 )

ライセンス: Link先を確認
Aitor García-Pablos, Naiara Perez, Montse Cuadros, (参考訳) 質問応答(QA)データセットが英語で広く利用できるようになったことで、自然言語処理(NLP)分野の進歩が大いに促進された。 しかしバスク語のような少数言語に対するそのような資源の不足は、これらのコミュニティにとって重大な課題となっている。 この文脈では、既存のQAデータセットの翻訳とアライメントがこの技術的ギャップを狭める上で重要な役割を果たす。 この研究は、SQuAD2.0をバスク語に自動翻訳しアライメントするための最初のイニシアチブであるEuSQuADを提示する。 我々は、EuSQuADをトレーニングデータとしてサポートした広範囲な定性分析とQA実験により、EuSQuADの価値を実証する。 これらの実験は、新しい人間の注釈付きデータセットを用いて評価される。

The widespread availability of Question Answering (QA) datasets in English has greatly facilitated the advancement of the Natural Language Processing (NLP) field. However, the scarcity of such resources for minority languages, such as Basque, poses a substantial challenge for these communities. In this context, the translation and alignment of existing QA datasets plays a crucial role in narrowing this technological gap. This work presents EuSQuAD, the first initiative dedicated to automatically translating and aligning SQuAD2.0 into Basque, resulting in more than 142k QA examples. We demonstrate EuSQuAD's value through extensive qualitative analysis and QA experiments supported with EuSQuAD as training data. These experiments are evaluated with a new human-annotated dataset.
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# 質量と質量の交換をもつBethe-Salpeter方程式の異常解

Abnormal solutions of Bethe--Salpeter equation with massless and massive exchanges ( http://arxiv.org/abs/2404.12182v1 )

ライセンス: Link先を確認
Jaume Carbonell1, Vladimir Karmanov, Ekaterina Kupriyanova, Hagop Sazdjian, (参考訳) We sum the main properties of the so called 'abnormal Solution' of the Wick--Cutkosky model、すなわち、Bethe-Salpeter equationの中で、質量を持たないスカラー交換(光子)を介して相互作用する2つの大きなスカラー粒子を要約する。 これらの解は、非常に小さな結合エネルギーを持つにもかかわらず、非相対論的極限には存在しない。 彼らは光子に支配される真の多体特性を示し、原子価成分波動関数(二体ノルム)のノルムはゼロ結合エネルギーの極限で消滅する。 特に, タキオン状態(M^2<0$)のモデルに悪影響を及ぼすことなく, どのような条件でそのような特異な解が得られるかを決定する。

We summarize the main properties of the so called ''abnormal solutions'' of the Wick--Cutkosky model, i.e. two massive scalar particles interacting via massless scalar exchange ("photons"), within the Bethe--Salpeter equation. These solutions do not exist in the non-relativistic limit, in spite of having very small binding energies. They present a genuine many-body character dominated by photons, with a norm of the valence constituent wave function (two-body norm) that vanishes in the limit of zero binding energy. We present new results concerning the massive-exchange case, in particular determine under which conditions is it possible to obtain such peculiar solutions without spoiling the model by tachyonic states ($M^2<0$).
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# 高圧縮映像からの歩行認識

Gait Recognition from Highly Compressed Videos ( http://arxiv.org/abs/2404.12183v1 )

ライセンス: Link先を確認
Andrei Niculae, Andy Catruna, Adrian Cosma, Daniel Rosner, Emilian Radoi, (参考訳) 監視映像は、歩行分析を行うための貴重な資源と機会を表している。 しかし、このような映像の典型的低品質と高雑音レベルは、信頼性の高い歩行分析の基礎となるポーズ推定アルゴリズムの精度に深刻な影響を及ぼす可能性がある。 既存の文献では、ポーズ推定の有効性とその後の歩行分析結果との直接的な相関が示唆されている。 一般的な緩和戦略は、頑健性を改善するためにノイズデータ上の微調整ポーズ推定モデルを含む。 しかし、このアプローチは、ダウンストリームモデルの性能を元の高品質なデータに低下させ、実際には望ましくないトレードオフをもたらす可能性がある。 本稿では,タスク対象のアーティファクト修正モデルを組み込んだ処理パイプラインを提案する。 我々のアーティファクト補正モデルは,ポーズ推定モデルの微調整を繰り返すことなく,最先端のポーズ推定ネットワークであるHRNetと協調して動作するように最適化されている。 さらに,自動でポーズを付加した低品質映像を,アーティファクト修正モデルの訓練を目的として,簡易かつ堅牢に取得する手法を提案する。 提案手法は,低品位監視映像におけるポーズ推定の改善だけでなく,高品位監視映像におけるポーズ推定の完全性も維持できることを示す。 実験の結果,歩行解析性能が向上し,直接微調整戦略に優れた代替手段として提案手法の有効性が示された。 当社のコントリビューションは、データ品質に関わらず、実世界のアプリケーションにおける監視データを用いたより信頼性の高い歩行分析の道を開いた。

Surveillance footage represents a valuable resource and opportunities for conducting gait analysis. However, the typical low quality and high noise levels in such footage can severely impact the accuracy of pose estimation algorithms, which are foundational for reliable gait analysis. Existing literature suggests a direct correlation between the efficacy of pose estimation and the subsequent gait analysis results. A common mitigation strategy involves fine-tuning pose estimation models on noisy data to improve robustness. However, this approach may degrade the downstream model's performance on the original high-quality data, leading to a trade-off that is undesirable in practice. We propose a processing pipeline that incorporates a task-targeted artifact correction model specifically designed to pre-process and enhance surveillance footage before pose estimation. Our artifact correction model is optimized to work alongside a state-of-the-art pose estimation network, HRNet, without requiring repeated fine-tuning of the pose estimation model. Furthermore, we propose a simple and robust method for obtaining low quality videos that are annotated with poses in an automatic manner with the purpose of training the artifact correction model. We systematically evaluate the performance of our artifact correction model against a range of noisy surveillance data and demonstrate that our approach not only achieves improved pose estimation on low-quality surveillance footage, but also preserves the integrity of the pose estimation on high resolution footage. Our experiments show a clear enhancement in gait analysis performance, supporting the viability of the proposed method as a superior alternative to direct fine-tuning strategies. Our contributions pave the way for more reliable gait analysis using surveillance data in real-world applications, regardless of data quality.
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# 環境変化のための適応的メタヒューリスティックフレームワーク

An Adaptive Metaheuristic Framework for Changing Environments ( http://arxiv.org/abs/2404.12185v1 )

ライセンス: Link先を確認
Bestoun S. Ahmed, (参考訳) 現代の最適化問題の急速に変化する状況は、リアルタイムで適応できるアルゴリズムを必要とする。 本稿では動的環境向けに設計された適応メタヒューリスティックフレームワーク(AMF)を紹介する。 問題パラメータの変化にインテリジェントに対応できるのです。 AMFは、問題の動的表現、リアルタイムセンシングシステム、適応技術を組み合わせて、継続的に変化する最適化環境をナビゲートする。 シミュレーションされた動的最適化問題を通じて、AMFの能力は環境変化を検出し、その探索戦略を積極的に調整する。 このフレームワークは、検出された変化に応じて解を調整する適応モジュールで改善された微分進化アルゴリズムを利用する。 AMFの調整能力は、一連のイテレーションを通じてテストされ、問題の発生にもかかわらず、ソリューションの品質を維持するためのレジリエンスと堅牢性を示している。 動的最適化問題に対する一連のシミュレーションによりAMFの有効性を実証する。 ロバストさと俊敏性は、提示されたフィットネスの進化とソリューションパスの可視化によって証明されたように、アルゴリズムのパフォーマンスを特徴づける。 この結果は、AMFが動的最適化の実践的な解決策であり、現実世界の問題の予測不可能性に対処できるアルゴリズムを作成するための大きな一歩であることを示している。

The rapidly changing landscapes of modern optimization problems require algorithms that can be adapted in real-time. This paper introduces an Adaptive Metaheuristic Framework (AMF) designed for dynamic environments. It is capable of intelligently adapting to changes in the problem parameters. The AMF combines a dynamic representation of problems, a real-time sensing system, and adaptive techniques to navigate continuously changing optimization environments. Through a simulated dynamic optimization problem, the AMF's capability is demonstrated to detect environmental changes and proactively adjust its search strategy. This framework utilizes a differential evolution algorithm that is improved with an adaptation module that adjusts solutions in response to detected changes. The capability of the AMF to adjust is tested through a series of iterations, demonstrating its resilience and robustness in sustaining solution quality despite the problem's development. The effectiveness of AMF is demonstrated through a series of simulations on a dynamic optimization problem. Robustness and agility characterize the algorithm's performance, as evidenced by the presented fitness evolution and solution path visualizations. The findings show that AMF is a practical solution to dynamic optimization and a major step forward in the creation of algorithms that can handle the unpredictability of real-world problems.
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# zk-SNARKによるプライバシー保護UPB決定プロセス検証

Privacy-Preserving UCB Decision Process Verification via zk-SNARKs ( http://arxiv.org/abs/2404.12186v1 )

ライセンス: Link先を確認
Xikun Jiang, He Lyu, Chenhao Ying, Yibin Xu, Boris Düdder, Yuan Luo, (参考訳) 機械学習の普及により、データのプライバシとアルゴリズムパラメータの保護と、マシンラーニングの検証可能性の確保のバランスを取る方法は、常に課題でした。 本研究では、強化学習とデータプライバシの交わりについて検討し、特に、Multi-Armed Bandit(MAB)問題とアッパー信頼境界(UCB)アルゴリズムに対処する。 我々は、Zero-Knowledge Succinct Non-Interactive Argument of Knowledge (zk-SNARKs) を用いて、UCBを強化する革新的なアルゴリズムzkUCBを紹介する。 zkUCBは、トレーニングデータとアルゴリズムパラメータの機密性を保護し、透明な UCB 決定を保証するために慎重に設計されている。 実験ではzkUCBの優れた性能が強調され、決定過程における情報エントロピーの低減に寄与する。 zkUCBの証明サイズと検証時間はzkUCBの実行ステップと線形にスケールする。 これはzkUCBがデータセキュリティと運用効率のバランスを保っていることを示している。 このアプローチは、複雑な意思決定プロセスにおけるデータのプライバシ強化に関する継続的な議論に大きく貢献し、プライバシに敏感なアプリケーションのための有望なソリューションを提供する。

With the increasingly widespread application of machine learning, how to strike a balance between protecting the privacy of data and algorithm parameters and ensuring the verifiability of machine learning has always been a challenge. This study explores the intersection of reinforcement learning and data privacy, specifically addressing the Multi-Armed Bandit (MAB) problem with the Upper Confidence Bound (UCB) algorithm. We introduce zkUCB, an innovative algorithm that employs the Zero-Knowledge Succinct Non-Interactive Argument of Knowledge (zk-SNARKs) to enhance UCB. zkUCB is carefully designed to safeguard the confidentiality of training data and algorithmic parameters, ensuring transparent UCB decision-making. Experiments highlight zkUCB's superior performance, attributing its enhanced reward to judicious quantization bit usage that reduces information entropy in the decision-making process. zkUCB's proof size and verification time scale linearly with the execution steps of zkUCB. This showcases zkUCB's adept balance between data security and operational efficiency. This approach contributes significantly to the ongoing discourse on reinforcing data privacy in complex decision-making processes, offering a promising solution for privacy-sensitive applications.
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# MPCコスト関数学習のための安定性インフォームドベイズ最適化

Stability-informed Bayesian Optimization for MPC Cost Function Learning ( http://arxiv.org/abs/2404.12187v1 )

ライセンス: Link先を確認
Sebastian Hirt, Maik Pfefferkorn, Ali Mesbah, Rolf Findeisen, (参考訳) 安全と安定性を維持しつつ、最適閉ループ性能に向けた予測コントローラの設計は困難である。 本研究は、閉ループ安定性を考慮しつつ、不完全な情報下での予測制御パラメータの閉ループ学習について検討する。 我々は、モデル予測制御器(MPC)のコスト関数をフィードフォワードニューラルネットワークとしてパラメータ化し、クローズドループの挙動を最適化し、モデル-プラントミスマッチを最小化するために、制約付きベイズ最適化を用いる。 そうすることで、高い自由度が得られ、したがって、希望的で最適な閉ループ挙動に対する効率的でグローバルな最適化の機会が得られます。 Lyapunov 候補として基礎となる MPC の最適値関数を利用して,学習した制御パラメータの安定性制約によってこの枠組みを拡張した。 提案手法の有効性はシミュレーションで明らかにされ,その性能と安全性が強調されている。

Designing predictive controllers towards optimal closed-loop performance while maintaining safety and stability is challenging. This work explores closed-loop learning for predictive control parameters under imperfect information while considering closed-loop stability. We employ constrained Bayesian optimization to learn a model predictive controller's (MPC) cost function parametrized as a feedforward neural network, optimizing closed-loop behavior as well as minimizing model-plant mismatch. Doing so offers a high degree of freedom and, thus, the opportunity for efficient and global optimization towards the desired and optimal closed-loop behavior. We extend this framework by stability constraints on the learned controller parameters, exploiting the optimal value function of the underlying MPC as a Lyapunov candidate. The effectiveness of the proposed approach is underlined in simulations, highlighting its performance and safety capabilities.
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# 勾配高木を用いた確率学習のためのランク付け対象のヘシアン行列の推定

Estimating the Hessian Matrix of Ranking Objectives for Stochastic Learning to Rank with Gradient Boosted Trees ( http://arxiv.org/abs/2404.12190v1 )

ライセンス: Link先を確認
Jingwei Kang, Maarten de Rijke, Harrie Oosterhuis, (参考訳) 確率的ランク付けモデルの最適化に関して,確率的ランク付け学習(Stochastic Learning to rank, LTR)は近年のLTR分野の分野である。 確率的振る舞いは、決定論的モデルでは不可能な特定のランク付け品質を可能にする。 例えば、表示された文書の多様性を高め、文書に対する露出の公正性を高め、ランダム化によるエクスプロイトと探索のバランスを改善することができる。 LTRの中核となる問題は勾配推定であり、そのため既存の確率的LTR法は微分可能なランキングモデル(例えばニューラルネットワーク)に限られている。 これは、GBDT(Gradient Boosted Decision Trees)が長い間最先端と見なされてきたLTRの一般分野とは対照的である。 本稿では,GBDT に対する最初の確率 LTR 手法を導入することで,このギャップに対処する。 我々の主な貢献は、2階微分、すなわち有効GBDTの要求であるヘッセン行列に対する新しい推定器である。 一階導関数と二階導関数の両方を同時に効率的に計算するために、当初一階導関数のみを対象として設計された既存のPL-Rankフレームワークに推定器を組み込む。 実験結果から,Hessianを含まない確率的LTRの性能は極めて低いが,Hessianを含まない確率的LTRの性能は現在のHessianと競合していることがわかった。 そこで我々は,新しいヘッセン推定法の貢献により,確率的LTRにGBDTを導入することに成功した。

Stochastic learning to rank (LTR) is a recent branch in the LTR field that concerns the optimization of probabilistic ranking models. Their probabilistic behavior enables certain ranking qualities that are impossible with deterministic models. For example, they can increase the diversity of displayed documents, increase fairness of exposure over documents, and better balance exploitation and exploration through randomization. A core difficulty in LTR is gradient estimation, for this reason, existing stochastic LTR methods have been limited to differentiable ranking models (e.g., neural networks). This is in stark contrast with the general field of LTR where Gradient Boosted Decision Trees (GBDTs) have long been considered the state-of-the-art. In this work, we address this gap by introducing the first stochastic LTR method for GBDTs. Our main contribution is a novel estimator for the second-order derivatives, i.e., the Hessian matrix, which is a requirement for effective GBDTs. To efficiently compute both the first and second-order derivatives simultaneously, we incorporate our estimator into the existing PL-Rank framework, which was originally designed for first-order derivatives only. Our experimental results indicate that stochastic LTR without the Hessian has extremely poor performance, whilst the performance is competitive with the current state-of-the-art with our estimated Hessian. Thus, through the contribution of our novel Hessian estimation method, we have successfully introduced GBDTs to stochastic LTR.
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# LLMによるテキスト記述への適応行動と歩行

Aligning Actions and Walking to LLM-Generated Textual Descriptions ( http://arxiv.org/abs/2404.12192v1 )

ライセンス: Link先を確認
Radu Chivereanu, Adrian Cosma, Andy Catruna, Razvan Rughinis, Emilian Radoi, (参考訳) 大規模言語モデル(LLM)は、データ拡張や合成データ生成など、さまざまな領域で顕著な機能を示している。 本研究は, 動作パターンと歩行パターンの両方を包含して, 動作シーケンスのリッチなテキスト記述を生成するLLMの利用について検討する。 我々は、LLMの表現力を利用して、動作表現を高レベルな言語的手がかりと整合させ、動作認識と、外観特性に基づく歩行シーケンスの検索という2つの異なるタスクに対処する。 BABEL-60データセットにおける動作のテキスト記述をLLMを用いて生成し,動き列と言語表現のアライメントを容易にする。 歩行分析の分野では,LCMを用いたDenseGaitデータセットから動作シーケンスのテキスト記述を生成することにより,外観特性が歩行パターンに与える影響について検討する。 これらの記述は、衣服の選択や履物などの要因に影響された歩行様式の微妙な変化を捉えている。 提案手法は,構造的動き特性の増大と多モード表現の整合化におけるLLMの可能性を示す。 本研究は,多モードアライメントにおけるLCMの活用のための総合的な動作理解の進展と,動き解析のためのデータ拡張に寄与する。 コードをhttps://github.com/Radu1999/WalkAndTextで公開しています。

Large Language Models (LLMs) have demonstrated remarkable capabilities in various domains, including data augmentation and synthetic data generation. This work explores the use of LLMs to generate rich textual descriptions for motion sequences, encompassing both actions and walking patterns. We leverage the expressive power of LLMs to align motion representations with high-level linguistic cues, addressing two distinct tasks: action recognition and retrieval of walking sequences based on appearance attributes. For action recognition, we employ LLMs to generate textual descriptions of actions in the BABEL-60 dataset, facilitating the alignment of motion sequences with linguistic representations. In the domain of gait analysis, we investigate the impact of appearance attributes on walking patterns by generating textual descriptions of motion sequences from the DenseGait dataset using LLMs. These descriptions capture subtle variations in walking styles influenced by factors such as clothing choices and footwear. Our approach demonstrates the potential of LLMs in augmenting structured motion attributes and aligning multi-modal representations. The findings contribute to the advancement of comprehensive motion understanding and open up new avenues for leveraging LLMs in multi-modal alignment and data augmentation for motion analysis. We make the code publicly available at https://github.com/Radu1999/WalkAndText
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# GraFIQs: グラディエントマグニチュードを用いた顔画像品質評価

GraFIQs: Face Image Quality Assessment Using Gradient Magnitudes ( http://arxiv.org/abs/2404.12203v1 )

ライセンス: Link先を確認
Jan Niklas Kolf, Naser Damer, Fadi Boutros, (参考訳) 顔画像品質評価(FIQA)は、顔認識(FR)システムにおける顔画像の有用性を推定する。 本研究では,テストサンプルとFRトレーニングデータセットの分布の差を最小限に抑えるために,事前学習したFRモデルの重量変化を検査し,顔画像の品質を評価する新しい手法を提案する。 そこで本研究では, FRトレーニング中に記録した値と, 事前訓練したFRモデルを用いて試料を処理した値との平均値と分散値との差を定量化する手法を提案する。 次に、事前学習モデルを用いてBNSを逆伝播させることにより、事前学習されたFR重量の勾配等級を生成する。 これらの勾配等級の累積絶対和は、我々のアプローチのFIQとなる。 総合的な実験を通じて、トレーニング不要で品質の高いラベリングフリーアプローチの有効性を実証し、最近の最先端のFIQAアプローチに対して、品質ラベリングに頼ることなく、回帰ネットワークのトレーニング、特殊アーキテクチャ、特定の損失関数の設計と最適化を行う。

Face Image Quality Assessment (FIQA) estimates the utility of face images for automated face recognition (FR) systems. We propose in this work a novel approach to assess the quality of face images based on inspecting the required changes in the pre-trained FR model weights to minimize differences between testing samples and the distribution of the FR training dataset. To achieve that, we propose quantifying the discrepancy in Batch Normalization statistics (BNS), including mean and variance, between those recorded during FR training and those obtained by processing testing samples through the pretrained FR model. We then generate gradient magnitudes of pretrained FR weights by backpropagating the BNS through the pretrained model. The cumulative absolute sum of these gradient magnitudes serves as the FIQ for our approach. Through comprehensive experimentation, we demonstrate the effectiveness of our training-free and quality labeling-free approach, achieving competitive performance to recent state-of-theart FIQA approaches without relying on quality labeling, the need to train regression networks, specialized architectures, or designing and optimizing specific loss functions.
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# 逆関数のUBCT, LBCT, DBCTの明示値

The Explicit values of the UBCT, the LBCT and the DBCT of the inverse function ( http://arxiv.org/abs/2404.12208v1 )

ライセンス: Link先を確認
Yuying Man, Nian Li, Zhen Liu, Xiangyong Zeng, (参考訳) 置換箱(Sボックス)は、ブロック暗号の様々な攻撃に対する耐性を確保する上で重要な役割を果たしている。 特定のSボックスのアッパー・ブーメラン接続テーブル(UBCT)、ロウアー・ブーメラン接続テーブル(LBCT)、ダブル・ブーメラン接続テーブル(DBCT)は、特定の攻撃に関するセキュリティを分析する重要なツールである。 しかし、現在この研究には関連性はない。 逆関数は、対称暗号において優れた暗号特性を持つブロック暗号のSボックスを構築するために重要である。 そのため、逆関数について広範な研究が行われ、標準攻撃に関連する様々な特性を探索している。 本稿では,近年のブーメラン暗号解析の進歩,特にUBCT,LBCT,DBCTなどの概念の導入により,逆関数 $F(x)=x^{2^n-2}$ over $\gf_{2^n}$ for arbitrary $n$ を更に検討することを目的とする。 その結果、特定の方程式を$\gf_{2^n}$で解くための特定の細かい操作を行うことで、任意の$n$に対して$F(x)$ over $\gf_{2^n}$のUBCT、LBCTの全てのエントリを与える。 さらに、逆関数に対するUBCTとLBCTの結果から、$n$が奇数であれば$F(x)$は難しいと判断する。 さらに、任意の$n$に対して$F(x)$ over $\gf_{2^n}$のDBCTの全エントリを完全に計算する。 さらに、いくつかのクルースターマン和の値を用いて、与えられたエントリを持つ正確な元数を与える。 さらに、任意の$n$に対して$F(x)$ over $\gf_{2^n}$の二重ブーメラン均一性を決定する。 F(x)$のDBCTの詳細な分析は、ブーメラン攻撃に対するSボックスの抵抗性の評価に寄与する。

Substitution boxes (S-boxes) play a significant role in ensuring the resistance of block ciphers against various attacks. The Upper Boomerang Connectivity Table (UBCT), the Lower Boomerang Connectivity Table (LBCT) and the Double Boomerang Connectivity Table (DBCT) of a given S-box are crucial tools to analyze its security concerning specific attacks. However, there are currently no related results for this research. The inverse function is crucial for constructing S-boxes of block ciphers with good cryptographic properties in symmetric cryptography. Therefore, extensive research has been conducted on the inverse function, exploring various properties related to standard attacks. Thanks to the recent advancements in boomerang cryptanalysis, particularly the introduction of concepts such as UBCT, LBCT, and DBCT, this paper aims to further investigate the properties of the inverse function $F(x)=x^{2^n-2}$ over $\gf_{2^n}$ for arbitrary $n$. As a consequence, by carrying out certain finer manipulations of solving specific equations over $\gf_{2^n}$, we give all entries of the UBCT, LBCT of $F(x)$ over $\gf_{2^n}$ for arbitrary $n$. Besides, based on the results of the UBCT and LBCT for the inverse function, we determine that $F(x)$ is hard when $n$ is odd. Furthermore, we completely compute all entries of the DBCT of $F(x)$ over $\gf_{2^n}$ for arbitrary $n$. Additionally, we provide the precise number of elements with a given entry by means of the values of some Kloosterman sums. Further, we determine the double boomerang uniformity of $F(x)$ over $\gf_{2^n}$ for arbitrary $n$. Our in-depth analysis of the DBCT of $F(x)$ contributes to a better evaluation of the S-box's resistance against boomerang attacks.
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# 幾何学的整合性を考慮した部分-部分形状マッチング

Partial-to-Partial Shape Matching with Geometric Consistency ( http://arxiv.org/abs/2404.12209v1 )

ライセンス: Link先を確認
Viktoria Ehm, Maolin Gao, Paul Roetzer, Marvin Eisenberger, Daniel Cremers, Florian Bernard, (参考訳) 3次元形状の対応を見つけることは、コンピュータビジョンやグラフィックスなどにおいて、重要かつ長年にわたる問題である。 顕著な課題は部分-部分的な形状マッチング設定であり、マッチする形状が不完全な(例えば3Dスキャンによる)場合にのみ発生する。 部分対部分マッチングは実際には非常に関連性の高い設定であるが、調査されることは稀である。 我々の研究は、幾何学的一貫性を強い制約として活用することで、既存の(あるいは人工的な)3次元フル形状マッチングと部分的から部分的な実世界の設定のギャップを埋める。 様々な環境でこの問題を解決することは実際に可能であることを実証する。 線形整数プログラミングに基づく新しいプルーニングアルゴリズムとともに、三角形積空間上に構築された新しい整数非線形プログラム形式により実現された部分対部分マッチングの幾何的整合性を実現する。 さらに,部分-部分形状マッチングのためのクラス間データセットを新たに生成する。 提案手法は,既存のクラス内データセットと新しいクラス間データセットの両方において,SOTA法よりも優れていることを示す。

Finding correspondences between 3D shapes is an important and long-standing problem in computer vision, graphics and beyond. A prominent challenge are partial-to-partial shape matching settings, which occur when the shapes to match are only observed incompletely (e.g. from 3D scanning). Although partial-to-partial matching is a highly relevant setting in practice, it is rarely explored. Our work bridges the gap between existing (rather artificial) 3D full shape matching and partial-to-partial real-world settings by exploiting geometric consistency as a strong constraint. We demonstrate that it is indeed possible to solve this challenging problem in a variety of settings. For the first time, we achieve geometric consistency for partial-to-partial matching, which is realized by a novel integer non-linear program formalism building on triangle product spaces, along with a new pruning algorithm based on linear integer programming. Further, we generate a new inter-class dataset for partial-to-partial shape-matching. We show that our method outperforms current SOTA methods on both an established intra-class dataset and our novel inter-class dataset.
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# 観察・解析・解法:マズード画像モデリングによる強力な軽量視覚変換器の探索

Observation, Analysis, and Solution: Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training ( http://arxiv.org/abs/2404.12210v1 )

ライセンス: Link先を確認
Jin Gao, Shubo Lin, Shaoru Wang, Yutong Kou, Zeming Li, Liang Li, Congxuan Zhang, Xiaoqin Zhang, Yizheng Wang, Weiming Hu, (参考訳) コンピュータビジョンにおける大規模な視覚変換器(ViT)のためのマスク付き画像モデリング(MIM)の事前トレーニングにより、学習された自己教師付きVT機能に加えて、下流のパフォーマンスが期待できる。 本稿では,比較的単純なViTの小型アーキテクチャによる微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを疑問視する。 様々なMIM事前学習手法をこの軽量なシステムに慎重に適用し、それらを様々な下流画像分類と高密度予測タスクに基づくコントラスト学習(CL)と比較することにより、下流の微調整データスケールに関して、MIMとCLの異なる挙動を体系的に観察する。 さらに, 線形探索評価による凍結特徴と, 得られたモデル間の層表現類似性および注意マップを解析し, 上位層でのMIM事前学習の劣悪な学習を明らかに示し, データ不足な下流タスクにおける微調整性能の低下を招いた。 この発見は, 上述の劣化問題を解決するために, 事前学習中に適切な蒸留方法を選択するためのガイドとなる。 様々な視覚課題に対する広範囲な実験は、我々の観察・分析・溶解流の有効性を実証している。 特に,Vanilla/hierarchical design (5.7M/6.5M) を用いた純軽量ViTの蒸留による事前トレーニングでは,ImageNet-1Kで79.4%/78.9%の精度が得られる。 ADE20Kセマンティックセグメンテーションタスク (42.8% mIoU) とLaSOTビジュアルトラッキングタスク (66.1% AUC) の軽量なシステムでのSOTAパフォーマンスも実現している。 後者は、現在のSOTA軽量CPUリアルタイムトラッカーを全て上回っている。

Masked image modeling (MIM) pre-training for large-scale vision transformers (ViTs) in computer vision has enabled promising downstream performance on top of the learned self-supervised ViT features. In this paper, we question if the extremely simple ViTs' fine-tuning performance with a small-scale architecture can also benefit from this pre-training paradigm, which is considerably less studied yet in contrast to the well-established lightweight architecture design methodology with sophisticated components introduced. By carefully adapting various typical MIM pre-training methods to this lightweight regime and comparing them with the contrastive learning (CL) pre-training on various downstream image classification and dense prediction tasks, we systematically observe different behaviors between MIM and CL with respect to the downstream fine-tuning data scales. Furthermore, we analyze the frozen features under linear probing evaluation and also the layer representation similarities and attention maps across the obtained models, which clearly show the inferior learning of MIM pre-training on higher layers, leading to unsatisfactory fine-tuning performance on data-insufficient downstream tasks. This finding is naturally a guide to choosing appropriate distillation strategies during pre-training to solve the above deterioration problem. Extensive experiments on various vision tasks demonstrate the effectiveness of our observation-analysis-solution flow. In particular, our pre-training with distillation on pure lightweight ViTs with vanilla/hierarchical design (5.7M/6.5M) can achieve 79.4%/78.9% top-1 accuracy on ImageNet-1K. It also enables SOTA performance on the ADE20K semantic segmentation task (42.8% mIoU) and LaSOT visual tracking task (66.1% AUC) in the lightweight regime. The latter even surpasses all the current SOTA lightweight CPU-realtime trackers.
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# ProTA: テキスト検索のための確率的トークン集約

ProTA: Probabilistic Token Aggregation for Text-Video Retrieval ( http://arxiv.org/abs/2404.12216v1 )

ライセンス: Link先を確認
Han Fang, Xianghao Zang, Chao Ban, Zerun Feng, Lanxiang Zhou, Zhongjiang He, Yongxiang Li, Hao Sun, (参考訳) テキストビデオ検索は、あるクエリに対して最も関連性の高いクロスモーダルサンプルを見つけることを目的としている。 近年の手法は空間的・時間的関係のモデル化に重点を置いている。 しかし、ビデオクリップはキャプションよりも多様な内容を含んでいるため、これらの非対称なビデオテキストペアを整列させるモデルは、多くの偽陽性結果を取得するリスクが高い。 本稿では,コンテンツ非対称性との相互相互作用を扱うための確率的トークン集約(\textit{ProTA})を提案する。 具体的には、低次元空間と高次元空間の両方において、トークン表現をアンタングルと再集約する2つの部分関連アグリゲーションを提案する。 トークンレベルの確率的表現を生成し,特徴表現の多様性を維持するために,トークンベースの確率的アライメントを提案する。 さらに、コンパクトなクロスモーダル分布空間を学習するために、適応的なコントラスト損失を提案する。 広範な実験に基づいて、textit{ProTA} は MSR-VTT (50.9%)、LSMDC (25.8%)、DiDeMo (47.2%) を大幅に改善した。

Text-video retrieval aims to find the most relevant cross-modal samples for a given query. Recent methods focus on modeling the whole spatial-temporal relations. However, since video clips contain more diverse content than captions, the model aligning these asymmetric video-text pairs has a high risk of retrieving many false positive results. In this paper, we propose Probabilistic Token Aggregation (\textit{ProTA}) to handle cross-modal interaction with content asymmetry. Specifically, we propose dual partial-related aggregation to disentangle and re-aggregate token representations in both low-dimension and high-dimension spaces. We propose token-based probabilistic alignment to generate token-level probabilistic representation and maintain the feature representation diversity. In addition, an adaptive contrastive loss is proposed to learn compact cross-modal distribution space. Based on extensive experiments, \textit{ProTA} achieves significant improvements on MSR-VTT (50.9%), LSMDC (25.8%), and DiDeMo (47.2%).
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# アーボラッセンス結び目からの絡み合った状態

Entangled states from arborescent knots ( http://arxiv.org/abs/2404.12222v1 )

ライセンス: Link先を確認
Sergey Mironov, Andrey Morozov, (参考訳) 本稿では,アーボラッセンス結び目を用いて絡み合ったマルチキュービット状態を構築する方法について論じる。 このような結び目からベル状態、GHZ状態、クラスター状態を構築することができることを示す。 後者は、測定ベースの量子コンピュータの基盤を形成するため、特に興味深い。

In this paper we discuss how to use arborescent knots to construct entangled multi-qubit states. We show that Bell-states, GHZ-states and cluster states can be constructed from such knots. The latter are particularly interesting since they form a base for the measurement-based quantum computers.
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# 位置符号化のない因果変換器の長さ一般化

Length Generalization of Causal Transformers without Position Encoding ( http://arxiv.org/abs/2404.12224v1 )

ライセンス: Link先を確認
Jie Wang, Tao Ji, Yuanbin Wu, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang, Xiaoling Wang, (参考訳) より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。 明示的な位置特徴を操作するアルゴリズムに加えて、位置エンコーディング(NoPE)のないトランスフォーマーの成功は、この課題を克服する新しい方法を提供する。 本稿では,NoPEの長さ一般化特性について検討する。 NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。 我々は,NoPEの一般化の失敗と注意分布の乱れとの関係を同定する。 本研究では,NPEのコンテキストサイズを大幅に拡大する,アテンションヘッドの最適温度ハイパーパラメータを求めるためのパラメータ効率チューニングを提案する。 ロングシーケンス言語モデリング、合成パスキー検索タスク、実世界のロングコンテキストタスクの実験は、NoPEが最先端長一般化アルゴリズムで競合性能を達成可能であることを示している。 ソースコードは公開されています

Generalizing to longer sentences is important for recent Transformer-based language models. Besides algorithms manipulating explicit position features, the success of Transformers without position encodings (NoPE) provides a new way to overcome the challenge. In this paper, we study the length generalization property of NoPE. We find that although NoPE can extend to longer sequences than the commonly used explicit position encodings, it still has a limited context length. We identify a connection between the failure of NoPE's generalization and the distraction of attention distributions. We propose a parameter-efficient tuning for searching attention heads' best temperature hyper-parameters, which substantially expands NoPE's context size. Experiments on long sequence language modeling, the synthetic passkey retrieval task and real-world long context tasks show that NoPE can achieve competitive performances with state-of-the-art length generalization algorithms. The source code is publicly accessible
翻訳日:2024-04-19 12:21:51 公開日:2024-04-18
# Beyond Average: 個別化されたビジュアルスキャンパス予測

Beyond Average: Individualized Visual Scanpath Prediction ( http://arxiv.org/abs/2404.12235v1 )

ライセンス: Link先を確認
Xianyu Chen, Ming Jiang, Qi Zhao, (参考訳) 個人間で注意がどのように異なるかを理解することは、科学的、社会的影響が大きい。 しかし、既存の視覚スキャンパスモデルは、個々の違いを無視して、注意を均一に扱う。 このギャップを埋めるために,多様な視覚的タスクにおいて,異なる個人がどのように注意をシフトするかを正確に予測することを目的とした,新たな注意モデルタスクである個別スキャンパス予測(ISP)に焦点を当てた。 1)観察者のユニークな注意特徴を特徴付け統合するオブザーバエンコーダ,(2)視覚的特徴,タスクガイダンス,オブザーバ特有の特徴を一元的に組み合わせたオブザーバ中心の機能統合アプローチ,(3)観察者の注意特徴に基づいて動的にセマンティック特徴マップを優先順位付けすることでスキャンパス予測を洗練する適応的修正優先順位付け機構,の3つの新しい技術コンポーネントを特徴とするISP手法を提案する。 これらの新しいコンポーネントにより、スキャンパスモデルは、異なるオブザーバ間での注意変動に効果的に対処できる。 提案手法は,一般に異なるデータセット,モデルアーキテクチャ,視覚的タスクに適用可能であり,一般的なスキャンパスモデルを個別化するための包括的なツールを提供する。 値ベースおよびランキングベースのメトリクスを用いた総合的な評価は、その方法の有効性と一般化可能性を検証する。

Understanding how attention varies across individuals has significant scientific and societal impacts. However, existing visual scanpath models treat attention uniformly, neglecting individual differences. To bridge this gap, this paper focuses on individualized scanpath prediction (ISP), a new attention modeling task that aims to accurately predict how different individuals shift their attention in diverse visual tasks. It proposes an ISP method featuring three novel technical components: (1) an observer encoder to characterize and integrate an observer's unique attention traits, (2) an observer-centric feature integration approach that holistically combines visual features, task guidance, and observer-specific characteristics, and (3) an adaptive fixation prioritization mechanism that refines scanpath predictions by dynamically prioritizing semantic feature maps based on individual observers' attention traits. These novel components allow scanpath models to effectively address the attention variations across different observers. Our method is generally applicable to different datasets, model architectures, and visual tasks, offering a comprehensive tool for transforming general scanpath models into individualized ones. Comprehensive evaluations using value-based and ranking-based metrics verify the method's effectiveness and generalizability.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# 因果グラフ制約を持つニューラルネットワーク:治療効果推定の新しいアプローチ

Neural Networks with Causal Graph Constraints: A New Approach for Treatment Effects Estimation ( http://arxiv.org/abs/2404.12238v1 )

ライセンス: Link先を確認
Roger Pros, Jordi Vitrià, (参考訳) 近年,治療効果の評価に機械学習技術を使うことへの関心が高まっている。 最も優れた手法のほとんどは、治療効果推定の精度を高めるために、潜在的成果間の共有行動を促進する表現学習戦略に依存している。 本稿では,これらのモデルをアルゴリズム的帰納バイアスの観点から論じ,その因果グラフからの追加情報を考慮した新しいモデルNN-CGCを提案する。 NN-CGCは、モデルに新しい制約を実装することで、刺激的な変数相互作用によるバイアスに対処し、他の表現学習手法と統合することができる。 提案手法の有効性を,共通ベンチマーク上で3つの異なるベースモデルを用いて検証する。 以上の結果から, モデル制約が改善し, 治療効果評価の新たな結果が得られたことが示唆された。 また,本手法は因果グラフの不完全性に対して頑健であり,因果情報の部分的利用が無視に有利であることを示す。

In recent years, there has been a growing interest in using machine learning techniques for the estimation of treatment effects. Most of the best-performing methods rely on representation learning strategies that encourage shared behavior among potential outcomes to increase the precision of treatment effect estimates. In this paper we discuss and classify these models in terms of their algorithmic inductive biases and present a new model, NN-CGC, that considers additional information from the causal graph. NN-CGC tackles bias resulting from spurious variable interactions by implementing novel constraints on models, and it can be integrated with other representation learning methods. We test the effectiveness of our method using three different base models on common benchmarks. Our results indicate that our model constraints lead to significant improvements, achieving new state-of-the-art results in treatment effects estimation. We also show that our method is robust to imperfect causal graphs and that using partial causal information is preferable to ignoring it.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# スパース観測による資源利用のための時間不均質マルコフモデル

A Time-Inhomogeneous Markov Model for Resource Availability under Sparse Observations ( http://arxiv.org/abs/2404.12240v1 )

ライセンス: Link先を確認
Lukas Rottkamp, Matthias Schubert, (参考訳) 現在の状況に関する正確な時空間情報は、現代のルーティングアルゴリズムのようなスマートシティアプリケーションには不可欠である。 この情報は、例えば駐車場、充電ステーション、あるいは車両が所定の場所の近くで迎えに来るのを待っている人の数など、定常的な資源の状態を記述することが多い。 このような情報を活用するためには、リソースが必要とされるまでその状態を変更する可能性があるため、監視されたリソースの将来の状態を予測することがしばしば必要となる。 正確な予測モデルをトレーニングするには、リソースの状態に関する連続した時系列を得ることができないことが多い。 例えば、この情報は不規則な頻度で資源を訪れる旅行エージェントから収集されるかもしれない。 したがって、訓練と予測のためのスパース観測に取り組む方法を開発する必要がある。 本稿では,観測頻度が非常に稀な場合でも正確な予測が可能な時間不均一離散マルコフモデルを提案する。 我々の新しいモデルは、最近の観測を過去のデータとブレンドすることができ、将来の状態に有用な確率的推定を提供する。 都市における資源の可利用性は通常時間に依存しているため、マルコフモデルは予め定義された時間間隔内で時間的不均一かつ循環的である。 モデルをトレーニングするために,修正Baum-Welchアルゴリズムを提案する。 駐車ベイアベイラビリティーの現実的データセットによる評価から,本手法は,完全データおよび非循環的変種に基づいて訓練された手法と比較して,良好な結果が得られることが示された。

Accurate spatio-temporal information about the current situation is crucial for smart city applications such as modern routing algorithms. Often, this information describes the state of stationary resources, e.g. the availability of parking bays, charging stations or the amount of people waiting for a vehicle to pick them up near a given location. To exploit this kind of information, predicting future states of the monitored resources is often mandatory because a resource might change its state within the time until it is needed. To train an accurate predictive model, it is often not possible to obtain a continuous time series on the state of the resource. For example, the information might be collected from traveling agents visiting the resource with an irregular frequency. Thus, it is necessary to develop methods which work on sparse observations for training and prediction. In this paper, we propose time-inhomogeneous discrete Markov models to allow accurate prediction even when the frequency of observation is very rare. Our new model is able to blend recent observations with historic data and also provide useful probabilistic estimates for future states. Since resources availability in a city is typically time-dependent, our Markov model is time-inhomogeneous and cyclic within a predefined time interval. To train our model, we propose a modified Baum-Welch algorithm. Evaluations on real-world datasets of parking bay availability show that our new method indeed yields good results compared to methods being trained on complete data and non-cyclic variants.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# CMNEE: オープンソースの中国軍報に基づく大規模文書レベルイベント抽出データセット

CMNEE: A Large-Scale Document-Level Event Extraction Dataset based on Open-Source Chinese Military News ( http://arxiv.org/abs/2404.12242v1 )

ライセンス: Link先を確認
Mengna Zhu, Zijie Xu, Kaisheng Zeng, Kaiming Xiao, Mao Wang, Wenjun Ke, Hongbin Huang, (参考訳) 軍事文書からイベントトリガーやそれに対応する議論を含む構造化されたイベント知識を抽出することは、インテリジェンス分析や意思決定支援といった多くの応用に不可欠である。 しかし、軍事分野におけるイベント抽出は、この領域におけるイベント抽出モデルの研究を妨げるデータ不足の問題に直面している。 この問題を軽減するために,大規模な文書レベルのオープンソースである中国軍事ニュースイベント抽出データセットであるCMNEEを提案する。 17,000のドキュメントと29,223のイベントが含まれており、いずれも8つのイベントタイプと11の引数ロールタイプを含む、軍事ドメインの事前定義されたスキーマに基づいて手動で注釈付けされている。 我々はCMNEEの品質を保証するために2段階のマルチターンアノテーション戦略を設計し、系統的評価によりいくつかの最先端イベント抽出モデルを再現した。 CMNEEの実験結果は、明らかに他のドメインデータセットよりも短くなる。 私たちのコードとデータはhttps://github.com/Mzzzhu/CMNEEから取得できます。

Extracting structured event knowledge, including event triggers and corresponding arguments, from military texts is fundamental to many applications, such as intelligence analysis and decision assistance. However, event extraction in the military field faces the data scarcity problem, which impedes the research of event extraction models in this domain. To alleviate this problem, we propose CMNEE, a large-scale, document-level open-source Chinese Military News Event Extraction dataset. It contains 17,000 documents and 29,223 events, which are all manually annotated based on a pre-defined schema for the military domain including 8 event types and 11 argument role types. We designed a two-stage, multi-turns annotation strategy to ensure the quality of CMNEE and reproduced several state-of-the-art event extraction models with a systematic evaluation. The experimental results on CMNEE fall shorter than those on other domain datasets obviously, which demonstrates that event extraction for military domain poses unique challenges and requires further research efforts. Our code and data can be obtained from https://github.com/Mzzzhu/CMNEE.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# 集合組織における異常のブラインド局在とクラスタリング

Blind Localization and Clustering of Anomalies in Textures ( http://arxiv.org/abs/2404.12246v1 )

ライセンス: Link先を確認
Andrei-Timotei Ardelean, Tim Weyrich, (参考訳) 画像中の異常検出と局所化は、コンピュータビジョンにおける成長する分野である。 この領域では、一見未調査の問題は異常クラスタリング(つまり、完全に教師されていない方法で異なる種類の異常を特定してグループ化する)である。 本研究では,主に静止画像(テクスチャ)の異常をブラインド環境でクラスタリングする手法を提案する。 すなわち、入力は正規画像と異常画像から構成される。 この課題の難しさの要因は、しばしば異常領域は小さく、外観の微妙な変化しか起こらず、テクスチャの真のばらつきによって容易に覆い隠される可能性があることである。 さらに、各異常型は複雑な外観分布を持つことがある。 本稿では,視覚異常局所化とコントラスト学習を組み合わせた新しい手法を提案する。 異常領域を高い忠実度で識別することにより、関心領域に焦点を絞ることができ、異なる異常型の分離性を高め、クラス内変動を低減するために、対照的な学習が用いられる。 実験の結果,提案手法は先行研究よりも有意に優れた結果を示し,新たな最先端技術が確立された。 プロジェクトページ: https://reality.tf.fau.de/pub/ardelean2024blind.html

Anomaly detection and localization in images is a growing field in computer vision. In this area, a seemingly understudied problem is anomaly clustering, i.e., identifying and grouping different types of anomalies in a fully unsupervised manner. In this work, we propose a novel method for clustering anomalies in largely stationary images (textures) in a blind setting. That is, the input consists of normal and anomalous images without distinction and without labels. What contributes to the difficulty of the task is that anomalous regions are often small and may present only subtle changes in appearance, which can be easily overshadowed by the genuine variance in the texture. Moreover, each anomaly type may have a complex appearance distribution. We introduce a novel scheme for solving this task using a combination of blind anomaly localization and contrastive learning. By identifying the anomalous regions with high fidelity, we can restrict our focus to those regions of interest; then, contrastive learning is employed to increase the separability of different anomaly types and reduce the intra-class variation. Our experiments show that the proposed solution yields significantly better results compared to prior work, setting a new state of the art. Project page: https://reality.tf.fau.de/pub/ardelean2024blind.html.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# モダリティの欠如を考慮したマルチモーダル感情認識のための動的モダリティと視点選択

Dynamic Modality and View Selection for Multimodal Emotion Recognition with Missing Modalities ( http://arxiv.org/abs/2404.12251v1 )

ライセンス: Link先を確認
Luciana Trinkaus Menon, Luiz Carlos Ribeiro Neduziak, Jean Paul Barddal, Alessandro Lameiras Koerich, Alceu de Souza Britto Jr, (参考訳) 人間の感情の研究は、伝統的に心理学や神経科学などの分野の基礎であり、人工知能(AI)の出現によって大きな影響を受けている。 音声(音声)や表情(画像)といった複数のチャンネルは、人間の感情を理解するのに不可欠である。 しかし、マルチモーダル感情認識(MER)におけるAIの旅は、重大な技術的課題によって特徴づけられている。 重要なハードルのひとつは、AIモデルが特定のモダリティ(現実世界の状況で頻繁に発生する)の欠如を管理する方法だ。 本研究の中心は,新しいマルチモーダル・ダイナミック・モダリティとビュー・セレクションとクロスアテンション・メカニズムの欠如に直面した2つの戦略の性能とレジリエンスを評価することである。 RECOLAデータセットの結果は、動的選択に基づく手法がMERにとって有望なアプローチであることを示している。 モダリティの欠如のシナリオでは、すべての動的選択ベースのメソッドがベースラインを上回りました。 この研究は、感情予測における音声とビデオのモダリティの複雑な相互作用を強調し、欠落したモダリティを扱う際に動的選択法の適応性を示す。

The study of human emotions, traditionally a cornerstone in fields like psychology and neuroscience, has been profoundly impacted by the advent of artificial intelligence (AI). Multiple channels, such as speech (voice) and facial expressions (image), are crucial in understanding human emotions. However, AI's journey in multimodal emotion recognition (MER) is marked by substantial technical challenges. One significant hurdle is how AI models manage the absence of a particular modality - a frequent occurrence in real-world situations. This study's central focus is assessing the performance and resilience of two strategies when confronted with the lack of one modality: a novel multimodal dynamic modality and view selection and a cross-attention mechanism. Results on the RECOLA dataset show that dynamic selection-based methods are a promising approach for MER. In the missing modalities scenarios, all dynamic selection-based methods outperformed the baseline. The study concludes by emphasizing the intricate interplay between audio and video modalities in emotion prediction, showcasing the adaptability of dynamic selection methods in handling missing modalities.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# 教師なし画像分割のための深いガウス混合モデル

Deep Gaussian mixture model for unsupervised image segmentation ( http://arxiv.org/abs/2404.12252v1 )

ライセンス: Link先を確認
Matthias Schwab, Agnes Mayr, Markus Haltmeier, (参考訳) 近年のディープラーニングの出現は、教師付きディープセマンティックセグメンテーションアルゴリズムの設計に多大な作業をもたらした。 多くのタスクにおいて、十分なピクセルレベルのラベルを得るのは非常に難しいため、ガウス混合モデル(GMM)と教師なしディープラーニング技術を組み合わせた手法を提案する。 標準GMMでは、各サブリージョンのピクセル値はガウス分布によってモデル化される。 異なる領域を特定するために、GMMに関する負の対数類似関数(NLL)を最小化するパラメータベクトルを近似する必要がある。 このタスクでは、通常、期待最大化(EM)アルゴリズムのような反復最適化手法が使用される。 本稿では、畳み込みニューラルネットワーク(CNN)を用いて、画像から直接これらのパラメータを推定する。 そこで我々は,EMアルゴリズムの反復手順を,ネットワークパラメータの勾配ステップによって置き換える。 つまり、ネットワークは、少なくとも2つの利点があるGMMのNLL関数を最小限にするために訓練される。 一度トレーニングしたように、ネットワークは反復最適化法と比較してラベル確率を非常に早く予測できる。 第2に,画像の深部化により,GMMの主な欠点の1つを部分的に克服することができる。 マルチシーケンスMRI画像における心筋梗塞セグメンテーションの例について, 種々の実験で本手法の利点を実証した。

The recent emergence of deep learning has led to a great deal of work on designing supervised deep semantic segmentation algorithms. As in many tasks sufficient pixel-level labels are very difficult to obtain, we propose a method which combines a Gaussian mixture model (GMM) with unsupervised deep learning techniques. In the standard GMM the pixel values with each sub-region are modelled by a Gaussian distribution. In order to identify the different regions, the parameter vector that minimizes the negative log-likelihood (NLL) function regarding the GMM has to be approximated. For this task, usually iterative optimization methods such as the expectation-maximization (EM) algorithm are used. In this paper, we propose to estimate these parameters directly from the image using a convolutional neural network (CNN). We thus change the iterative procedure in the EM algorithm replacing the expectation-step by a gradient-step with regard to the networks parameters. This means that the network is trained to minimize the NLL function of the GMM which comes with at least two advantages. As once trained, the network is able to predict label probabilities very quickly compared with time consuming iterative optimization methods. Secondly, due to the deep image prior our method is able to partially overcome one of the main disadvantages of GMM, which is not taking into account correlation between neighboring pixels, as it assumes independence between them. We demonstrate the advantages of our method in various experiments on the example of myocardial infarct segmentation on multi-sequence MRI images.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# Imagination, Searching, CriticizingによるLCMの自己改善に向けて

Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing ( http://arxiv.org/abs/2404.12253v1 )

ライセンス: Link先を確認
Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu, (参考訳) さまざまなタスクにおけるLLM(Large Language Models)の印象的な機能にもかかわらず、複雑な推論と計画を伴うシナリオに苦戦しています。 近年の研究では、LLMの推論能力を高めるために、高度なプロンプト技術と高品質なデータによる微調整の必要性が提案されている。 しかし、これらのアプローチは本質的にデータの可用性と品質に制約されている。 これを踏まえて、自己補正と自己学習が実行可能なソリューションとして登場し、LCMがアウトプットを洗練し、自己評価された報酬から学ぶことができる戦略を採用している。 しかし、LSMの自己精製効果、特に複雑な推論や計画作業は疑わしいままである。 本稿では,モンテカルロ木探索 (MCTS) を LLM と統合して自己改善ループを構築し,付加アノテーションを使わずに LLM の能力を向上する LLM の自己改善のためのAlphaLLM を提案する。 AlphaGoの成功からインスピレーションを得たAlphaLLMは、データ不足、言語タスクの広大な検索空間、言語タスクにおける主観的なフィードバックの性質など、MCTSとLLMを組み合わせるという独特な課題に対処する。 AlphaLLMは、プロンプト合成コンポーネント、言語タスクに適した効率的なMCTSアプローチ、正確なフィードバックのための批評家モデルの3つで構成されている。 数学的推論タスクにおける実験結果から,AlphaLLMは付加アノテーションを使わずにLLMの性能を大幅に向上し,LLMの自己改善の可能性を示している。

Despite the impressive capabilities of Large Language Models (LLMs) on various tasks, they still struggle with scenarios that involves complex reasoning and planning. Recent work proposed advanced prompting techniques and the necessity of fine-tuning with high-quality data to augment LLMs' reasoning abilities. However, these approaches are inherently constrained by data availability and quality. In light of this, self-correction and self-learning emerge as viable solutions, employing strategies that allow LLMs to refine their outputs and learn from self-assessed rewards. Yet, the efficacy of LLMs in self-refining its response, particularly in complex reasoning and planning task, remains dubious. In this paper, we introduce AlphaLLM for the self-improvements of LLMs, which integrates Monte Carlo Tree Search (MCTS) with LLMs to establish a self-improving loop, thereby enhancing the capabilities of LLMs without additional annotations. Drawing inspiration from the success of AlphaGo, AlphaLLM addresses the unique challenges of combining MCTS with LLM for self-improvement, including data scarcity, the vastness search spaces of language tasks, and the subjective nature of feedback in language tasks. AlphaLLM is comprised of prompt synthesis component, an efficient MCTS approach tailored for language tasks, and a trio of critic models for precise feedback. Our experimental results in mathematical reasoning tasks demonstrate that AlphaLLM significantly enhances the performance of LLMs without additional annotations, showing the potential for self-improvement in LLMs.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# 自律走行車用オンライン空間時間グラフトラジェクタ

An Online Spatial-Temporal Graph Trajectory Planner for Autonomous Vehicles ( http://arxiv.org/abs/2404.12256v1 )

ライセンス: Link先を確認
Jilan Samiuddin, Benoit Boulet, Di Wu, (参考訳) 自動運転業界は今後10年間で20倍以上の成長が見込まれており、研究者が研究を進める動機となっている。 彼らの研究の主な焦点は、安全性、快適さ、効率性を保証することである。 自動運転車には、上記のアイテムの1つ以上の責任を負う複数のモジュールがある。 これらのモジュールの中で、軌道プランナーは車両の安全性と乗客の快適性において重要な役割を担っている。 モジュールはまた、キネマティックな制約と適用可能な道路制約を尊重する責任も負う。 本稿では,安全で快適なトラジェクトリを生成するために,新しいオンライン時空間グラフトラジェクトリプランナを提案する。 まず, 道路沿いの自律走行車, 周囲の車両, 仮想ノードを用いて, 時空間グラフを構築した。 次に、グラフをシーケンシャルネットワークに転送して、所望の状態を取得する。 プランナーをサポートするために、プランナーの運動的制約を決定する単純な振舞い層も提示される。 さらに、ネットワークをトレーニングするための新しいポテンシャル関数も提案されている。 最後に、提案したプランナを3つの異なる複雑な駆動タスクでテストし、その性能を2つの頻繁な手法と比較する。 その結果,提案したプランナーは,前後にほぼ同様の,あるいは長い距離と同等の快適な乗り心地を達成しつつ,安全かつ実現可能な軌道を生成できることが示唆された。

The autonomous driving industry is expected to grow by over 20 times in the coming decade and, thus, motivate researchers to delve into it. The primary focus of their research is to ensure safety, comfort, and efficiency. An autonomous vehicle has several modules responsible for one or more of the aforementioned items. Among these modules, the trajectory planner plays a pivotal role in the safety of the vehicle and the comfort of its passengers. The module is also responsible for respecting kinematic constraints and any applicable road constraints. In this paper, a novel online spatial-temporal graph trajectory planner is introduced to generate safe and comfortable trajectories. First, a spatial-temporal graph is constructed using the autonomous vehicle, its surrounding vehicles, and virtual nodes along the road with respect to the vehicle itself. Next, the graph is forwarded into a sequential network to obtain the desired states. To support the planner, a simple behavioral layer is also presented that determines kinematic constraints for the planner. Furthermore, a novel potential function is also proposed to train the network. Finally, the proposed planner is tested on three different complex driving tasks, and the performance is compared with two frequently used methods. The results show that the proposed planner generates safe and feasible trajectories while achieving similar or longer distances in the forward direction and comparable comfort ride.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# ディープローカライゼーション: 時間的アクションローカライゼーションにおける変化点検出の利用

DeepLocalization: Using change point detection for Temporal Action Localization ( http://arxiv.org/abs/2404.12258v1 )

ライセンス: Link先を確認
Mohammed Shaiqur Rahman, Ibne Farabi Shihab, Lynna Chu, Anuj Sharma, (参考訳) 本研究では,ドライバーの行動監視に適した行動のリアルタイムローカライズを目的とした,革新的なフレームワークであるDeepLocalizationを紹介する。 先進的な深層学習手法の力を生かして,道路事故に寄与する重要な要因である注意散逸運転の重大な問題に取り組むことを目的とする。 我々の戦略は、ビデオ大言語モデル(Video Large Language Model, Video-LLM)と並行して、グラフベースの変更点検出を時間内のピンポイント行動に活用し、アクティビティを正確に分類する、という2つのアプローチを採用している。 注意深いプロンプトエンジニアリングを通じて、運転行動のニュアンスを十分に扱えるよう、ビデオLLMをカスタマイズし、スパースデータであってもその分類の有効性を確保する。 軽量に設計された当社のフレームワークは、コンシューマグレードのGPUに最適化されており、実用的なシナリオに非常に適用できます。 我々は,運転行動の複雑なベンチマークであるSynDD2データセットの厳密なテストを行い,イベント分類の精度57.5%,イベント検出の精度51%を示した。 これらの結果は、様々なドライバの挙動と時間的発生を正確に識別する上で、DeepLocalizationの実質的な約束を、すべて限られた計算リソースの範囲内で示している。

In this study, we introduce DeepLocalization, an innovative framework devised for the real-time localization of actions tailored explicitly for monitoring driver behavior. Utilizing the power of advanced deep learning methodologies, our objective is to tackle the critical issue of distracted driving-a significant factor contributing to road accidents. Our strategy employs a dual approach: leveraging Graph-Based Change-Point Detection for pinpointing actions in time alongside a Video Large Language Model (Video-LLM) for precisely categorizing activities. Through careful prompt engineering, we customize the Video-LLM to adeptly handle driving activities' nuances, ensuring its classification efficacy even with sparse data. Engineered to be lightweight, our framework is optimized for consumer-grade GPUs, making it vastly applicable in practical scenarios. We subjected our method to rigorous testing on the SynDD2 dataset, a complex benchmark for distracted driving behaviors, where it demonstrated commendable performance-achieving 57.5% accuracy in event classification and 51% in event detection. These outcomes underscore the substantial promise of DeepLocalization in accurately identifying diverse driver behaviors and their temporal occurrences, all within the bounds of limited computational resources.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# 非エルミート系における運動環の理論

Theory of Mobility Rings in Non-Hermitian Systems ( http://arxiv.org/abs/2404.12266v1 )

ライセンス: Link先を確認
Shan-Zhong Li, Zhi Li, (参考訳) アビラ大域定理を通じて、非エルミート運動量エッジを解析的に研究する。 その結果、非エルミート系における移動エッジは環構造を持ち、これは「運動環」と命名された。 さらに,いくつかの典型例においてアイジェネギースペクトルの数値解析を行い,解析式による数値結果の合成は,移動環理論の正しさと普遍性を証明する。 さらに,解析式に基づいて,複数の移動環の性質について考察する。 最後に、モビリティリングの結果と双対変換の結果を比較し、自己双対法は、拡張状態に対応する実固有値の間隔を与えることができるが、複素平面におけるモビリティエッジ情報の完全表示はできないことを発見した。 この論文で提案されるモビリティ環理論は、すべての非エルミート系に対して普遍的である。

Through Avila global theorem, we analytically study the non-Hermitian mobility edge. The results show that the mobility edge in non-Hermitian systems has a ring structure, which we named as "mobility ring". Furthermore, we carry out numerical analysis of the eigenenergy spectra in several typical cases, and the consistence of the numerical results with the analytical expression proves the correctness and universality of the mobility ring theory. Further, based on the analytical expression, we discuss the properties of multiple mobility rings. Finally, we compare the results of mobility rings with that of dual transformations, and find that although the self-dual method can give the interval of real eigenvalues corresponding to the extended states, it can not fully display the mobility edge information in the complex plane. The mobility ring theory proposed in this paper is universal for all non-Hermitian systems.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# DF-DM:人工知能時代のマルチモーダルデータ融合の基礎的プロセスモデル

DF-DM: A foundational process model for multimodal data fusion in the artificial intelligence era ( http://arxiv.org/abs/2404.12278v1 )

ライセンス: Link先を確認
David Restrepo, Chenwei Wu, Constanza Vásquez-Venegas, Luis Filipe Nakayama, Leo Anthony Celi, Diego M López, (参考訳) ビッグデータ時代において、多様なデータモダリティを統合することは、特に医療のような複雑な分野において、大きな課題となる。 本稿では、データマイニングのためのマルチモーダルデータフュージョンの新しいプロセスモデルを導入し、埋め込みとデータマイニングのためのクロス産業標準プロセスと既存のデータフュージョン情報グループモデルを統合する。 我々のモデルは、効率と信頼性を改善しつつ、計算コスト、複雑さ、バイアスを減らすことを目的としている。 また、相互情報を最適化し、密接なモーダリティ間特徴相互作用を容易にし、冗長情報を最小化するために設計された新しい埋め込み融合法である「遠方密度融合」を提案する。 本モデルの有効性は,網膜画像と患者のメタデータを用いた糖尿病網膜症予測,衛星画像を用いた家庭内暴力予測,インターネット,国勢調査データ,および放射線画像および臨床ノートから臨床および人口統計学的特徴を同定することにより示す。 糖尿病網膜症予測ではマクロF1スコアが0.92、家庭内暴力予測では0.854、sMAPEが24.868、疾患予測では0.92、性分類では0.99のマクロAUCがそれぞれ達成された。 これらの結果は、マルチモーダルデータ処理に大きな影響を与えるData Fusion for Data Miningモデルの可能性を強調し、多様なリソース制約のある設定で採用を促進する。

In the big data era, integrating diverse data modalities poses significant challenges, particularly in complex fields like healthcare. This paper introduces a new process model for multimodal Data Fusion for Data Mining, integrating embeddings and the Cross-Industry Standard Process for Data Mining with the existing Data Fusion Information Group model. Our model aims to decrease computational costs, complexity, and bias while improving efficiency and reliability. We also propose "disentangled dense fusion", a novel embedding fusion method designed to optimize mutual information and facilitate dense inter-modality feature interaction, thereby minimizing redundant information. We demonstrate the model's efficacy through three use cases: predicting diabetic retinopathy using retinal images and patient metadata, domestic violence prediction employing satellite imagery, internet, and census data, and identifying clinical and demographic features from radiography images and clinical notes. The model achieved a Macro F1 score of 0.92 in diabetic retinopathy prediction, an R-squared of 0.854 and sMAPE of 24.868 in domestic violence prediction, and a macro AUC of 0.92 and 0.99 for disease prediction and sex classification, respectively, in radiological analysis. These results underscore the Data Fusion for Data Mining model's potential to significantly impact multimodal data processing, promoting its adoption in diverse, resource-constrained settings.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# 大規模言語モデルによるテキストの充実と書き直しによる埋め込み性能の向上

Enhancing Embedding Performance through Large Language Model-based Text Enrichment and Rewriting ( http://arxiv.org/abs/2404.12283v1 )

ライセンス: Link先を確認
Nicholas Harris, Anand Butani, Syed Hashmy, (参考訳) 埋め込みモデルは様々な自然言語処理タスクに不可欠であるが、語彙の制限、文脈の欠如、文法的誤りなどによって制限されることがある。 本稿では,大規模な言語モデル(LLM)を活用して埋め込み処理前に入力テキストを豊かに書き直しすることで,埋め込み性能を向上させる新しい手法を提案する。 提案手法は,ChatGPT 3.5を用いて,追加のコンテキスト,正確な不正確さ,メタデータを組み込むことにより,埋め込みモデルの有用性と精度を高めることを目的としている。 このアプローチの有効性は、Banking77 Classification、TwitterSemEval 2015、Amazon Counter-factual Classificationの3つのデータセットで評価されている。 その結果、TwitterSemEval 2015データセットのベースラインモデルに対する大幅な改善が示され、最もパフォーマンスの高いプロンプトは85.34であり、Massive Text Embedding Benchmark (MTEB) Leaderboardでは81.52だった。 しかし、他の2つのデータセットのパフォーマンスは印象的ではなく、ドメイン固有の特性を考慮することの重要性を強調した。 以上の結果から, LLMによるテキストの豊か化は, 組込み性能, 特に特定の領域において有望な結果を示したことが示唆された。 したがって、埋め込みのプロセスにおける多くの制限を回避できる。

Embedding models are crucial for various natural language processing tasks but can be limited by factors such as limited vocabulary, lack of context, and grammatical errors. This paper proposes a novel approach to improve embedding performance by leveraging large language models (LLMs) to enrich and rewrite input text before the embedding process. By utilizing ChatGPT 3.5 to provide additional context, correct inaccuracies, and incorporate metadata, the proposed method aims to enhance the utility and accuracy of embedding models. The effectiveness of this approach is evaluated on three datasets: Banking77Classification, TwitterSemEval 2015, and Amazon Counter-factual Classification. Results demonstrate significant improvements over the baseline model on the TwitterSemEval 2015 dataset, with the best-performing prompt achieving a score of 85.34 compared to the previous best of 81.52 on the Massive Text Embedding Benchmark (MTEB) Leaderboard. However, performance on the other two datasets was less impressive, highlighting the importance of considering domain-specific characteristics. The findings suggest that LLM-based text enrichment has shown promising results to improve embedding performance, particularly in certain domains. Hence, numerous limitations in the process of embedding can be avoided.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# 非可視スペクトル画像への適用のための変分プロンプト付きセグメント任意のモデルの性能評価

Performance Evaluation of Segment Anything Model with Variational Prompting for Application to Non-Visible Spectrum Imagery ( http://arxiv.org/abs/2404.12285v1 )

ライセンス: Link先を確認
Yona Falinie A. Gaus, Neelanjan Bhowmik, Brian K. S. Isaac-Medina, Toby P. Breckon, (参考訳) Segment Anything Model(SAM)は、インスタンスセグメンテーションを実行するように設計されたディープニューラルネットワーク基盤モデルである。 SAMはテキスト、バウンディングボックス、ポイント、マスクなどの様々な入力プロンプトに基づいてマスクを生成し、データセット固有の不足によって引き起こされる制約を克服する新しい方法論を導入する。 SAMは、約1100万枚の画像からなる広範囲なデータセットで訓練されているが、ほとんどの場合、他のモダリティからの非常に限られた画像しか持たない自然な写真画像で構成されている。 深層学習の進歩によって推進される視覚赤外監視とX線セキュリティスクリーニング技術の急速な進歩は、高い精度でオブジェクトを検出し、分類し、セグメント化する能力を著しく向上させたが、SAMゼロショット能力がそのようなモダリティに移行できるかどうかは明らかになっていない。 この研究は、X線/赤外線モダリティにおける関心オブジェクトのセグメンテーションにおけるSAM機能を評価する。 提案手法は,有界箱,遠心点,ランダム点の3つの異なるプロンプトで事前学習されたSAMを再利用する。 選択したデータセットの性能を示すために,定量的・定量的な結果を示す。 提案手法は,ボックスプロンプトが与えられた場合,SAMはオブジェクトをX線モードで分割できるが,その性能は点プロンプトによって異なる。 具体的には、SAMは細い物体やプラスチックボトルのような有機物質を分断するのにあまり役に立たない。 このモダリティの低コントラストの性質を考えると、赤外線オブジェクトもポイントプロンプトでセグメント化することが困難である。 本研究は, SAMがボックスプロンプトで優れたゼロショット機能を示す一方で, その性能は点プロンプトで中等度から下等度まで様々であり, X線/赤外線画像を用いた場合, SAMのクロスモーダル一般化に関する特別な検討が必要であることを示唆している。

The Segment Anything Model (SAM) is a deep neural network foundational model designed to perform instance segmentation which has gained significant popularity given its zero-shot segmentation ability. SAM operates by generating masks based on various input prompts such as text, bounding boxes, points, or masks, introducing a novel methodology to overcome the constraints posed by dataset-specific scarcity. While SAM is trained on an extensive dataset, comprising ~11M images, it mostly consists of natural photographic images with only very limited images from other modalities. Whilst the rapid progress in visual infrared surveillance and X-ray security screening imaging technologies, driven forward by advances in deep learning, has significantly enhanced the ability to detect, classify and segment objects with high accuracy, it is not evident if the SAM zero-shot capabilities can be transferred to such modalities. This work assesses SAM capabilities in segmenting objects of interest in the X-ray/infrared modalities. Our approach reuses the pre-trained SAM with three different prompts: bounding box, centroid and random points. We present quantitative/qualitative results to showcase the performance on selected datasets. Our results show that SAM can segment objects in the X-ray modality when given a box prompt, but its performance varies for point prompts. Specifically, SAM performs poorly in segmenting slender objects and organic materials, such as plastic bottles. We find that infrared objects are also challenging to segment with point prompts given the low-contrast nature of this modality. This study shows that while SAM demonstrates outstanding zero-shot capabilities with box prompts, its performance ranges from moderate to poor for point prompts, indicating that special consideration on the cross-modal generalisation of SAM is needed when considering use on X-ray/infrared imagery.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# 視覚参照表現生成におけるシーンコンテキストによるレジリエンス

Resilience through Scene Context in Visual Referring Expression Generation ( http://arxiv.org/abs/2404.12289v1 )

ライセンス: Link先を確認
Simeon Junker, Sina Zarrieß, (参考訳) シーンコンテキストは、人間が目に見える物体に対する知覚を促進するためによく知られている。 本稿では,画像中のオブジェクトに対する参照表現生成(REG)におけるコンテキストの役割について検討する。 我々は、REGにおけるシーンコンテキストを新たな視点で捉え、REGモデルをよりレジリエンスにし、特にオブジェクト記述やオブジェクトタイプの生成を容易にするリソースとして、コンテキスト情報が考えられることを仮定する。 我々は,様々な程度にノイズで人工的に隠蔽されたターゲット表現を用いたTransformer-based REGモデルを訓練し,試験する。 モデルの視覚的コンテキストの特性が,その処理や性能に与える影響を評価する。 以上の結果から,単純なシーンコンテキストであっても,ターゲットの視覚情報が完全に欠落している場合でも,モデルが参照型を識別できる程度に,摂動に驚くほど耐性があることが示唆された。

Scene context is well known to facilitate humans' perception of visible objects. In this paper, we investigate the role of context in Referring Expression Generation (REG) for objects in images, where existing research has often focused on distractor contexts that exert pressure on the generator. We take a new perspective on scene context in REG and hypothesize that contextual information can be conceived of as a resource that makes REG models more resilient and facilitates the generation of object descriptions, and object types in particular. We train and test Transformer-based REG models with target representations that have been artificially obscured with noise to varying degrees. We evaluate how properties of the models' visual context affect their processing and performance. Our results show that even simple scene contexts make models surprisingly resilient to perturbations, to the extent that they can identify referent types even when visual information about the target is completely missing.
翻訳日:2024-04-19 12:12:06 公開日:2024-04-18
# 微調整による事前訓練モデルのバイアス低減

Reducing Bias in Pre-trained Models by Tuning while Penalizing Change ( http://arxiv.org/abs/2404.12292v1 )

ライセンス: Link先を確認
Niklas Penzel, Gideon Stein, Joachim Denzler, (参考訳) 大量のデータに基づいてトレーニングされた深層モデルには、トレーニング期間中に存在する暗黙のバイアスが組み込まれていることが多い。 推論やデプロイメント中にそのようなバイアスが見つかると、新しいデータを取得してモデルを再トレーニングする必要があることが多い。 この行動は、自動運転や医療意思決定といった重要な分野において特に問題となる。 これらのシナリオでは、新しいデータは高価で入手が難しいことが多い。 本研究では,事前学習モデルを用いて,事前検出したバイアスを軽減するために重みを適応する変化ペナライゼーションに基づく手法を提案する。 凍結事前学習ネットワークのゼロ初期化コピーをチューニングすることで、これを実現する。 我々の手法は、性能を高めるためのバイアスに矛盾する1つの例に過ぎず、極端に少ない。 さらに,ベースラインの変更とオーバーフィッティングの削減を目的とした早期停止基準を提案する。 我々は,皮膚病変分類におけるよく知られたバイアスに対するアプローチと,ドメインシフト文献からの他の3つのデータセットについて検討した。 当社のアプローチは特に,ごく少数のイメージでうまく機能していることに気付きました。 簡単な微調整と早期停止を組み合わせることで、多数のチューニングサンプルのパフォーマンス上のメリットも得られます。

Deep models trained on large amounts of data often incorporate implicit biases present during training time. If later such a bias is discovered during inference or deployment, it is often necessary to acquire new data and retrain the model. This behavior is especially problematic in critical areas such as autonomous driving or medical decision-making. In these scenarios, new data is often expensive and hard to come by. In this work, we present a method based on change penalization that takes a pre-trained model and adapts the weights to mitigate a previously detected bias. We achieve this by tuning a zero-initialized copy of a frozen pre-trained network. Our method needs very few, in extreme cases only a single, examples that contradict the bias to increase performance. Additionally, we propose an early stopping criterion to modify baselines and reduce overfitting. We evaluate our approach on a well-known bias in skin lesion classification and three other datasets from the domain shift literature. We find that our approach works especially well with very few images. Simple fine-tuning combined with our early stopping also leads to performance benefits for a larger number of tuning samples.
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# ノイズ注入による勾配降下の特異限界解析

Singular-limit analysis of gradient descent with noise injection ( http://arxiv.org/abs/2404.12293v1 )

ライセンス: Link先を確認
Anna Shalova, André Schlichting, Mark Peletier, (参考訳) 過パラメータ化状態における大きなノイズ勾配降下系の極限ダイナミクスについて検討する。 この体制では、損失のグローバルな最小化器のセットが大きくなり、このゼロロス集合の近傍で初期化されると、ノイズ勾配降下アルゴリズムがこのセットに沿って徐々に進化する。 場合によっては、このゆっくりとした進化はより良い一般化の性質に関係している。 我々は、この進化を、小さなステップサイズに制限された幅広いノイズ勾配勾配系に対して特徴づける。 以上の結果から, 騒音の構造は, 限界過程の形状だけでなく, 進化が生じる時間スケールにも影響を及ぼすことが明らかとなった。 この理論をDropout, label noise, classic SGD (minibatching) noiseに適用し, 異なる2つの時間スケールで進化することを示す。 古典的なSGDは、両方の時間スケールにおいて自明な進化をもたらし、正規化には追加のノイズが必要であることを示唆している。 結果はニューラルネットワークのトレーニングにインスパイアされているが、この定理は非自明なゼロロス集合を持つ損失のノイズ勾配勾配に適用される。

We study the limiting dynamics of a large class of noisy gradient descent systems in the overparameterized regime. In this regime the set of global minimizers of the loss is large, and when initialized in a neighbourhood of this zero-loss set a noisy gradient descent algorithm slowly evolves along this set. In some cases this slow evolution has been related to better generalisation properties. We characterize this evolution for the broad class of noisy gradient descent systems in the limit of small step size. Our results show that the structure of the noise affects not just the form of the limiting process, but also the time scale at which the evolution takes place. We apply the theory to Dropout, label noise and classical SGD (minibatching) noise, and show that these evolve on different two time scales. Classical SGD even yields a trivial evolution on both time scales, implying that additional noise is required for regularization. The results are inspired by the training of neural networks, but the theorems apply to noisy gradient descent of any loss that has a non-trivial zero-loss set.
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# 医療用画像が自撮りする時:うまくいかなかったラブストーリー

When Medical Imaging Met Self-Attention: A Love Story That Didn't Quite Work Out ( http://arxiv.org/abs/2404.12295v1 )

ライセンス: Link先を確認
Tristan Piater, Niklas Penzel, Gideon Stein, Joachim Denzler, (参考訳) 労働集約的な早期スクリーニングプロセスにおいて医療専門家を支援するシステムの開発に焦点が当てられ、その多くは畳み込み的なディープラーニングアーキテクチャに基づいている。 近年、視覚領域におけるいわゆる自己注意機構の適用について、複数の研究がなされている。 これらの研究はしばしば、様々なデータセットやタスクに対する完全な畳み込みアプローチよりも経験的な改善を報告している。 医用画像のこの傾向を評価するため、2つの異なる医療データセットに異なる自己注意変異を持つ2つの広く採用されている畳み込みアーキテクチャを拡張した。 これにより、追加の自己注意の利点を具体的に評価することを目指す。 同様の大きさの畳み込みベースラインと注目ベースラインを比較し,統計的に性能向上を評価する。 さらに、これらのレイヤーを含めることで、トレーニング中にこれらのモデルが学んだ機能がどのように変化するかを検討する。 ハイパーパラメータ探索に続き、我々の期待に反して、完全な畳み込みモデルよりもバランスの取れた精度が著しく改善されることは見つからない。 また, 皮膚病変画像における皮膚内視鏡像などの重要な特徴は, 自己注意を用いても学ばないことが明らかとなった。 最後に、局所的な説明を分析し、偏りのある特徴量を確認する。 我々は、単に注意を組み込むことだけで、既存の完全畳み込み手法の性能を超えることはできないと結論付けた。

A substantial body of research has focused on developing systems that assist medical professionals during labor-intensive early screening processes, many based on convolutional deep-learning architectures. Recently, multiple studies explored the application of so-called self-attention mechanisms in the vision domain. These studies often report empirical improvements over fully convolutional approaches on various datasets and tasks. To evaluate this trend for medical imaging, we extend two widely adopted convolutional architectures with different self-attention variants on two different medical datasets. With this, we aim to specifically evaluate the possible advantages of additional self-attention. We compare our models with similarly sized convolutional and attention-based baselines and evaluate performance gains statistically. Additionally, we investigate how including such layers changes the features learned by these models during the training. Following a hyperparameter search, and contrary to our expectations, we observe no significant improvement in balanced accuracy over fully convolutional models. We also find that important features, such as dermoscopic structures in skin lesion images, are still not learned by employing self-attention. Finally, analyzing local explanations, we confirm biased feature usage. We conclude that merely incorporating attention is insufficient to surpass the performance of existing fully convolutional methods.
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# 周期駆動系における一様性の拡張と皮膚効果の欠如

Extended unitarity and absence of skin effect in periodically driven systems ( http://arxiv.org/abs/2404.12297v1 )

ライセンス: Link先を確認
Aditi Chakrabarty, Sanjoy Datta, (参考訳) 非エルミート準周期系の最も顕著な特徴の1つは、ホッピング振幅と開境界において任意に非対称性が小さいことである。 このレターでは、そのような系の時間周期駆動がSEをこの非対称性の有限強度まで排除できることを明らかにした。 注目すべきは、SEの開始に対する臨界値は、駆動周波数とは独立であり、熱力学限界における静的な挙動へのアプローチである。 SEの欠如は非局在化相における拡張ユニタリティの出現と密接に関連しており、システムに動的安定性をもたらす。 興味深いことに、周期的境界条件下では、我々の非エルミート系は、ホッピング非対称性や準周期ポテンシャルの強さによらず、大きな駆動周波数制限のエルミート類似体にマッピングすることができる。 さらに,この動作が持続するかどうかを数値的に検証し,光ファンネリング機構のスイッチとして使用できる駆動システムの実験的実現の可能性を提案する。

One of the most striking features of non-Hermitian quasiperiodic systems with arbitrarily small asymmetry in the hopping amplitudes and open boundaries is the accumulation of all the bulk eigenstates at one of the edges of the system, termed in literature as the skin effect, below a critical strength of the potential. In this Letter, we uncover that a time-periodic drive in such systems can eliminate the SE up to a finite strength of this asymmetry. Remarkably, the critical value for the onset of SE is independent of the driving frequency and approaches to the static behavior in the thermodynamic limit. We find that the absence of SE is intricately linked to the emergence of extended unitarity in the delocalized phase, providing dynamical stability to the system. Interestingly, under periodic boundary condition, our non-Hermitian system can be mapped to a Hermitian analogue in the large driving frequency limit that leads to the extended unitarity irrespective of the hopping asymmetry and the strength of the quasiperiodic potential, in stark contrast to the static limit. Additionally, we numerically verify that this behavior persists Based on our findings, we propose a possible experimental realization of our driven system, which could be used as a switch to control the light funneling mechanism.
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# Proactive Software supply Chain Risk Management Framework (P-SSCRM) Version 1

Proactive Software Supply Chain Risk Management Framework (P-SSCRM) Version 1 ( http://arxiv.org/abs/2404.12300v1 )

ライセンス: Link先を確認
Laurie Williams, Sammy Migues, Jamie Boote, Ben Hutchison, (参考訳) この文書で述べられているProactive Software supply Chain Risk Management Framework (P SSCRM)は、セキュアなソフトウェアサプライチェーンリスク管理イニシアチブを理解し計画するのに役立つように設計されています。 P SSCRMは、9つの業界をリードするソフトウェアサプライチェーンのリスク管理イニシアチブから現実のデータを理解し分析するプロセスと、10の政府および産業文書、フレームワーク、標準の分析と統一を通じて作成されました。 個別の方法論と標準は異なるが、多くのイニシアチブと標準は共通の根拠を共有している。 P SSCRMはこの共通基盤を説明し、セキュアなソフトウェアサプライチェーンリスク管理プログラムを理解し、定量化し、開発するためのモデルを示し、他の現実世界のソフトウェアサプライチェーンリスク管理イニシアチブとは対照的に、組織の既存の取り組みがどこにあるかを決定する。

The Proactive Software Supply Chain Risk Management Framework (P SSCRM) described in this document is designed to help you understand and plan a secure software supply chain risk management initiative. P SSCRM was created through a process of understanding and analyzing real world data from nine industry leading software supply chain risk management initiatives as well as through the analysis and unification of ten government and industry documents, frameworks, and standards. Although individual methodologies and standards differ, many initiatives and standards share common ground. P SSCRM describes this common ground and presents a model for understanding, quantifying, and developing a secure software supply chain risk management program and determining where your organization's existing efforts stand when contrasted with other real world software supply chain risk management initiatives.
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# ASID:ロボットマニピュレーションにおけるシステム同定のためのアクティブ探索

ASID: Active Exploration for System Identification in Robotic Manipulation ( http://arxiv.org/abs/2404.12308v1 )

ライセンス: Link先を確認
Marius Memmel, Andrew Wagenmaker, Chuning Zhu, Patrick Yin, Dieter Fox, Abhishek Gupta, (参考訳) 強化学習のようなモデルフリー制御戦略は、世界の正確なモデルやシミュレータを必要とせずに制御戦略を学習する能力を示している。 これは、モデリング要件の欠如により魅力的であるが、そのような手法はサンプル非効率であり、現実世界の多くのドメインでは非現実的である。 一方、正確なシミュレータを利用するモデルベース制御技術は、これらの課題を回避し、大量の安価なシミュレーションデータを用いて、現実の世界へ効果的に移行できるコントローラを学習することができる。 このようなモデルに基づく手法の課題は、適切なシミュレーション資産の仕様と物理パラメータの両方を必要とする非常に正確なシミュレーションの必要性である。 これは考慮されているすべての環境のために設計するためのかなりの人的努力を必要とする。 本研究では,少数の実世界のデータを活用して,シミュレーションモデルを自律的に洗練し,現実世界に展開可能な正確な制御戦略を立案する学習システムを提案する。 提案手法は,実環境に配備された場合,高品質なデータを収集する効率的な探索ポリシーを設計するために,初期的(おそらく不正確な)シミュレータを利用することに批判的に依存する。 本研究は, ロボット操作作業における調音, 質量, その他の物理パラメータの同定において, このパラダイムの有効性を実証し, 実世界の少数のデータしか効果的にシミュレート・トゥ・リアル・トランスファーを行うことができないことを示す。 Project website at https://weirdlabuw.github.io/asid

Model-free control strategies such as reinforcement learning have shown the ability to learn control strategies without requiring an accurate model or simulator of the world. While this is appealing due to the lack of modeling requirements, such methods can be sample inefficient, making them impractical in many real-world domains. On the other hand, model-based control techniques leveraging accurate simulators can circumvent these challenges and use a large amount of cheap simulation data to learn controllers that can effectively transfer to the real world. The challenge with such model-based techniques is the requirement for an extremely accurate simulation, requiring both the specification of appropriate simulation assets and physical parameters. This requires considerable human effort to design for every environment being considered. In this work, we propose a learning system that can leverage a small amount of real-world data to autonomously refine a simulation model and then plan an accurate control strategy that can be deployed in the real world. Our approach critically relies on utilizing an initial (possibly inaccurate) simulator to design effective exploration policies that, when deployed in the real world, collect high-quality data. We demonstrate the efficacy of this paradigm in identifying articulation, mass, and other physical parameters in several challenging robotic manipulation tasks, and illustrate that only a small amount of real-world data can allow for effective sim-to-real transfer. Project website at https://weirdlabuw.github.io/asid
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# iRAG: ビデオ検索のための増分検索生成システム

iRAG: An Incremental Retrieval Augmented Generation System for Videos ( http://arxiv.org/abs/2404.12309v1 )

ライセンス: Link先を確認
Md Adnan Arefeen, Biplob Debnath, Md Yusuf Sarwar Uddin, Srimat Chakradhar, (参考訳) Retrieval augmented generation (RAG) システムは、言語生成と情報検索の強みを組み合わせて、チャットボットのような現実世界の多くのアプリケーションに電力を供給する。 テキスト、画像、ビデオなどのマルチモーダルデータの統合理解にRAGを用いることは魅力的であるが、テキスト記述が高処理時間を必要とするため、大きなマルチモーダルデータ内のすべてのコンテンツを1回、前もってキャプチャする、という2つの重要な制限がある。 ユーザクエリはアプリオリではないため,マルチモーダルからテキストへの変換やマルチモーダルデータの対話的クエリを行うシステムの開発は困難である。 これらの制約に対処するため、我々はRAGを新しいインクリメンタルワークフローで拡張し、大規模なマルチモーダルデータの対話的クエリを可能にするiRAGを提案する。 従来のRAGとは異なり、iRAGはマルチモーダルデータの大規模なリポジトリを素早くインデクシングし、インクリメンタルワークフローでは、このインデックスを使用してマルチモーダルデータの選択部分からさらに詳細を抽出し、インタラクティブなユーザクエリに関連するコンテキストを検索する。 このようなインクリメンタルワークフローは、テキスト変換時間の長いマルチモーダルを回避し、マルチモーダルデータの詳細をオンデマンドでクエリ固有に抽出することで、情報の損失問題を克服する。 我々の知る限り、iRAGはRAGをインクリメンタルワークフローで拡張する最初のシステムであり、大規模な実世界のマルチモーダルデータの効率的な対話型クエリをサポートする。 実世界の長いビデオの実験結果は、テキストの取り込みが23倍から25倍速く、対話的なユーザクエリに対する応答の質は、すべてのビデオデータがクエリの前にテキストに変換される従来のRAGの応答に匹敵する。

Retrieval augmented generation (RAG) systems combine the strengths of language generation and information retrieval to power many real-world applications like chatbots. Use of RAG for combined understanding of multimodal data such as text, images and videos is appealing but two critical limitations exist: one-time, upfront capture of all content in large multimodal data as text descriptions entails high processing times, and not all information in the rich multimodal data is typically in the text descriptions. Since the user queries are not known apriori, developing a system for multimodal to text conversion and interactive querying of multimodal data is challenging. To address these limitations, we propose iRAG, which augments RAG with a novel incremental workflow to enable interactive querying of large corpus of multimodal data. Unlike traditional RAG, iRAG quickly indexes large repositories of multimodal data, and in the incremental workflow, it uses the index to opportunistically extract more details from select portions of the multimodal data to retrieve context relevant to an interactive user query. Such an incremental workflow avoids long multimodal to text conversion times, overcomes information loss issues by doing on-demand query-specific extraction of details in multimodal data, and ensures high quality of responses to interactive user queries that are often not known apriori. To the best of our knowledge, iRAG is the first system to augment RAG with an incremental workflow to support efficient interactive querying of large, real-world multimodal data. Experimental results on real-world long videos demonstrate 23x to 25x faster video to text ingestion, while ensuring that quality of responses to interactive user queries is comparable to responses from a traditional RAG where all video data is converted to text upfront before any querying.
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# 随伴解を持たないカオス流れの随伴感性:データ駆動的アプローチ

Adjoint Sensitivities of Chaotic Flows without Adjoint Solvers: A Data-Driven Approach ( http://arxiv.org/abs/2404.12315v1 )

ライセンス: Link先を確認
Defne E. Ozan, Luca Magri, (参考訳) 1つの計算では、随伴感度解析は全ての系のパラメータに対する関心量の勾配を与える。 従来、随伴解法は計算モデルを微分することで実装する必要があるが、これは面倒な作業であり、コード固有である。 コード固有でない随伴解法を提案するため,我々はデータ駆動型戦略を開発する。 カオスフローの長時間平均の勾配計算におけるその応用を実証する。 まず,パラメータ認識型エコー状態ネットワーク(ESN)をデプロイし,システムパラメータの範囲の動的システムのダイナミクスを正確に予測し,シミュレートする。 次にパラメータ認識型ESNの随伴関係を導出する。 最後に、パラメータ認識型ESNと隣接バージョンを組み合わせて、システムパラメータに対する感度を計算する。 本手法を原型カオスシステムに示す。 カオス状態における随伴感性は長い統合期間に分散するため,エンサンブル随伴法をESNに適用する。 ESNから得られた随伴感度は,元のシステムと密に一致した。 この研究は、コード固有の随伴解法を使わずに感度解析の可能性を開く。

In one calculation, adjoint sensitivity analysis provides the gradient of a quantity of interest with respect to all system's parameters. Conventionally, adjoint solvers need to be implemented by differentiating computational models, which can be a cumbersome task and is code-specific. To propose an adjoint solver that is not code-specific, we develop a data-driven strategy. We demonstrate its application on the computation of gradients of long-time averages of chaotic flows. First, we deploy a parameter-aware echo state network (ESN) to accurately forecast and simulate the dynamics of a dynamical system for a range of system's parameters. Second, we derive the adjoint of the parameter-aware ESN. Finally, we combine the parameter-aware ESN with its adjoint version to compute the sensitivities to the system parameters. We showcase the method on a prototypical chaotic system. Because adjoint sensitivities in chaotic regimes diverge for long integration times, we analyse the application of ensemble adjoint method to the ESN. We find that the adjoint sensitivities obtained from the ESN match closely with the original system. This work opens possibilities for sensitivity analysis without code-specific adjoint solvers.
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# Reward Model Transfer for Zero-Shot Cross-Lingual Alignment (英語)

Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment ( http://arxiv.org/abs/2404.12318v1 )

ライセンス: Link先を確認
Zhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami, (参考訳) ヒューマンアノテートされた嗜好データに基づく言語モデル(LM)は,実用的で高性能なLMベースのシステムを得るための重要なステップである。 しかし、多言語人間の嗜好データは大規模に取得することは困難であり、このフレームワークを多言語に拡張することは困難である。 本研究では、ゼロショット言語間アライメントのための簡単なアプローチとして、あるソース言語の好みデータに基づいて報酬モデルを訓練し、他のターゲット言語に直接適用する手法を評価する。 要約とオープンエンドダイアログ生成では,人間の評価を含む包括的評価設定において,この手法が一貫して成功していることを示す。 さらに、異なる言語報酬モデルでは、同言語報酬モデルよりも適切な整合モデルが得られる場合もあります。 また、教師付き微調整のための言語固有のデータがない場合のベストプラクティスも特定します。

Aligning language models (LMs) based on human-annotated preference data is a crucial step in obtaining practical and performant LM-based systems. However, multilingual human preference data are difficult to obtain at scale, making it challenging to extend this framework to diverse languages. In this work, we evaluate a simple approach for zero-shot cross-lingual alignment, where a reward model is trained on preference data in one source language and directly applied to other target languages. On summarization and open-ended dialog generation, we show that this method is consistently successful under comprehensive evaluation settings, including human evaluation: cross-lingually aligned models are preferred by humans over unaligned models on up to >70% of evaluation instances. We moreover find that a different-language reward model sometimes yields better aligned models than a same-language reward model. We also identify best practices when there is no language-specific data for even supervised finetuning, another component in alignment.
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# 古典的エントロピーの地域法則

Area laws from classical entropies ( http://arxiv.org/abs/2404.12320v1 )

ライセンス: Link先を確認
Tobias Haas, (参考訳) 局所量子エントロピーの領域法則的なスケーリングは、量子場、多体系、時空に固有の絡み合いの中心的特徴である。 領域法則は、主に基礎となる量子状態の絡み合い構造と結びついているが、不確実性原理によって決定された真空寄与が減じられた場合、測定分布に対する古典的なエントロピーに等しく現れることを示す。 ガウス基底と熱状態の例に加えて、相対論的スカラー場の非ガウス粒子状態を用いて、様々な分布のエントロピーに関する解析的および数値的な領域法則を提示し、古典的な観測対象において、中心電荷や(局所的な)温度などの広範な関心の量がどのように符号化されているかを明らかにする。 我々のアプローチでは、量子エントロピーはもはや量子現象を探索する必要がないため、領域法則やその他の量子的特徴は、高複雑性の理論モデルや最先端の実験に直接アクセスすることができる。

The area law-like scaling of local quantum entropies is the central characteristic of the entanglement inherent in quantum fields, many-body systems, and spacetime. Whilst the area law is primarily associated with the entanglement structure of the underlying quantum state, we here show that it equally manifests in classical entropies over measurement distributions when vacuum contributions dictated by the uncertainty principle are subtracted. Using the examples of the Gaussian ground and thermal states, but also the non-Gaussian particle state of a relativistic scalar field, we present analytical and numerical area laws for the entropies of various distributions and unveil how quantities of widespread interest such as the central charge and the (local) temperature are encoded in classical observables. With our approach, quantum entropies are no longer necessary to probe quantum phenomena, thereby rendering area laws and other quantum features directly accessible to theoretical models of high complexity as well as state-of-the-art experiments.
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# ボース・アインシュタイン凝縮体における古典エントロピーの領域法則と熱化

Area laws and thermalization from classical entropies in a Bose-Einstein condensate ( http://arxiv.org/abs/2404.12321v1 )

ライセンス: Link先を確認
Yannick Deller, Martin Gärttner, Tobias Haas, Markus K. Oberthaler, Moritz Reh, Helmut Strobel, (参考訳) 局所量子エントロピーのスケーリングは、量子場、多体系、重力を特徴づけるのに最も興味がある。 その重要性にもかかわらず、理論的、実験的に量子エントロピーにアクセスすることは、基礎となる量子状態の非線形汎函数であるため困難である。 ここでは、最適に選択された古典的エントロピーが、その量子アナログと全く同じ特徴を実験的に関連付けるために捉えていることを示す。 本稿では, スピンオブザーバブルの測定分布を用いて, 初期生成物状態からボース・アインシュタイン凝縮したマルチウェルスピン-1の加熱後力学を記述し, 漸近的に偏りのないk-アネレスト近傍法を用いて対応するエントロピーを推定する。 我々は,非ガウス分布を特徴とする状態において,領域法則と体積法則への移行によって明らかにされる局所熱化とともに,量子相関の動的蓄積を観察する。 分布の特定の機能形式を仮定することなく,すべての関連する特徴を小さなサンプル数で観測できることを強調し,本手法を多種多様なモデルや実験プラットフォームに直接適用する。

The scaling of local quantum entropies is of utmost interest for characterizing quantum fields, many-body systems, and gravity. Despite their importance, theoretically and experimentally accessing quantum entropies is challenging as they are nonlinear functionals of the underlying quantum state. Here, we show that suitably chosen classical entropies capture the very same features as their quantum analogs for an experimentally relevant setting. We describe the post-quench dynamics of a multi-well spin-1 Bose-Einstein condensate from an initial product state via measurement distributions of spin observables and estimate the corresponding entropies using the asymptotically unbiased k-nearest neighbor method. We observe the dynamical build-up of quantum correlations signaled by an area law, as well as local thermalization revealed by a transition to a volume law, both in regimes characterized by non-Gaussian distributions. We emphasize that all relevant features can be observed at small sample numbers without assuming a specific functional form of the distributions, rendering our method directly applicable to a large variety of models and experimental platforms.
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# スピン-1 ボース-アインシュタイン凝縮体における古典エントロピーの領域則

Area laws for classical entropies in a spin-1 Bose-Einstein condensate ( http://arxiv.org/abs/2404.12323v1 )

ライセンス: Link先を確認
Yannick Deller, Martin Gärttner, Tobias Haas, Markus K. Oberthaler, Moritz Reh, Helmut Strobel, (参考訳) マルチウェルスピン-1 ボース-アインシュタイン凝縮体における2つの非可換スピンオブザーバブルの測定分布から抽出可能な情報について検討した。 古典的エントロピーと古典的相互情報は、量子場理論で知られている量子エントロピーの典型的特徴、すなわち領域法則、非ガウス政権や非ゼロ温度においても、適切に選択された古典的エントロピーと古典的相互情報を含む様々な解析的および数値的な証拠を提供する。 実現可能な実験実装に向けて、k-ネアレスト近傍推定器を用いて、基礎となる量子状態に仮定することなく、有限個のサンプルからエントロピー量を推定する。

We investigate the information extractable from measurement distributions of two non-commuting spin observables in a multi-well spin-1 Bose-Einstein condensate. We provide a variety of analytic and numerical evidence that suitably chosen classical entropies and classical mutual informations thereof contain the typical feature of quantum entropies known in quantum field theories, that is, the area law, even in the non-Gaussian regime and for a non-zero temperature. Towards a feasible experimental implementation, we estimate entropic quantities from a finite number of samples without any additional assumptions on the underlying quantum state using k-nearest neighbor estimators.
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# 2レベルエミッタによるプロパゲーティング光子のサブトラクションと付加

Subtraction and Addition of Propagating Photons by Two-Level Emitters ( http://arxiv.org/abs/2404.12328v1 )

ライセンス: Link先を確認
Mads M. Lund, Fan Yang, Victor Rueskov Christiansen, Danil Kornovan, Klaus Mølmer, (参考訳) 光の量子状態のコヒーレントな操作は、フォトニック量子情報処理の鍵となる。 このレターでは、非ガウス量子演算を伝搬場モードに実装するのに、受動的2レベル非線形性が十分であることを示す。 特に、集合光源相互作用は、多光子入力波パケットから単一の光子を直交時間モードに効率的に抽出することができる。 直観的量子軌道モデルの要素による単一光子サブトラクション過程を正確に記述する。 このプロセスを用いることで、量子情報プロトコルは、線形光学による隠蔽されたスキームよりも、桁違いに効率が向上する。 逆過程は、単一のウェーブ・パケット・モードに1対1の光子を加え、有限の総成功確率$>96.7\%$で任意に大きなフォック状態を構成するのに使うことができる。

Coherent manipulation of quantum states of light is key to photonic quantum information processing. In this Letter, we show that a passive two-level nonlinearity suffices to implement non-Gaussian quantum operations on propagating field modes. In particular, the collective light-matter interaction can efficiently extract a single photon from a multi-photon input wave packet to an orthogonal temporal mode. We accurately describe the single-photon subtraction process by elements of an intuitive quantum-trajectory model. By employing this process, quantum information protocols gain orders of magnitude improved efficiency over heralded schemes with linear optics. The reverse process can be used to add photons one-by-one to a single wave-packet mode and compose arbitrarily large Fock states with a finite total success probability $>96.7\%$.
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# カメラ視点制御によるテキスト・画像拡散のカスタマイズ

Customizing Text-to-Image Diffusion with Camera Viewpoint Control ( http://arxiv.org/abs/2404.12333v1 )

ライセンス: Link先を確認
Nupur Kumari, Grace Su, Richard Zhang, Taesung Park, Eli Shechtman, Jun-Yan Zhu, (参考訳) モデルカスタマイズは、既存のテキスト・ツー・イメージモデルに新しい概念を導入し、新しいコンテキストにおける新しい概念の生成を可能にする。 しかし、このような手法はオブジェクトに対して正確なカメラビュー制御を欠いているため、ユーザーは粗いビュー制御を実現するために、エンジニアリング(例えば"トップビュー"の追加など)を促さなければならない。 本研究では,モデルカスタマイズのためのカメラ視点の明示的な制御を可能にする新しいタスクを提案する。 これにより、ターゲットカメラのポーズを追加コントロールとして組み込んだまま、テキストプロンプトを通じて、さまざまな背景シーンのオブジェクトプロパティを変更できます。 この新しい課題は、新しい概念のマルチビューイメージから一般的な2次元テキスト・ツー・イメージ・モデルに3D表現をマージする際の大きな課題である。 このギャップを埋めるために、新しいオブジェクトのレンダリングされたビュー依存的な特徴に2次元拡散プロセスを適用することを提案する。 トレーニング中,2次元拡散モジュールと3次元特徴予測を併用してオブジェクトの外観や形状を再構築し,入力されたマルチビュー画像への過度な適合を低減した。 提案手法は,入力されたテキストプロンプトとオブジェクトのカメラポーズに従って,カスタムオブジェクトのアイデンティティを保存する際に,既存の画像編集およびモデルパーソナライズベースラインよりも優れる。

Model customization introduces new concepts to existing text-to-image models, enabling the generation of the new concept in novel contexts. However, such methods lack accurate camera view control w.r.t the object, and users must resort to prompt engineering (e.g., adding "top-view") to achieve coarse view control. In this work, we introduce a new task -- enabling explicit control of camera viewpoint for model customization. This allows us to modify object properties amongst various background scenes via text prompts, all while incorporating the target camera pose as additional control. This new task presents significant challenges in merging a 3D representation from the multi-view images of the new concept with a general, 2D text-to-image model. To bridge this gap, we propose to condition the 2D diffusion process on rendered, view-dependent features of the new object. During training, we jointly adapt the 2D diffusion modules and 3D feature predictions to reconstruct the object's appearance and geometry while reducing overfitting to the input multi-view images. Our method outperforms existing image editing and model personalization baselines in preserving the custom object's identity while following the input text prompt and the object's camera pose.
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# ターゲット型感性分析における大規模言語モデル

Large Language Models in Targeted Sentiment Analysis ( http://arxiv.org/abs/2404.12342v1 )

ライセンス: Link先を確認
Nicolay Rusnachenko, Anton Golubev, Natalia Loukachevitch, (参考訳) 本稿では,デコーダをベースとした生成変換器を用いて,ロシアのニュース記事において,名前付きエンティティに対する感情抽出を行う。 本研究では,命令調整型大規模言語モデル(LLM)の感情分析能力について検討する。 本稿では,RuSentNE-2023のデータセットについて考察する。 最初の実験グループは、閉かつオープンな透過性を持つLDMのゼロショット能力の評価を目的とした。 2つ目は、"chain-of-thinkt" (CoT) 3-hop reasoning framework (THoR)を使用してFlan-T5の微調整をカバーしている。 その結果,ゼロショット方式の結果は,ベースライン微調整エンコーダ(BERT-base)によって得られた結果とよく似ていることがわかった。 微調整されたFlan-T5モデルのTHoRとの共振能力は、ゼロショット実験の結果と比較して、ベースサイズモデルで少なくとも5%向上する。 RuSentNE-2023の感情分析の最良の結果はFlan-T5-xlによって達成された。 https://github.com/nicolay-r/Reasoning-for-Sentiment-Analysis-Framework

In this paper we investigate the use of decoder-based generative transformers for extracting sentiment towards the named entities in Russian news articles. We study sentiment analysis capabilities of instruction-tuned large language models (LLMs). We consider the dataset of RuSentNE-2023 in our study. The first group of experiments was aimed at the evaluation of zero-shot capabilities of LLMs with closed and open transparencies. The second covers the fine-tuning of Flan-T5 using the "chain-of-thought" (CoT) three-hop reasoning framework (THoR). We found that the results of the zero-shot approaches are similar to the results achieved by baseline fine-tuned encoder-based transformers (BERT-base). Reasoning capabilities of the fine-tuned Flan-T5 models with THoR achieve at least 5% increment with the base-size model compared to the results of the zero-shot experiment. The best results of sentiment analysis on RuSentNE-2023 were achieved by fine-tuned Flan-T5-xl, which surpassed the results of previous state-of-the-art transformer-based classifiers. Our CoT application framework is publicly available: https://github.com/nicolay-r/Reasoning-for-Sentiment-Analysis-Framework
翻訳日:2024-04-19 12:02:22 公開日:2024-04-18
# 量子熱泳動

Quantum thermophoresis ( http://arxiv.org/abs/2404.12346v1 )

ライセンス: Link先を確認
Maurício Matos, Thiago Werlang, Daniel Valente, (参考訳) 熱泳動(英: thermophoresis)は、熱勾配による粒子の移動である。 ここでは、理論的に熱泳動の量子バージョンを明らかにする。 原理の証明として、トラップされた量子粒子に3つのエネルギー準位を持つ熱泳動力(英語版)を$\Lambda$構成で解析的に見つける。 次に、N部位のモデルを考え、それぞれ最初の近傍に結合し、ある温度で局所浴を施し、量子粒子の非局在化の増加とともに量子熱泳動がどのように振る舞うかを数値的に示す。 量子状態において負の熱泳動とデュフォー効果がどのように現れるかについて議論する。

Thermophoresis is the migration of a particle due to a thermal gradient. Here, we theoretically uncover the quantum version of thermophoresis. As a proof of principle, we analytically find a thermophoretic force on a trapped quantum particle having three energy levels in $\Lambda$ configuration. We then consider a model of N sites, each coupled to its first neighbors and subjected to a local bath at a certain temperature, so as to show numerically how quantum thermophoresis behaves with increasing delocalization of the quantum particle. We discuss how negative thermophoresis and the Dufour effect appear in the quantum regime.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# ポイント・イン・コンテキスト:イン・コンテキスト学習によるポイント・クラウド理解

Point-In-Context: Understanding Point Cloud via In-Context Learning ( http://arxiv.org/abs/2404.12352v1 )

ライセンス: Link先を確認
Mengyuan Liu, Zhongbin Fang, Xia Li, Joachim M. Buhmann, Xiangtai Li, Chen Change Loy, (参考訳) 多様なデータセットでトレーニングされた大規模モデルの出現に伴い、自然言語処理や画像処理など、マルチタスクのための有望なパラダイムとして、コンテキスト内学習が登場している。 しかし、3Dポイントのクラウドタスクにおけるその応用は、まだほとんど探索されていない。 本研究では,PIC(Point-In-Context)という,コンテキスト内学習による3Dポイントクラウド理解のための新しいフレームワークを紹介する。 マスク付き点モデリングを3次元点群に効果的に拡張するための技術的課題として,ジョイントサンプリングモジュールを導入し,PICのバニラバージョンであるPoint-In-Context-Generalist(PIC-G)を提案する。 PIC-Gは、様々な3Dポイントクラウドタスクの汎用モデルとして設計されており、入力と出力は座標としてモデル化されている。 このパラダイムでは、各カテゴリにXYZ座標をラベル点に割り当てることで、挑戦的なセグメンテーションタスクが達成され、最終的な予測は予測に最も近いラベル点に基づいて選択される。 In-Context Labeling と In-Context Enhancing という2つの新しいトレーニング戦略を提案し,PIC の拡張版である Point-In-Context-Segmenter (PIC-S) を作成した。 動的インコンテキストラベルと余分なインコンテキストペアを利用することで、PIC-Sは部分セグメンテーションデータセットにおけるパフォーマンスと一般化の強化を実現する。 PICは一般的なフレームワークなので、他のタスクやデータセットを統一されたデータフォーマットでPICにシームレスに導入できます。 提案手法の汎用性と適応性を検証するため,広範囲なタスクの処理や複数データセットのセグメンテーションを行うための広範囲な実験を行った。 我々のPIC-Sは、未知のデータセットを一般化し、プロンプトをカスタマイズすることで、新しい部分セグメンテーションを実行することができる。

With the emergence of large-scale models trained on diverse datasets, in-context learning has emerged as a promising paradigm for multitasking, notably in natural language processing and image processing. However, its application in 3D point cloud tasks remains largely unexplored. In this work, we introduce Point-In-Context (PIC), a novel framework for 3D point cloud understanding via in-context learning. We address the technical challenge of effectively extending masked point modeling to 3D point clouds by introducing a Joint Sampling module and proposing a vanilla version of PIC called Point-In-Context-Generalist (PIC-G). PIC-G is designed as a generalist model for various 3D point cloud tasks, with inputs and outputs modeled as coordinates. In this paradigm, the challenging segmentation task is achieved by assigning label points with XYZ coordinates for each category; the final prediction is then chosen based on the label point closest to the predictions. To break the limitation by the fixed label-coordinate assignment, which has poor generalization upon novel classes, we propose two novel training strategies, In-Context Labeling and In-Context Enhancing, forming an extended version of PIC named Point-In-Context-Segmenter (PIC-S), targeting improving dynamic context labeling and model training. By utilizing dynamic in-context labels and extra in-context pairs, PIC-S achieves enhanced performance and generalization capability in and across part segmentation datasets. PIC is a general framework so that other tasks or datasets can be seamlessly introduced into our PIC through a unified data format. We conduct extensive experiments to validate the versatility and adaptability of our proposed methods in handling a wide range of tasks and segmenting multi-datasets. Our PIC-S is capable of generalizing unseen datasets and performing novel part segmentation by customizing prompts.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# 部分微分方程式の基礎モデルに向けて:マルチオペレータ学習と外挿

Towards a Foundation Model for Partial Differential Equation: Multi-Operator Learning and Extrapolation ( http://arxiv.org/abs/2404.12355v1 )

ライセンス: Link先を確認
Jingmin Sun, Yuxuan Liu, Zecheng Zhang, Hayden Schaeffer, (参考訳) 大規模言語モデルのような基礎モデルは、様々な言語や画像処理タスクに対処することに成功した。 本稿では,PROSE-PDEという科学問題に対するマルチモーダル基礎モデルを提案する。 本モデルは,2モーダリティから2モーダリティ学習へ向けて設計され,物理系の基礎となる支配方程式を同時に学習しながら,時空間システムの将来の状態を予測できる多機能学習手法である。 具体的には,一次元の時間依存非線形定数偏微分方程式を学習し,物理・地質・生物学など多くの物理応用への応用の可能性について検討する。 さらに,PROSE-PDEが複数の演算子の頑健な訓練によって物理的特徴を一般化できることを示すために,3つの外挿実験を行い,提案モデルはトレーニング中にモデルやデータが見えないPDEソリューションを予測するために外挿できることを示した。 さらに,本モデルにおける記号的モダリティの活用は,複数の演算子を訓練する際の適合性の問題を効果的に解決し,モデルの予測能力を向上することを示す。

Foundation models, such as large language models, have demonstrated success in addressing various language and image processing tasks. In this work, we introduce a multi-modal foundation model for scientific problems, named PROSE-PDE. Our model, designed for bi-modality to bi-modality learning, is a multi-operator learning approach which can predict future states of spatiotemporal systems while concurrently learning the underlying governing equations of the physical system. Specifically, we focus on multi-operator learning by training distinct one-dimensional time-dependent nonlinear constant coefficient partial differential equations, with potential applications to many physical applications including physics, geology, and biology. More importantly, we provide three extrapolation studies to demonstrate that PROSE-PDE can generalize physical features through the robust training of multiple operators and that the proposed model can extrapolate to predict PDE solutions whose models or data were unseen during the training. Furthermore, we show through systematic numerical experiments that the utilization of the symbolic modality in our model effectively resolves the well-posedness problems with training multiple operators and thus enhances our model's predictive capabilities.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# 説明可能な多対象追跡のための逆ニューラルレンダリング

Inverse Neural Rendering for Explainable Multi-Object Tracking ( http://arxiv.org/abs/2404.12359v1 )

ライセンス: Link先を確認
Julian Ost, Tanushree Banerjee, Mario Bijelic, Felix Heide, (参考訳) 現在、画像理解タスクのほとんどの方法はフィードフォワードニューラルネットワークに依存している。 このアプローチは、精密チューニングによる経験的精度、効率、タスク適応を可能にするが、根本的な欠点もある。 既存のネットワークは、同じタスクであっても、異なるデータセットをまたいだ一般化に苦慮することが多い。 デザインによって、これらのネットワークは最終的に高次元のシーンの特徴を推論し、分析は困難である。 これは特に2次元画像に基づいて3次元情報を予測しようとする場合に当てはまる。 本稿では,RGBカメラからの3Dマルチオブジェクト追跡を,事前学習された3Dオブジェクト表現の潜時空間上の微分可能なレンダリングパイプラインを介して最適化し,与えられた入力画像中のオブジェクトインスタンスを最もよく表現する潜時情報を検索することで,「emph{Inverse Rendering (IR)}問題」として再キャストすることを提案する。 そこで本研究では,自然に形状や外観特性を乱す生成潜在空間に対する画像損失を最適化する。 本手法では, 別途追跡を行うだけでなく, 生成したオブジェクトの検査, 故障状況の推論, あいまいなケースの解決も可能である。 合成データのみから生成前の生成を学習し,nuScenesおよびWaymoデータセット上でカメラベースの3Dトラッキングを評価することにより,本手法の一般化とスケーリング能力を検証する。 どちらのデータセットも我々の手法には全く見えず、微調整は不要である。 ビデオとコードはhttps://light.princeton.edu/inverse-rendering-tracking/で公開されている。

Today, most methods for image understanding tasks rely on feed-forward neural networks. While this approach has allowed for empirical accuracy, efficiency, and task adaptation via fine-tuning, it also comes with fundamental disadvantages. Existing networks often struggle to generalize across different datasets, even on the same task. By design, these networks ultimately reason about high-dimensional scene features, which are challenging to analyze. This is true especially when attempting to predict 3D information based on 2D images. We propose to recast 3D multi-object tracking from RGB cameras as an \emph{Inverse Rendering (IR)} problem, by optimizing via a differentiable rendering pipeline over the latent space of pre-trained 3D object representations and retrieve the latents that best represent object instances in a given input image. To this end, we optimize an image loss over generative latent spaces that inherently disentangle shape and appearance properties. We investigate not only an alternate take on tracking but our method also enables examining the generated objects, reasoning about failure situations, and resolving ambiguous cases. We validate the generalization and scaling capabilities of our method by learning the generative prior exclusively from synthetic data and assessing camera-based 3D tracking on the nuScenes and Waymo datasets. Both these datasets are completely unseen to our method and do not require fine-tuning. Videos and code are available at https://light.princeton.edu/inverse-rendering-tracking/.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# 中性原子系における偽真空崩壊と核生成ダイナミクス

False vacuum decay and nucleation dynamics in neutral atom systems ( http://arxiv.org/abs/2404.12360v1 )

ライセンス: Link先を確認
Siva Darbha, Milan Kornjača, Fangli Liu, Jan Balewski, Mark R. Hirsbrunner, Pedro Lopes, Sheng-Tao Wang, Roel Van Beeumen, Daan Camps, Katherine Klymko, (参考訳) 偽真空崩壊と核生成は、閉じこもった量子多体系における非平衡力学現象を研究する機会を与える。 最近の研究は、1次元強磁性イジングスピンと超流体における偽真空崩壊を調べた。 本稿では,Rydberg相互作用を持つ1次元反強磁性中性原子鎖における擬似真空核生成ダイナミクスについて,数値シミュレーションと解析モデルを用いて検討する。 我々は、偽の真空状態と真の真空状態を生成するために、ゆるやかな局所デチューニング場を適用した。 当社の取り組みは、崩壊とアニールという2つの動的体制に焦点を当てています。 第一に, 現象論的崩壊率のスケーリングを相関させ, 崩壊過程の関連するパラメータ範囲を決定する。第二に, 初期から最終システムへ, 中間核化イベントとともに, 偽真空を消毒する手順を発見し, 解明する。 さらに,我々は,必要状態の準備や,短期中性原子量子シミュレータのクエンチを行うための実験的プロトコルを提案し,提案した設定とパラメータ機構の実験的実現可能性について検討した。

False vacuum decay and nucleation offer the opportunity to study non-equilibrium dynamical phenomena in quantum many-body systems with confinement. Recent work has examined false vacuum decay in 1D ferromagnetic Ising spins and superfluids. In this paper, we study false vacuum nucleation dynamics in 1D antiferromagnetic neutral atom chains with Rydberg interactions, using both numerical simulations and analytic modeling. We apply a staggered local detuning field to generate the false and true vacuum states. Our efforts focus on two dynamical regimes: decay and annealing. In the first, we corroborate the phenomenological decay rate scaling and determine the associated parameter range for the decay process; in the second, we uncover and elucidate a procedure to anneal the false vacuum from the initial to the final system, with intermediate nucleation events. We further propose experimental protocols to prepare the required states and perform quenches on near-term neutral atom quantum simulators, examining the experimental feasibility of our proposed setup and parameter regime.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# 情報理論は、原子論的機械学習、不確実性定量化、および材料熱力学を統一する

Information theory unifies atomistic machine learning, uncertainty quantification, and materials thermodynamics ( http://arxiv.org/abs/2404.12367v1 )

ライセンス: Link先を確認
Daniel Schwalbe-Koda, Sebastien Hamel, Babak Sadigh, Fei Zhou, Vincenzo Lordi, (参考訳) 情報の正確な記述は、サンプリング方法、希少事象の検出、データセットの分析、機械学習(ML)駆動シミュレーションにおける不確実性定量化(UQ)の実行など、原子論モデリングにおける様々な問題に関係している。 これらのタスクごとに個別の手法が提案されているが、それらのソリューションを統合する共通の理論的背景は欠如している。 本稿では, 位相変換, 運動事象, データセットの最適性, モデルフリーなUQの予測を原子シミュレーションから統一する情報理論フレームワークを提案する。 まず、提案した表現に対して、原子中心環境の分布の情報エントロピーが熱力学エントロピーの代理値であることを示す。 分子動力学 (MD) シミュレーションを用いて, 軌道からの情報エントロピー差を位相図の作成, 希少事象の同定, 核生成の古典理論の復元に利用できることを示す。 これらの結果に基づいて、このエントロピーの一般的な概念を用いて、ML間ポテンシャル(IP)のデータセットの情報を定量化し、圧縮をインフォームし、テストエラーの傾向を説明し、アクティブな学習戦略の効率を評価する。 最後に,情報エントロピーを用いたMLIPのモデルフリーUQ手法を提案する。 この方法はQUESTSのパッケージとして利用できる: 構造的類似性によるクイック不確実性とエントロピーは、データ駆動原子論モデリングのための新しい統一理論を提供し、ML、第一原理熱力学、シミュレーションの取り組みを組み合わせたものである。

An accurate description of information is relevant for a range of problems in atomistic modeling, such as sampling methods, detecting rare events, analyzing datasets, or performing uncertainty quantification (UQ) in machine learning (ML)-driven simulations. Although individual methods have been proposed for each of these tasks, they lack a common theoretical background integrating their solutions. Here, we introduce an information theoretical framework that unifies predictions of phase transformations, kinetic events, dataset optimality, and model-free UQ from atomistic simulations, thus bridging materials modeling, ML, and statistical mechanics. We first demonstrate that, for a proposed representation, the information entropy of a distribution of atom-centered environments is a surrogate value for thermodynamic entropy. Using molecular dynamics (MD) simulations, we show that information entropy differences from trajectories can be used to build phase diagrams, identify rare events, and recover classical theories of nucleation. Building on these results, we use this general concept of entropy to quantify information in datasets for ML interatomic potentials (IPs), informing compression, explaining trends in testing errors, and evaluating the efficiency of active learning strategies. Finally, we propose a model-free UQ method for MLIPs using information entropy, showing it reliably detects extrapolation regimes, scales to millions of atoms, and goes beyond model errors. This method is made available as the package QUESTS: Quick Uncertainty and Entropy via STructural Similarity, providing a new unifying theory for data-driven atomistic modeling and combining efforts in ML, first-principles thermodynamics, and simulations.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# KDk:垂直的フェデレーション学習におけるラベル推論攻撃に対する防御機構

KDk: A Defense Mechanism Against Label Inference Attacks in Vertical Federated Learning ( http://arxiv.org/abs/2404.12369v1 )

ライセンス: Link先を確認
Marco Arazzi, Serena Nicolazzo, Antonino Nocera, (参考訳) 垂直フェデレートラーニング(Vertical Federated Learning、VFL)は、垂直に分割されたデータを持つ当事者間でモデルが協調的に訓練される、フェデレーションラーニングのカテゴリである。 通常、VFLのシナリオでは、サンプルのラベルは、ラベル所有者である集約サーバを除くすべてのパーティからプライベートに保持される。 しかし、最近の研究により、サーバからボトムモデルに返される勾配情報を活用することで、訓練データポイントのごく限られたサブセットの補助ラベルのみを知識として、敵がプライベートラベルを推測できることが判明した。 これらの攻撃は、VFLにおけるラベル推論攻撃として知られている。 本稿では,知識蒸留とk-匿名性を組み合わせた新しいフレームワークKDkを提案し,VFLシナリオにおける潜在的なラベル推論攻撃に対する防御機構を提供する。 本手法の適用により,解析されたラベル推論攻撃の性能は60%以上も一貫して低下し,VFL全体の精度はほぼ変わらず維持されることを示した。

Vertical Federated Learning (VFL) is a category of Federated Learning in which models are trained collaboratively among parties with vertically partitioned data. Typically, in a VFL scenario, the labels of the samples are kept private from all the parties except for the aggregating server, that is the label owner. Nevertheless, recent works discovered that by exploiting gradient information returned by the server to bottom models, with the knowledge of only a small set of auxiliary labels on a very limited subset of training data points, an adversary can infer the private labels. These attacks are known as label inference attacks in VFL. In our work, we propose a novel framework called KDk, that combines Knowledge Distillation and k-anonymity to provide a defense mechanism against potential label inference attacks in a VFL scenario. Through an exhaustive experimental campaign we demonstrate that by applying our approach, the performance of the analyzed label inference attacks decreases consistently, even by more than 60%, maintaining the accuracy of the whole VFL almost unaltered.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# 中性原子系における偽および真真空状態の長時間振動

Long-lived oscillations of false and true vacuum states in neutral atom systems ( http://arxiv.org/abs/2404.12371v1 )

ライセンス: Link先を確認
Siva Darbha, Milan Kornjača, Fangli Liu, Jan Balewski, Mark R. Hirsbrunner, Pedro Lopes, Sheng-Tao Wang, Roel Van Beeumen, Katherine Klymko, Daan Camps, (参考訳) 準安定な偽真空状態は様々な量子系で発生し、崩壊、気泡核形成、長寿命振動など様々な動的シナリオで観測できる。 偽真空現象学は量子多体系、特に1次元強磁性イジングスピン系や超流体において研究されている。 本稿では,長距離リドバーグ相互作用を持つ1次元反強磁性中性原子鎖における偽状態と真真空状態の長寿命振動について検討する。 拘束を達成するために、スタガー化された局所デチューニング場を使用します。 理論モデルおよび数値モデルを用いて、反強磁性中性原子系とは異なる準粒子振動の新しいスペクトルシグネチャを同定し、ライドバーグ尾部からの分解の古典的エネルギーモデルを用いて解釈する。 最後に,提案装置の現在の中性原子プラットフォーム上での実験的アクセシビリティを評価し,実験的な実現可能性と制約について議論する。

Metastable false vacuum states arise in a range of quantum systems and can be observed in various dynamical scenarios, including decay, bubble nucleation, and long-lived oscillations. False vacuum phenomenology has been examined in quantum many-body systems, notably in 1D ferromagnetic Ising spin systems and superfluids. In this paper, we study long-lived oscillations of false and true vacuum states in 1D antiferromagnetic neutral atom chains with long-range Rydberg interactions. We use a staggered local detuning field to achieve confinement. Using theoretical and numerical models, we identify novel spectral signatures of quasiparticle oscillations distinct to antiferromagnetic neutral atom systems and interpret them using a classical energy model of deconfinement from Rydberg tails. Finally, we evaluate the experimental accessibility of our proposed setup on current neutral-atom platforms and discuss experimental feasibility and constraints.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# MedThink:マルチモーダル・デシジョン・メイキング・ライナーによる医用視覚質問応答の解説

MedThink: Explaining Medical Visual Question Answering via Multimodal Decision-Making Rationale ( http://arxiv.org/abs/2404.12372v1 )

ライセンス: Link先を確認
Xiaotang Gai, Chenyi Zhou, Jiaxiang Liu, Yang Feng, Jian Wu, Zuozhu Liu, (参考訳) 画像に基づく医療質問に対する言語応答を提供するMedVQA(MedVQA)は、難しい課題であり、医療の進歩を示している。 医療専門家が医療画像の迅速な解釈を支援し、より高速で正確な診断を可能にする。 しかしながら、既存のMedVQAソリューションのモデル解釈可能性と透明性はしばしば制限されており、意思決定プロセスを理解する上での課題を提起している。 この問題に対処するために、データ準備の合理化と新しいベンチマークMedVQAデータセット R-RAD と R-SLAKE を構築するための半自動アノテーションプロセスを開発した。 R-RADとR-SLAKEデータセットは、既存のMedVQAデータセット、すなわちVQA-RADとSLAKEにおいて、マルチモーダルな大規模言語モデルと人間のアノテーションによって生成される中間的な医学的意思決定論理を提供する。 さらに,医学的意思決定の合理性をトレーニングプロセスに組み込むことにより,軽量な事前学習生成モデルを微調整する新しい枠組みを設計する。 このフレームワークには、意思決定結果とそれに対応する合理的性を生成するための3つの異なる戦略が含まれており、推論中の医療的な意思決定プロセスを明確に示している。 実験の結果,R-RADでは83.5%,R-SLAKEでは86.3%の精度が得られた。 データセットとコードがリリースされる。

Medical Visual Question Answering (MedVQA), which offers language responses to image-based medical inquiries, represents a challenging task and significant advancement in healthcare. It assists medical experts to swiftly interpret medical images, thereby enabling faster and more accurate diagnoses. However, the model interpretability and transparency of existing MedVQA solutions are often limited, posing challenges in understanding their decision-making processes. To address this issue, we devise a semi-automated annotation process to streamlining data preparation and build new benchmark MedVQA datasets R-RAD and R-SLAKE. The R-RAD and R-SLAKE datasets provide intermediate medical decision-making rationales generated by multimodal large language models and human annotations for question-answering pairs in existing MedVQA datasets, i.e., VQA-RAD and SLAKE. Moreover, we design a novel framework which finetunes lightweight pretrained generative models by incorporating medical decision-making rationales into the training process. The framework includes three distinct strategies to generate decision outcomes and corresponding rationales, thereby clearly showcasing the medical decision-making process during reasoning. Extensive experiments demonstrate that our method can achieve an accuracy of 83.5% on R-RAD and 86.3% on R-SLAKE, significantly outperforming existing state-of-the-art baselines. Dataset and code will be released.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# ダイナミックガウスメッシュ:モノクロビデオからの一貫性のあるメッシュ再構成

Dynamic Gaussians Mesh: Consistent Mesh Reconstruction from Monocular Videos ( http://arxiv.org/abs/2404.12379v1 )

ライセンス: Link先を確認
Isabella Liu, Hao Su, Xiaolong Wang, (参考訳) 現代の3Dエンジンとグラフィックスパイプラインは、効率的なレンダリング、幾何処理、テクスチャ編集、その他多くの下流操作を可能にするメモリ効率のよい表現としてメッシュを必要とする。 しかし、単眼の視覚的観察から構造や細部の観点からは、高品質なメッシュを得ることは依然として困難である。 動的なシーンやオブジェクトでは、この問題はさらに難しくなります。 この目的のために、単一のモノクロビデオから高忠実かつ時間一貫性のあるメッシュを再構築するフレームワークであるDynamic Gaussians Mesh (DG-Mesh)を紹介した。 我々の研究は、最近の3Dガウススプラッティングの進歩を活用して、ビデオから時間的一貫性のあるメッシュシーケンスを構築する。 この表現の上に構築されたDG-Meshは、ガウス点から高品質なメッシュを復元し、時間とともにメッシュ頂点を追跡することができるため、動的オブジェクトのテクスチャ編集などのアプリケーションが可能になる。 メッシュガイドによる密度化と変形したガウスへのプルーニングによるメッシュ再構築を実現するため,均等に分散したガウスアンを奨励するガウス・メシュアンチョリングを導入する。 正準空間と変形空間の間のサイクル一貫性の変形を適用することにより、固定されたガウスを正準空間に投影し、すべての時間フレームにわたってガウスを最適化することができる。 異なるデータセットの評価の間、DG-Meshはベースラインよりもはるかに優れたメッシュ再構成とレンダリングを提供する。

Modern 3D engines and graphics pipelines require mesh as a memory-efficient representation, which allows efficient rendering, geometry processing, texture editing, and many other downstream operations. However, it is still highly difficult to obtain high-quality mesh in terms of structure and detail from monocular visual observations. The problem becomes even more challenging for dynamic scenes and objects. To this end, we introduce Dynamic Gaussians Mesh (DG-Mesh), a framework to reconstruct a high-fidelity and time-consistent mesh given a single monocular video. Our work leverages the recent advancement in 3D Gaussian Splatting to construct the mesh sequence with temporal consistency from a video. Building on top of this representation, DG-Mesh recovers high-quality meshes from the Gaussian points and can track the mesh vertices over time, which enables applications such as texture editing on dynamic objects. We introduce the Gaussian-Mesh Anchoring, which encourages evenly distributed Gaussians, resulting better mesh reconstruction through mesh-guided densification and pruning on the deformed Gaussians. By applying cycle-consistent deformation between the canonical and the deformed space, we can project the anchored Gaussian back to the canonical space and optimize Gaussians across all time frames. During the evaluation on different datasets, DG-Mesh provides significantly better mesh reconstruction and rendering than baselines.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# G-HOP:相互作用再構成とグラフ合成のための生成ハンドオブジェクト

G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis ( http://arxiv.org/abs/2404.12383v1 )

ライセンス: Link先を確認
Yufei Ye, Abhinav Gupta, Kris Kitani, Shubham Tulsiani, (参考訳) 本稿では,3次元オブジェクトと人手の両方をモデリングし,対象カテゴリに条件付けしたG-HOPを提案する。 この関節分布を捉えることができる3次元空間拡散モデルを学習するために、骨格距離場を介して人手を表現し、物体の(相対的な)符号付き距離場に整合した表現を得る。 この手動物体は、対話クリップからの再構成や人間のつかみ合成など、他の作業を容易にするための汎用的なガイダンスとして機能することを示す。 われわれのモデルは、155のカテゴリーにまたがる7つの多様な現実世界の相互作用データセットを集約することで訓練され、手とオブジェクトを共同で生成できる最初のアプローチであると信じている。 我々の経験的評価は、映像ベースの再構築と人間の握り合成に先立って、この関節の利点を示し、現在のタスク固有のベースラインよりも優れています。 プロジェクトウェブサイト: https://judyye.github.io/ghop-www

We propose G-HOP, a denoising diffusion based generative prior for hand-object interactions that allows modeling both the 3D object and a human hand, conditioned on the object category. To learn a 3D spatial diffusion model that can capture this joint distribution, we represent the human hand via a skeletal distance field to obtain a representation aligned with the (latent) signed distance field for the object. We show that this hand-object prior can then serve as generic guidance to facilitate other tasks like reconstruction from interaction clip and human grasp synthesis. We believe that our model, trained by aggregating seven diverse real-world interaction datasets spanning across 155 categories, represents a first approach that allows jointly generating both hand and object. Our empirical evaluations demonstrate the benefit of this joint prior in video-based reconstruction and human grasp synthesis, outperforming current task-specific baselines. Project website: https://judyye.github.io/ghop-www
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# 閉じ込められた双極子超固体における非結合音と振幅モード

Decoupled sound and amplitude modes in trapped dipolar supersolids ( http://arxiv.org/abs/2404.12384v1 )

ライセンス: Link先を確認
Jens Hertkorn, Philipp Stürmer, Koushik Mukherjee, Kevin S. H. Ng, Paul Uerlings, Fiona Hellstern, Lucas Lavoine, Stephanie Reimann, Tilman Pfau, Ralf Klemt, (参考訳) トロイダルトラップにおける超流動から超固体相転移への双極子量子ガスの初等励起を理論的に検討する。 遷移中の超流動モードから発生した第1の音、第2の音、ヒッグスモードがいかに分離されたかを示す。 これらの励起の構造は結晶と超流動振動の間の相互作用を明らかにする。 我々の結果は、調和トラップにおけるゴールドストーンとヒッグスモードの結合の概念を統一し、閉じ込められたスーパーソリッドの励起と無限に拡張されたスーパーソリッドの対応を確立することができる。 本研究では,これらの音響モードと振幅モードを選択的に探索するプロトコルを提案する。

We theoretically investigate elementary excitations of dipolar quantum gases across the superfluid to supersolid phase transition in a toroidal trap. We show how decoupled first sound, second sound, and Higgs modes emerge by following their origin from superfluid modes across the transition. The structure of these excitations reveals the interplay between crystal and superfluid oscillations. Our results unify previous notions of coupled Goldstone and Higgs modes in harmonic traps, allowing us to establish a correspondence between excitations of trapped and infinitely extended supersolids. We propose protocols for selectively probing these sound and amplitude modes, accessible to state-of-the-art experiments.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# VideoGigaGAN:ビデオの超解像化を目指す

VideoGigaGAN: Towards Detail-rich Video Super-Resolution ( http://arxiv.org/abs/2404.12388v1 )

ライセンス: Link先を確認
Yiran Xu, Taesung Park, Richard Zhang, Yang Zhou, Eli Shechtman, Feng Liu, Jia-Bin Huang, Difan Liu, (参考訳) ビデオ・スーパーレゾリューション(VSR)アプローチは、アップサンプリングされたビデオに顕著な時間的一貫性を示す。 しかしながら、これらのアプローチは、生成能力に制限があるため、画像よりもぼやけた結果を生成する傾向がある。 時間的一貫性を維持しながら、生成的イメージアップサンプリングをVSRタスクに拡張できるだろうか? 本稿では,高頻度の細部と時間的整合性を持つビデオを生成する新しい生成型VSRモデルであるVideoGigaGANを紹介する。 VideoGigaGANは、大規模なイメージアップサンプラー、GigaGANをベースとしている。 時間的加群を追加することで、GigaGANをビデオモデルに単純に膨らませることによって、重度の時間的フリッカリングが発生する。 我々は、いくつかの重要な問題を特定し、アップサンプリングされたビデオの時間的一貫性を大幅に改善する手法を提案する。 我々の実験では、従来のVSR法とは異なり、ビデオGigaGANはよりきめ細かな外観で時間的に一貫した映像を生成する。 ビデオGigaGANの有効性は、公開データセット上の最先端のVSRモデルと比較し、その結果を8\times$スーパーレゾリューションで示すことによって検証する。

Video super-resolution (VSR) approaches have shown impressive temporal consistency in upsampled videos. However, these approaches tend to generate blurrier results than their image counterparts as they are limited in their generative capability. This raises a fundamental question: can we extend the success of a generative image upsampler to the VSR task while preserving the temporal consistency? We introduce VideoGigaGAN, a new generative VSR model that can produce videos with high-frequency details and temporal consistency. VideoGigaGAN builds upon a large-scale image upsampler -- GigaGAN. Simply inflating GigaGAN to a video model by adding temporal modules produces severe temporal flickering. We identify several key issues and propose techniques that significantly improve the temporal consistency of upsampled videos. Our experiments show that, unlike previous VSR methods, VideoGigaGAN generates temporally consistent videos with more fine-grained appearance details. We validate the effectiveness of VideoGigaGAN by comparing it with state-of-the-art VSR models on public datasets and showcasing video results with $8\times$ super-resolution.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# 移動オブジェクトセグメンテーション:SAM(とフロー)だけ

Moving Object Segmentation: All You Need Is SAM (and Flow) ( http://arxiv.org/abs/2404.12389v1 )

ライセンス: Link先を確認
Junyu Xie, Charig Yang, Weidi Xie, Andrew Zisserman, (参考訳) 本論文の目的は,動画中の移動物体の検出とセグメンテーションを行う動作セグメンテーションである。 自己教師型学習、合成データセットからの学習、オブジェクト中心の表現、アモーダル表現、その他多くのものを含む。 本論文の関心は,Segment Anything Model(SAM)がこの課題に貢献できるかどうかを判断することである。 SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。 最初のモデルでは、RGBではなく光の流れを入力としてSAMを適応させる。 第2に、SAMはRGBを入力とし、フローはセグメンテーションプロンプトとして使用される。 これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。 また、これらのフレームレベルのセグメンテーションを、オブジェクトのアイデンティティを保持するシーケンスレベルのセグメンテーションに拡張します。 この単純なモデルは、複数のビデオオブジェクトセグメンテーションベンチマークにおいて、以前の手法よりも優れている。

The objective of this paper is motion segmentation -- discovering and segmenting the moving objects in a video. This is a much studied area with numerous careful,and sometimes complex, approaches and training schemes including: self-supervised learning, learning from synthetic datasets, object-centric representations, amodal representations, and many more. Our interest in this paper is to determine if the Segment Anything model (SAM) can contribute to this task. We investigate two models for combining SAM with optical flow that harness the segmentation power of SAM with the ability of flow to discover and group moving objects. In the first model, we adapt SAM to take optical flow, rather than RGB, as an input. In the second, SAM takes RGB as an input, and flow is used as a segmentation prompt. These surprisingly simple methods, without any further modifications, outperform all previous approaches by a considerable margin in both single and multi-object benchmarks. We also extend these frame-level segmentations to sequence-level segmentations that maintain object identity. Again, this simple model outperforms previous methods on multiple video object segmentation benchmarks.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# Fréchet Video Distanceにおけるコンテンツバイアスについて

On the Content Bias in Fréchet Video Distance ( http://arxiv.org/abs/2404.12391v1 )

ライセンス: Link先を確認
Songwei Ge, Aniruddha Mahapatra, Gaurav Parmar, Jun-Yan Zhu, Jia-Bin Huang, (参考訳) Fr\'echet Video Distance (FVD) は、ビデオ生成モデルを評価する重要な指標であり、人間の知覚と時々衝突することが知られている。 本稿では,時間的リアリズムよりもフレーム単位の品質に対するFVDの偏りを調査し,その情報源を特定することを目的とする。 まず、フレームと動きの質を分離することにより、FVDの時間軸に対する感度を定量化し、FVDは時間軸の破壊によってわずかに増加する。 次に、生成されたビデオを分析し、動きを含まない大量のビデオから注意深くサンプリングすることで、時間的品質を向上することなく、FVDを大幅に削減できることを示す。 どちらの研究も、個々のフレームの品質に対するFVDの偏見を示唆している。 さらに、このバイアスは、コンテンツバイアスデータセットに基づいて訓練された教師付きビデオ分類器から抽出された特徴に起因する可能性があることを観察する。 近年の大規模自己監督型ビデオモデルから抽出された特徴を持つFVDは画質に偏りが小さいことを示す。 最後に、仮説を検証するために、いくつかの実例を再考する。

Fr\'echet Video Distance (FVD), a prominent metric for evaluating video generation models, is known to conflict with human perception occasionally. In this paper, we aim to explore the extent of FVD's bias toward per-frame quality over temporal realism and identify its sources. We first quantify the FVD's sensitivity to the temporal axis by decoupling the frame and motion quality and find that the FVD increases only slightly with large temporal corruption. We then analyze the generated videos and show that via careful sampling from a large set of generated videos that do not contain motions, one can drastically decrease FVD without improving the temporal quality. Both studies suggest FVD's bias towards the quality of individual frames. We further observe that the bias can be attributed to the features extracted from a supervised video classifier trained on the content-biased dataset. We show that FVD with features extracted from the recent large-scale self-supervised video models is less biased toward image quality. Finally, we revisit a few real-world examples to validate our hypothesis.
翻訳日:2024-04-19 11:52:23 公開日:2024-04-18
# 人道走行学習のためのエンド・ツー・エンドトレーニング・テストゲーム化フレームワーク

End-To-End Training and Testing Gamification Framework to Learn Human Highway Driving ( http://arxiv.org/abs/2404.10849v2 )

ライセンス: Link先を確認
Satya R. Jaladi, Zhimin Chen, Narahari R. Malayanur, Raja M. Macherla, Bing Li, (参考訳) 現在の自律スタックはモジュール化されており、手作りのフレームワークにおける認識、意思決定、制御で構成されています。 人工知能(AI)とコンピューティングリソースの進歩により、研究者らは自動運転車のためのエンドツーエンドAIの開発を推し進めている。 本研究では,人間の運転能力から学習することで,自動運転車走行のためのゲームベースのエンド・ツー・エンドの学習・テストフレームワークを提案する。 まず,人気ゲームであるGrand Theft Auto V (GTA V) を用いて,提案したプログラム可能なラベルを用いて高速道路運転データを収集する。 そして、エンド・ツー・エンドのアーキテクチャは、ゲーム画面の画像により車両を制御する操舵及びスロットル値を予測する。 予測制御値は仮想コントローラを介してゲームに送信され、車両を車線内に保持し、道路上の他の車両との衝突を避ける。 提案手法はGTA Vゲームにおいて検証され,人間の運転スキルを学習するためのエンドツーエンドゲーム化フレームワークの有効性が実証された。

The current autonomous stack is well modularized and consists of perception, decision making and control in a handcrafted framework. With the advances in artificial intelligence (AI) and computing resources, researchers have been pushing the development of end-to-end AI for autonomous driving, at least in problems of small searching space such as in highway scenarios, and more and more photorealistic simulation will be critical for efficient learning. In this research, we propose a novel game-based end-to-end learning and testing framework for autonomous vehicle highway driving, by learning from human driving skills. Firstly, we utilize the popular game Grand Theft Auto V (GTA V) to collect highway driving data with our proposed programmable labels. Then, an end-to-end architecture predicts the steering and throttle values that control the vehicle by the image of the game screen. The predicted control values are sent to the game via a virtual controller to keep the vehicle in lane and avoid collisions with other vehicles on the road. The proposed solution is validated in GTA V games, and the results demonstrate the effectiveness of this end-to-end gamification framework for learning human driving skills.
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18
# TaCOS: シミュレーションによるタスク特異的カメラ最適化

TaCOS: Task-Specific Camera Optimization with Simulation ( http://arxiv.org/abs/2404.11031v2 )

ライセンス: Link先を確認
Chengyang Yan, Donald G. Dansereau, (参考訳) ロボットの応用性能は感覚入力の品質に大きく依存する。 しかし、センサーペイロードとそのパラメータを特定のロボットタスクのために設計することは、確立されたセンサー知識と物理ハードウェアによる広範な実験を必要とする高価なプロセスである。 ロボット知覚においてカメラが重要な役割を担い、微分自由度と勾配に基づく最適化を組み合わせ、特定のロボットタスクでカメラを協調設計するための、新しいエンドツーエンド最適化アプローチを導入する。 提案手法は,最近のコンピュータグラフィックス技術と物理カメラ特性を利用して,ソフトウェアでカメラを試作し,ロボットの運用環境やタスクをシミュレートし,望まれるタスクに基づいたカメラ設計をコスト効率よく最適化する。 物理カメラとの比較により, カメラシミュレーションの精度を検証し, 一般的な市販カメラよりも高い性能のカメラの設計を実証する。 本手法は、連続カメラパラメータと離散カメラパラメータの最適化、製造制約の最適化をサポートし、複数のカメラや非伝統的なカメラを含む幅広いカメラ設計シナリオに一般化することができる。 この作業は、特定のロボティクスタスクのためのカメラの完全な自動設計を前進させる。

The performance of robots in their applications heavily depends on the quality of sensory input. However, designing sensor payloads and their parameters for specific robotic tasks is an expensive process that requires well-established sensor knowledge and extensive experiments with physical hardware. With cameras playing a pivotal role in robotic perception, we introduce a novel end-to-end optimization approach for co-designing a camera with specific robotic tasks by combining derivative-free and gradient-based optimizers. The proposed method leverages recent computer graphics techniques and physical camera characteristics to prototype the camera in software, simulate operational environments and tasks for robots, and optimize the camera design based on the desired tasks in a cost-effective way. We validate the accuracy of our camera simulation by comparing it with physical cameras, and demonstrate the design of cameras with stronger performance than common off-the-shelf alternatives. Our approach supports the optimization of both continuous and discrete camera parameters, manufacturing constraints, and can be generalized to a broad range of camera design scenarios including multiple cameras and unconventional cameras. This work advances the fully automated design of cameras for specific robotics tasks.
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18
# 乳腺病理像分類のための造影コントラスト変換器の開発

Supervised Contrastive Vision Transformer for Breast Histopathological Image Classification ( http://arxiv.org/abs/2404.11052v2 )

ライセンス: Link先を確認
Mohammad Shiri, Monalika Padma Reddy, Jiangwen Sun, (参考訳) 浸潤性乳管癌(Invasive ductal carcinoma,IDC)は乳癌の最も多い形態である。 乳癌の診断と分類には乳房組織組織学的検査が重要である。 既存の方法では有望な結果が得られているが,病理組織像を用いてIDCの分類精度と一般化を向上する余地は残っている。 本稿では, トランスファーラーニング, 事前訓練されたビジョントランスフォーマー, 教師付きコントラスト学習の固有の長所と長所を活用することにより, 浸潤性胆管癌の分類を精度と一般化の観点から改善するための新しいアプローチであるSupervised Contrastive Vision Transformer(SupCon-ViT)を提案する。 IDC分類では,SupCon-VitがF1スコア0.8188,精度0.7692,特異性0.8971を達成し,既存手法よりも高い精度を示した。 さらに,ラベル付きデータが最小限のシナリオでレジリエンスを実証し,ラベル付きデータが制限された実環境において高い効率性を実現する。 以上の結果から,事前学習した視力変換器と併用した教師付きコントラスト学習が,IDCの正確な分類に有効な戦略であることが明らかとなり,病理組織像解析による乳癌のより効率的かつ信頼性の高い診断方法が確立された。

Invasive ductal carcinoma (IDC) is the most prevalent form of breast cancer. Breast tissue histopathological examination is critical in diagnosing and classifying breast cancer. Although existing methods have shown promising results, there is still room for improvement in the classification accuracy and generalization of IDC using histopathology images. We present a novel approach, Supervised Contrastive Vision Transformer (SupCon-ViT), for improving the classification of invasive ductal carcinoma in terms of accuracy and generalization by leveraging the inherent strengths and advantages of both transfer learning, i.e., pre-trained vision transformer, and supervised contrastive learning. Our results on a benchmark breast cancer dataset demonstrate that SupCon-Vit achieves state-of-the-art performance in IDC classification, with an F1-score of 0.8188, precision of 0.7692, and specificity of 0.8971, outperforming existing methods. In addition, the proposed model demonstrates resilience in scenarios with minimal labeled data, making it highly efficient in real-world clinical settings where labelled data is limited. Our findings suggest that supervised contrastive learning in conjunction with pre-trained vision transformers appears to be a viable strategy for an accurate classification of IDC, thus paving the way for a more efficient and reliable diagnosis of breast cancer through histopathological image analysis.
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18
# ViLLM-Eval:ベトナムの大規模言語モデルのための総合評価スイート

ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models ( http://arxiv.org/abs/2404.11086v2 )

ライセンス: Link先を確認
Trong-Hieu Nguyen, Anh-Cuong Le, Viet-Cuong Nguyen, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、それらの能力を正確に評価するために、新しいベンチマークの開発を必要とする。 ベトナムにおけるこのニーズに対処するため、ベトナムの文脈における基礎モデルの高度な知識と推論能力を測定するために設計された総合的な評価スイートであるViLLM-Evalを導入することを目的とする。 ViLLM-Evalは、人文科学から工学まで、さまざまな難易度と様々な分野にまたがる、複数選択の質問と次の単語タスクの予測で構成されている。 ViLLM-Eval上での最も先進的なLCMの徹底的な評価により、最高のパフォーマンスモデルでさえベトナム語のタスクに対する理解と応答の改善に十分な余地があることが判明した。 ViLLM-Evalは、ファンデーションモデルの重要な長所と短所を特定し、最終的にベトナムのユーザのために開発を促進し、パフォーマンスを向上させるのに役立っていると考えられている。 本稿では,ベトナム語と音声処理に関する第10回国際ワークショップ(VLSP 2023)で開催されているベトナム語大言語モデル共有タスクの一環として,VLLM-Evalの概要を紹介する。

The rapid advancement of large language models (LLMs) necessitates the development of new benchmarks to accurately assess their capabilities. To address this need for Vietnamese, this work aims to introduce ViLLM-Eval, the comprehensive evaluation suite designed to measure the advanced knowledge and reasoning abilities of foundation models within a Vietnamese context. ViLLM-Eval consists of multiple-choice questions and predict next word tasks spanning various difficulty levels and diverse disciplines, ranging from humanities to science and engineering. A thorough evaluation of the most advanced LLMs on ViLLM-Eval revealed that even the best performing models have significant room for improvement in understanding and responding to Vietnamese language tasks. ViLLM-Eval is believed to be instrumental in identifying key strengths and weaknesses of foundation models, ultimately promoting their development and enhancing their performance for Vietnamese users. This paper provides a thorough overview of ViLLM-Eval as part of the Vietnamese Large Language Model shared task, held within the 10th International Workshop on Vietnamese Language and Speech Processing (VLSP 2023).
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18
# LAPTOP-Diff:圧縮拡散モデルのための層切断と正規化蒸留

LAPTOP-Diff: Layer Pruning and Normalized Distillation for Compressing Diffusion Models ( http://arxiv.org/abs/2404.11098v2 )

ライセンス: Link先を確認
Dingkun Zhang, Sijia Li, Chen Chen, Qingsong Xie, Haonan Lu, (参考訳) AIGCの時代、拡散モデルの低予算やデバイス上の応用への需要が出現した。 安定拡散モデル (SDM) の圧縮に関していくつかの手法が提案されており、そのほとんどは手作りの層除去法を利用してより小さなU-Netを抽出し、知識蒸留によりネットワーク性能を回復した。 しかし、このような手作りの層除去は非効率であり、スケーラビリティと一般化が欠如しており、再訓練段階における特徴蒸留は、再訓練過程を通して、数個の数値的に重要な特徴損失項が他よりも優位である不均衡問題に直面している。 そこで我々は, 圧縮拡散モデル (LAPTOP-Diff) のための層プレーニング法と正規化蒸留法を提案した。 です。 1)SDMのU-Netを自動圧縮するレイヤプルーニング法を導入し,他のレイヤプルーニング法や手作りのレイヤ除去法を超越して,優れた添加性によってワンショット性能が保証される効果的なワンショットプルーニング基準を提案した。 2) 再トレーニングのための正常化特徴蒸留法を提案し, 不均衡問題を緩和した。 提案したLAPTOP-Diffを用いて,SDXLとSDM-v1.5のU-Netを圧縮し,PickScoreを50%,PickScoreの最小4.0%,PickScoreの最小8.2%の低下を実現した。 私たちはコードを公開します。

In the era of AIGC, the demand for low-budget or even on-device applications of diffusion models emerged. In terms of compressing the Stable Diffusion models (SDMs), several approaches have been proposed, and most of them leveraged the handcrafted layer removal methods to obtain smaller U-Nets, along with knowledge distillation to recover the network performance. However, such a handcrafting manner of layer removal is inefficient and lacks scalability and generalization, and the feature distillation employed in the retraining phase faces an imbalance issue that a few numerically significant feature loss terms dominate over others throughout the retraining process. To this end, we proposed the layer pruning and normalized distillation for compressing diffusion models (LAPTOP-Diff). We, 1) introduced the layer pruning method to compress SDM's U-Net automatically and proposed an effective one-shot pruning criterion whose one-shot performance is guaranteed by its good additivity property, surpassing other layer pruning and handcrafted layer removal methods, 2) proposed the normalized feature distillation for retraining, alleviated the imbalance issue. Using the proposed LAPTOP-Diff, we compressed the U-Nets of SDXL and SDM-v1.5 for the most advanced performance, achieving a minimal 4.0% decline in PickScore at a pruning ratio of 50% while the comparative methods' minimal PickScore decline is 8.2%. We will release our code.
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18
# LongVQ:構造化メモリ上のベクトル量子化を用いたロングシーケンスモデリング

LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory ( http://arxiv.org/abs/2404.11163v2 )

ライセンス: Link先を確認
Zicheng Liu, Li Wang, Siyuan Li, Zedong Wang, Haitao Lin, Stan Z. Li, (参考訳) トランスフォーマーモデルは、様々なシーケンス処理タスクで成功したが、自己アテンション機構の計算コストは、長いシーケンスに対する実用性を制限している。 計算効率を向上させるアテンション変種は存在するが、手作りのミキシング戦略に基づいて、グローバル情報を効果的に抽象化する能力は限られている。 一方、状態空間モデル(SSM)は長いシーケンス用に調整されているが、複雑なローカル情報をキャプチャすることはできない。 したがって、これらを統一されたトークンミキサーとして組み合わせることは、最近のロングシーケンスモデルにおけるトレンドである。 しかし、線形化注意はSSMを装着しても性能が著しく低下する。 この問題に対処するため,LongVQと呼ばれる新しい手法を提案する。 LongVQはベクトル量子化(VQ)技術を用いて、グローバル抽象化を長さ固定符号ブックとして圧縮し、注意行列の線形時間計算を可能にする。 この技術は動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。 筆者らはLong Range Arenaベンチマーク、自己回帰言語モデリング、画像と音声の分類実験を行い、LongVQの有効性を示した。 我々のモデルは、トランスフォーマー、畳み込み、最近のステートスペースモデルなど、他のシーケンスモデルよりも大幅に改善されている。

Transformer models have been successful in various sequence processing tasks, but the self-attention mechanism's computational cost limits its practicality for long sequences. Although there are existing attention variants that improve computational efficiency, they have a limited ability to abstract global information effectively based on their hand-crafted mixing strategies. On the other hand, state-space models (SSMs) are tailored for long sequences but cannot capture complicated local information. Therefore, the combination of them as a unified token mixer is a trend in recent long-sequence models. However, the linearized attention degrades performance significantly even when equipped with SSMs. To address the issue, we propose a new method called LongVQ. LongVQ uses the vector quantization (VQ) technique to compress the global abstraction as a length-fixed codebook, enabling the linear-time computation of the attention matrix. This technique effectively maintains dynamic global and local patterns, which helps to complement the lack of long-range dependency issues. Our experiments on the Long Range Arena benchmark, autoregressive language modeling, and image and speech classification demonstrate the effectiveness of LongVQ. Our model achieves significant improvements over other sequence models, including variants of Transformers, Convolutions, and recent State Space Models.
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18
# FIZZ:Zoom-in概要とZoom-outドキュメントによるFactual Unconsistency Detection

FIZZ: Factual Inconsistency Detection by Zoom-in Summary and Zoom-out Document ( http://arxiv.org/abs/2404.11184v2 )

ライセンス: Link先を確認
Joonho Yang, Seunghyun Yoon, Byeongjeong Kim, Hwanhee Lee, (参考訳) 事前訓練された言語モデルの出現により、抽象的な要約システムにおいて顕著な進歩が見られた。 同時に、抽象的な要約システムにおける事実整合性を評価するための新しい手法が数多く開発されている。 しかし、これらの評価アプローチには、特に洗練と解釈可能性にかなりの制限が加えられている。 本研究では, 微粒な原子事実の分解に基づく抽象的な要約システムのための, Zoom-in概要とZoom-out文書による実測不整合検出の精度が高く, 解釈可能な実測不整合検出手法を提案する。 さらに,アダプティブな粒度拡大により,要約から分解した原子事実をソース文書に整列させる。 これらの原子的事実はよりきめ細かな情報の単位を表し、要約の事実的矛盾の詳細な理解と解釈を容易にする。 実験結果から,提案手法が既存システムより有意に優れていることが示された。

Through the advent of pre-trained language models, there have been notable advancements in abstractive summarization systems. Simultaneously, a considerable number of novel methods for evaluating factual consistency in abstractive summarization systems has been developed. But these evaluation approaches incorporate substantial limitations, especially on refinement and interpretability. In this work, we propose highly effective and interpretable factual inconsistency detection method metric Factual Inconsistency Detection by Zoom-in Summary and Zoom-out Document for abstractive summarization systems that is based on fine-grained atomic facts decomposition. Moreover, we align atomic facts decomposed from the summary with the source document through adaptive granularity expansion. These atomic facts represent a more fine-grained unit of information, facilitating detailed understanding and interpretability of the summary's factual inconsistency. Experimental results demonstrate that our proposed factual consistency checking system significantly outperforms existing systems.
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18
# 領域一般化のための単一時間監視型リモート変更検出

Single-temporal Supervised Remote Change Detection for Domain Generalization ( http://arxiv.org/abs/2404.11326v2 )

ライセンス: Link先を確認
Qiangang Du, Jinlong Peng, Xu Chen, Qingdong He, Liren He, Qiang Nie, Wenbing Zhu, Mingmin Chi, Yabiao Wang, Chengjie Wang, (参考訳) 変化検出はリモートセンシング画像解析に広く応用されている。 既存の方法はデータセットごとに個別にトレーニングモデルを必要とするため、ドメインの一般化は不十分である。 さらに、これらの手法は、高価で実用的でない、大量の高品質なペアラベルデータに大きく依存している。 本稿では,変化検出領域の一般化のための視覚言語事前学習に基づくマルチモーダルコントラスト学習(ChangeCLIP)を提案する。 さらに,素早い学習のための動的文脈最適化を提案する。 一方、既存の手法のデータ依存問題に対処するため、単時間かつ制御可能なAI生成トレーニング戦略(SAIN)を導入する。 これにより、実世界の画像ペアを使わずに、多数の単一時間画像を用いてモデルを訓練し、優れた一般化を実現することができる。 一連の実変化検出データセットに関する大規模な実験により、ChangeCLIPの優位性と強力な一般化が検証され、最先端の変化検出方法よりも優れた結果が得られた。 コードは利用可能です。

Change detection is widely applied in remote sensing image analysis. Existing methods require training models separately for each dataset, which leads to poor domain generalization. Moreover, these methods rely heavily on large amounts of high-quality pair-labelled data for training, which is expensive and impractical. In this paper, we propose a multimodal contrastive learning (ChangeCLIP) based on visual-language pre-training for change detection domain generalization. Additionally, we propose a dynamic context optimization for prompt learning. Meanwhile, to address the data dependency issue of existing methods, we introduce a single-temporal and controllable AI-generated training strategy (SAIN). This allows us to train the model using a large number of single-temporal images without image pairs in the real world, achieving excellent generalization. Extensive experiments on series of real change detection datasets validate the superiority and strong generalization of ChangeCLIP, outperforming state-of-the-art change detection methods. Code will be available.
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18
# DeblurGS: カメラモーションブラーのためのガウシアンスプラッティング

DeblurGS: Gaussian Splatting for Camera Motion Blur ( http://arxiv.org/abs/2404.11358v2 )

ライセンス: Link先を確認
Jeongtaek Oh, Jaeyoung Chung, Dongwoo Lee, Kyoung Mu Lee, (参考訳) モーションブルー画像からシャープな3Dシーンを再構築する大きな進歩があったが、現実のアプリケーションへの移行は依然として困難である。 主な障害は、初期カメラの取得における不正確な原因となる激しいぼやけ(Structure-from-Motion)である。 この課題に対処するために、ノイズの多いカメラが初期化している場合でも、モーションブル画像からシャープな3次元ガウススプラッティングを最適化するDeblurGSを提案する。 我々は,3次元ガウススプラッティングの顕著な再構成能力を活用して,きめ細かなシャープシーンを復元する。 提案手法は,6自由度カメラの動きを各ぼやけた観測のために推定し,その最適化プロセスのために対応するぼやけたレンダリングを合成する。 さらに,カメラの動作が不正確である初期訓練段階において,不正確なガウシアンの発生を防止するため,ガウシアンデンシフィケーションアニーリング戦略を提案する。 我々のDeblurGSは、実世界と合成ベンチマークのデータセット、およびフィールドキャプチャーされたスマートフォンビデオに対して、デブロアリングと新しいビュー合成において最先端のパフォーマンスを達成することを、総合的な実験で実証している。

Although significant progress has been made in reconstructing sharp 3D scenes from motion-blurred images, a transition to real-world applications remains challenging. The primary obstacle stems from the severe blur which leads to inaccuracies in the acquisition of initial camera poses through Structure-from-Motion, a critical aspect often overlooked by previous approaches. To address this challenge, we propose DeblurGS, a method to optimize sharp 3D Gaussian Splatting from motion-blurred images, even with the noisy camera pose initialization. We restore a fine-grained sharp scene by leveraging the remarkable reconstruction capability of 3D Gaussian Splatting. Our approach estimates the 6-Degree-of-Freedom camera motion for each blurry observation and synthesizes corresponding blurry renderings for the optimization process. Furthermore, we propose Gaussian Densification Annealing strategy to prevent the generation of inaccurate Gaussians at erroneous locations during the early training stages when camera motion is still imprecise. Comprehensive experiments demonstrate that our DeblurGS achieves state-of-the-art performance in deblurring and novel view synthesis for real-world and synthetic benchmark datasets, as well as field-captured blurry smartphone videos.
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18
# 多目的問題におけるNSGA-IIIの実行時解析

Runtime Analyses of NSGA-III on Many-Objective Problems ( http://arxiv.org/abs/2404.11433v2 )

ライセンス: Link先を確認
Andre Opris, Duc-Cuong Dang, Frank Neumann, Dirk Sudholt, (参考訳) NSGA-IIとNSGA-IIIは、実際には最も一般的な進化的多目的アルゴリズムである。 NSGA-IIは2や3のような少数の目的のために使用されるが、NSGA-IIIはより多くの目的を扱うように設計されている。 最近のブレークスルーで、Wietheger and Doerr (IJCAI 2023) は、3オブジェクトのOneMinMax問題に対してNSGA-IIIの最初のランタイム解析を行い、この最先端のアルゴリズムを厳密に分析できることを示した。 我々は, NSGA-III の初回ランタイム解析を, mLOTZ, mOMM, mCOCZ の多目的ベンチマーク問題である mLOTZ, mOMM および mCOCZ に対して, 任意の定数数$m$ の目的に対して提示することによって, 新たな研究線を推し進める。 本分析は,提案アルゴリズムの重要なパラメータ,すなわち参照点数と集団サイズを設定する方法を提供し,優れた性能を保証できる。 これらのパラメータは,問題次元,目的数,適合範囲によってどのようにスケールするかを示す。 我々の知る限り、これらは3つ以上の目的に対してNSGA-IIIの最初のランタイム解析である。

NSGA-II and NSGA-III are two of the most popular evolutionary multi-objective algorithms used in practice. While NSGA-II is used for few objectives such as 2 and 3, NSGA-III is designed to deal with a larger number of objectives. In a recent breakthrough, Wietheger and Doerr (IJCAI 2023) gave the first runtime analysis for NSGA-III on the 3-objective OneMinMax problem, showing that this state-of-the-art algorithm can be analyzed rigorously. We advance this new line of research by presenting the first runtime analyses of NSGA-III on the popular many-objective benchmark problems mLOTZ, mOMM, and mCOCZ, for an arbitrary constant number $m$ of objectives. Our analysis provides ways to set the important parameters of the algorithm: the number of reference points and the population size, so that a good performance can be guaranteed. We show how these parameters should be scaled with the problem dimension, the number of objectives and the fitness range. To our knowledge, these are the first runtime analyses for NSGA-III for more than 3 objectives.
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18
# Octopus v3: オンデバイスサブビリオンマルチモーダルAIエージェントの技術レポート

Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent ( http://arxiv.org/abs/2404.11459v2 )

ライセンス: Link先を確認
Wei Chen, Zhiyuan Li, (参考訳) マルチモーダルAIエージェントは、自然言語、視覚、音声入力など、さまざまな種類のデータを処理して学習し、その動作を知らせる能力によって特徴付けられる。 GPT-4Vのような視覚データを組み込んだ大規模言語モデルの進歩にもかかわらず、画像ベースのデータをAIエージェントの実用的な結果に効果的に翻訳することは困難である。 本稿では,AIエージェントアプリケーション用に設計された関数トークンの概念を取り入れたマルチモーダルモデルを提案する。 エッジデバイスとの互換性を確保するため、我々のモデルは1Bパラメータ未満のコンパクトなサイズに最適化されている。 GPT-4と同様に、我々のモデルは英語と中国語の両方を処理できる。 我々はこのモデルがRaspberry Piのように制約のある幅広いエッジデバイス上で効率的に動作可能であることを実証した。

A multimodal AI agent is characterized by its ability to process and learn from various types of data, including natural language, visual, and audio inputs, to inform its actions. Despite advancements in large language models that incorporate visual data, such as GPT-4V, effectively translating image-based data into actionable outcomes for AI agents continues to be challenging. In this paper, we introduce a multimodal model that incorporates the concept of functional token specifically designed for AI agent applications. To ensure compatibility with edge devices, our model is optimized to a compact size of less than 1B parameters. Like GPT-4, our model can process both English and Chinese. We demonstrate that this model is capable of operating efficiently on a wide range of edge devices, including as constrained as a Raspberry Pi.
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18
# 散逸性チャーン絶縁体の量子力学

Quantum dynamics of dissipative Chern insulator ( http://arxiv.org/abs/2404.11466v2 )

ライセンス: Link先を確認
Jilian Zhong, Xiaoyue Li, (参考訳) オープン量子系の場合、短時間の進化は非エルミート・ハミルトニアン(英語版)によってよく説明されるが、長期の力学ではリンドブラッドマスター方程式(英語版)が必要であり、リウヴィリア超作用素は時間進化を特徴づける。 本稿では,Chen絶縁体に適切な利得と損失演算子を加えて,数値シミュレーションにより長期の量子状態の時間的発展を観察するオープンシステムを構築した。 リウヴィリアの隙間の開閉は、システムの減衰挙動が異なること、非エルミート皮膚効果の存在は、鋭い波面を持つキラル減衰現象を引き起こすことが判明し、我々の研究は、散逸系の量子力学の理解を深める。

For open quantum systems,a short-time evolution is usually well described by the effective non-Hermitian Hamiltonians,while long-time dynamics requires the Lindblad master equation,in which the Liouvillian superoperators characterize the time evolution. In this paper, we constructed an open system by adding suitable gain and loss operators to the Chen insulator to investigate the time evolution of quantum states at long times by numerical simulations.Finally,we also propose a topolectrical circuits to realize the dissipative system for experimental observation. It is found found that the opening and closing of the Liouvillian gap leads to different damping behaviours of the system and that the presence of non-Hermitian skin effects leads to a phenomenon of chiral damping with sharp wavefronts.Our study deepens the understanding of quantum dynamics of dissipative system.
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18
# JointViT:長尺OCTAにおける酸素飽和レベルのモデリング

JointViT: Modeling Oxygen Saturation Levels with Joint Supervision on Long-Tailed OCTA ( http://arxiv.org/abs/2404.11525v2 )

ライセンス: Link先を確認
Zeyu Zhang, Xuyin Qi, Mingxi Chen, Guangxi Li, Ryan Pham, Ayub Qassim, Ella Berry, Zhibin Liao, Owen Siggs, Robert Mclaughlin, Jamie Craig, Minh-Son To, (参考訳) 血液中の酸素飽和度(SaO2)は健康、特に睡眠関連呼吸障害において重要である。 しかし、SaO2の連続モニタリングは、患者の状況に応じて、時間的および高度に変動する。 近年,光コヒーレンストモグラフィー(OCTA)は目関連病変を迅速かつ効果的にスクリーニングし,睡眠関連疾患の診断の可能性を示している。 このギャップを埋めるために、本稿では3つの重要な貢献について述べる。 まず,視覚変換器アーキテクチャに基づく新しいモデルであるJointViTを提案する。 第2に,データ前処理中のバランス向上手法を導入し,特にOCTAデータセット内の長期分布において,モデルの性能向上を図る。 最後に、OCTAデータセットに関する包括的な実験により、提案手法は他の最先端手法よりも大幅に優れ、全体的な精度は最大12.28%向上した。 この進歩は、将来の睡眠関連疾患の診断におけるOCTAの利用の基礎となる。 プロジェクトWebサイト https://steve-zeyu-zhang.github.io/JointViT

The oxygen saturation level in the blood (SaO2) is crucial for health, particularly in relation to sleep-related breathing disorders. However, continuous monitoring of SaO2 is time-consuming and highly variable depending on patients' conditions. Recently, optical coherence tomography angiography (OCTA) has shown promising development in rapidly and effectively screening eye-related lesions, offering the potential for diagnosing sleep-related disorders. To bridge this gap, our paper presents three key contributions. Firstly, we propose JointViT, a novel model based on the Vision Transformer architecture, incorporating a joint loss function for supervision. Secondly, we introduce a balancing augmentation technique during data preprocessing to improve the model's performance, particularly on the long-tail distribution within the OCTA dataset. Lastly, through comprehensive experiments on the OCTA dataset, our proposed method significantly outperforms other state-of-the-art methods, achieving improvements of up to 12.28% in overall accuracy. This advancement lays the groundwork for the future utilization of OCTA in diagnosing sleep-related disorders. See project website https://steve-zeyu-zhang.github.io/JointViT
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18
# ダイナミック・タイポグラフィー: ビデオ拡散による生活にテキストをもたらす

Dynamic Typography: Bringing Text to Life via Video Diffusion Prior ( http://arxiv.org/abs/2404.11614v2 )

ライセンス: Link先を確認
Zichen Liu, Yihao Meng, Hao Ouyang, Yue Yu, Bolin Zhao, Daniel Cohen-Or, Huamin Qu, (参考訳) テキストアニメーションは、感情を誘発し、意味を強調し、魅力的な物語を構築することによって、静的なコミュニケーションを動的体験に変換する表現媒体として機能する。 セマンティックに認識されているアニメーションを作成することは、グラフィックデザインとアニメーションに関する専門知識を必要とする、重大な課題を引き起こす。 本稿では,2つの課題を組み合わせ,動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。 意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。 本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。 このフレームワークは、ニューラルネットワークを用いて文字を基本形に変換し、フレームごとの動きを適用し、意図したテキストの概念との一貫性を促進する。 形状保存技術と知覚的損失正規化は、アニメーションプロセス全体を通して可視性と構造的整合性を維持するために用いられる。 様々なテキスト・ビデオ・モデルにまたがるアプローチの一般化性を実証し、異なるタスクを構成するであろうベースライン・メソッドよりもエンド・ツー・エンド・エンド・方法論の優位性を強調した。 定量的かつ質的な評価を通じて,可読性を維持しつつユーザのプロンプトを忠実に解釈するコヒーレントなテキストアニメーションを生成する上で,我々のフレームワークの有効性を実証する。 私たちのコードは、https://animate-your-word.github.io/demo/.com/で利用可能です。

Text animation serves as an expressive medium, transforming static communication into dynamic experiences by infusing words with motion to evoke emotions, emphasize meanings, and construct compelling narratives. Crafting animations that are semantically aware poses significant challenges, demanding expertise in graphic design and animation. We present an automated text animation scheme, termed "Dynamic Typography", which combines two challenging tasks. It deforms letters to convey semantic meaning and infuses them with vibrant movements based on user prompts. Our technique harnesses vector graphics representations and an end-to-end optimization-based framework. This framework employs neural displacement fields to convert letters into base shapes and applies per-frame motion, encouraging coherence with the intended textual concept. Shape preservation techniques and perceptual loss regularization are employed to maintain legibility and structural integrity throughout the animation process. We demonstrate the generalizability of our approach across various text-to-video models and highlight the superiority of our end-to-end methodology over baseline methods, which might comprise separate tasks. Through quantitative and qualitative evaluations, we demonstrate the effectiveness of our framework in generating coherent text animations that faithfully interpret user prompts while maintaining readability. Our code is available at: https://animate-your-word.github.io/demo/.
翻訳日:2024-04-19 11:42:38 公開日:2024-04-18