このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240314となっている論文です。

PDF登録状況(公開日: 20240314)

TitleAuthorsAbstract論文公表日・翻訳日
# ハイブリッドCTC/RNN-T高速コンバータを用いた多言語音声認識

Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer ( http://arxiv.org/abs/2405.12983v1 )

ライセンス: Link先を確認
Maxime Burchi, Krishna C. Puvvada, Jagadeesh Balam, Boris Ginsburg, Radu Timofte, (参考訳) 人間は、唇の動きから視覚的手がかりを活用して、不適切な聴取条件下での音声認識に長けている。 音声-視覚音声認識(AVSR)モデルは、雑音条件下で頑健な音声認識を実現するために、同様のアプローチに従う。 本研究では,複数の改良を加えた多言語AVSRモデルを提案する。 特に、最近提案されたFast Conformerモデルを用いて、新しいハイブリッドCTC/RNN-Tアーキテクチャを用いて、オーディオと視覚の両方のモダリティを処理する。 我々は、6つの異なる言語に対する音声・視覚訓練データの量を増やし、重複しない多言語データセット(VoxCeleb2 と AVSpeech)の自動書き起こしを生成する。 提案したモデルでは, LRS3データセット上での最先端性能が向上し, WERは0.8%に達した。 最近導入された MuAViC のベンチマークでは、我々のモデルは元のベースラインと比較して、絶対平均 WER の 11.9% の削減が得られる。 最後に、提案モデルがテスト時に、音声のみ、視覚のみ、および音声視覚的音声認識を行う能力を示す。

Humans are adept at leveraging visual cues from lip movements for recognizing speech in adverse listening conditions. Audio-Visual Speech Recognition (AVSR) models follow similar approach to achieve robust speech recognition in noisy conditions. In this work, we present a multilingual AVSR model incorporating several enhancements to improve performance and audio noise robustness. Notably, we adapt the recently proposed Fast Conformer model to process both audio and visual modalities using a novel hybrid CTC/RNN-T architecture. We increase the amount of audio-visual training data for six distinct languages, generating automatic transcriptions of unlabelled multilingual datasets (VoxCeleb2 and AVSpeech). Our proposed model achieves new state-of-the-art performance on the LRS3 dataset, reaching WER of 0.8%. On the recently introduced MuAViC benchmark, our model yields an absolute average-WER reduction of 11.9% in comparison to the original baseline. Finally, we demonstrate the ability of the proposed model to perform audio-only, visual-only, and audio-visual speech recognition at test time.
翻訳日:2024-07-01 08:39:42 公開日:2024-03-14
# 量子系における速度場の位相不変性

Topological invariant of velocity field in quantum systems ( http://arxiv.org/abs/2406.10230v1 )

ライセンス: Link先を確認
Annan Fan, Shi-Dong Liang, (参考訳) ブロッホ電子の速度場を導入し、量子状態の位相不変性を特徴づけるための速度場アプローチを提案する。 速度場流のゼロモードが効果的なトポロジカル電荷や欠陥の役割を担っていることがわかった。 零モードの重要な大域的性質は、パラメータの変形に対する位相不変性である。 これらは Poincar\'{e}-Hopf の定理に基づくオイラー特性によって特徴づけられる。 量子球面モデルとトーラスモデルを用いて,このアプローチの有効性を示す。 量子球面とトーラスの速度場の位相不変量は、球面とトーラスの多様体におけるベクトル場の数学的結果、球面のオイラー標数 $\chi=2$、トーラスの$\chi=0$ と一致する。 また、非エルミート量子トーラスモデルについて議論し、速度場とチャーン数法による位相不変量の違いを比較する。 速度場によって特徴づけられる位相不変量は系のSU(2)-バンドルのサブベース多様体とブリルアンゾーンで同型であるのに対し、チャーン数はブリルアンゾーンの例外点に付随するホモトピー不変量である。 これらの結果は量子状態のトポロジカル不変量を強化し、量子状態のトポロジカル不変量に関する新しい洞察を与える。

We introduce the velocity field of the Bloch electrons and propose the velocity field approach to characterize the topological invariants of quantum states. We find that the zero modes of the velocity field flow play the roles of effective topological charges or defects. A key global property of the zero modes is topological invariant against the parameter deformation. These can be characterized by the Euler characteristic based on the Poincar\'{e}-Hopf theorem. We demonstrate the validity of this approach by using the quantum sphere and torus models. The topological invariants of the velocity field in the quantum sphere and torus are consistent with the mathematical results of the vector fields in the manifolds of the sphere and torus, Euler characteristic $\chi=2$ for sphere and $\chi=0$ for torus. We also discuss the non-Hermitian quantum torus model and compare differences in the topological invariants obtained using the velocity field and Chern number methods. The topological invariant characterized by the velocity field is homeomorphic in the Brillouin zone and the subbase manifold of the SU(2)-bundle of the system, whereas the Chern number characterizes a homotopic invariant that is associated with the exceptional points in the Brillouin zone. These results enrich the topological invariants of quantum states and provide novel insights into the topological invariants of quantum states.
翻訳日:2024-07-01 07:50:27 公開日:2024-03-14
# InfoCon: 生成的および識別的インフォーマティブによる概念発見

InfoCon: Concept Discovery with Generative and Discriminative Informativeness ( http://arxiv.org/abs/2404.10606v1 )

ライセンス: Link先を確認
Ruizhe Liu, Qian Luo, Yanchao Yang, (参考訳) 我々は、様々なロボットタスクに適応し、再組み立て可能な操作概念の自己監督的な発見に焦点を当てる。 物理的手続きを概念化する決定は、どのように命名するか(意味論)ではなく、低レベルな物理的状態と状態変化に関する表現における情報の重要性に依拠すべきである。 我々は、操作概念(離散記号)を生成的かつ識別的な目標としてモデル化し、ノイズやラベルなしのデモから意味のあるサブトラジェクトリに自律的にリンクできるメトリクスを導出する。 具体的には、現在の状態(生成的情報性)が与えられたサブ軌道の終端状態を合成できるエンコーディング(概念)を含むトレーニング可能なコードブックを用いる。 さらに、特定のサブ軌道に対応する符号化は、その内外状態を区別し、その識別的スコア(識別的情報性)の勾配に基づいて、その後の動作を確実に予測する必要がある。 人間のアノテーションに依存しないこれらのメトリクスは、VQ-VAEフレームワークにシームレスに統合され、意味的に一貫したサブトラジェクトリへのデモの分割を可能にし、操作の概念と対応するサブゴール(キー)状態を発見する目的を達成する。 本研究は,学習概念の有効性を,学習概念を指導として活用する教育方針によって評価し,他のベースラインと比較して優れた性能を示す。 さらに、我々の発見した操作概念は、手作業の手間を省きながら、人間に注釈を付けたものと比較して好意的に比較できる。

We focus on the self-supervised discovery of manipulation concepts that can be adapted and reassembled to address various robotic tasks. We propose that the decision to conceptualize a physical procedure should not depend on how we name it (semantics) but rather on the significance of the informativeness in its representation regarding the low-level physical state and state changes. We model manipulation concepts (discrete symbols) as generative and discriminative goals and derive metrics that can autonomously link them to meaningful sub-trajectories from noisy, unlabeled demonstrations. Specifically, we employ a trainable codebook containing encodings (concepts) capable of synthesizing the end-state of a sub-trajectory given the current state (generative informativeness). Moreover, the encoding corresponding to a particular sub-trajectory should differentiate the state within and outside it and confidently predict the subsequent action based on the gradient of its discriminative score (discriminative informativeness). These metrics, which do not rely on human annotation, can be seamlessly integrated into a VQ-VAE framework, enabling the partitioning of demonstrations into semantically consistent sub-trajectories, fulfilling the purpose of discovering manipulation concepts and the corresponding sub-goal (key) states. We evaluate the effectiveness of the learned concepts by training policies that utilize them as guidance, demonstrating superior performance compared to other baselines. Additionally, our discovered manipulation concepts compare favorably to human-annotated ones while saving much manual effort.
翻訳日:2024-04-21 19:45:03 公開日:2024-03-14
# 拡散モデルの高速学習に向けて--一貫性現象の吸気-

Towards Faster Training of Diffusion Models: An Inspiration of A Consistency Phenomenon ( http://arxiv.org/abs/2404.07946v1 )

ライセンス: Link先を確認
Tianshuo Xu, Peng Mi, Ruilin Wang, Yingcong Chen, (参考訳) 近年,拡散モデル (DM) が注目されている。 しかし、DMの訓練には高い計算コストがかかるため、実用性は制限される。 本稿では、DMの整合性現象から始める: 異なる初期化や異なるアーキテクチャを持つDMは、他の生成モデルでは珍しく、同じノイズ入力に対して非常によく似た出力を生成できる。 この現象は,(1)ノイズ予測拡散モデルが時間ステップの上界(入力が純粋ノイズとなる)に近づくと,DMの学習困難度が低下する,(2)DMの構造情報が通常生成される,という2つの要因に起因している。 この発見はDMの安定性を明らかにするだけでなく、DMの訓練を加速する2つの戦略を考案するきっかけにもなります。 まず,学習難易度を明示的な指標として利用し,学習難易度を段階的に低減し,学習効率を向上するカリキュラム学習ベースのタイムステップスケジュールを提案する。 第2に,最大運動量が収束速度を妨げ,損失景観の滑らかさによる振動を引き起こすため,最適化過程における運動量係数を減少させる運動量減衰戦略を提案する。 提案手法の有効性を様々なモデルで示すとともに,トレーニング時間を大幅に短縮し,生成した画像の品質を向上させることができることを示す。

Diffusion models (DMs) are a powerful generative framework that have attracted significant attention in recent years. However, the high computational cost of training DMs limits their practical applications. In this paper, we start with a consistency phenomenon of DMs: we observe that DMs with different initializations or even different architectures can produce very similar outputs given the same noise inputs, which is rare in other generative models. We attribute this phenomenon to two factors: (1) the learning difficulty of DMs is lower when the noise-prediction diffusion model approaches the upper bound of the timestep (the input becomes pure noise), where the structural information of the output is usually generated; and (2) the loss landscape of DMs is highly smooth, which implies that the model tends to converge to similar local minima and exhibit similar behavior patterns. This finding not only reveals the stability of DMs, but also inspires us to devise two strategies to accelerate the training of DMs. First, we propose a curriculum learning based timestep schedule, which leverages the noise rate as an explicit indicator of the learning difficulty and gradually reduces the training frequency of easier timesteps, thus improving the training efficiency. Second, we propose a momentum decay strategy, which reduces the momentum coefficient during the optimization process, as the large momentum may hinder the convergence speed and cause oscillations due to the smoothness of the loss landscape. We demonstrate the effectiveness of our proposed strategies on various models and show that they can significantly reduce the training time and improve the quality of the generated images.
翻訳日:2024-04-14 13:03:36 公開日:2024-03-14
# 深部強化学習に基づく幾何学的問題解決へのグラフ注意機構の導入

Incorporating Graph Attention Mechanism into Geometric Problem Solving Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2403.14690v1 )

ライセンス: Link先を確認
Xiuqin Zhong, Shengyuan Yan, Gongqi Lin, Hongguang Fu, Liang Xu, Siwen Jiang, Lei Huang, Wei Fang, (参考訳) オンライン教育の文脈では、幾何学的問題に対する自動解法を設計することは、自然言語理解と伝統的な論理推論によって強化された一般数学人工知能(AI)への重要なステップと考えられている。 ほとんどの場合、問題はラインやポイントのような補助的なコンポーネントを追加することで解決される。 しかし、特に重要な決定を下す場合には、適切な補助コンポーネントを選択するのが複雑になるため、補助コンポーネントを自動で追加することは困難である。 最先端のパフォーマンスは、カテゴリライブラリから可能なすべての戦略を駆使して、最大限の可能性を秘めているものを特定することで達成されている。 しかし、効率性のための取引精度に広範な戦略探索を適用する必要がある。 補助的コンポーネントを自動かつ効率的に追加するために,BERT などの言語モデルに基づく深層強化学習フレームワークを提案する。 まず、グラフ注意機構を適用して、結論関連コンポーネントのみに焦点を当てたAttnStrategyと呼ばれる戦略探索空間を縮小する。 一方、Reinforcement Learning framework (A3C-RL) を用いて、AttnStrategyとBERTをメモリコンポーネントとして組み込んだ新しいアルゴリズムであるAutomatically Adding Auxiliary Componentsを提案する。 大規模な実験の結果、提案したA3C-RLアルゴリズムは従来のMCTSと比較して平均精度を32.7%向上させることができることがわかった。 さらに、A3C-RLアルゴリズムは、毎年恒例の中国大学入学数学試験の幾何学的問題において、人間よりも優れています。

In the context of online education, designing an automatic solver for geometric problems has been considered a crucial step towards general math Artificial Intelligence (AI), empowered by natural language understanding and traditional logical inference. In most instances, problems are addressed by adding auxiliary components such as lines or points. However, adding auxiliary components automatically is challenging due to the complexity in selecting suitable auxiliary components especially when pivotal decisions have to be made. The state-of-the-art performance has been achieved by exhausting all possible strategies from the category library to identify the one with the maximum likelihood. However, an extensive strategy search have to be applied to trade accuracy for ef-ficiency. To add auxiliary components automatically and efficiently, we present deep reinforcement learning framework based on the language model, such as BERT. We firstly apply the graph attention mechanism to reduce the strategy searching space, called AttnStrategy, which only focus on the conclusion-related components. Meanwhile, a novel algorithm, named Automatically Adding Auxiliary Components using Reinforcement Learning framework (A3C-RL), is proposed by forcing an agent to select top strategies, which incorporates the AttnStrategy and BERT as the memory components. Results from extensive experiments show that the proposed A3C-RL algorithm can substantially enhance the average precision by 32.7% compared to the traditional MCTS. In addition, the A3C-RL algorithm outperforms humans on the geometric questions from the annual University Entrance Mathematical Examination of China.
翻訳日:2024-04-01 03:23:33 公開日:2024-03-14
# キャリブレーションから制御へのBCIモデルの移行:脳波の特徴の変化を観察する

Transferring BCI models from calibration to control: Observing shifts in EEG features ( http://arxiv.org/abs/2403.15431v1 )

ライセンス: Link先を確認
Ivo Pascal de Jong, Lüke Luna van den Wittenboer, Matias Valdenegro-Toro, Andreea Ioana Sburlea, (参考訳) パブリックモーターイメージベースの脳コンピュータインタフェース(BCI)データセットは、より優れた分類器の開発に使用されている。 しかしながら、彼らは通常、参加者が定期的に時間間隔で運動画像を実行する、離散パラダイムに従う。 ユーザがそのようなBCIでコントロールタスクを実行しようとすると、EEGパターンにどのような変化が起こるかは、しばしば不明である。 これは一般化の誤りにつながる可能性がある。 標準校正セッションとEMGに基づく新しいBCI制御セッションを含む新しいパラダイムを実証する。 これにより、感覚運動のリズムの類似性を観察し、制御パラダイムによって導入された追加の準備効果を観察することができる。 運動関連皮質電位では、校正セッションと制御セッションの間に大きな違いが認められた。 我々は、キャリブレーションデータに基づいて訓練されたCSPベースの機械学習モデルを示し、BCI制御された運転データに対して驚くほど良い予測を行う。

Public Motor Imagery-based brain-computer interface (BCI) datasets are being used to develop increasingly good classifiers. However, they usually follow discrete paradigms where participants perform Motor Imagery at regularly timed intervals. It is often unclear what changes may happen in the EEG patterns when users attempt to perform a control task with such a BCI. This may lead to generalisation errors. We demonstrate a new paradigm containing a standard calibration session and a novel BCI control session based on EMG. This allows us to observe similarities in sensorimotor rhythms, and observe the additional preparation effects introduced by the control paradigm. In the Movement Related Cortical Potentials we found large differences between the calibration and control sessions. We demonstrate a CSP-based Machine Learning model trained on the calibration data that can make surprisingly good predictions on the BCI-controlled driving data.
翻訳日:2024-04-01 02:54:20 公開日:2024-03-14
# BRIEDGE:マルチブレインとマルチロボットインタラクションのためのEEG適応エッジAI

BRIEDGE: EEG-Adaptive Edge AI for Multi-Brain to Multi-Robot Interaction ( http://arxiv.org/abs/2403.15432v1 )

ライセンス: Link先を確認
Jinhui Ouyang, Mingzhu Wu, Xinglin Li, Hanhui Deng, Di Wu, (参考訳) 脳波に基づくBCI技術の最近の進歩は、センシング、コンピューティング、コミュニケーション、制御の統合を通じて、脳とロボットのコラボレーションの可能性を明らかにしている。 本稿では、図1に示すように、BRIEDGEを、EEG適応型ニューラルネットワークと符号化復号化通信フレームワークを介して、マルチ脳とマルチロボットのインタラクションのためのエンドツーエンドシステムとして提示する。 図に示すように、エッジモバイルサーバまたはエッジポータブルサーバは、ユーザからEEGデータを収集し、EEG適応ニューラルネットワークを使用してユーザの意図を識別する。 符号化復号通信フレームワークは、EEGベースのセマンティック情報をエンコードし、データ転送の過程でコマンドに復号する。 異種脳波データの結合性を向上し、分類精度を高めるため、BRIEDGEは情報提供者に基づくProbSparse自己認識機構を導入した。 一方、物理チャネル下でのマルチタスクシナリオに対する並列かつセキュアな送信は、動的オートエンコーダとオートデコーダ通信によって処理される。 モバイルコンピューティングとエッジAIの観点からは、プルーニング、ウェイトシェアリング、量子化からなるモデル圧縮スキームも、送信側と受信側の両方で動作する軽量なEEG適応モデルを展開するために使用される。 これらのコンポーネントの有効性に基づいて、さまざまなコマンドを表すコードマップによって、複数のユーザが同時に複数のインテリジェントエージェントを制御することができる。 我々は,BRIEDGEが異種脳波データの最高の分類精度を達成し,ノイズの多い環境下でのより安定した性能を実現していることを示す。

Recent advances in EEG-based BCI technologies have revealed the potential of brain-to-robot collaboration through the integration of sensing, computing, communication, and control. In this paper, we present BRIEDGE as an end-to-end system for multi-brain to multi-robot interaction through an EEG-adaptive neural network and an encoding-decoding communication framework, as illustrated in Fig.1. As depicted, the edge mobile server or edge portable server will collect EEG data from the users and utilize the EEG-adaptive neural network to identify the users' intentions. The encoding-decoding communication framework then encodes the EEG-based semantic information and decodes it into commands in the process of data transmission. To better extract the joint features of heterogeneous EEG data as well as enhance classification accuracy, BRIEDGE introduces an informer-based ProbSparse self-attention mechanism. Meanwhile, parallel and secure transmissions for multi-user multi-task scenarios under physical channels are addressed by dynamic autoencoder and autodecoder communications. From mobile computing and edge AI perspectives, model compression schemes composed of pruning, weight sharing, and quantization are also used to deploy lightweight EEG-adaptive models running on both transmitter and receiver sides. Based on the effectiveness of these components, a code map representing various commands enables multiple users to control multiple intelligent agents concurrently. Our experiments in comparison with state-of-the-art works show that BRIEDGE achieves the best classification accuracy of heterogeneous EEG data, and more stable performance under noisy environments.
翻訳日:2024-04-01 02:54:20 公開日:2024-03-14
# 人間の視覚に光の色の量子は存在するか? : 視覚知覚の量子認知研究

Are Colors Quanta of Light for Human Vision? A Quantum Cognition Study of Visual Perception ( http://arxiv.org/abs/2403.18850v1 )

ライセンス: Link先を確認
Jonito Aerts Arguëlles, (参考訳) 量子計測過程におけるカテゴリー知覚の現象について検討する。 この現象の基盤となるメカニズムは、異なるカテゴリーに属すると知覚される拡張刺激と、同じカテゴリに属すると知覚される収縮刺激である。 密度状態間の距離と比較して純粋状態間の距離を決定する自然に異なる方法により、分類的知覚の現象は、量子測定プロセス自体の構造に根ざしていることが示される。 本研究は,色知覚の状況に応用し,光子が光周波数の物理的測定を行うための光量子であるのと同じように,色を人間の視覚知覚のための光量子として考えることが可能である,と論じる。 我々のアプローチでは、知覚は既存の身体的現実、刺激、そして迫力によって期待される現実の間の複雑な出会いであり、知覚の経験をもたらす。 光と暗黒という2つの色の状況にどのような意味があるのかを、量子計測プロセスにおける分類学的認識の知見から検討する。

We study the phenomenon of categorical perception within the quantum measurement process. The mechanism underlying this phenomenon consists in dilating stimuli being perceived to belong to different categories and contracting stimuli being perceived to belong to the same category. We show that, due to the naturally different way in determining the distance between pure states compared to the distance between density states, the phenomenon of categorical perception is rooted in the structure of the quantum measurement process itself. We apply our findings to the situation of visual perception of colors and argue that it is possible to consider colors as light quanta for human visual perception in a similar way as photons are light quanta for physical measurements of light frequencies. In our approach we see perception as a complex encounter between the existing physical reality, the stimuli, and the reality expected by the perciever, resulting in the experience of the percepts. We investigate what that means for the situation of two colors, which we call Light and Dark, given our findings on categorical perception within the quantum measurement process.
翻訳日:2024-04-01 02:25:04 公開日:2024-03-14
# 回路変圧器:次ゲート予測によるエンドツーエンド回路設計

Circuit Transformer: End-to-end Circuit Design by Predicting the Next Gate ( http://arxiv.org/abs/2403.13838v1 )

ライセンス: Link先を確認
Xihan Li, Xing Li, Lei Chen, Xing Zhang, Mingxuan Yuan, Jun Wang, (参考訳) 言語は、シーケンシャルなシンボルを通して表現する卓越した人間の能力であり、近年の大規模言語モデル(LLM)の進歩によって計算的に習得されている。 巨大なニューラルモデルで次の単語をリカレントに予測することで、LLMは理解と推論において前例のない能力を示した。 回路は、電子設計の「言語」として、論理ゲートのカスケード接続によって電子機器の機能を指定する。 そして、回路を十分に大きな「回路モデル」でマスターして、次の論理ゲートを単に予測することで電子設計タスクを克服できるだろうか? 本研究では,このような可能性を探究する第一歩を踏み出す。 2つの主要な障壁は、LLMの回路への直接的な適用を妨げる:その複雑で連続的でない構造と、厳密な制約(例えば同値性)による幻覚の不寛容である。 最初の障壁として、回路をメモリレスで深さ優先のトラバーサル軌道としてエンコードし、トランスフォーマーベースのニューラルモデルがその構造情報をよりよく活用し、回路モデルとして軌道上の次のゲートを予測する。 2つ目の障壁として、同値保存復号法を導入し、生成された軌跡の全てのトークンが指定された同値制約に従属することを保証した。 さらに、回路モデルは最適化指向回路設計タスクに取り組むための確率的ポリシーと見なすこともできる。 実験では,888Mパラメータのトランスフォーマーモデル"Circuit Transformer"を訓練し,エンド・ツー・エンド論理合成における優れた性能を示した。 Monte-Carloのツリーサーチでは、Circuit Transformerはresyn2よりも大幅に改善され、厳密な等価性を維持しながら、電子設計の課題を克服する生成AIの可能性を示している。

Language, a prominent human ability to express through sequential symbols, has been computationally mastered by recent advances of large language models (LLMs). By predicting the next word recurrently with huge neural models, LLMs have shown unprecedented capabilities in understanding and reasoning. Circuit, as the "language" of electronic design, specifies the functionality of an electronic device by cascade connections of logic gates. Then, can circuits also be mastered by a a sufficiently large "circuit model", which can conquer electronic design tasks by simply predicting the next logic gate? In this work, we take the first step to explore such possibilities. Two primary barriers impede the straightforward application of LLMs to circuits: their complex, non-sequential structure, and the intolerance of hallucination due to strict constraints (e.g., equivalence). For the first barrier, we encode a circuit as a memory-less, depth-first traversal trajectory, which allows Transformer-based neural models to better leverage its structural information, and predict the next gate on the trajectory as a circuit model. For the second barrier, we introduce an equivalence-preserving decoding process, which ensures that every token in the generated trajectory adheres to the specified equivalence constraints. Moreover, the circuit model can also be regarded as a stochastic policy to tackle optimization-oriented circuit design tasks. Experimentally, we trained a Transformer-based model of 88M parameters, named "Circuit Transformer", which demonstrates impressive performance in end-to-end logic synthesis. With Monte-Carlo tree search, Circuit Transformer significantly improves over resyn2 while retaining strict equivalence, showcasing the potential of generative AI in conquering electronic design challenges.
翻訳日:2024-03-25 07:07:37 公開日:2024-03-14
# depyf: 機械学習研究者のためのPyTorchコンパイラの不透明なボックスを開く

depyf: Open the Opaque Box of PyTorch Compiler for Machine Learning Researchers ( http://arxiv.org/abs/2403.13839v1 )

ライセンス: Link先を確認
Kaichao You, Runsheng Bai, Meng Cao, Jianmin Wang, Ion Stoica, Mingsheng Long, (参考訳) PyTorch \texttt{2.x} では、ディープラーニングプログラムを高速化するコンパイラが導入された。 しかし、機械学習研究者にとって、完全な潜在能力にPyTorchコンパイラを適用することは難しい。 コンパイラはPythonバイトコードレベルで動作し、不透明なボックスとして表示される。 これを解決するために、PyTorchコンパイラの内部動作を復号化するためのツールである \texttt{depyf} を紹介します。 \texttt{depyf}は、PyTorchが生成したバイトコードを等価なソースコードに分解し、インメモリのコードオブジェクトとディスク上のソースコードオブジェクト間の接続を確立する。 この機能により、デバッガを使用してソースコードを行単位でステップスルーすることが可能になり、基盤となるプロセスに対する理解が強化される。 特に、‘texttt{depyf} は非侵襲的でユーザフレンドリで、主にコア機能に2つの便利なコンテキストマネージャに依存しています。 プロジェクトは \href{https://github.com/thuml/depyf}{ openly available} であり、 \href{https://pytorch.org/ecosystem/}{PyTorch エコシステムプロジェクトとして認識されている。

PyTorch \texttt{2.x} introduces a compiler designed to accelerate deep learning programs. However, for machine learning researchers, adapting to the PyTorch compiler to full potential can be challenging. The compiler operates at the Python bytecode level, making it appear as an opaque box. To address this, we introduce \texttt{depyf}, a tool designed to demystify the inner workings of the PyTorch compiler. \texttt{depyf} decompiles bytecode generated by PyTorch back into equivalent source code, and establishes connections between in-memory code objects and their on-disk source code counterparts. This feature enables users to step through the source code line by line using debuggers, thus enhancing their understanding of the underlying processes. Notably, \texttt{depyf} is non-intrusive and user-friendly, primarily relying on two convenient context managers for its core functionality. The project is \href{https://github.com/thuml/depyf}{ openly available} and is recognized as a \href{https://pytorch.org/ecosystem/}{PyTorch ecosystem project}.
翻訳日:2024-03-25 07:07:37 公開日:2024-03-14
# Leap: 中間体を用いた分子合成性スコアリング

Leap: molecular synthesisability scoring with intermediates ( http://arxiv.org/abs/2403.13005v1 )

ライセンス: Link先を確認
Antonia Calvi, Théophile Gaudin, Dominik Miketa, Dominique Sydow, Liam Wilbraham, (参考訳) 分子を合成できるかどうかを評価することが、薬物発見の第一の課題である。 計算化学者は、生存可能な化合物やバイアス分子生成モデルのためにフィルターすることができる。 合成性の概念は、鍵化合物の可利用性に応じて進化するので、動的である。 薬物発見における一般的なアプローチは、合成アクセス可能な中間体を取り巻く化学空間を探索することである。 この戦略は、鍵中間体の可利用性により、導出分子の合成性を向上させる。 SAScore、SCScore、RAScoreなどの既存の合成可能性スコア法は、中間体を動的に条件付けできない。 提案手法であるLeapは、予測合成経路の深さ(長線形経路)に基づいて訓練されたGPT-2モデルであり、キー中間体を推論時に含めることができる。 本稿では、合成可能な分子を同定する際に、LeapがAUCスコアで少なくとも5%以上のスコア法を上回り、関連する中間化合物を提示した場合、予測スコアを順応できることを示す。

Assessing whether a molecule can be synthesised is a primary task in drug discovery. It enables computational chemists to filter for viable compounds or bias molecular generative models. The notion of synthesisability is dynamic as it evolves depending on the availability of key compounds. A common approach in drug discovery involves exploring the chemical space surrounding synthetically-accessible intermediates. This strategy improves the synthesisability of the derived molecules due to the availability of key intermediates. Existing synthesisability scoring methods such as SAScore, SCScore and RAScore, cannot condition on intermediates dynamically. Our approach, Leap, is a GPT-2 model trained on the depth, or longest linear path, of predicted synthesis routes that allows information on the availability of key intermediates to be included at inference time. We show that Leap surpasses all other scoring methods by at least 5% on AUC score when identifying synthesisable molecules, and can successfully adapt predicted scores when presented with a relevant intermediate compound.
翻訳日:2024-03-21 21:08:57 公開日:2024-03-14
# 英語アドレスのマッチング方法

Methods for Matching English Language Addresses ( http://arxiv.org/abs/2403.12092v1 )

ライセンス: Link先を確認
Keshav Ramani, Daniel Borrajo, (参考訳) アドレスは、すべての単語が持つ位置の重要性と、それが言及する地理的範囲のために、テキストデータのランドスケープ内のニッチな位置を占める。 アドレスにマッチするタスクは毎日行われ、メールのリダイレクトやエンティティの解決など、さまざまな分野に存在している。 我々の研究は、英語のアドレス対のマッチングとミスマッチを生成するためのフレームワークを定義し、形式化し、それを様々な手法の評価に利用し、自動的にアドレスマッチングを実行する。 これらの手法は、深層学習モデルへの距離に基づくアプローチから大きく異なる。 これらの手法の精度, リコール, 精度を調べた結果, アドレスマッチングタスクの設定に最適な手法の理解が得られた。

Addresses occupy a niche location within the landscape of textual data, due to the positional importance carried by every word, and the geographical scope it refers to. The task of matching addresses happens everyday and is present in various fields like mail redirection, entity resolution, etc. Our work defines, and formalizes a framework to generate matching and mismatching pairs of addresses in the English language, and use it to evaluate various methods to automatically perform address matching. These methods vary widely from distance based approaches to deep learning models. By studying the Precision, Recall and Accuracy metrics of these approaches, we obtain an understanding of the best suited method for this setting of the address matching task.
翻訳日:2024-03-20 18:51:33 公開日:2024-03-14
# マイクロファウンデーションに基づくマクロ経済政策の学習:Stackelberg平均フィールドゲームアプローチ

Learning Macroeconomic Policies based on Microfoundations: A Stackelberg Mean Field Game Approach ( http://arxiv.org/abs/2403.12093v1 )

ライセンス: Link先を確認
Qirui Mi, Zhiyu Zhao, Siyu Xia, Yan Song, Jun Wang, Haifeng Zhang, (参考訳) 効果的なマクロ経済政策は経済成長と社会安定を促進する上で重要な役割を担っている。 本稿では,政策立案のリーダーとして政府が行動する「textit{Stackelberg Mean Field Game} (SMFG) に基づく最適マクロ経済政策問題をモデル化する。 このモデリング手法は、政府と大規模世帯間の非対称なダイナミックゲームをキャプチャし、既存の手法では達成が難しいマイクロファウンデーションに基づくマクロ経済政策の効果を解釈的に評価する。 また,実データに事前学習を組み込んだSMFGの解法と,事前の環境知識や遷移から独立して動作するモデルフリーな \textit{Stackelberg mean-field reinforcement learning (SMFRL) アルゴリズムを提案する。 実験の結果,SMFG法が他の経済政策よりも性能,効率・等価トレードオフ,SMFGの仮定分析において優れていることが示された。 本稿では,最適マクロ経済政策をモデル化し,解決するための強力なツールを提供することで,経済学におけるAI分野に大きく貢献する。

Effective macroeconomic policies play a crucial role in promoting economic growth and social stability. This paper models the optimal macroeconomic policy problem based on the \textit{Stackelberg Mean Field Game} (SMFG), where the government acts as the leader in policy-making, and large-scale households dynamically respond as followers. This modeling method captures the asymmetric dynamic game between the government and large-scale households, and interpretably evaluates the effects of macroeconomic policies based on microfoundations, which is difficult for existing methods to achieve. We also propose a solution for SMFGs, incorporating pre-training on real data and a model-free \textit{Stackelberg mean-field reinforcement learning }(SMFRL) algorithm, which operates independently of prior environmental knowledge and transitions. Our experimental results showcase the superiority of the SMFG method over other economic policies in terms of performance, efficiency-equity tradeoff, and SMFG assumption analysis. This paper significantly contributes to the domain of AI for economics by providing a powerful tool for modeling and solving optimal macroeconomic policies.
翻訳日:2024-03-20 18:51:33 公開日:2024-03-14
# モデル反転攻撃に対するプライバシ保護顔認識のための適応ハイブリッドマスキング戦略

Adaptive Hybrid Masking Strategy for Privacy-Preserving Face Recognition Against Model Inversion Attack ( http://arxiv.org/abs/2403.10558v1 )

ライセンス: Link先を確認
Yuanqing Huang, Yinggui Wang, Jianshu Li, Le Yang, Kai Song, Lei Wang, (参考訳) 訓練顔認証(FR)モデルにおける個人機密データの利用は、敵が元のトレーニングデータを推測するためにモデル反転攻撃(MIA)を適用できるため、重要なプライバシー上の懸念を生じさせる。 データ強化や差分プライバシーといった既存の防衛手法が、この問題を軽減するために使われてきた。 しかし、これらの手法は、プライバシーと精度の最適なバランスをとらないことが多い。 この制限に対処するために,MIAに対する適応型ハイブリッドマスキングアルゴリズムを提案する。 具体的には、適応型MixUp戦略を用いて、周波数領域に顔画像が隠蔽される。 データ拡張に主に使用される従来のMixUpアルゴリズムとは異なり、我々の修正されたアプローチは周波数領域の混合を取り入れている。 これまでの研究では、MixUpに混在する画像の数を増やすことでプライバシー保護が向上するが、顔認識精度の低下を犠牲にしている。 このトレードオフを克服するために、強化学習に基づく適応型MixUp戦略を開発し、良好な認識精度を維持しつつ、多数の画像の混合を可能にする。 プライバシ保護を最適化するために、戦略ネットワークのトレーニング中に報酬関数(FRシステムの損失関数)を最大化することを提案する。 FRネットワークの損失関数は、FRネットワークをトレーニングする段階で最小化される。 戦略ネットワークと顔認識ネットワークは、トレーニングプロセスにおいて敵対的な存在と見なすことができ、最終的にはよりバランスの取れたトレードオフに達する。 提案手法は,MIAに対するプライバシ保護と認識精度において,既存の防御アルゴリズムよりも優れていた。

The utilization of personal sensitive data in training face recognition (FR) models poses significant privacy concerns, as adversaries can employ model inversion attacks (MIA) to infer the original training data. Existing defense methods, such as data augmentation and differential privacy, have been employed to mitigate this issue. However, these methods often fail to strike an optimal balance between privacy and accuracy. To address this limitation, this paper introduces an adaptive hybrid masking algorithm against MIA. Specifically, face images are masked in the frequency domain using an adaptive MixUp strategy. Unlike the traditional MixUp algorithm, which is predominantly used for data augmentation, our modified approach incorporates frequency domain mixing. Previous studies have shown that increasing the number of images mixed in MixUp can enhance privacy preservation but at the expense of reduced face recognition accuracy. To overcome this trade-off, we develop an enhanced adaptive MixUp strategy based on reinforcement learning, which enables us to mix a larger number of images while maintaining satisfactory recognition accuracy. To optimize privacy protection, we propose maximizing the reward function (i.e., the loss function of the FR system) during the training of the strategy network. While the loss function of the FR network is minimized in the phase of training the FR network. The strategy network and the face recognition network can be viewed as antagonistic entities in the training process, ultimately reaching a more balanced trade-off. Experimental results demonstrate that our proposed hybrid masking scheme outperforms existing defense algorithms in terms of privacy preservation and recognition accuracy against MIA.
翻訳日:2024-03-19 23:05:08 公開日:2024-03-14
# ジェネレーティブモデルとコネクテッド・アンド・オートマチック・ビークル:交通とAIの交差点を探索する調査

Generative Models and Connected and Automated Vehicles: A Survey in Exploring the Intersection of Transportation and AI ( http://arxiv.org/abs/2403.10559v1 )

ライセンス: Link先を確認
Dong Shu, Zhouyao Zhu, (参考訳) 本報告では,技術と輸送の進歩を推し進める2つの画期的な力である,生成モデルと連結自動車両(CAV)の歴史と影響について検討する。 この研究は、CAVの文脈における生成モデルの適用に焦点を当て、この統合が自動運転車における予測モデリング、シミュレーション精度、意思決定プロセスをどのように強化するかを明らかにすることを目的としている。 本論では, 生産モデルとCAV技術を統合することのメリットと課題について論じる。 それは、達成された進歩、残りの障害、そして安全性とイノベーションの進歩の可能性を強調することを目的としています。

This report investigates the history and impact of Generative Models and Connected and Automated Vehicles (CAVs), two groundbreaking forces pushing progress in technology and transportation. By focusing on the application of generative models within the context of CAVs, the study aims to unravel how this integration could enhance predictive modeling, simulation accuracy, and decision-making processes in autonomous vehicles. This thesis discusses the benefits and challenges of integrating generative models and CAV technology in transportation. It aims to highlight the progress made, the remaining obstacles, and the potential for advancements in safety and innovation.
翻訳日:2024-03-19 23:05:08 公開日:2024-03-14
# AAAI2024における人間中心表現学習ワークショップの受理論文集

A collection of the accepted papers for the Human-Centric Representation Learning workshop at AAAI 2024 ( http://arxiv.org/abs/2403.10561v1 )

ライセンス: Link先を確認
Dimitris Spathis, Aaqib Saeed, Ali Etemad, Sana Tonekaboni, Stefanos Laskaridis, Shohreh Deldari, Chi Ian Tang, Patrick Schwab, Shyam Tailor, (参考訳) この非アーキバル指標は完全ではなく、一部の論文ではインクルージョンのオプトアウトを選んだ。 受理されたすべての論文のリストはワークショップのウェブサイトで公開されている。

This non-archival index is not complete, as some accepted papers chose to opt-out of inclusion. The list of all accepted papers is available on the workshop website.
翻訳日:2024-03-19 23:05:08 公開日:2024-03-14
# Counter-Samples: ブラックボックスの敵攻撃を中立化するためのステートレス戦略

Counter-Samples: A Stateless Strategy to Neutralize Black Box Adversarial Attacks ( http://arxiv.org/abs/2403.10562v1 )

ライセンス: Link先を確認
Roey Bokobza, Yisroel Mirsky, (参考訳) 本稿では,ブラックボックス攻撃に対する新たな防御法を提案する。 入力サンプルの衛生化に依存する従来の前処理防御とは異なり、ステートレス戦略は攻撃プロセス自体に対処します。 すべてのクエリに対して、攻撃者の目的に対して最適化された元のサンプルである反サンプルを評価します。 ブラックボックスの全てのクエリを対象とするホワイトボックス最適化に対処することにより,ゲームに対する非対称性をディフェンダーの優位性に効果的に導入する。 この防御は、攻撃者の敵の探索を効果的に誤解させるだけでなく、正当性のある入力に対するモデルの精度を保ち、複数のタイプの攻撃に対して汎用的である。 我々のアプローチは最先端のブラックボックス攻撃に対して極めて効果的であり、CIFAR-10とImageNetデータセットの双方で既存の防御性能を上回っていることを実証する。 さらに,提案した防衛は,強敵に対する堅牢性も示している。

Our paper presents a novel defence against black box attacks, where attackers use the victim model as an oracle to craft their adversarial examples. Unlike traditional preprocessing defences that rely on sanitizing input samples, our stateless strategy counters the attack process itself. For every query we evaluate a counter-sample instead, where the counter-sample is the original sample optimized against the attacker's objective. By countering every black box query with a targeted white box optimization, our strategy effectively introduces an asymmetry to the game to the defender's advantage. This defence not only effectively misleads the attacker's search for an adversarial example, it also preserves the model's accuracy on legitimate inputs and is generic to multiple types of attacks. We demonstrate that our approach is remarkably effective against state-of-the-art black box attacks and outperforms existing defences for both the CIFAR-10 and ImageNet datasets. Additionally, we also show that the proposed defence is robust against strong adversaries as well.
翻訳日:2024-03-19 23:05:08 公開日:2024-03-14
# 量子ビット上のすべての非互換な測定は、多粒子ベル非局所性をもたらす

All incompatible measurements on qubits lead to multiparticle Bell nonlocality ( http://arxiv.org/abs/2403.10564v1 )

ライセンス: Link先を確認
Martin Plávala, Otfried Gühne, Marco Túlio Quintino, (参考訳) ベル非局所性(英: Bell nonlocality)は、量子物理学の基本的な現象であり、量子情報処理における様々なタスクに不可欠な資源である。 非局所性の観測のためには、量子系の測定は相容れない必要があることが知られているが、相容れない測定が有用であるかどうかという問題は未解決のままである。 ここでは、量子ビット上の任意の非互換な測定セットが、すべての当事者が同じ測定セットを実行する多粒子シナリオにおいて、適切なベル不等式に違反することを示す。 二つの粒子のベル非局所性に繋がらない量子ビット上では不整合性の測定結果が存在するため,この結果から,2粒子と多粒子非局所性の基本的な相違が示され,測定不整合性が資源として過剰に活性化されることが示唆された。 さらに,本研究の結果から,量子ビットの計測不整合性が常にデバイスに依存しない方法で証明できることが示唆された。

Bell nonlocality is a fundamental phenomenon of quantum physics as well as an essential resource for various tasks in quantum information processing. It is known that for the observation of nonlocality the measurements on a quantum system have to be incompatible, but the question which incompatible measurements are useful, remained open. Here we prove that any set of incompatible measurements on qubits leads to a violation of a suitable Bell inequality in a multiparticle scenario, where all parties perform the same set of measurements. Since there exists incompatible measurements on qubits which do not lead to Bell nonlocality for two particles, our results demonstrate a fundamental difference between two-particle and multi-particle nonlocality, pointing at the superactivation of measurement incompatibility as a resource. In addition, our results imply that measurement incompatibility for qubits can always be certified in a device-independent manner.
翻訳日:2024-03-19 22:55:18 公開日:2024-03-14
# PTSD-MDNN : Fusion tardive de réseaux de neurones profonds multimodaux pour la détection du trouble de stress post-traumatique

PTSD-MDNN : Fusion tardive de réseaux de neurones profonds multimodaux pour la détection du trouble de stress post-traumatique ( http://arxiv.org/abs/2403.10565v1 )

ライセンス: Link先を確認
Long Nguyen-Phuoc, Renald Gaboriau, Dimitri Delacroix, Laurent Navarro, (参考訳) 外傷後ストレス障害(PTSD)のより客観的かつ迅速な診断方法として, PTSD-MDNNを2つの単一畳み込みニューラルネットワークと統合し, 検出誤差を低くする手法を提案する。 ビデオとオーディオのみを入力として扱うことで、患者旅行の最適化や人間とロボットのインタラクションの最適化など、テレコンスルテーションセッションの設定に使用できる。

In order to provide a more objective and quicker way to diagnose post-traumatic stress disorder (PTSD), we present PTSD-MDNN which merges two unimodal convolutional neural networks and which gives low detection error rate. By taking only videos and audios as inputs, the model could be used in the configuration of teleconsultation sessions, in the optimization of patient journeys or for human-robot interaction.
翻訳日:2024-03-19 22:55:18 公開日:2024-03-14
# 電池配置のための冷却ガイド拡散モデル

Cooling-Guide Diffusion Model for Battery Cell Arrangement ( http://arxiv.org/abs/2403.10566v1 )

ライセンス: Link先を確認
Nicholas Sung, Liu Zheng, Pingfeng Wang, Faez Ahmed, (参考訳) 本研究では, 蓄電池のレイアウトを最適化するために, 冷却誘導拡散モデルを用いたジェネレーティブAI手法を提案する。 反復最適化と広範囲な推測処理に大きく依存する従来の設計プロセスは、遅くて非効率であることで知られており、しばしば準最適解に繋がる。 対照的に,本手法では,パラメトリック拡散確率モデル(DDPM)と分類器と冷却誘導を用いて,冷却経路を改良した最適化セルレイアウトを生成し,セルの最大温度を著しく低下させる。 位置に基づく分類器のガイダンスを取り入れることで、生成したレイアウトの実現性を確保する。 一方、冷却誘導は冷却効率を直接最適化し、我々のアプローチを一意に効果的にする。 タブラルデノイング拡散確率モデル (TabDDPM) と条件付きタブラルGAN (CTGAN) の2つの先進モデルと比較すると, 冷却誘導拡散モデルの方が両モデルより優れていた。 これはTabDDPMの5倍、CTGANの66%、実現可能性、多様性、冷却効率といった重要な指標に対して有効である。 この研究は、電池セルのレイアウトを最適化し、冷却効率を向上し、より効果的で信頼性の高い電池熱管理システムを開発するためのステージを構築することを目的として、この分野において大きな前進を遂げた。

Our study introduces a Generative AI method that employs a cooling-guided diffusion model to optimize the layout of battery cells, a crucial step for enhancing the cooling performance and efficiency of battery thermal management systems. Traditional design processes, which rely heavily on iterative optimization and extensive guesswork, are notoriously slow and inefficient, often leading to suboptimal solutions. In contrast, our innovative method uses a parametric denoising diffusion probabilistic model (DDPM) with classifier and cooling guidance to generate optimized cell layouts with enhanced cooling paths, significantly lowering the maximum temperature of the cells. By incorporating position-based classifier guidance, we ensure the feasibility of generated layouts. Meanwhile, cooling guidance directly optimizes cooling-efficiency, making our approach uniquely effective. When compared to two advanced models, the Tabular Denoising Diffusion Probabilistic Model (TabDDPM) and the Conditional Tabular GAN (CTGAN), our cooling-guided diffusion model notably outperforms both. It is five times more effective than TabDDPM and sixty-six times better than CTGAN across key metrics such as feasibility, diversity, and cooling efficiency. This research marks a significant leap forward in the field, aiming to optimize battery cell layouts for superior cooling efficiency, thus setting the stage for the development of more effective and dependable battery thermal management systems.
翻訳日:2024-03-19 22:55:17 公開日:2024-03-14
# アンサンブル学習による衛星降水の空間補間における不確かさ推定

Uncertainty estimation in spatial interpolation of satellite precipitation with ensemble learning ( http://arxiv.org/abs/2403.10567v1 )

ライセンス: Link先を確認
Georgia Papacharalampous, Hristos Tyralis, Nikolaos Doulamis, Anastasios Doulamis, (参考訳) 確率分布の形の予測は意思決定に不可欠である。 量子回帰は、リモートセンシングとゲージ降水データをマージするための空間補間設定でこれを可能にする。 しかし、量子回帰アルゴリズムのアンサンブル学習はこの文脈では未解明のままである。 ここでは,9つの量子的アンサンブル学習者を導入し,大規模な降水データセットに適用することにより,このギャップに対処する。 そこで我々は,遠隔地における衛星降水量の予測器と位置高度の予測器を併用した,新しい特徴工学戦略を採用した。 我々のアンサンブル学習者は6つの積み重ねと3つの単純な手法(平均、中央値、最良の組み合わせ)を組み合わせ、量子回帰(QRF)、量子回帰(QRF)、一般化ランダム森林(GRF)、勾配押し上げ(GBM)、光勾配押し上げ(LightGBM)、量子回帰(QRNN)の6つのアルゴリズムを組み合わせた。 これらのアルゴリズムは、異なる積み重ね方式のベースラーナーとコンバインダーの両方として機能する。 本研究では,連続米国(CONUS)における月15年間の測度測定と衛星降水量からなる大規模データセットにおいて,量的スコアリング機能を用いたQRに対する性能評価を行った。 QRとQRNNを積み重ねると、量子レベル(0.025, 0.050, 0.075, 0.100, 0.200, 0.300, 0.400, 0.500, 0.600, 0.700, 0.700, 0.900, 0.900, 0.925, 0.950, 0.975)で最高の結果が得られる。 このことは、空間補間などにおける確率的予測を改善するための積み重ねの可能性を示している。

Predictions in the form of probability distributions are crucial for decision-making. Quantile regression enables this within spatial interpolation settings for merging remote sensing and gauge precipitation data. However, ensemble learning of quantile regression algorithms remains unexplored in this context. Here, we address this gap by introducing nine quantile-based ensemble learners and applying them to large precipitation datasets. We employed a novel feature engineering strategy, reducing predictors to distance-weighted satellite precipitation at relevant locations, combined with location elevation. Our ensemble learners include six stacking and three simple methods (mean, median, best combiner), combining six individual algorithms: quantile regression (QR), quantile regression forests (QRF), generalized random forests (GRF), gradient boosting machines (GBM), light gradient boosting machines (LightGBM), and quantile regression neural networks (QRNN). These algorithms serve as both base learners and combiners within different stacking methods. We evaluated performance against QR using quantile scoring functions in a large dataset comprising 15 years of monthly gauge-measured and satellite precipitation in contiguous US (CONUS). Stacking with QR and QRNN yielded the best results across quantile levels of interest (0.025, 0.050, 0.075, 0.100, 0.200, 0.300, 0.400, 0.500, 0.600, 0.700, 0.800, 0.900, 0.925, 0.950, 0.975), surpassing the reference method by 3.91% to 8.95%. This demonstrates the potential of stacking to improve probabilistic predictions in spatial interpolation and beyond.
翻訳日:2024-03-19 22:55:17 公開日:2024-03-14
# MoPE: プロンプトエキスパートの混在によるパラメータ効率とスケーラブルなマルチモーダルフュージョン

MoPE: Parameter-Efficient and Scalable Multimodal Fusion via Mixture of Prompt Experts ( http://arxiv.org/abs/2403.10568v1 )

ライセンス: Link先を確認
Ruixiang Jiang, Lingbo Liu, Changwen Chen, (参考訳) Prompt-tuningは、マルチモーダルタスクのためのユニモーダル基礎モデルを融合する際のパラメータ効率を実証した。 しかし、適応性や表現性に制限があるため、他のチューニング手法と比較すると、最適以下の性能が得られる。 本稿では,バニラプロンプトをアンタングルにして,データセットレベルの特徴とインスタンスレベルの特徴を適応的にキャプチャすることで,この問題に対処する。 そこで本研究では, 表現力を高めるために, プロンプト専門家(MoPE)のテクニックを混合して導入する。 MoPEはマルチモーダルのペアリングに先立って、インスタンスごとに最も効果的なプロンプトをルーティングする。 バニラプロンプトと比較すると,MoPEをベースとした条件付きプロンプトは,マルチモーダル核融合の表現性が高く,トレーニングデータやトレーニング可能なパラメータの総数にも優れていた。 我々はまた、専門家ルーティングの正規化用語も研究し、異なる専門家が異なる概念にフォーカスし、解釈可能なソフトプロンプトを可能にする創発的な専門家専門化につながった。 3つのマルチモーダルデータセットにまたがる広範囲な実験により、トレーニング可能なパラメータのわずか0.8%を必要としながら、我々の手法は最先端の結果を達成し、微調整のパフォーマンスを一致または超過することさえ示している。 コードは、https://github.com/songrise/MoPE.comでリリースされる。

Prompt-tuning has demonstrated parameter-efficiency in fusing unimodal foundation models for multimodal tasks. However, its limited adaptivity and expressiveness lead to suboptimal performance when compared with other tuning methods. In this paper, we address this issue by disentangling the vanilla prompts to adaptively capture dataset-level and instance-level features. Building upon this disentanglement, we introduce the mixture of prompt experts (MoPE) technique to enhance expressiveness. MoPE leverages multimodal pairing priors to route the most effective prompt on a per-instance basis. Compared to vanilla prompting, our MoPE-based conditional prompting exhibits greater expressiveness for multimodal fusion, scaling better with the training data and the overall number of trainable parameters. We also study a regularization term for expert routing, leading to emergent expert specialization, where different experts focus on different concepts, enabling interpretable soft prompting. Extensive experiments across three multimodal datasets demonstrate that our method achieves state-of-the-art results, matching or even surpassing the performance of fine-tuning, while requiring only 0.8% of the trainable parameters. Code will be released: https://github.com/songrise/MoPE.
翻訳日:2024-03-19 22:55:17 公開日:2024-03-14
# 資源制約エッジ環境におけるDNNの効率的なパラメータ削減によるパレート最適性の実現

Achieving Pareto Optimality using Efficient Parameter Reduction for DNNs in Resource-Constrained Edge Environment ( http://arxiv.org/abs/2403.10569v1 )

ライセンス: Link先を確認
Atah Nuh Mih, Alireza Rahimi, Asfia Kawnine, Francis Palma, Monica Wachowicz, Rickey Dubay, Hung Cao, (参考訳) 本稿では,既存のDeep Neural Network (DNN) の最適化を提案する。 精度を犠牲にすることなくモデルサイズを縮小し、トレーニング中のメモリ使用量を削減できるXceptionの効率的なパラメータ削減戦略を実装した。 我々は,Caltech-101画像分類とPCB欠陥検出の2つの実験を行い,その性能をXceptionおよび軽量モデルであるEfficientNetV2B1とMobileNetV2と比較した。 Caltech-101 画像分類の結果、我々のモデルは Xception (75.89%) よりもテスト精度が76.21%、Xception (874.6MB) よりも平均で847.9MB (847.9MB) のメモリを使用せず、より高速なトレーニングと推論時間を持つことが示された。 軽量モデルは30.52%のテスト精度のEfficientNetV2B1と58.11%のテスト精度のMobileNetV2にオーバーフィットする。 どちらの軽量モデルも、私たちのモデルやXceptionよりもメモリ使用率が高い。 PCB欠陥検出では、Xception (88.10%)、EfficientNetV2B1 (55.25%)、MobileNetV2 (50.50%)と比較してテスト精度が90.30%が最も高い。 MobileNetV2はメモリ使用率が最も低く(849.4MB)、続いてモデルが865.8MB、EfficientNetV2B1 (874.8MB)、Xceptionは893.6MBである。 さらに、事前学習した重みを実験し、メモリ使用量が減少し、転送学習の利点が示されるのを観察する。 モデルの性能をパレート解析することにより、最適化されたモデルアーキテクチャが精度と低メモリ利用目標を満たすことを示す。

This paper proposes an optimization of an existing Deep Neural Network (DNN) that improves its hardware utilization and facilitates on-device training for resource-constrained edge environments. We implement efficient parameter reduction strategies on Xception that shrink the model size without sacrificing accuracy, thus decreasing memory utilization during training. We evaluate our model in two experiments: Caltech-101 image classification and PCB defect detection and compare its performance against the original Xception and lightweight models, EfficientNetV2B1 and MobileNetV2. The results of the Caltech-101 image classification show that our model has a better test accuracy (76.21%) than Xception (75.89%), uses less memory on average (847.9MB) than Xception (874.6MB), and has faster training and inference times. The lightweight models overfit with EfficientNetV2B1 having a 30.52% test accuracy and MobileNetV2 having a 58.11% test accuracy. Both lightweight models have better memory usage than our model and Xception. On the PCB defect detection, our model has the best test accuracy (90.30%), compared to Xception (88.10%), EfficientNetV2B1 (55.25%), and MobileNetV2 (50.50%). MobileNetV2 has the least average memory usage (849.4MB), followed by our model (865.8MB), then EfficientNetV2B1 (874.8MB), and Xception has the highest (893.6MB). We further experiment with pre-trained weights and observe that memory usage decreases thereby showing the benefits of transfer learning. A Pareto analysis of the models' performance shows that our optimized model architecture satisfies accuracy and low memory utilization objectives.
翻訳日:2024-03-19 22:55:17 公開日:2024-03-14
# 戦略サイバー戦におけるサイバー詐欺作戦の共生ゲームと基礎モデル

Symbiotic Game and Foundation Models for Cyber Deception Operations in Strategic Cyber Warfare ( http://arxiv.org/abs/2403.10570v1 )

ライセンス: Link先を確認
Tao Li, Quanyan Zhu, (参考訳) 私たちは現在、戦術の急速な進化、知性の非対称性の向上、ハッキングツールのアクセシビリティ向上など、前例のないサイバー戦争に直面しています。 この状況では、サイバー詐欺は、ますます高度な攻撃に対する防衛戦略の重要な要素として現れます。 本章は、サイバー詐欺戦術の分析、設計、実施におけるゲーム理論モデルと基礎モデル(FM)の重要な役割を強調することを目的とする。 ゲームモデル(GM)は、多様な敵の相互作用をモデル化するための基礎的なフレームワークとして機能し、敵の知識とドメイン固有の洞察の両方をカプセル化する。 一方、FMは特定のアプリケーションに適した機械学習モデルを作成するためのビルディングブロックとして機能する。 GMとFMの相乗効果を利用することで、攻撃に対するネットワークの確保だけでなく、計画された運用に対するレジリエンスを高めることで、能動的かつ自動化されたサイバー防御メカニズムを前進させることができる。 本章では、戦術的、作戦的、戦略的な戦争のレベルにおけるゲームについて論じ、これらの方法論間の共生関係を掘り下げ、そのようなフレームワークがサイバーセキュリティに重大な影響を及ぼすような関連アプリケーションを探る。 本章では, 対戦行動の予測, 適応的防御的偽装戦術の設計, 操作レベル合成と適応のための知識の合成を可能にする多エージェント型神経象徴的客観学習(MANSCOL)の有望な方向性について論じる。 FMは、強化学習、知識同化、推測の形成、文脈表現など、MANSCOLの様々な機能にまたがる重要なツールとして機能する。 この章は、FMに関連する課題とそのサイバーセキュリティ分野への応用に関する議論から締めくくっている。

We are currently facing unprecedented cyber warfare with the rapid evolution of tactics, increasing asymmetry of intelligence, and the growing accessibility of hacking tools. In this landscape, cyber deception emerges as a critical component of our defense strategy against increasingly sophisticated attacks. This chapter aims to highlight the pivotal role of game-theoretic models and foundation models (FMs) in analyzing, designing, and implementing cyber deception tactics. Game models (GMs) serve as a foundational framework for modeling diverse adversarial interactions, allowing us to encapsulate both adversarial knowledge and domain-specific insights. Meanwhile, FMs serve as the building blocks for creating tailored machine learning models suited to given applications. By leveraging the synergy between GMs and FMs, we can advance proactive and automated cyber defense mechanisms by not only securing our networks against attacks but also enhancing their resilience against well-planned operations. This chapter discusses the games at the tactical, operational, and strategic levels of warfare, delves into the symbiotic relationship between these methodologies, and explores relevant applications where such a framework can make a substantial impact in cybersecurity. The chapter discusses the promising direction of the multi-agent neurosymbolic conjectural learning (MANSCOL), which allows the defender to predict adversarial behaviors, design adaptive defensive deception tactics, and synthesize knowledge for the operational level synthesis and adaptation. FMs serve as pivotal tools across various functions for MANSCOL, including reinforcement learning, knowledge assimilation, formation of conjectures, and contextual representation. This chapter concludes with a discussion of the challenges associated with FMs and their application in the domain of cybersecurity.
翻訳日:2024-03-19 22:55:17 公開日:2024-03-14
# JaxDecompiler: グラディエントなインフォームドソフトウェア設計の再定義

JaxDecompiler: Redefining Gradient-Informed Software Design ( http://arxiv.org/abs/2403.10571v1 )

ライセンス: Link先を確認
Pierrick Pochelu, (参考訳) 勾配勾配の最適化を計算できる数値ライブラリの中で、JAXは、Jaxpr言語として知られる中間表現によって加速される、より多くの機能を提供することで際立っている。 しかし、Jaxprのコードを直接編集することは不可能である。 本稿では、JAX関数を編集可能なPythonコードに変換するツールであるJaxDecompilerを紹介します。 JaxDecompilerは、JAXによって開発されたソフトウェアのリバースエンジニアリング、理解、カスタマイズ、相互運用性のプロセスを単純化します。 我々は、その能力を強調し、特にディープラーニングやより一般的に勾配インフォームドソフトウェアにおいて実践的な応用を強調し、非コンパイルコードの速度性能が元のものと似ていることを実証する。

Among numerical libraries capable of computing gradient descent optimization, JAX stands out by offering more features, accelerated by an intermediate representation known as Jaxpr language. However, editing the Jaxpr code is not directly possible. This article introduces JaxDecompiler, a tool that transforms any JAX function into an editable Python code, especially useful for editing the JAX function generated by the gradient function. JaxDecompiler simplifies the processes of reverse engineering, understanding, customizing, and interoperability of software developed by JAX. We highlight its capabilities, emphasize its practical applications especially in deep learning and more generally gradient-informed software, and demonstrate that the decompiled code speed performance is similar to the original.
翻訳日:2024-03-19 22:55:17 公開日:2024-03-14
# 確率帯域に対する最適対向攻撃とスムース応答による防御

Near Optimal Adversarial Attacks on Stochastic Bandits and Defenses with Smoothed Responses ( http://arxiv.org/abs/2008.09312v8 )

ライセンス: Link先を確認
Shiliang Zuo, (参考訳) 確率的バンディットアルゴリズムに対する敵対的攻撃について研究する。 各ラウンドで、学習者は腕を選択し、確率的な報酬を生成する。 敵は戦略的に報酬に汚職を加え、学習者は各ラウンドで腐敗した報酬を観察することができる。 本論文では2つの結果について述べる。 第1セットは、敵に対する最適な攻撃戦略を研究する。 敵は、彼が宣伝したいターゲットアームを持ち、彼のゴールは、学習者を操り、このターゲットアームを$T - o(T)$ timesを選択することである。 私はUCBとThompson Samplingに対する攻撃戦略を設計し、$\widehat{O}(\sqrt{\log T})$コストしか使いません。 一致した下界を示し、UPB、トンプソンサンプリング、および$\varepsilon$-greedyの脆弱性を正確に特徴づける。 第2セットは、学習者が敵に対してどのように防御できるかを研究する。 スムーズな分析と行動経済学に関する文献に触発されて、私は2つの単純なアルゴリズムを示し、任意の比を1に近く達成する。

I study adversarial attacks against stochastic bandit algorithms. At each round, the learner chooses an arm, and a stochastic reward is generated. The adversary strategically adds corruption to the reward, and the learner is only able to observe the corrupted reward at each round. Two sets of results are presented in this paper. The first set studies the optimal attack strategies for the adversary. The adversary has a target arm he wishes to promote, and his goal is to manipulate the learner into choosing this target arm $T - o(T)$ times. I design attack strategies against UCB and Thompson Sampling that only spend $\widehat{O}(\sqrt{\log T})$ cost. Matching lower bounds are presented, and the vulnerability of UCB, Thompson sampling, and $\varepsilon$-greedy are exactly characterized. The second set studies how the learner can defend against the adversary. Inspired by literature on smoothed analysis and behavioral economics, I present two simple algorithms that achieve a competitive ratio arbitrarily close to 1.
翻訳日:2024-03-19 08:10:52 公開日:2024-03-14
# マニフォールドフィルタとマニフォールドニューラルネットワークの変形に対する安定性

Stability to Deformations of Manifold Filters and Manifold Neural Networks ( http://arxiv.org/abs/2106.03725v5 )

ライセンス: Link先を確認
Zhiyang Wang, Luana Ruiz, Alejandro Ribeiro, (参考訳) 本稿では、多様体(M)畳み込みフィルタとニューラルネットワーク(NN)を定義し、研究する。 ラプラス・ベルトラミ作用素指数(英語版)の項で定義され、多様体がサンプリングされたときの離散近似として \emph{graph} (G) フィルタとニューラルネットワーク(NN) が復元される。 これらのフィルタは、グラフフィルタのスペクトル表現と標準畳み込みフィルタの周波数応答を連続的に一般化したスペクトル表現を持つ。 この論文の主な技術的貢献は、多様体の滑らかな変形に対する多様体フィルタとMNNの安定性を分析することである。 この分析は、グラフフィルタとGNNの既知の安定性特性を一般化し、標準畳み込みフィルタとニューラルネットワークの既知の安定性特性を連続的に一般化する。 この分析から得られた最も重要な観測は、グラフフィルタや標準連続時間フィルタと同様に、変形の有無で高周波成分の識別が難しいことである。 これは、多様体、グラフ、または連続時間ニューラルネットワークの使用によって改善できる課題である。 この分析の最も重要な実践的成果は、大規模グラフにおけるグラフフィルタとGNNの挙動に光を当てることである。

The paper defines and studies manifold (M) convolutional filters and neural networks (NNs). \emph{Manifold} filters and MNNs are defined in terms of the Laplace-Beltrami operator exponential and are such that \emph{graph} (G) filters and neural networks (NNs) are recovered as discrete approximations when the manifold is sampled. These filters admit a spectral representation which is a generalization of both the spectral representation of graph filters and the frequency response of standard convolutional filters in continuous time. The main technical contribution of the paper is to analyze the stability of manifold filters and MNNs to smooth deformations of the manifold. This analysis generalizes known stability properties of graph filters and GNNs and it is also a generalization of known stability properties of standard convolutional filters and neural networks in continuous time. The most important observation that follows from this analysis is that manifold filters, same as graph filters and standard continuous time filters, have difficulty discriminating high frequency components in the presence of deformations. This is a challenge that can be ameliorated with the use of manifold, graph, or continuous time neural networks. The most important practical consequence of this analysis is to shed light on the behavior of graph filters and GNNs in large-scale graphs.
翻訳日:2024-03-19 08:10:52 公開日:2024-03-14
# 子ども向け音声の言語間一貫性のある意味と統語的アノテーション

Cross-linguistically Consistent Semantic and Syntactic Annotation of Child-directed Speech ( http://arxiv.org/abs/2109.10952v2 )

ライセンス: Link先を確認
Ida Szubert, Omri Abend, Nathan Schneider, Samuel Gibbon, Louis Mahon, Sharon Goldwater, Mark Steedman, (参考訳) 本稿では,子ども指向音声(CDS)と感性論理形式を組み合わせたコーパスを構築する手法を提案し,この手法を用いて英語とヘブライ語で2つのコーパスを作成する。 このアプローチは言語間一貫した表現を強制し、依存関係表現とセマンティック解析の最近の進歩に基づいている。 具体的には、このアプローチには2つのステップがあります。 まず,多種多様なドメインや類型的多様言語に一貫して適用するために開発された統語的アノテーションに対して,ユニバーサル依存(UD)方式を用いてコーパスに注釈を付ける。 次に,感性論理形式(LF)をUD構造から自動変換する手法を適用することで,これらのデータに注釈を付ける。 UD構造は言語ニュートラルであり、複数のアノテータによる一貫性と信頼性のあるアノテーションをサポートする。 このアプローチを用いて、我々はChiLDESの2つのコーパスに対して、Bown's Adam corpus (英: annotate ~80% of its child-directed utterances, all child-directed utterances from Berman's Hagar corpus (ヘブライ語)という構文的・意味的アノテーションを提供する。 我々は、アノテーション間合意研究を用いてUDアノテーションの品質を検証し、変換された意味表現を手動で評価する。 次に,(1)CDSにおける異なる構文・意味現象の出現状況に関する縦断的なコーパス研究を行い,(2)既存の言語習得モデルを適用し,言語間の結果を短時間で比較することで,コンパイルコーパスの有用性を実証する。

This paper proposes a methodology for constructing such corpora of child directed speech (CDS) paired with sentential logical forms, and uses this method to create two such corpora, in English and Hebrew. The approach enforces a cross-linguistically consistent representation, building on recent advances in dependency representation and semantic parsing. Specifically, the approach involves two steps. First, we annotate the corpora using the Universal Dependencies (UD) scheme for syntactic annotation, which has been developed to apply consistently to a wide variety of domains and typologically diverse languages. Next, we further annotate these data by applying an automatic method for transducing sentential logical forms (LFs) from UD structures. The UD and LF representations have complementary strengths: UD structures are language-neutral and support consistent and reliable annotation by multiple annotators, whereas LFs are neutral as to their syntactic derivation and transparently encode semantic relations. Using this approach, we provide syntactic and semantic annotation for two corpora from CHILDES: Brown's Adam corpus (English; we annotate ~80% of its child-directed utterances), all child-directed utterances from Berman's Hagar corpus (Hebrew). We verify the quality of the UD annotation using an inter-annotator agreement study, and manually evaluate the transduced meaning representations. We then demonstrate the utility of the compiled corpora through (1) a longitudinal corpus study of the prevalence of different syntactic and semantic phenomena in the CDS, and (2) applying an existing computational model of language acquisition to the two corpora and briefly comparing the results across languages.
翻訳日:2024-03-19 08:10:52 公開日:2024-03-14
# 単元T設計の品質に及ぼすノイズチャンネルの影響の検討

Investigating the effect of noise channels on the quality of unitary t-designs ( http://arxiv.org/abs/2203.13771v2 )

ライセンス: Link先を確認
Conrad Strydom, Mark Tame, (参考訳) ユニタリt-設計は、量子データ暗号化やランダム化ベンチマークなど、量子情報理論に幅広い応用がある。 しかし、t-設計の実験的実現はノイズにさらされる。 本稿では,単一量子t-設計の品質に及ぼすノイズチャネルの影響について検討する。 私たちが研究しているノイズチャネルは、ビットフリップ、位相フリップ、ビットと位相フリップ、位相減衰、振幅減衰、偏極ノイズである。 2つのノイズモデルを考える: 1つはt-designのユニタリ演算の前にノイズを印加し、もう1つはユニタリ演算後にノイズを印加する。 2-, 3-, 4-, 5-設計で得られた数値結果から, 2t-設計は (2t-1)-設計よりもノイズにかなり敏感であり, 振幅減衰を除くと, (2t+1)-設計は 2t-設計と同じくらいノイズに敏感であることがわかった。 数値的な結果は、ブロッホ球全体のノイズに対する感度のかなりの変化を明らかにしている。 特に、t-設計は純状態に作用するときにノイズに最も敏感であり、最大混合状態のノイズに最も敏感である。 2つのノイズモデルが等価であることを示し、他のノイズチャネルでは、ユニタリーがノイズチャネルの非偏極チャネルへの変換を反射した後にノイズが適用されるモデルに対して、ランダム化ベンチマークと2つの設計による効果を生かした。

Unitary t-designs have a wide variety of applications in quantum information theory, such as quantum data encryption and randomised benchmarking. However, experimental realisations of t-designs are subject to noise. Here we investigate the effect of noise channels on the quality of single-qubit t-designs. The noise channels we study are bit flips, phase flips, bit and phase flips, phase damping, amplitude damping, and depolarising noise. We consider two noise models: the first has noise applied before the t-design unitary operations, while the second has noise applied after the unitary operations. We show that the single-qubit 1-design is affected only by amplitude damping, while numeric results obtained for the 2-, 3-, 4-, and 5-designs suggest that a 2t-design is significantly more sensitive to noise than a (2t-1)-design and that, with the exception of amplitude damping, a (2t+1)-design is as sensitive to noise as a 2t-design. Numeric results also reveal substantial variations in sensitivity to noise throughout the Bloch sphere. In particular, t-designs appear to be most sensitive to noise when acting on pure states and least sensitive to noise for the maximally mixed state. For depolarising noise, we show that our two noise models are equivalent, and for the other noise channels, numeric results obtained for the model where noise is applied after the unitaries reflect the transformation of the noise channel into a depolarising channel, an effect exploited in randomised benchmarking with 2-designs.
翻訳日:2024-03-19 08:10:52 公開日:2024-03-14
# GraVoS: 3Dポイントクラウド検出のためのVoxel選択

GraVoS: Voxel Selection for 3D Point-Cloud Detection ( http://arxiv.org/abs/2208.08780v3 )

ライセンス: Link先を確認
Oren Shrout, Yizhak Ben-Shabat, Ayellet Tal, (参考訳) 大規模3次元シーンにおける3次元物体検出は,3次元点雲の空間的および不規則性だけでなく,背景背景の極端な不均衡とクラス不均衡によっても困難である。 一般的なアプローチは、他のシーンから地味なオブジェクトを追加することである。 異なるのは、要素(ボクセル)を付加するのではなく、要素(ボクセル)を除去することでシーンを変更することである。 このアプローチでは、両方のタイプのデータセットの不均衡に対応する方法で、"意味のある"ボクセルを選択します。 このアプローチは一般的なものであり、あらゆるボクセルベースの検出器に適用できるが、ボクセルの有意性はネットワークに依存している。 我々のボクセル選択は、いくつかの顕著な3次元検出法の性能を向上させることが示されている。

3D object detection within large 3D scenes is challenging not only due to the sparsity and irregularity of 3D point clouds, but also due to both the extreme foreground-background scene imbalance and class imbalance. A common approach is to add ground-truth objects from other scenes. Differently, we propose to modify the scenes by removing elements (voxels), rather than adding ones. Our approach selects the "meaningful" voxels, in a manner that addresses both types of dataset imbalance. The approach is general and can be applied to any voxel-based detector, yet the meaningfulness of a voxel is network-dependent. Our voxel selection is shown to improve the performance of several prominent 3D detection methods.
翻訳日:2024-03-19 08:01:36 公開日:2024-03-14
# 接触力場の触覚推定による滑り検出の学習とそのエントロピー

Learning to Detect Slip through Tactile Estimation of the Contact Force Field and its Entropy ( http://arxiv.org/abs/2303.00935v3 )

ライセンス: Link先を確認
Xiaohai Hu, Aparajit Venkatesh, Guiliang Zheng, Xu Chen, (参考訳) 物体の握りと操作におけるすべりの検出は、物体のハンドリングにおいて重要な役割を果たす。 既存のソリューションは主に視覚情報に依存して、把握のための戦略を考案する。 しかしながら、ロボットシステムが人間に匹敵する習熟度に達するためには、特に不慣れな物体を一貫して扱い、操作する場合は、人工的な触覚センサーを統合することがますます不可欠である。 本研究では,スリップ検出をリアルタイムで連続的に行う物理インフォームド・データ駆動方式を提案する。 我々は、光学式触覚センサーであるGelSight Miniを、カスタムデザインのグリップに装着して、触覚データを収集する。 本研究は,スリップイベントにおける触覚センサの非均一性を活用して特徴を発達させ,スリップ検出を分類問題として定式化する。 提案手法を評価するため, 異なる負荷条件, テクスチャ, 材料条件下で10個の共通オブジェクト上で複数のデータ駆動モデルをテストする。 その結果,最高の分類アルゴリズムは95.61%の精度が得られることがわかった。 さらに、リアルタイムスリップ検出・防止アルゴリズムを実装した動的ロボット操作タスクにおける我々の研究の実践的応用について述べる。

Detection of slip during object grasping and manipulation plays a vital role in object handling. Existing solutions primarily rely on visual information to devise a strategy for grasping. However, for robotic systems to attain a level of proficiency comparable to humans, especially in consistently handling and manipulating unfamiliar objects, integrating artificial tactile sensing is increasingly essential. We introduce a novel physics-informed, data-driven approach to detect slip continuously in real time. We employ the GelSight Mini, an optical tactile sensor, attached to custom-designed grippers to gather tactile data. Our work leverages the inhomogeneity of tactile sensor readings during slip events to develop distinctive features and formulates slip detection as a classification problem. To evaluate our approach, we test multiple data-driven models on 10 common objects under different loading conditions, textures, and materials. Our results show that the best classification algorithm achieves a high average accuracy of 95.61%. We further illustrate the practical application of our research in dynamic robotic manipulation tasks, where our real-time slip detection and prevention algorithm is implemented.
翻訳日:2024-03-19 07:51:44 公開日:2024-03-14
# NAISR: 解釈可能な形状表現のための3次元ニューラル付加モデル

NAISR: A 3D Neural Additive Model for Interpretable Shape Representation ( http://arxiv.org/abs/2303.09234v5 )

ライセンス: Link先を確認
Yining Jiao, Carlton Zdanski, Julia Kimbell, Andrew Prince, Cameron Worden, Samuel Kirse, Christopher Rutter, Benjamin Shields, William Dunn, Jisan Mahmud, Marc Niethammer, (参考訳) 深暗黙の関数(DIF)は、3次元形状の再構成、生成、登録、完了、編集、理解といった多くのコンピュータビジョンタスクの強力なパラダイムとして登場した。 しかし、関連する共変量を持つ3次元形状の集合を考えると、現在、各共変量に対する個々の依存を捕捉しながら、その形状を正確に表現できる形状表現法は存在しない。 このような手法は、形状の集団に隠された知識を発見するために、研究者にとって非常に有用である。 科学的な形状発見のための3次元ニューラルネットワークによる解釈可能な形状表現モデル(\texttt{NAISR}$)を提案する。 本手法は, 形状人口の傾向を把握し, 形状移動による患者固有の予測を可能にする。 $\texttt{NAISR}$は、深い暗黙の形状表現の利点と特定の共変量に従って変形するアトラスを結合する最初のアプローチである。 形状再構成, 形状異方性, 形状進化, 形状伝達について, 3つのデータセットで$\texttt{NAISR}$を評価する。 1) $\textit{Starman}$, シミュレーションされた2D形状データセット。 2)ADNI海馬3次元形状データセット,及び 3)小児気道3次元形状データセット。 実験の結果,$\textit{Starman}$は,解釈性を維持しながら優れた形状復元性能を発揮することがわかった。 私たちのコードは$\href{https://github.com/uncbiag/NAISR}{https://github.com/uncbiag/NAISR}$で利用可能です。

Deep implicit functions (DIFs) have emerged as a powerful paradigm for many computer vision tasks such as 3D shape reconstruction, generation, registration, completion, editing, and understanding. However, given a set of 3D shapes with associated covariates there is at present no shape representation method which allows to precisely represent the shapes while capturing the individual dependencies on each covariate. Such a method would be of high utility to researchers to discover knowledge hidden in a population of shapes. For scientific shape discovery, we propose a 3D Neural Additive Model for Interpretable Shape Representation ($\texttt{NAISR}$) which describes individual shapes by deforming a shape atlas in accordance to the effect of disentangled covariates. Our approach captures shape population trends and allows for patient-specific predictions through shape transfer. $\texttt{NAISR}$ is the first approach to combine the benefits of deep implicit shape representations with an atlas deforming according to specified covariates. We evaluate $\texttt{NAISR}$ with respect to shape reconstruction, shape disentanglement, shape evolution, and shape transfer on three datasets: 1) $\textit{Starman}$, a simulated 2D shape dataset; 2) the ADNI hippocampus 3D shape dataset; and 3) a pediatric airway 3D shape dataset. Our experiments demonstrate that $\textit{Starman}$ achieves excellent shape reconstruction performance while retaining interpretability. Our code is available at $\href{https://github.com/uncbiag/NAISR}{https://github.com/uncbiag/NAISR}$.
翻訳日:2024-03-19 07:51:44 公開日:2024-03-14
# Musketeer:タスク説明プロンプトを用いたマルチタスク視覚言語モデルの合同トレーニング

Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts ( http://arxiv.org/abs/2305.07019v2 )

ライセンス: Link先を確認
Zhaoyang Zhang, Yantao Shen, Kunyu Shi, Zhaowei Cai, Jun Fang, Siqi Deng, Hao Yang, Davide Modolo, Zhuowen Tu, Stefano Soatto, (参考訳) 我々は,全てのタスクでパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。 不均一なタスクにまたがる知識の統合は、タスク説明プロンプト(TEP)と呼ばれる新しい機能によって実現される。 タスク入力/出力フォーマットなどのリッチで構造化された情報により、TEPはタスク間の干渉を減らし、モデルが共有構造に集中できるようにする。 単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。

We present a vision-language model whose parameters are jointly trained on all tasks and fully shared among multiple heterogeneous tasks which may interfere with each other, resulting in a single model which we named Musketeer. The integration of knowledge across heterogeneous tasks is enabled by a novel feature called Task Explanation Prompt (TEP). With rich and structured information such as task input/output format, TEP reduces interference among tasks, allowing the model to focus on their shared structure. With a single model, Musketeer achieves results comparable to or better than strong baselines trained on single tasks, almost uniformly across multiple tasks.
翻訳日:2024-03-19 07:42:00 公開日:2024-03-14
# 雑音入力による二重発振と過度整合と線形復調器の配電シフト

Double Descent and Overfitting under Noisy Inputs and Distribution Shift for Linear Denoisers ( http://arxiv.org/abs/2305.17297v3 )

ライセンス: Link先を確認
Chinmaya Kausik, Kashvi Srivastava, Rishi Sonthalia, (参考訳) 現代の機械学習における認知論の重要性と教師付き認知論に関する経験的な研究にもかかわらず、その理論的理解はいまだに乏しい。 教師付きdenoisingを研究することの1つの懸念は、テスト分布からのノイズレストレーニングデータが常に存在するとは限らないことである。 テストデータセットとは異なるデータセットからノイズレストレーニングデータにアクセスするのは、より合理的である。 そこで本研究では,分散シフト下での教師付きノイズ除去とノイズインプット回帰について検討した。 実生活データや現代の機械学習への理論的洞察の適用性を高めるために、3つの考慮事項を追加します。 第一に、過去の理論的な研究は、データ共分散行列が完全ランクで十分に条件付けされていると仮定しているが、実生活データは概して低ランクであることを示した経験的研究である。 したがって、我々のデータ行列は低ランクであると仮定する。 第2に、データの独立性の前提を下げます。 第三に、計算力の増大とデータの次元性は、非古典的な学習体制の研究を重要視している。 したがって、データ次元$d$とサンプル数$N$が$d/N = c + o(1)$として成長する非古典的比例法で作業する。 この設定では, 雑音の重なりが良さ, 誘惑性, 破滅的である場合, ノイズの重なりについて検討する。 テスト誤差は、一般分布シフトの下で二重降下を示し、データ拡張と暗黙の正規化器としてのノイズの役割についての洞察を提供する。 また、実生活データを用いて実験を行い、低ランクデータに対する理論予測を1\% MSE誤差で一致させる。

Despite the importance of denoising in modern machine learning and ample empirical work on supervised denoising, its theoretical understanding is still relatively scarce. One concern about studying supervised denoising is that one might not always have noiseless training data from the test distribution. It is more reasonable to have access to noiseless training data from a different dataset than the test dataset. Motivated by this, we study supervised denoising and noisy-input regression under distribution shift. We add three considerations to increase the applicability of our theoretical insights to real-life data and modern machine learning. First, while most past theoretical work assumes that the data covariance matrix is full-rank and well-conditioned, empirical studies have shown that real-life data is approximately low-rank. Thus, we assume that our data matrices are low-rank. Second, we drop independence assumptions on our data. Third, the rise in computational power and dimensionality of data have made it important to study non-classical regimes of learning. Thus, we work in the non-classical proportional regime, where data dimension $d$ and number of samples $N$ grow as $d/N = c + o(1)$. For this setting, we derive data-dependent, instance specific expressions for the test error for both denoising and noisy-input regression, and study when overfitting the noise is benign, tempered or catastrophic. We show that the test error exhibits double descent under general distribution shift, providing insights for data augmentation and the role of noise as an implicit regularizer. We also perform experiments using real-life data, where we match the theoretical predictions with under 1\% MSE error for low-rank data.
翻訳日:2024-03-19 07:42:00 公開日:2024-03-14
# ゼロから乱流へ:3次元流れシミュレーションのための生成モデル

From Zero to Turbulence: Generative Modeling for 3D Flow Simulation ( http://arxiv.org/abs/2306.01776v3 )

ライセンス: Link先を確認
Marten Lienen, David Lüdke, Jan Hansen-Palmus, Stephan Günnemann, (参考訳) 3Dにおける乱流のシミュレーションは計算流体力学(CFD)において最も高価なシミュレーションの1つである。 流体の数値解法を高速で学習された自己回帰モデルに置き換えるために、サロゲートモデルに関する多くの研究が書かれてきた。 しかし、3次元での乱流の複雑さは、これらのモデルを非常に小さな時間ステップでトレーニングする必要がある一方で、現実的なフロー状態を生成するには、多くのステップで長いロールアウトが必要になる。 その代わり, 乱流シミュレーションを, 初期流れの状態に頼らずに, 可能な全ての乱流状態の多様体を直接学習する生成タスクとして提案する。 本実験では,高分解能流れの3次元乱流データセットと各種物体による渦構造の詳細な解析を行い,乱流に対する2つの新しいサンプル評価指標を導出する。 本データセットでは, 生成モデルを用いて, 未確認物体による乱流の分布を把握し, 初期状態にアクセスせずに下流アプリケーションに適用可能な, 高品質で現実的なサンプルを生成する。

Simulations of turbulent flows in 3D are one of the most expensive simulations in computational fluid dynamics (CFD). Many works have been written on surrogate models to replace numerical solvers for fluid flows with faster, learned, autoregressive models. However, the intricacies of turbulence in three dimensions necessitate training these models with very small time steps, while generating realistic flow states requires either long roll-outs with many steps and significant error accumulation or starting from a known, realistic flow state - something we aimed to avoid in the first place. Instead, we propose to approach turbulent flow simulation as a generative task directly learning the manifold of all possible turbulent flow states without relying on any initial flow state. For our experiments, we introduce a challenging 3D turbulence dataset of high-resolution flows and detailed vortex structures caused by various objects and derive two novel sample evaluation metrics for turbulent flows. On this dataset, we show that our generative model captures the distribution of turbulent flows caused by unseen objects and generates high-quality, realistic samples amenable for downstream applications without access to any initial state.
翻訳日:2024-03-19 07:42:00 公開日:2024-03-14
# 高次タスク親和性によるグラフ上でのマルチタスク学習の促進

Boosting Multitask Learning on Graphs through Higher-Order Task Affinities ( http://arxiv.org/abs/2306.14009v4 )

ライセンス: Link先を確認
Dongyue Li, Haotian Ju, Aneesh Sharma, Hongyang R. Zhang, (参考訳) 与えられたグラフ上のノードラベルの予測は、コミュニティ検出や分子グラフ予測など、多くのアプリケーションにおいて広く研究されている問題である。 本稿では,グラフ上の複数のノードラベリング関数を同時に予測し,マルチタスク学習の観点からこの問題を再考する。 各コミュニティメンバシップはバイナリノード分類タスクである。 マルチタスク学習を複数のコミュニティ検出に適用した場合,タスク関係はノードのラベル付けによって非常に非線形であるため,複雑な重複パターンにより負の移動が頻繁に発生する。 この課題に対処するため,高次タスク親和性尺度に基づくグループにタスクをクラスタリングするアルゴリズムを開発した。 次に,各タスク群にマルチタスクモデルを適用し,ベースラインモデル上での強化処理を行う。 本研究では,2つのタスク間の高次タスク親和性尺度を,他のタスクの存在下での1つのタスクの予測損失と,他のタスクのランダムなサブセットとして推定する。 次に、親和性スコア行列上のスペクトルクラスタリングを用いてタスクグループ化を同定する。 我々は高次アフィニティスコアを効率的に計算し、負の遷移をペアのタスク親和性よりも正確に予測できることを示すために、いくつかの高速化手法を設計する。 提案手法は,様々なコミュニティ検出と分子グラフ予測データセットを用いて検証し,既存の手法と比較して良好な結果を示した。 最後に、グラフ上のタスクの植込みブロックモデルの下では、アフィニティスコアが確実にタスクをグループに分割できることを示す理論的分析を提供する。

Predicting node labels on a given graph is a widely studied problem with many applications, including community detection and molecular graph prediction. This paper considers predicting multiple node labeling functions on graphs simultaneously and revisits this problem from a multitask learning perspective. For a concrete example, consider overlapping community detection: each community membership is a binary node classification task. Due to complex overlapping patterns, we find that negative transfer is prevalent when we apply naive multitask learning to multiple community detection, as task relationships are highly nonlinear across different node labeling. To address the challenge, we develop an algorithm to cluster tasks into groups based on a higher-order task affinity measure. We then fit a multitask model on each task group, resulting in a boosting procedure on top of the baseline model. We estimate the higher-order task affinity measure between two tasks as the prediction loss of one task in the presence of another task and a random subset of other tasks. Then, we use spectral clustering on the affinity score matrix to identify task grouping. We design several speedup techniques to compute the higher-order affinity scores efficiently and show that they can predict negative transfers more accurately than pairwise task affinities. We validate our procedure using various community detection and molecular graph prediction data sets, showing favorable results compared with existing methods. Lastly, we provide a theoretical analysis to show that under a planted block model of tasks on graphs, our affinity scores can provably separate tasks into groups.
翻訳日:2024-03-19 07:32:15 公開日:2024-03-14
# 計測ショットノイズによる変分量子最適化の課題

Challenges of variational quantum optimization with measurement shot noise ( http://arxiv.org/abs/2308.00044v2 )

ライセンス: Link先を確認
Giuseppe Scriva, Nikita Astrakhantsev, Sebastiano Pilati, Guglielmo Mazzola, (参考訳) 古典的コスト関数の量子拡張最適化は、科学技術における高い潜在価値のために、量子コンピューティングの中心的なテーマである。 変分量子固有解法 (VQE) と量子近似最適化アルゴリズム (QAOA) は、ノイズ・中間スケール量子 (NISQ) 時代の最も有効な解である。 本稿では,要求回路繰り返し数として定義された量子資源のスケーリングを,問題の大きさが大きくなるにつれて一定の成功確率に達するために検討し,現実的な実装では避けられない計測ショットノイズが果たす役割に着目した。 単純で再現可能な問題、すなわち強磁性および不規則なイジング鎖に対処する。 私たちの結果はこう示しています。 (i)エネルギーベースオプティマイザを用いる場合、標準ヒューリスティックアンサッツのVQEは、直接ブルートフォースサーチに好適にスケールする。 性能は、グラデーションベースのオプティマイザを使用して、少なくとも2次的に改善される。 (II)パラメータがランダムな推測から最適化された場合、QAOAのスケーリングは、大きな問題のサイズに対して問題の多い長い絶対実行ランタイムを意味する。 三)QAOAは、パラメータの物理的に着想を得た初期化を補うと実用的になる。 この結果から,ハイブリッド量子古典アルゴリズムは古典的外ループの破壊力を回避する必要があるが,スマートパラメータの初期化に着目することが示唆された。

Quantum enhanced optimization of classical cost functions is a central theme of quantum computing due to its high potential value in science and technology. The variational quantum eigensolver (VQE) and the quantum approximate optimization algorithm (QAOA) are popular variational approaches that are considered the most viable solutions in the noisy-intermediate scale quantum (NISQ) era. Here, we study the scaling of the quantum resources, defined as the required number of circuit repetitions, to reach a fixed success probability as the problem size increases, focusing on the role played by measurement shot noise, which is unavoidable in realistic implementations. Simple and reproducible problem instances are addressed, namely, the ferromagnetic and disordered Ising chains. Our results show that: (i) VQE with the standard heuristic ansatz scales comparably to direct brute-force search when energy-based optimizers are employed. The performance improves at most quadratically using a gradient-based optimizer. (ii) When the parameters are optimized from random guesses, also the scaling of QAOA implies problematically long absolute runtimes for large problem sizes. (iii) QAOA becomes practical when supplemented with a physically-inspired initialization of the parameters. Our results suggest that hybrid quantum-classical algorithms should possibly avoid a brute force classical outer loop, but focus on smart parameters initialization.
翻訳日:2024-03-19 07:32:15 公開日:2024-03-14
# Platypus:LLMのクイック、チープ、パワーフルリファインメント

Platypus: Quick, Cheap, and Powerful Refinement of LLMs ( http://arxiv.org/abs/2308.07317v2 )

ライセンス: Link先を確認
Ariel N. Lee, Cole J. Hunter, Nataniel Ruiz, (参考訳) 我々は,HuggingFace の Open LLM Leaderboard において,この作業のリリース日時点で最強のパフォーマンスを達成し,現在一位に立っている,細かな調整と統合されたLarge Language Models (LLMs) のファミリである $\textbf{Platypus}$ を提示する。 この作業では、(1) キュレートされたデータセット $\textbf{Open-Platypus}$、これは、他のオープンデータセットのサブセットであり、(2) LoRAモジュールを微調整し、マージするプロセスである。 具体的には、Platypusファミリは、モデルサイズをまたいだ定量的LLMメトリクスの強力なパフォーマンスを実現し、グローバルなOpen LLMリーダーボードをトッピングし、その他の最先端の細調整LLMに必要な、わずかな微調整データと全体的な計算を使用する。 特に、13B Platypusモデルは、5時間で25kの質問を使用して、$\textit{a single}$ A100 GPUでトレーニングすることができる。 これはOpen-Platypusデータセットの品質の証明であり、この分野におけるさらなる改善の機会を開くものです。 プロジェクトページ: https://platypus-llm.github.io

We present $\textbf{Platypus}$, a family of fine-tuned and merged Large Language Models (LLMs) that achieves the strongest performance and currently stands at first place in HuggingFace's Open LLM Leaderboard as of the release date of this work. In this work we describe (1) our curated dataset $\textbf{Open-Platypus}$, that is a subset of other open datasets and which $\textit{we release to the public}$ (2) our process of fine-tuning and merging LoRA modules in order to conserve the strong prior of pretrained LLMs, while bringing specific domain knowledge to the surface (3) our efforts in checking for test data leaks and contamination in the training data, which can inform future research. Specifically, the Platypus family achieves strong performance in quantitative LLM metrics across model sizes, topping the global Open LLM leaderboard while using just a fraction of the fine-tuning data and overall compute that are required for other state-of-the-art fine-tuned LLMs. In particular, a 13B Platypus model can be trained on $\textit{a single}$ A100 GPU using 25k questions in 5 hours. This is a testament of the quality of our Open-Platypus dataset, and opens opportunities for more improvements in the field. Project page: https://platypus-llm.github.io
翻訳日:2024-03-19 07:32:15 公開日:2024-03-14
# 最も一般的な因子を学習する:変圧器の予測を説明する

Learning the greatest common divisor: explaining transformer predictions ( http://arxiv.org/abs/2308.15594v2 )

ライセンス: Link先を確認
François Charton, (参考訳) 2つの正の整数の最大共通因子(GCD)を計算するために訓練された小さな変圧器の予測は、モデル入力と出力を見ることで完全に特徴付けられる。 トレーニングが進むと、モデルは整数の$\mathcal D$、整数と小さな素数を表すために使用される基底の因子の積を学習し、両方の入力を分割する$\mathcal D$の最大の要素を予測する。 トレーニングディストリビューションはパフォーマンスに影響を与えます。 均一なオペランドから訓練されたモデルは、ほんのわずかのGCD(最大38ドルGCD$\leq100$)しか学ばない。 対数ユニフォームオペランドはパフォーマンスを7,3$ GCD $\leq 100$、対数ユニフォーム分布(すなわちGCD)を9,11ドルに向上させる。 しかし、均一(バランスの取れた)GCDからのトレーニングは説明責任を損なう。

The predictions of small transformers, trained to calculate the greatest common divisor (GCD) of two positive integers, can be fully characterized by looking at model inputs and outputs. As training proceeds, the model learns a list $\mathcal D$ of integers, products of divisors of the base used to represent integers and small primes, and predicts the largest element of $\mathcal D$ that divides both inputs. Training distributions impact performance. Models trained from uniform operands only learn a handful of GCD (up to $38$ GCD $\leq100$). Log-uniform operands boost performance to $73$ GCD $\leq 100$, and a log-uniform distribution of outcomes (i.e. GCD) to $91$. However, training from uniform (balanced) GCD breaks explainability.
翻訳日:2024-03-19 07:12:46 公開日:2024-03-14
# 拡張韻律と言語的感情表現を用いた音声感情認識

Speech Emotion Recognition with Distilled Prosodic and Linguistic Affect Representations ( http://arxiv.org/abs/2309.04849v2 )

ライセンス: Link先を確認
Debaditya Shome, Ali Etemad, (参考訳) 本研究では,言語的・韻律的な感情表現を音声から学習するために,訓練中のクロスモーダルな知識蒸留を利用した新しい音声感情認識(SER)フレームワークであるEmoDistillを提案する。 提案手法では,音声信号のストリームのみを用いて一斉SERを実行することで,計算オーバーヘッドを低減し,実行時の書き起こしや韻律的特徴抽出エラーを回避する。 学習中,本手法は,SER向けに微調整された,事前学習された韻律教師と言語教師のペアから,埋め込みレベルとロジットレベルの両方の情報を抽出する。 IEMOCAPベンチマークによる実験により,本手法は,非加重精度77.49%,重み付け精度78.91%,非加重精度77.49%,非加重精度78.91%と,他の非加重・マルチモーダル技術よりも優れた性能を示した。 詳細なアブレーション研究は、我々の方法の各成分の影響を実証している。

We propose EmoDistill, a novel speech emotion recognition (SER) framework that leverages cross-modal knowledge distillation during training to learn strong linguistic and prosodic representations of emotion from speech. During inference, our method only uses a stream of speech signals to perform unimodal SER thus reducing computation overhead and avoiding run-time transcription and prosodic feature extraction errors. During training, our method distills information at both embedding and logit levels from a pair of pre-trained Prosodic and Linguistic teachers that are fine-tuned for SER. Experiments on the IEMOCAP benchmark demonstrate that our method outperforms other unimodal and multimodal techniques by a considerable margin, and achieves state-of-the-art performance of 77.49% unweighted accuracy and 78.91% weighted accuracy. Detailed ablation studies demonstrate the impact of each component of our method.
翻訳日:2024-03-19 06:53:05 公開日:2024-03-14
# 表層異常検出のための自己教師型学習の限界を理解する

Understanding the limitations of self-supervised learning for tabular anomaly detection ( http://arxiv.org/abs/2309.08374v3 )

ライセンス: Link先を確認
Kimberly T. Mai, Toby Davies, Lewis D. Griffin, (参考訳) 自己教師付き学習はコンピュータビジョンや自然言語処理における異常検出を改善しているが、表形式のデータがそれの恩恵を受けるかどうかは不明である。 本稿では,タブ状異常検出における自己スーパービジョンの限界について検討する。 26のベンチマークデータセット上で、様々なプリテキストタスクにまたがるいくつかの実験を行い、その理由を解明した。 その結果,自己超越から導出される表現は,データの生表現を用いた場合と比較して,表層異常検出性能は向上しないことがわかった。 これは、ニューラルネットワークが無関係な特徴を導入し、異常検出の有効性を低下させることによるものである。 しかし、ニューラルネットワークの表現のサブスペースを使用することで、性能を回復できることを示す。

While self-supervised learning has improved anomaly detection in computer vision and natural language processing, it is unclear whether tabular data can benefit from it. This paper explores the limitations of self-supervision for tabular anomaly detection. We conduct several experiments spanning various pretext tasks on 26 benchmark datasets to understand why this is the case. Our results confirm representations derived from self-supervision do not improve tabular anomaly detection performance compared to using the raw representations of the data. We show this is due to neural networks introducing irrelevant features, which reduces the effectiveness of anomaly detectors. However, we demonstrate that using a subspace of the neural network's representation can recover performance.
翻訳日:2024-03-19 04:41:11 公開日:2024-03-14
# XATU: 説明可能なテキスト更新のためのきめ細かいインストラクションベースのベンチマーク

XATU: A Fine-grained Instruction-based Benchmark for Explainable Text Updates ( http://arxiv.org/abs/2309.11063v2 )

ライセンス: Link先を確認
Haopeng Zhang, Hayate Iso, Sairam Gurajada, Nikita Bhutani, (参考訳) テキスト編集は、ユーザの意図に合わせてテキストを修正するための重要なタスクである。 しかし、既存のテキスト編集ベンチマークデータセットには、粗い指示のみが含まれており、説明性の欠如があるため、ゴールド基準に概説された意図された変更から逸脱するアウトプットが発生する。 本稿では,大規模言語モデル (LLM) のテキスト編集機能について包括的に検討するため,微粒な命令ベースの説明可能なテキスト編集に特化して設計された最初のベンチマークであるXATUを紹介する。 XATUは、よりきめ細かいテキスト編集タスク(単純化、文法チェック、事実チェックなど)について、語彙、構文、意味、知識集約的な編集の側面を取り入れている。 解釈可能性を高めるために,LLMベースのアノテーションと人間のアノテーションを組み合わせることで,詳細な説明とゴールドスタンダードの編集説明を含むベンチマークを行う。 既存のLCMをベンチマークに対して評価することにより、各種編集タスクにおける命令チューニングの有効性と基礎となるアーキテクチャの影響を実証する。 さらに、広範な実験により、テキスト編集タスクの微調整言語モデルにおける説明の役割が明らかにされた。 このベンチマークは、複製をサポートし、~\url{https://github.com/megagonlabs/xatu}で将来の研究を促進するためにオープンソース化される。

Text editing is a crucial task of modifying text to better align with user intents. However, existing text editing benchmark datasets contain only coarse-grained instructions and lack explainability, thus resulting in outputs that deviate from the intended changes outlined in the gold reference. To comprehensively investigate the text editing capabilities of large language models (LLMs), this paper introduces XATU, the first benchmark specifically designed for fine-grained instruction-based explainable text editing. XATU considers finer-grained text editing tasks of varying difficulty (simplification, grammar check, fact-check, etc.), incorporating lexical, syntactic, semantic, and knowledge-intensive edit aspects. To enhance interpretability, we combine LLM-based annotation and human annotation, resulting in a benchmark that includes fine-grained instructions and gold-standard edit explanations. By evaluating existing LLMs against our benchmark, we demonstrate the effectiveness of instruction tuning and the impact of underlying architecture across various editing tasks. Furthermore, extensive experimentation reveals the significant role of explanations in fine-tuning language models for text editing tasks. The benchmark will be open-sourced to support reproduction and facilitate future research at~\url{https://github.com/megagonlabs/xatu}.
翻訳日:2024-03-19 04:20:31 公開日:2024-03-14
# 強化学習のためのリッチで効率的な政策クラスとしての一貫性モデル

Consistency Models as a Rich and Efficient Policy Class for Reinforcement Learning ( http://arxiv.org/abs/2309.16984v2 )

ライセンス: Link先を確認
Zihan Ding, Chi Jin, (参考訳) 拡散モデルのようなスコアベース生成モデルは、画像生成から強化学習(RL)までのマルチモーダルデータのモデリングに有効であることが証明された。 しかし、拡散モデルの推論過程は遅くなり、反復的なサンプリングでRLでの使用が妨げられる。 本稿では, オフライン, オフライン-オンライン, オンラインの3つの典型的なRL設定に対して, アクター批判型アルゴリズムを用いて, 一貫性モデルを効率的かつ表現力のあるポリシー表現として適用することを提案する。 オフラインRLでは,マルチモーダルデータからのポリシーとして生成モデルの表現性を実証する。 オフライン-オンラインRLの場合、一貫性ポリシは拡散ポリシよりも計算効率が良く、同等の性能を持つ。 オンラインRLでは、一貫性ポリシは拡散ポリシよりも大幅にスピードアップし、さらに平均的なパフォーマンスを示す。

Score-based generative models like the diffusion model have been testified to be effective in modeling multi-modal data from image generation to reinforcement learning (RL). However, the inference process of diffusion model can be slow, which hinders its usage in RL with iterative sampling. We propose to apply the consistency model as an efficient yet expressive policy representation, namely consistency policy, with an actor-critic style algorithm for three typical RL settings: offline, offline-to-online and online. For offline RL, we demonstrate the expressiveness of generative models as policies from multi-modal data. For offline-to-online RL, the consistency policy is shown to be more computational efficient than diffusion policy, with a comparable performance. For online RL, the consistency policy demonstrates significant speedup and even higher average performances than the diffusion policy.
翻訳日:2024-03-19 03:31:41 公開日:2024-03-14
# 自己改善を暗黙的に学習する言語モデルの構築

Enabling Language Models to Implicitly Learn Self-Improvement ( http://arxiv.org/abs/2310.00898v3 )

ライセンス: Link先を確認
Ziqi Wang, Le Hou, Tianjian Lu, Yuexin Wu, Yunxuan Li, Hongkun Yu, Heng Ji, (参考訳) 大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。 しかし、これらのタスクの本質的なオープンエンドな性質は、モデル応答の品質を常に改善する余地があることを暗示している。 この課題に対処するため、LLMの性能を高めるために様々なアプローチが提案されている。 LLMが応答品質を自己改善することに注力し、多種多様な高品質のトレーニングデータを集めるための広範囲な人的アノテーションへの依存を減らしている。 近年, その有効性, 効率, 利便性などにより, 自己改善手法としてプロンプトベースの手法が広く研究されている。 しかしながら、これらの手法は通常、LSMへの入力として明示的に完全に記述されたルーブリックを必要とする。 改善のための現実の複雑な目標(例えば、より有用で有害でないもの)を、手動で引き起こし、すべての必要なルーリックを提供することは、高価で難しい。 この目的のために,人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。 PITは、人間の余分な努力なしに報酬モデルのトレーニングに使用される好みデータのみを必要とする。 具体的には、人間のフィードバック(RLHF)からの強化学習のトレーニング目標を、与えられた入力に対する応答品質を最大化する代わりに、参照応答に条件付けられた応答の質的ギャップを最大化する。 このようにして、PITは人間の好みに合わせた改善目標を暗黙的に訓練する。 実世界の2つのデータセットと1つの合成データセットを用いた実験により,本手法がプロンプトベース手法よりも優れていることが示された。

Large Language Models (LLMs) have demonstrated remarkable capabilities in open-ended text generation tasks. However, the inherent open-ended nature of these tasks implies that there is always room for improvement in the quality of model responses. To address this challenge, various approaches have been proposed to enhance the performance of LLMs. There has been a growing focus on enabling LLMs to self-improve their response quality, thereby reducing the reliance on extensive human annotation efforts for collecting diverse and high-quality training data. Recently, prompting-based methods have been widely explored among self-improvement methods owing to their effectiveness, efficiency, and convenience. However, those methods usually require explicitly and thoroughly written rubrics as inputs to LLMs. It is expensive and challenging to manually derive and provide all necessary rubrics with a real-world complex goal for improvement (e.g., being more helpful and less harmful). To this end, we propose an ImPlicit Self-ImprovemenT (PIT) framework that implicitly learns the improvement goal from human preference data. PIT only requires preference data that are used to train reward models without extra human efforts. Specifically, we reformulate the training objective of reinforcement learning from human feedback (RLHF) -- instead of maximizing response quality for a given input, we maximize the quality gap of the response conditioned on a reference response. In this way, PIT is implicitly trained with the improvement goal of better aligning with human preferences. Experiments on two real-world datasets and one synthetic dataset show that our method significantly outperforms prompting-based methods.
翻訳日:2024-03-19 03:31:41 公開日:2024-03-14
# Consistent-1-to-3:Geometry-Aware Diffusion Modelを用いた3次元画像合成

Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models ( http://arxiv.org/abs/2310.03020v2 )

ライセンス: Link先を確認
Jianglong Ye, Peng Wang, Kejie Li, Yichun Shi, Heng Wang, (参考訳) 単一画像からのゼロショットノベルビュー合成(NVS)は、3次元オブジェクト理解において重要な問題である。 事前学習された生成モデルを活用する最近のアプローチは、既存の入力から高品質な新規ビューを合成することができるが、異なるビュー間での3D一貫性を維持するのに依然として苦労している。 本稿では,この問題を緩和する生成フレームワークであるConsistent-1-to-3を提案する。 具体的には、NVSタスクを2つのステージに分割する。 (i)観察された地域を新しい視点に転換し、 (二)幻覚の未確認地域 これら2つのステージをそれぞれ実行するためのシーン表現変換器とビュー条件拡散モデルの設計を行う。 モデル内では3次元整合性を実現するために,幾何制約を組み込むためにエピポラ誘導の注意と,多視点情報をよりよく集約するために多視点の注意を用いることを提案する。 最後に、一貫したビューの長いシーケンスを生成する階層生成パラダイムを設計し、提供されたオブジェクト画像の完全な360度観察を可能にする。 複数のデータセットに対する定性的かつ定量的な評価は、提案手法が最先端アプローチに対して有効であることを示す。 私たちのプロジェクトページはhttps://jianglongye.com/consistent123/です。

Zero-shot novel view synthesis (NVS) from a single image is an essential problem in 3D object understanding. While recent approaches that leverage pre-trained generative models can synthesize high-quality novel views from in-the-wild inputs, they still struggle to maintain 3D consistency across different views. In this paper, we present Consistent-1-to-3, which is a generative framework that significantly mitigates this issue. Specifically, we decompose the NVS task into two stages: (i) transforming observed regions to a novel view, and (ii) hallucinating unseen regions. We design a scene representation transformer and view-conditioned diffusion model for performing these two stages respectively. Inside the models, to enforce 3D consistency, we propose to employ epipolor-guided attention to incorporate geometry constraints, and multi-view attention to better aggregate multi-view information. Finally, we design a hierarchy generation paradigm to generate long sequences of consistent views, allowing a full 360-degree observation of the provided object image. Qualitative and quantitative evaluation over multiple datasets demonstrates the effectiveness of the proposed mechanisms against state-of-the-art approaches. Our project page is at https://jianglongye.com/consistent123/
翻訳日:2024-03-19 03:21:56 公開日:2024-03-14
# CLIPの一般化性能は、高信頼度テストの類似性から重視されるか?

Does CLIP's Generalization Performance Mainly Stem from High Train-Test Similarity? ( http://arxiv.org/abs/2310.09562v2 )

ライセンス: Link先を確認
Prasanna Mayilvahanan, Thaddäus Wiedemer, Evgenia Rusak, Matthias Bethge, Wieland Brendel, (参考訳) CLIPのようなファンデーションモデルは、数億のサンプルでトレーニングされており、新しいタスクやインプットに懸命に一般化されている。 最初からCLIPは、幅広いアウト・オブ・ディストリビューション(OOD)ベンチマークで、スターゼロショットと少数ショットの機能を提供する。 しかし、CLIPのアウト・オブ・ディストリビューション(out-of-distriion)の一般化のような意味のある用語は、LAIONのようなWebスケールのデータセットが、ImageNet用にもともと設計された一般的なOODベンチマークに類似した多くのサンプルを含んでいる可能性が高いため、疑問視されている。 この仮説をテストするために、私たちは、一般的なOODベンチマークに対するImageNetのトレインテストの類似性を再現する、pruned LAIONスプリットでCLIPを再訓練した。 いくつかのベンチマークのパフォーマンス低下を観察する一方で、驚くべきことに、CLIP全体のパフォーマンスは高いままです。 これは、CLIPのOODパフォーマンスを説明するには高いトレインテストの類似性が不十分であることを示している。 さらに、OODベンチマークと異なるデータポイントを抽出することで、CLIPがオリジナルのOODパフォーマンスに合わせてトレーニングできるLAION($\frac{1}{4}$th)の1億の分割が明らかになった。

Foundation models like CLIP are trained on hundreds of millions of samples and effortlessly generalize to new tasks and inputs. Out of the box, CLIP shows stellar zero-shot and few-shot capabilities on a wide range of out-of-distribution (OOD) benchmarks, which prior works attribute mainly to today's large and comprehensive training dataset (like LAION). However, it is questionable how meaningful terms like out-of-distribution generalization are for CLIP as it seems likely that web-scale datasets like LAION simply contain many samples that are similar to common OOD benchmarks originally designed for ImageNet. To test this hypothesis, we retrain CLIP on pruned LAION splits that replicate ImageNet's train-test similarity with respect to common OOD benchmarks. While we observe a performance drop on some benchmarks, surprisingly, CLIP's overall performance remains high. This shows that high train-test similarity is insufficient to explain CLIP's OOD performance, and other properties of the training data must drive CLIP to learn more generalizable representations. Additionally, by pruning data points that are dissimilar to the OOD benchmarks, we uncover a 100M split of LAION ($\frac{1}{4}$th of its original size) on which CLIP can be trained to match its original OOD performance.
翻訳日:2024-03-19 02:23:27 公開日:2024-03-14
# $W$ stateは、任意の地元のハミルトンの独特な基底状態ではない

$W$ state is not the unique ground state of any local Hamiltonian ( http://arxiv.org/abs/2310.10716v2 )

ライセンス: Link先を確認
Lei Gioia, Ryan Thorngren, (参考訳) すべての量子状態の基底状態の特徴づけは、量子多体物理学において重要な問題である。 例えば、ギャップを持つハミルトニアンに対する有望な絡み合い領域の法則は、行列積状態を用いて1dといくつかの2d量子系の効率的なシミュレーションを可能にした。 基底状態の中では、(GHZ状態のような)猫状態や位相的に秩序づけられた状態のようないくつかの型は、自発対称性の破れの理論から理解されるように、縮退したパートナーとともにのみ現れる。 本研究では, ギャップレスモデルや乱れモデルであっても, 正確に縮退したパートナーとともに, 基底状態としてのみ発生可能な$W$状態を含む, 新しい単純な状態のクラスを導入する。 これらの状態は安定なギャップ付き基底状態多様体の要素ではないことが示され、ギャップ付き位相の数値探索において、広範囲の「不安定な」絡み合い領域の法則を破棄する新しい方法が提供される可能性がある。 一方、これらの退化状態がギャップのない系の基底状態であるとき、それらは$O(1/L^2)$有限サイズ分裂を持つ励起スペクトルを持つ。 この特別なギャップレスが生じる一般的な状況の1つは、ゼロモードによるリフシッツ転移であり、そのような臨界点の潜在的な量子状態シグネチャである。 我々は、病理学上の親ハミルトニアンを探求し、高次元や他の関連する状態への一般化と、多体量子系の熱力学的限界を理解するための意味について論じる。

The characterization of ground states among all quantum states is an important problem in quantum many-body physics. For example, the celebrated entanglement area law for gapped Hamiltonians has allowed for efficient simulation of 1d and some 2d quantum systems using matrix product states. Among ground states, some types, such as cat states (like the GHZ state) or topologically ordered states, can only appear alongside their degenerate partners, as is understood from the theory of spontaneous symmetry breaking. In this work, we introduce a new class of simple states, including the $W$ state, that can only occur as a ground state alongside an exactly degenerate partner, even in gapless or disordered models. We show that these states are never an element of a stable gapped ground state manifold, which may provide a new method to discard a wide range of 'unstable' entanglement area law states in the numerical search of gapped phases. On the other hand when these degenerate states are the ground states of gapless systems they possess an excitation spectrum with $O(1/L^2)$ finite-size splitting. One familiar situation where this special kind of gaplessness occurs is at a Lifshitz transition due to a zero mode; a potential quantum state signature of such a critical point. We explore pathological parent Hamiltonians, and discuss generalizations to higher dimensions, other related states, and implications for understanding thermodynamic limits of many-body quantum systems.
翻訳日:2024-03-19 02:13:39 公開日:2024-03-14
# LMの整列化のための構成選好モデル

Compositional preference models for aligning LMs ( http://arxiv.org/abs/2310.13011v2 )

ライセンス: Link先を確認
Dongyoung Go, Tomasz Korbak, Germán Kruszewski, Jos Rozen, Marc Dymetman, (参考訳) 言語モデル(LM)がより有能になるにつれて、それらを人間の好みに合わせることがますます重要である。 しかし、その目的のために優先度モデル(PM)をトレーニングする主要なパラダイムは、透明性の欠如やスケーラビリティの欠如といった基本的な制限と、好みのデータセットを過度に適合させる可能性に悩まされている。 本稿では,1つのグローバルな選好評価をいくつかの解釈可能な特徴に分解する新しいPMフレームワークであるCPMを提案し,これらの特徴のスカラースコアを誘導されたLMから取得し,ロジスティック回帰分類器を用いてこれらのスコアを集約する。 これらの単純なステップを通じて、CPMは、選好データのどの特性を使用して選好モデルを訓練するかを制御し、人間の選好判断を過小評価していると思われる特徴に基づいて構築することができる。 実験の結果, CPM は一般の PM よりも一般化が向上し, 過最適化に強いだけでなく, 従来の PM よりも CPM を用いたベスト・オブ・n 標本の方が好まれることが示された。 全体として,提案手法は,ヒトの嗜好を決定する機能と,スケーラブルでロバストな方法でこれらの機能を抽出するLM機能に頼って,PMを先行する利点を示すものである。

As language models (LMs) become more capable, it is increasingly important to align them with human preferences. However, the dominant paradigm for training Preference Models (PMs) for that purpose suffers from fundamental limitations, such as lack of transparency and scalability, along with susceptibility to overfitting the preference dataset. We propose Compositional Preference Models (CPMs), a novel PM framework that decomposes one global preference assessment into several interpretable features, obtains scalar scores for these features from a prompted LM, and aggregates these scores using a logistic regression classifier. Through these simple steps, CPMs allow to control which properties of the preference data are used to train the preference model and to build it based on features that are believed to underlie the human preference judgment. Our experiments show that CPMs not only improve generalization and are more robust to overoptimization than standard PMs, but also that best-of-n samples obtained using CPMs tend to be preferred over samples obtained using conventional PMs. Overall, our approach demonstrates the benefits of endowing PMs with priors about which features determine human preferences while relying on LM capabilities to extract those features in a scalable and robust way.
翻訳日:2024-03-19 01:54:08 公開日:2024-03-14
# 任意スケール超解像のための熱活性化型ニューラルフィールド

Neural Fields with Thermal Activations for Arbitrary-Scale Super-Resolution ( http://arxiv.org/abs/2311.17643v2 )

ライセンス: Link先を確認
Alexander Becker, Rodrigo Caye Daudt, Nando Metzger, Jan Dirk Wegner, Konrad Schindler, (参考訳) 任意のスケールの単一画像超解像(ASSR)に対する最近のアプローチでは、任意の速度でサンプリングできる連続的な信号を表現するために局所的なニューラルネットワークが用いられている。 しかし、ニューラルネットワークのポイントワイズクエリは、与えられたピクセルのポイントスプレッド関数(PSF)と自然に一致せず、超解像のエイリアスを引き起こす可能性がある。 本稿では、任意の出力解像度で正しいアンチエイリアスを保証するために、適応的なガウスPSFで点をクエリできるような、新しい設計手法を提案する。 これをフーリエ理論から導かれた新しい活性化関数で実現する。 サンプリング理論に準拠するガウスPSFの問合せポイントは、画像領域のフィルタリングとは異なり、我々のフレームワークに余分な計算コストを発生させることはない。 理論的に保証されたアンチエイリアスにより、本手法は従来の手法よりもパラメータ効率が良いASSRの新たな最先端技術を設定する。 特に、私たちのモデルの最小バージョンでさえ、ほとんどの場合、以前のメソッドよりも優れています。 コードと事前訓練されたモデルはhttps://github.com/prs-eth/thera.comで入手できる。

Recent approaches for arbitrary-scale single image super-resolution (ASSR) have used local neural fields to represent continuous signals that can be sampled at arbitrary rates. However, the point-wise query of the neural field does not naturally match the point spread function (PSF) of a given pixel, which may cause aliasing in the super-resolved image. We present a novel way to design neural fields such that points can be queried with an adaptive Gaussian PSF, so as to guarantee correct anti-aliasing at any desired output resolution. We achieve this with a novel activation function derived from Fourier theory. Querying points with a Gaussian PSF, compliant with sampling theory, does not incur any additional computational cost in our framework, unlike filtering in the image domain. With its theoretically guaranteed anti-aliasing, our method sets a new state of the art for ASSR, while being more parameter-efficient than previous methods. Notably, even a minimal version of our model still outperforms previous methods in most cases, while adding 2-4 orders of magnitude fewer parameters. Code and pretrained models are available at https://github.com/prs-eth/thera.
翻訳日:2024-03-18 22:53:06 公開日:2024-03-14
# GAPS:幾何学的、物理的、自己監督型ニューラルガードドレーピング

GAPS: Geometry-Aware, Physics-Based, Self-Supervised Neural Garment Draping ( http://arxiv.org/abs/2312.01490v2 )

ライセンス: Link先を確認
Ruochen Chen, Liming Chen, Shaifali Parashar, (参考訳) 最近の神経物理学に基づく衣服の変形のモデリングは、既存の方法とは対照的に、より速く、視覚的に美的な結果をもたらす。 材料固有のパラメータは、衣服の伸縮性を制御するために定式化によって使用される。 これは物理的に不可解なストレッチで非現実的な結果をもたらす。 しばしば、ドレープされた衣服は、高価な後処理によって修正されるか、さらなる不整合性ストレッチを追加するか、または体型ごとに個別のトレーニングレギュレーションを配置することにより、そのスケーラビリティを制限する。 さらに、既存の方法によって展開される欠陥のあるスキン処理は、ゆるい服に不正な結果をもたらす。 本稿では,衝突を意識した既存の定式化に幾何的制約を導入し,可能な限り衣料の不拡張を課す。 そこで我々は,大面積の体域を覆いながら,ドレープした衣服が伸びる現実的な結果を得た。 さらに,着物の種類,特にゆるい着物に対して機能する体着クローズネス尺度を定義することにより,形状に配慮した着物スキンニング手法を提案する。

Recent neural, physics-based modeling of garment deformations allows faster and visually aesthetic results as opposed to the existing methods. Material-specific parameters are used by the formulation to control the garment inextensibility. This delivers unrealistic results with physically implausible stretching. Oftentimes, the draped garment is pushed inside the body which is either corrected by an expensive post-processing, thus adding to further inconsistent stretching; or by deploying a separate training regime for each body type, restricting its scalability. Additionally, the flawed skinning process deployed by existing methods produces incorrect results on loose garments. In this paper, we introduce a geometrical constraint to the existing formulation that is collision-aware and imposes garment inextensibility wherever possible. Thus, we obtain realistic results where draped clothes stretch only while covering bigger body regions. Furthermore, we propose a geometry-aware garment skinning method by defining a body-garment closeness measure which works for all garment types, especially the loose ones.
翻訳日:2024-03-18 22:43:22 公開日:2024-03-14
# EMDM:高速かつ高品質な運動生成のための効率的な運動拡散モデル

EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation ( http://arxiv.org/abs/2312.02256v2 )

ライセンス: Link先を確認
Wenyang Zhou, Zhiyang Dou, Zeyu Cao, Zhouyingcheng Liao, Jingbo Wang, Wenjia Wang, Yuan Liu, Taku Komura, Wenping Wang, Lingjie Liu, (参考訳) 高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。 現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。 一方、運動潜伏拡散のような以前の研究は、効率性のために潜伏空間内で拡散を行うが、そのような潜伏空間を学ぶことは自明な努力である。 一方, サンプリングステップサイズ, 例えばDDIMの増大により生成が加速すると, 複雑なデノナイジング分布の近似に失敗するため, 品質劣化が生じることが多い。 これらの問題に対処するために,拡散モデルにおける複数のサンプリングステップの複雑な分布を捉えるEMDMを提案する。 これは、制御信号に条件付けされた任意の(そして潜在的に大きな)ステップサイズのマルチモーダルデータ分布をキャプチャする条件付きデノナイズ拡散GANにより達成され、高い忠実度と多様性を持つ少ないステップモーションサンプリングが可能となる。 望ましくない運動アーティファクトを最小限にするために、ネットワーク学習中に幾何学的損失が課される。 その結果、EMDMはリアルタイムな動き生成を実現し、高品質な動き生成を実現しつつ、既存の手法と比較して、動き拡散モデルの効率を大幅に向上する。 私たちのコードは出版時に公開されます。

We introduce Efficient Motion Diffusion Model (EMDM) for fast and high-quality human motion generation. Current state-of-the-art generative diffusion models have produced impressive results but struggle to achieve fast generation without sacrificing quality. On the one hand, previous works, like motion latent diffusion, conduct diffusion within a latent space for efficiency, but learning such a latent space can be a non-trivial effort. On the other hand, accelerating generation by naively increasing the sampling step size, e.g., DDIM, often leads to quality degradation as it fails to approximate the complex denoising distribution. To address these issues, we propose EMDM, which captures the complex distribution during multiple sampling steps in the diffusion model, allowing for much fewer sampling steps and significant acceleration in generation. This is achieved by a conditional denoising diffusion GAN to capture multimodal data distributions among arbitrary (and potentially larger) step sizes conditioned on control signals, enabling fewer-step motion sampling with high fidelity and diversity. To minimize undesired motion artifacts, geometric losses are imposed during network learning. As a result, EMDM achieves real-time motion generation and significantly improves the efficiency of motion diffusion models compared to existing methods while achieving high-quality motion generation. Our code will be publicly available upon publication.
翻訳日:2024-03-18 22:43:22 公開日:2024-03-14
# 貯水池計算を用いた細胞内非遺伝情報ダイナミクスのモデル化

Modeling non-genetic information dynamics in cells using reservoir computing ( http://arxiv.org/abs/2312.07977v2 )

ライセンス: Link先を確認
Dipesh Niraula, Issam El Naqa, Jack Adam Tuszynski, Robert A. Gatenby, (参考訳) 事実上全ての細胞はエネルギーとイオン特異的膜ポンプを使用し、Na$^+$、K$^+$、Cl$^-$、Mg$^{++}$、Ca$^{++}$の大きな膜膜勾配を維持する。 細胞のエネルギー予算の1/3を消費するが、膜貫通イオン勾配の進化的な利点はいまだ不明である。 本稿では, 環境情報を取得し, 分析し, 応答する動的で汎用的な生体システムを実現するためのイオン勾配を提案する。 環境シグナルは、ゲートイオン特異的膜チャネルを介して、既存の勾配に沿ってイオンフラックスによって細胞に伝達される。 その後の細胞質イオン濃度の変化は、局所的な反応を生じさせ、ワイヤ状イオンフラックスを介して、既存の自己集合性細胞骨格に沿ってグローバルまたは局所的な反応を編成し、小胞体、ミトコンドリア、核に作用させる。 ここでは, 細胞内イオン情報力学を, 複雑な非線形動的細胞挙動を学習可能な時空間分解型細胞応答を許容するサブセルプロセスとして扱う, 準物理(セル貯留層)モデルを用いて仮説を定式化する。 提案したイオン力学は,実験観測と一致した情報外部摂動に対する応答の迅速な拡散を可能にすることを実証する。

Virtually all cells use energy and ion-specific membrane pumps to maintain large transmembrane gradients of Na$^+$, K$^+$, Cl$^-$, Mg$^{++}$, and Ca$^{++}$. Although they consume up to 1/3 of a cell's energy budget, the corresponding evolutionary benefit of transmembrane ion gradients remain unclear. Here, we propose that ion gradients enable a dynamic and versatile biological system that acquires, analyzes, and responds to environmental information. We hypothesize environmental signals are transmitted into the cell by ion fluxes along pre-existing gradients through gated ion-specific membrane channels. The consequent changes of cytoplasmic ion concentration can generate a local response and orchestrate global or regional responses through wire-like ion fluxes along pre-existing and self-assembling cytoskeleton to engage the endoplasmic reticulum, mitochondria, and nucleus. Here, we frame our hypothesis through a quasi-physical (Cell-Reservoir) model that treats intra-cellular ion-based information dynamics as a sub-cellular process permitting spatiotemporally resolved cellular response that is also capable of learning complex nonlinear dynamical cellular behavior. We demonstrate the proposed ion dynamics permits rapid dissemination of response to information extrinsic perturbations that is consistent with experimental observations.
翻訳日:2024-03-18 22:43:22 公開日:2024-03-14
# VideoPoet: ゼロショットビデオ生成のための大規模言語モデル

VideoPoet: A Large Language Model for Zero-Shot Video Generation ( http://arxiv.org/abs/2312.14125v2 )

ライセンス: Link先を確認
Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Rachel Hornung, Hartwig Adam, Hassan Akbari, Yair Alon, Vighnesh Birodkar, Yong Cheng, Ming-Chang Chiu, Josh Dillon, Irfan Essa, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, David Ross, Grant Schindler, Mikhail Sirotenko, Kihyuk Sohn, Krishna Somandepalli, Huisheng Wang, Jimmy Yan, Ming-Hsuan Yang, Xuan Yang, Bryan Seybold, Lu Jiang, (参考訳) 本稿では,多種多様な条件信号から高品質な映像と音声を合成可能な言語モデルであるVideoPoetを提案する。 VideoPoetは、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。 トレーニングプロトコルはLarge Language Models (LLM)の後継で、事前訓練とタスク固有の適応という2つの段階で構成されている。 事前トレーニング中、VideoPoetは自動回帰トランスフォーマーフレームワークにマルチモーダル生成目的の混合を組み込んでいる。 事前訓練されたLLMは、様々なビデオ生成タスクに適応できる基盤として機能する。 ゼロショットビデオ生成におけるモデルの現状を示す実証実験の結果,特に高忠実度モーションを生成する VideoPoet の能力を強調した。 プロジェクトページ: http://sites.research.google/videopoet/

We present VideoPoet, a language model capable of synthesizing high-quality video, with matching audio, from a large variety of conditioning signals. VideoPoet employs a decoder-only transformer architecture that processes multimodal inputs -- including images, videos, text, and audio. The training protocol follows that of Large Language Models (LLMs), consisting of two stages: pretraining and task-specific adaptation. During pretraining, VideoPoet incorporates a mixture of multimodal generative objectives within an autoregressive Transformer framework. The pretrained LLM serves as a foundation that can be adapted for a range of video generation tasks. We present empirical results demonstrating the model's state-of-the-art capabilities in zero-shot video generation, specifically highlighting VideoPoet's ability to generate high-fidelity motions. Project page: http://sites.research.google/videopoet/
翻訳日:2024-03-18 22:33:38 公開日:2024-03-14
# 深層学習, 注意機構, エネルギーによる不確かさ予測に基づく脳腫瘍の分節

Brain Tumor Segmentation Based on Deep Learning, Attention Mechanisms, and Energy-Based Uncertainty Prediction ( http://arxiv.org/abs/2401.00587v2 )

ライセンス: Link先を確認
Zachary Schwehr, Sriman Achanta, (参考訳) 脳腫瘍は、死亡率80%を超える最も致命的ながんの1つである。 迅速かつ正確な診断は生存可能性を高めるために不可欠である。 しかし、医学的な分析では、脳腫瘍の手動アノテーションとセグメンテーションは複雑な作業である可能性がある。 腫瘍領域に関するユニークな情報を提供するため、複数のMRIモダリティが典型的に分析される。 これらのMRIモダリティはグリオーマの分画に有用であるが、オーバーフィッティングや計算量を増加させる傾向にある。 本稿では,データ前処理中に実装された関心領域検出アルゴリズムを提案する。 これにより入力サイズが小さくなり、より積極的なデータ拡張とより深いニューラルネットワークが可能になる。 MRIモダリティの事前処理の後、ソフトアテンションを持つ完全畳み込みオートエンコーダは、異なる脳MRIを分割する。 これらのディープラーニングアルゴリズムが実際に実装されている場合、アナリストや医師は正確な予測と不正確な予測を区別することはできない。 その後、ボクセルに基づく不確実性予測のために、試験時間増強とエネルギーベースモデルが使用された。 実験はBraTSベンチマークで行われ、最先端のセグメンテーション性能を達成した。 さらに、セグメンテーションモデルと不確実性予測を評価するために定性的な結果が用いられた。

Brain tumors are one of the deadliest forms of cancer with a mortality rate of over 80%. A quick and accurate diagnosis is crucial to increase the chance of survival. However, in medical analysis, the manual annotation and segmentation of a brain tumor can be a complicated task. Multiple MRI modalities are typically analyzed as they provide unique information regarding the tumor regions. Although these MRI modalities are helpful for segmenting gliomas, they tend to increase overfitting and computation. This paper proposes a region of interest detection algorithm that is implemented during data preprocessing to locate salient features and remove extraneous MRI data. This decreases the input size, allowing for more aggressive data augmentations and deeper neural networks. Following the preprocessing of the MRI modalities, a fully convolutional autoencoder with soft attention segments the different brain MRIs. When these deep learning algorithms are implemented in practice, analysts and physicians cannot differentiate between accurate and inaccurate predictions. Subsequently, test time augmentations and an energy-based model were used for voxel-based uncertainty predictions. Experimentation was conducted on the BraTS benchmarks and achieved state-of-the-art segmentation performance. Additionally, qualitative results were used to assess the segmentation models and uncertainty predictions.
翻訳日:2024-03-18 22:33:38 公開日:2024-03-14
# 大言語モデルにおけるゼロショット抽象要約の再検討 : 位置バイアスの観点から

Revisiting Zero-Shot Abstractive Summarization in the Era of Large Language Models from the Perspective of Position Bias ( http://arxiv.org/abs/2401.01989v2 )

ライセンス: Link先を確認
Anshuman Chhabra, Hadi Askari, Prasant Mohapatra, (参考訳) 本研究では, 位置バイアスを測定することで, 大規模言語モデル(LLM)におけるゼロショット抽象的要約を特徴づけ, 研究し, 従来研究されていたより制限的な鉛バイアス現象の一般的な定式化として提案する。 位置バイアスは入力テキストの特定の部分からの情報を不当に優先するモデルの傾向を捉え、望ましくない振る舞いをもたらす。 GPT 3.5-Turbo, Llama-2, Dolly-v2 などの複数の LLM モデルにおける位置バイアスと,Pegasus や BART などの最先端のエンコーダデコーダ・デコーダ抽象要約モデルについて検討した。 その結果,ゼロショット要約タスクにおけるモデルの性能と位置バイアスに関する新たな洞察と議論につながった。

We characterize and study zero-shot abstractive summarization in Large Language Models (LLMs) by measuring position bias, which we propose as a general formulation of the more restrictive lead bias phenomenon studied previously in the literature. Position bias captures the tendency of a model unfairly prioritizing information from certain parts of the input text over others, leading to undesirable behavior. Through numerous experiments on four diverse real-world datasets, we study position bias in multiple LLM models such as GPT 3.5-Turbo, Llama-2, and Dolly-v2, as well as state-of-the-art pretrained encoder-decoder abstractive summarization models such as Pegasus and BART. Our findings lead to novel insights and discussion on performance and position bias of models for zero-shot summarization tasks.
翻訳日:2024-03-18 22:33:38 公開日:2024-03-14
# 炭化ケイ素導波路繊維界面の精密評価

Precise characterization of a silicon carbide waveguide fiber interface ( http://arxiv.org/abs/2401.06096v2 )

ライセンス: Link先を確認
Marcel Krumrein, Oliver von Berg, Raphael Nold, Flavie Davidson-Marquis, Arthur Bourama, Lukas Niechziol, Timo Steidl, Ruoming Peng, Jonathan Körber, Rainer Stöhr, Nils Gross, Jurgen Smet, Jawad Ul-Hassan, Péter Udvarhelyi, Adam Gali, Florian Kaiser, Jörg Wrachtrup, (参考訳) 4H-SiCのような高屈折率材料中のエミッタは、内部反射による損失により光子の検出が減少する。 したがって、光子の放出を適切に定義された導波路モードに結合する効率的なナノフォトニック構造への統合は、光子検出効率を著しく向上させることができる。 さらに、この導波路を古典的なファイバーネットワークに対向させることは、光子を検出し実験を行うためにも同様に重要である。 ここではSiCの導波路繊維界面について述べる。 慎重な測定により、SiCナノビームから繊維への光子の移動効率は93%を超える。 我々はこのインタフェースを用いて4H-SiCにおける導波路集積V2欠陥に基づく明るい単一光子源を作成し、181,000カウント/秒の総光子カウント率を得る。 我々は、基底状態スピン状態のひずみ誘起シフトを観察し、T2=42.5$\rm\mu$sのコヒーレンス時間で電子スピンのコヒーレント制御を示す。

Emitters in high refractive index materials like 4H-SiC suffer from reduced detection of photons because of losses caused by total internal reflection. Thus, integration into efficient nanophotonic structures which couple the emission of photons to a well defined waveguide mode can significantly enhance the photon detection efficiency. In addition, interfacing this waveguide to a classical fiber network is of similar importance to detect the photons and perform experiments. Here, we show a waveguide fiber interface in SiC. By careful measurements we determine efficiencies exceeding 93 % for the transfer of photons from SiC nanobeams to fibers. We use this interface to create a bright single photon source based on waveguide integrated V2 defects in 4H-SiC and achieve an overall photon count rate of 181,000 counts/s. We observe and quantify the strain induced shift of the ground state spin states and demonstrate coherent control of the electron spin with a coherence time of T2=42.5 $\rm\mu$s.
翻訳日:2024-03-18 22:33:38 公開日:2024-03-14
# ニューラルパターンアソシエータによるバスケ内勧告

Within-basket Recommendation via Neural Pattern Associator ( http://arxiv.org/abs/2401.16433v2 )

ライセンス: Link先を確認
Kai Luo, Tianshu Shen, Lan Yao, Ga Wu, Aaron Liblong, Istvan Fehervari, Ruijian An, Jawad Ahmed, Harshit Mishra, Charu Pujari, (参考訳) バスケ内推薦(バスケ内推薦、英語:Inside-Basket Recommation、WBR)とは、ショッピングセッション中に空でない買い物バスケットを完了するまで商品を推薦するタスクである。 この分野における最新のイノベーションは、ベンチマークデータセットのパフォーマンスが著しく向上したことを示しているが、実際にはユーザ行動の複雑さを見落としていることが多い。 1) 複数のショッピング意図の共存 2)そのような意図の多粒度,及び 3)ショッピングセッションにおける相互行為(スイッチング意図)。 本稿では,上記の因子を明示的にモデル化したディープアイテム・アソシエーション・マイニング・モデルであるNeural Pattern Associator (NPA)を提案する。 具体的には、ベクトル量子化にインスパイアされたNPAモデルは、共通のユーザ意図(またはアイテム結合パターン)を量子化表現(コードブック)として符号化することを学び、推論フェーズ中に注意駆動的なルックアップを通じてユーザのショッピング意図を識別する。 これによりコヒーレントで自己解釈可能なレコメンデーションが得られる。 提案したNPAモデルは,食品電子商取引(買い物バスケット完備)と音楽(プレイリスト拡張)の領域を包含する複数の広範囲なデータセットにまたがって評価した結果,NPAモデルは,複雑なユーザ意図を明示的にモデル化することのメリットを反映して,既存のWBRソリューションよりも大幅に優れていることが示された。

Within-basket recommendation (WBR) refers to the task of recommending items to the end of completing a non-empty shopping basket during a shopping session. While the latest innovations in this space demonstrate remarkable performance improvement on benchmark datasets, they often overlook the complexity of user behaviors in practice, such as 1) co-existence of multiple shopping intentions, 2) multi-granularity of such intentions, and 3) interleaving behavior (switching intentions) in a shopping session. This paper presents Neural Pattern Associator (NPA), a deep item-association-mining model that explicitly models the aforementioned factors. Specifically, inspired by vector quantization, the NPA model learns to encode common user intentions (or item-combination patterns) as quantized representations (a.k.a. codebook), which permits identification of users's shopping intentions via attention-driven lookup during the reasoning phase. This yields coherent and self-interpretable recommendations. We evaluated the proposed NPA model across multiple extensive datasets, encompassing the domains of grocery e-commerce (shopping basket completion) and music (playlist extension), where our quantitative evaluations show that the NPA model significantly outperforms a wide range of existing WBR solutions, reflecting the benefit of explicitly modeling complex user intentions.
翻訳日:2024-03-18 22:23:54 公開日:2024-03-14
# 深層学習におけるパラメータ効率の良い微調整のための視覚プロンプトからのセマンティックプロキシの学習

Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning ( http://arxiv.org/abs/2402.02340v2 )

ライセンス: Link先を確認
Li Ren, Chen Chen, Liqiang Wang, Kien Hua, (参考訳) ディープラーニング(Deep Metric Learning, DML)は、機械学習コミュニティの注目を集めてきた。 既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。 大規模データセットからトレーニングされた最近の事前学習モデルの成功により、以前得られた知識を維持しながら、ローカルデータ領域のDMLタスクにモデルを適応させることは困難である。 本稿では,DMLタスクの事前学習モデルを微調整するためのパラメータ効率の手法について検討する。 特に、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新規で効果的なフレームワークを提案する。 従来のプロキシベースのDMLパラダイムに基づいて、入力画像とViTからのセマンティック情報を組み込むことでプロキシを強化し、各クラスに対する視覚的プロンプトを最適化する。 我々は,意味情報を用いた新しい近似が代表的能力よりも優れていることを実証し,メートル法学習性能を向上した。 提案するフレームワークは,一般的なDMLベンチマークを評価することで,効率的かつ効果的であることを示すため,広範な実験を行っている。 特に,我々のファインチューニング手法は,DMLの最近の最先端のファインチューニングと同等あるいはそれ以上の性能を達成できる一方で,総パラメータのわずかな割合しかチューニングできないことを示す。

Deep Metric Learning (DML) has long attracted the attention of the machine learning community as a key objective. Existing solutions concentrate on fine-tuning the pre-trained models on conventional image datasets. As a result of the success of recent pre-trained models trained from larger-scale datasets, it is challenging to adapt the model to the DML tasks in the local data domain while retaining the previously gained knowledge. In this paper, we investigate parameter-efficient methods for fine-tuning the pre-trained model for DML tasks. In particular, we propose a novel and effective framework based on learning Visual Prompts (VPT) in the pre-trained Vision Transformers (ViT). Based on the conventional proxy-based DML paradigm, we augment the proxy by incorporating the semantic information from the input image and the ViT, in which we optimize the visual prompts for each class. We demonstrate that our new approximations with semantic information are superior to representative capabilities, thereby improving metric learning performance. We conduct extensive experiments to demonstrate that our proposed framework is effective and efficient by evaluating popular DML benchmarks. In particular, we demonstrate that our fine-tuning method achieves comparable or even better performance than recent state-of-the-art full fine-tuning works of DML while tuning only a small percentage of total parameters.
翻訳日:2024-03-18 22:23:54 公開日:2024-03-14
# 胸部解剖学的セグメンテーションのための3次元U字深部学習モデルのアーキテクチャ解析とベンチマーク

Architecture Analysis and Benchmarking of 3D U-shaped Deep Learning Models for Thoracic Anatomical Segmentation ( http://arxiv.org/abs/2402.03230v2 )

ライセンス: Link先を確認
Arash Harirpoush, Amirhossein Rasoulian, Marta Kersten-Oertel, Yiming Xiao, (参考訳) 近年,患者の胸腔鏡下手術計画とシミュレーションへの関心が高まっている。 深層学習(DL)は現在,様々な放射線学課題において最先端であり,U字型DLモデルは2D UNetの登場以来,特に医用画像のセグメンテーションに優れてきた。 これまで、異なる注意機構とネットワーク構成を統合することで、多くのU字型モデルが提案されてきた。 マルチラベルデータベースの最近の発展を利用してこれらのモデルのアーキテクチャを解析するシステムベンチマーク研究は、臨床展開と将来のモデル設計に貴重な洞察を与えることができるが、これらの研究はいまだに稀である。 胸椎手術におけるCTベースの解剖学的セグメント化に着目し, 3D U-shaped model (3DUNet, STUNet, AttentionUNet, SwinUNETR, FocalSegNet, and a novel 3D SwinUnet with four variants) の変種に対する最初の系統的ベンチマークを行った。 本研究では,異なる注意機構,解像度ステージ数,ネットワーク構成がセグメンテーション精度および計算複雑性に与える影響を系統的に検討した。 また,他のベンチマーク研究と相互参照できるように,BTCV腹壁構造セグメンテーションの性能評価も行った。 最上位のSTUNetでは,CNNをベースとしたU字型モデルの課題に対する価値と,セグメント化性能を高めるためのネットワーク構成設計における残差ブロックの利点を実証した。

Recent rising interests in patient-specific thoracic surgical planning and simulation require efficient and robust creation of digital anatomical models from automatic medical image segmentation algorithms. Deep learning (DL) is now state-of-the-art in various radiological tasks, and U-shaped DL models have particularly excelled in medical image segmentation since the inception of the 2D UNet. To date, many variants of U-shaped models have been proposed by the integration of different attention mechanisms and network configurations. Systematic benchmark studies which analyze the architecture of these models by leveraging the recent development of the multi-label databases, can provide valuable insights for clinical deployment and future model designs, but such studies are still rare. We conduct the first systematic benchmark study for variants of 3D U-shaped models (3DUNet, STUNet, AttentionUNet, SwinUNETR, FocalSegNet, and a novel 3D SwinUnet with four variants) with a focus on CT-based anatomical segmentation for thoracic surgery. Our study systematically examines the impact of different attention mechanisms, the number of resolution stages, and network configurations on segmentation accuracy and computational complexity. To allow cross-reference with other recent benchmarking studies, we also included a performance assessment of the BTCV abdominal structural segmentation. With the STUNet ranking at the top, our study demonstrated the value of CNN-based U-shaped models for the investigated tasks and the benefit of residual blocks in network configuration designs to boost segmentation performance.
翻訳日:2024-03-18 22:23:54 公開日:2024-03-14
# WhisperFuzz:プロセッサのタイミング脆弱性を検出するためのホワイトボックスファズ

WhisperFuzz: White-Box Fuzzing for Detecting and Locating Timing Vulnerabilities in Processors ( http://arxiv.org/abs/2402.03704v2 )

ライセンス: Link先を確認
Pallavi Borkar, Chen Chen, Mohamadreza Rostami, Nikhilesh Singh, Rahul Kande, Ahmad-Reza Sadeghi, Chester Rebeiro, Jeyavijayan Rajendran, (参考訳) プロセッサのタイミング脆弱性は強力な脅威として浮上している。 プロセッサがあらゆるコンピューティングシステムの基盤であるため、これらの欠陥を特定することは必須である。 近年,ソフトウェア脆弱性の検出に用いられてきたファジィング技術は,プロセッサなどの大規模ハードウェア設計における脆弱性の発見に有望な結果を示している。 研究者は、プロセッサのタイミング脆弱性を検出するためにブラックボックスまたはグレイボックスファジィを適応した。 しかし、これらのタイミング脆弱性の場所や根本原因を特定することはできず、また、プロセッサのセキュリティに対するデザイナの信頼性を高めるためのカバレッジフィードバックも提供しない。 既存のファジィの欠陥に対処するため,プロセッサのタイミング脆弱性を検出し,検出し,微構造的タイミング行動のカバレッジを評価するための静的解析を行う最初のホワイトボックスファジィであるWhisperFuzzを提案する。 WhisperFuzzは、プロセッサのタイミング動作、マイクロアーキテクチャの状態遷移の基本的な性質を使用して、タイミング脆弱性をローカライズする。 WhisperFuzzは、レジスタ転送レベル(RTL)のプロセッサ設計から自動的にマイクロアーキテクチャの状態遷移を抽出し、その設計をカバー範囲として状態遷移を監視する。 さらに、WhisperFuzzは、DUT(Design-under-test)がテスト処理に要する時間を測定し、タイミングの脆弱性を示唆する小さな異常なバリエーションを特定する。 WhisperFuzzは、先進的なオープンソースRISC-Vプロセッサ(BOOM、Rocket Core、CVA6)で12の新たなタイミング脆弱性を検出する。 そのうち8つはZkt拡張のゼロレイテンシ要件に違反しており、深刻なセキュリティ脆弱性と見なされている。 さらに、WhisperFuzzは、新しい脆弱性と既存の脆弱性の位置も特定する。

Timing vulnerabilities in processors have emerged as a potent threat. As processors are the foundation of any computing system, identifying these flaws is imperative. Recently fuzzing techniques, traditionally used for detecting software vulnerabilities, have shown promising results for uncovering vulnerabilities in large-scale hardware designs, such as processors. Researchers have adapted black-box or grey-box fuzzing to detect timing vulnerabilities in processors. However, they cannot identify the locations or root causes of these timing vulnerabilities, nor do they provide coverage feedback to enable the designer's confidence in the processor's security. To address the deficiencies of the existing fuzzers, we present WhisperFuzz--the first white-box fuzzer with static analysis--aiming to detect and locate timing vulnerabilities in processors and evaluate the coverage of microarchitectural timing behaviors. WhisperFuzz uses the fundamental nature of processors' timing behaviors, microarchitectural state transitions, to localize timing vulnerabilities. WhisperFuzz automatically extracts microarchitectural state transitions from a processor design at the register-transfer level (RTL) and instruments the design to monitor the state transitions as coverage. Moreover, WhisperFuzz measures the time a design-under-test (DUT) takes to process tests, identifying any minor, abnormal variations that may hint at a timing vulnerability. WhisperFuzz detects 12 new timing vulnerabilities across advanced open-sourced RISC-V processors: BOOM, Rocket Core, and CVA6. Eight of these violate the zero latency requirements of the Zkt extension and are considered serious security vulnerabilities. Moreover, WhisperFuzz also pinpoints the locations of the new and the existing vulnerabilities.
翻訳日:2024-03-18 22:23:54 公開日:2024-03-14
# 問題解決のための分数分解プログラムによる大規模言語モデルの提案

Prompting Large Language Models with Divide-and-Conquer Program for Discerning Problem Solving ( http://arxiv.org/abs/2402.05359v3 )

ライセンス: Link先を確認
Yizhou Zhang, Lun Du, Defu Cao, Qiang Fu, Yan Liu, (参考訳) LLM(Large Language Models)のような基礎的なモデルは、多数のアプリケーションによって大きな関心を集めている。 既存の研究は、Chain-of-Thoughtsのような適切なプロンプト設計が、様々な分野でLLMの強力な能力を解き放つことを示している。 しかし、算術計算や記事レベルの偽ニュース検出など、反復的なサブタスクや偽装コンテンツを含むタスクを扱う場合、既存のプロンプト戦略は、表現力の不足や幻覚によって引き起こされる中間的エラーに悩まされる。 このような中間誤差に対してLLMをより明瞭にするために,Divide-and-Conquerプログラムを用いてLCMを誘導し,優れた表現力を確保し,タスクの分解,サブタスクの分解,分解処理を分離する手法を提案する。 理論解析により, 固定深度変圧器の表現力を拡張するために LLM を誘導できることが判明した。 実験の結果,提案手法は,中間的誤りや大きな整数乗算,幻覚検出,誤情報検出などの誤認内容に悩まされるタスクにおいて,通常の実行戦略よりも優れた性能を達成できることが示唆された。

Foundation models, such as Large language Models (LLMs), have attracted significant amount of interest due to their large number of applications. Existing works show that appropriate prompt design, such as Chain-of-Thoughts, can unlock LLM's powerful capacity in diverse areas. However, when handling tasks involving repetitive sub-tasks and/or deceptive contents, such as arithmetic calculation and article-level fake news detection, existing prompting strategies either suffers from insufficient expressive power or intermediate errors triggered by hallucination. To make LLM more discerning to such intermediate errors, we propose to guide LLM with a Divide-and-Conquer program that simultaneously ensures superior expressive power and disentangles task decomposition, sub-task resolution, and resolution assembly process. Theoretic analysis reveals that our strategy can guide LLM to extend the expressive power of fixed-depth Transformer. Experiments indicate that our proposed method can achieve better performance than typical prompting strategies in tasks bothered by intermediate errors and deceptive contents, such as large integer multiplication, hallucination detection and misinformation detection.
翻訳日:2024-03-18 22:23:54 公開日:2024-03-14
# ロバストエージェントは因果世界モデルを学ぶ

Robust agents learn causal world models ( http://arxiv.org/abs/2402.10877v4 )

ライセンス: Link先を確認
Jonathan Richens, Tom Everitt, (参考訳) 因果推論は、堅牢で汎用的な知性において基本的な役割を担っていると長い間推測されてきた。 しかし、エージェントが新しい領域に一般化するために因果モデルを学ぶ必要があるか、あるいは他の帰納的バイアスが十分であるかどうかは不明である。 この疑問に答え、大規模な分布シフトの下で、後悔の束を満足できる任意のエージェントが、最適なエージェントの真の因果モデルに収束するデータ生成プロセスの近似因果モデルを学んだに違いないことを示す。 転帰学習や因果推論など,いくつかの研究領域において,この結果がもたらす意味について論じる。

It has long been hypothesised that causal reasoning plays a fundamental role in robust and general intelligence. However, it is not known if agents must learn causal models in order to generalise to new domains, or if other inductive biases are sufficient. We answer this question, showing that any agent capable of satisfying a regret bound under a large set of distributional shifts must have learned an approximate causal model of the data generating process, which converges to the true causal model for optimal agents. We discuss the implications of this result for several research areas including transfer learning and causal inference.
翻訳日:2024-03-18 22:14:10 公開日:2024-03-14
# 真音を聴く時、人間の脳が特定のパターンを識別する:予備的証拠

Human Brain Exhibits Distinct Patterns When Listening to Fake Versus Real Audio: Preliminary Evidence ( http://arxiv.org/abs/2402.14982v2 )

ライセンス: Link先を確認
Mahsa Salehi, Kalin Stefanov, Ehsan Shareghi, (参考訳) 本稿では,実聴・偽聴における脳活動の変動について検討する。 予備的な結果は,最先端のディープフェイク音声検出アルゴリズムによって得られた表現は,実聴と偽聴の明確なパターンを示さないことを示唆している。 対照的に、脳波によって測定された人間の脳活動は、個人が偽の音声と実際の音声にさらされたときに異なるパターンを示す。 この予備的証拠は、ディープフェイク音声検出などの領域における将来の研究の方向性を可能にする。

In this paper we study the variations in human brain activity when listening to real and fake audio. Our preliminary results suggest that the representations learned by a state-of-the-art deepfake audio detection algorithm, do not exhibit clear distinct patterns between real and fake audio. In contrast, human brain activity, as measured by EEG, displays distinct patterns when individuals are exposed to fake versus real audio. This preliminary evidence enables future research directions in areas such as deepfake audio detection.
翻訳日:2024-03-18 22:14:10 公開日:2024-03-14
# 会話型脳-人工知能インタフェース

A Conversational Brain-Artificial Intelligence Interface ( http://arxiv.org/abs/2402.15011v2 )

ライセンス: Link先を確認
Anja Meunier, Michal Robert Žák, Lucas Munz, Sofiya Garkot, Manuel Eder, Jiachen Xu, Moritz Grosse-Wentrup, (参考訳) 我々は脳-人工知能インタフェース(BAI)を脳-コンピュータインタフェース(BCI)の新しいクラスとして紹介する。 従来の認知能力に依存したBCIとは異なり、BAIは人工知能の力を活用して、神経認知処理パイプラインの一部を置き換える。 事前訓練されたAIエージェントが低レベルの詳細を決定する間、BAIはユーザーが高レベルな意図を提供することで複雑なタスクを達成できる。 このアプローチは、従来のBCIの利点から除外されることが多い認知障害を持つ個人に対して、BCIのターゲットのオーディエンスを拡大する。 我々は,脳波に基づく会話型BAIを用いて,BAIの一般概念を提示し,この新しいアプローチの可能性を示す。 特に,対話型BAIでは,言語を生成せずに複雑なコミュニケーションが可能な電話会話のシミュレーション実験を行った。 そこで本研究は,非侵襲的技術を用いた現実的なシナリオにおいて,言語ニューロプロテーゼによる流動的なコミュニケーションを可能にする能力について,初めて実証した。

We introduce Brain-Artificial Intelligence Interfaces (BAIs) as a new class of Brain-Computer Interfaces (BCIs). Unlike conventional BCIs, which rely on intact cognitive capabilities, BAIs leverage the power of artificial intelligence to replace parts of the neuro-cognitive processing pipeline. BAIs allow users to accomplish complex tasks by providing high-level intentions, while a pre-trained AI agent determines low-level details. This approach enlarges the target audience of BCIs to individuals with cognitive impairments, a population often excluded from the benefits of conventional BCIs. We present the general concept of BAIs and illustrate the potential of this new approach with a Conversational BAI based on EEG. In particular, we show in an experiment with simulated phone conversations that the Conversational BAI enables complex communication without the need to generate language. Our work thus demonstrates, for the first time, the ability of a speech neuroprosthesis to enable fluent communication in realistic scenarios with non-invasive technologies.
翻訳日:2024-03-18 22:14:10 公開日:2024-03-14
# VIXEN:画像差分キャプションのためのビジュアルテキスト比較ネットワーク

VIXEN: Visual Text Comparison Network for Image Difference Captioning ( http://arxiv.org/abs/2402.19119v2 )

ライセンス: Link先を確認
Alexander Black, Jing Shi, Yifei Fan, Tu Bui, John Collomosse, (参考訳) テキストで簡潔に要約し,一対のイメージ間の視覚的差異を要約して,現在あるコンテンツ操作をハイライトする手法であるVIXENを提案する。 提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。 本稿では,既存の画像差分キャプション(IDC)データセットにおいて,インストラクトPix2Pixデータセットから,プロンプトとプロンプトの編集フレームワークを用いて生成した画像の合成操作を訓練することにより,トレーニングデータの低容量化と操作の多様性の欠如に対処する。 我々はこのデータセットをGPT-3で生成された変更サマリーで拡張する。 我々は,VIXENが様々な画像コンテンツや編集タイプに対して,最新かつ理解可能な差分キャプションを生成することを示し,操作された画像コンテンツを介して拡散する誤情報に対する潜在的な軽減を提供する。 コードとデータはhttp://github.com/alexblck/vixenで公開されている。

We present VIXEN - a technique that succinctly summarizes in text the visual differences between a pair of images in order to highlight any content manipulation present. Our proposed network linearly maps image features in a pairwise manner, constructing a soft prompt for a pretrained large language model. We address the challenge of low volume of training data and lack of manipulation variety in existing image difference captioning (IDC) datasets by training on synthetically manipulated images from the recent InstructPix2Pix dataset generated via prompt-to-prompt editing framework. We augment this dataset with change summaries produced via GPT-3. We show that VIXEN produces state-of-the-art, comprehensible difference captions for diverse image contents and edit types, offering a potential mitigation against misinformation disseminated via manipulated image content. Code and data are available at http://github.com/alexblck/vixen
翻訳日:2024-03-18 22:14:10 公開日:2024-03-14
# 複数の共変量シフトと不均衡を伴う画像データセットのプール化

Pooling Image Datasets With Multiple Covariate Shift and Imbalance ( http://arxiv.org/abs/2403.02598v2 )

ライセンス: Link先を確認
Sotirios Panagiotis Chytas, Vishnu Suresh Lokhande, Peiran Li, Vikas Singh, (参考訳) 小さなサンプルサイズは多くの分野で一般的であり、画像と疾患の結果の間の弱いが関連する関係を研究するために、複数の機関でほぼ同様のデータセットをプールする必要がある。 このようなデータは、共変量(二次的非画像データ)においてシフト/不均衡を示すことが多い。 このようなニュアンス変数の制御は標準的な統計解析では一般的であるが、この考え方は過パラメータ化モデルに直接適用されない。 その結果、最近の研究は、不変表現学習からの戦略が意味のある出発点を提供することを示したが、現在の手法のレパートリーは、わずか2つの共変量でのシフト/不均衡を考慮に入れているに限られている。 本稿では,カテゴリ理論の観点からこの問題を眺めることによって,複雑なマルチステージトレーニングパイプラインを完全に回避する,シンプルで効果的なソリューションが提供されるかを示す。 提案手法の有効性を,実データを用いた広範囲な実験により示す。 さらに, この形式が, 自己教師付き学習から3次元再構成における問題への適合に至るまで, 少なくとも5つ以上の異なる問題設定に対して, 統一的な視点を提供する方法について論じる。

Small sample sizes are common in many disciplines, which necessitates pooling roughly similar datasets across multiple institutions to study weak but relevant associations between images and disease outcomes. Such data often manifest shift/imbalance in covariates (i.e., secondary non-imaging data). Controlling for such nuisance variables is common within standard statistical analysis, but the ideas do not directly apply to overparameterized models. Consequently, recent work has shown how strategies from invariant representation learning provides a meaningful starting point, but the current repertoire of methods is limited to accounting for shifts/imbalances in just a couple of covariates at a time. In this paper, we show how viewing this problem from the perspective of Category theory provides a simple and effective solution that completely avoids elaborate multi-stage training pipelines that would otherwise be needed. We show the effectiveness of this approach via extensive experiments on real datasets. Further, we discuss how this style of formulation offers a unified perspective on at least 5+ distinct problem settings, from self-supervised learning to matching problems in 3D reconstruction.
翻訳日:2024-03-18 22:04:23 公開日:2024-03-14
# 大規模言語モデルは神経科学結果の予測において人間の専門家を上回る

Large language models surpass human experts in predicting neuroscience results ( http://arxiv.org/abs/2403.03230v2 )

ライセンス: Link先を確認
Xiaoliang Luo, Akilles Rechardt, Guangzhi Sun, Kevin K. Nejad, Felipe Yáñez, Bati Yilmaz, Kangjoo Lee, Alexandra O. Cohen, Valentina Borghesani, Anton Pashkov, Daniele Marinazzo, Jonathan Nicholas, Alessandro Salatiello, Ilia Sucholutsky, Pasquale Minervini, Sepehr Razavi, Roberta Rocca, Elkhan Yusifov, Tereza Okalova, Nianlong Gu, Martin Ferianc, Mikail Khona, Kaustubh R. Patil, Pui-Shee Lee, Rui Mata, Nicholas E. Myers, Jennifer K Bizley, Sebastian Musslick, Isil Poyraz Bilgin, Guiomar Niso, Justin M. Ales, Michael Gaebler, N Apurva Ratan Murty, Leyla Loued-Khenissi, Anna Behler, Chloe M. Hall, Jessica Dafflon, Sherry Dongqi Bao, Bradley C. Love, (参考訳) 科学的な発見は、何十年にもわたって研究を合成することに悩まされている。 大規模言語モデル(LLM)は解決策を提供する。 膨大な科学文献で訓練されたLSMは、人間の専門家よりも新しい結果を予測するためにノイズがあるが、関連する研究結果を統合する可能性がある。 この可能性を評価するために、我々は神経科学の結果を予測する前向きなベンチマークであるBrainBenchを作成しました。 実験結果の予測では,LSMが専門家を上回ることが判明した。 神経科学の文献をチューニングしたLLMであるBrainGPTは、まだパフォーマンスが良くありません。 人間の専門家のように、LLMが予測に自信がある場合には、その予測が正しい可能性が高いため、人間とLLMが協力して発見する未来が予想される。 我々のアプローチは神経科学に特有ではなく、他の知識集約的な取り組みに伝達可能である。

Scientific discoveries often hinge on synthesizing decades of research, a task that potentially outstrips human information processing capacities. Large language models (LLMs) offer a solution. LLMs trained on the vast scientific literature could potentially integrate noisy yet interrelated findings to forecast novel results better than human experts. To evaluate this possibility, we created BrainBench, a forward-looking benchmark for predicting neuroscience results. We find that LLMs surpass experts in predicting experimental outcomes. BrainGPT, an LLM we tuned on the neuroscience literature, performed better yet. Like human experts, when LLMs were confident in their predictions, they were more likely to be correct, which presages a future where humans and LLMs team together to make discoveries. Our approach is not neuroscience-specific and is transferable to other knowledge-intensive endeavors.
翻訳日:2024-03-18 22:04:23 公開日:2024-03-14
# 合成データに自然画像パターンを埋め込んだゼロショット物質状態セグメンテーションの学習

Learning Zero-Shot Material States Segmentation, by Implanting Natural Image Patterns in Synthetic Data ( http://arxiv.org/abs/2403.03309v3 )

ライセンス: Link先を確認
Sagi Eppel, Jolina Li, Manuel Drehwald, Alan Aspuru-Guzik, (参考訳) 物質とその状態の視覚的理解とセグメンテーションは、物理的世界を理解するのに不可欠である。 材料によって形成される無限のテクスチャ、形状、しばしばぼやけた境界は、このタスクを特に一般化することを難しくしている。 地表の湿った地域、岩石の鉱物、植物に感染した地域、水に汚染されている地域など、それぞれの物質状態には独自の形態があります。 ニューラルネットが一般的なクラスに依存しない材料セグメンテーションを学ぶためには、まずこの複雑さを捉えたデータを収集し注釈付けする必要がある。 実世界の画像の収集と注釈付けは、手作業のコストと精度によって制限される。 対照的に、合成CGIデータは非常に正確でほとんど費用がかからないが、物質界の膨大な多様性を再現することができない。 この研究は、現実世界の画像から抽出されたパターンを合成データに埋め込むことで、この重要なギャップを埋める方法を提供する。 そのため、自然画像から自動的に収集されたパターンを用いて、素材を合成シーンにマッピングする。 この教師なしのアプローチにより、生成したデータは、合成データの精度とスケールを維持しながら、現実世界の膨大な複雑さを捉えることができる。 また、クラス非依存の物質状態セグメンテーションのための最初の一般的なベンチマークを示す。 このベンチマークには、料理、食べ物、岩、建設、植物、そして様々な状態の液体(Wet/dry/stained/cooked/cooked/worn/rusted/sediment/foam...)など、物質状態のさまざまな実世界の画像が含まれている。 このアノテーションは、類似しているが同一ではない領域間の部分的類似性と、全く同じ物質状態の点のみのハードセグメンテーションの両方を含む。 ここでは,MatchSeg 上のネット列車が既存の最先端手法を著しく上回っていることを示す。 データセット、コード、トレーニングされたモデルが利用可能だ。

Visual understanding and segmentation of materials and their states is fundamental for understanding the physical world. The infinite textures, shapes, and often blurry boundaries formed by materials make this task particularly hard to generalize. Whether it's identifying wet regions of a surface, minerals in rocks, infected regions in plants, or pollution in water, each material state has its own unique form. For neural nets to learn general class-agnostic materials segmentation it is necessary to first collect and annotate data that capture this complexity. Collecting and manually annotating real-world images is limited by the cost and precision of manual labor. In contrast, synthetic CGI data is highly accurate and almost cost-free but fails to replicate the vast diversity of the material world. This work offers a method to bridge this crucial gap, by implanting patterns extracted from real-world images, in synthetic data. Hence, patterns automatically collected from natural images are used to map materials into synthetic scenes. This unsupervised approach allows the generated data to capture the vast complexity of the real world while maintaining the precision and scale of synthetic data. We also present the first general benchmark for class-agnostic material state segmentation. The benchmark contains a wide range of real-world images of material states, from cooking, food, rocks, construction, plants, and liquids each in various states (wet/dry/stained/cooked/burned/worn/rusted/sediment/foam...). The annotation includes both partial similarity between regions with similar but not identical materials, and hard segmentation of only points of the exact same material state. We show that net trains on MatSeg significantly outperform existing state-of-the-art methods on this task. The dataset, code, and trained model are available.
翻訳日:2024-03-18 22:04:23 公開日:2024-03-14
# 深層拡大ラグランジアン法による制約付き最適化の学習

Learning Constrained Optimization with Deep Augmented Lagrangian Methods ( http://arxiv.org/abs/2403.03454v2 )

ライセンス: Link先を確認
James Kotary, Ferdinando Fioretto, (参考訳) Learning to Optimize (LtO)は、機械学習(ML)モデルを訓練して制約付き最適化解法をエミュレートする問題設定である。 複雑な制約を受ける最適かつ実現可能な解を生成することの学習は難しい課題であるが、入力空間を関連する問題の限られた分布に限定することで、しばしば可能である。 ほとんどのLtO法は、原始問題に対する解を直接学習し、実現可能性を高めるために補正スキームや損失関数のペナルティを適用することに重点を置いている。 本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。 これにより、双対目的を損失関数として最大化するエンドツーエンドのトレーニングスキームが実現でき、解は双対アセント法をエミュレートし、原始的実現性に向けて反復する。 まず,古典的デュアルアセントの収束性の低さが,提案したトレーニングスキームの収束性の低さに反映されることが示される。 そこで, 実効的なラグランジアン手法の手法を取り入れることで, 凸問題と非凸問題の両方に対して, 高精度な制約付き最適化解法を学習するために, トレーニングスキームをどのように改善できるかを示す。

Learning to Optimize (LtO) is a problem setting in which a machine learning (ML) model is trained to emulate a constrained optimization solver. Learning to produce optimal and feasible solutions subject to complex constraints is a difficult task, but is often made possible by restricting the input space to a limited distribution of related problems. Most LtO methods focus on directly learning solutions to the primal problem, and applying correction schemes or loss function penalties to encourage feasibility. This paper proposes an alternative approach, in which the ML model is trained instead to predict dual solution estimates directly, from which primal estimates are constructed to form dual-feasible solution pairs. This enables an end-to-end training scheme is which the dual objective is maximized as a loss function, and solution estimates iterate toward primal feasibility, emulating a Dual Ascent method. First it is shown that the poor convergence properties of classical Dual Ascent are reflected in poor convergence of the proposed training scheme. Then, by incorporating techniques from practical Augmented Lagrangian methods, we show how the training scheme can be improved to learn highly accurate constrained optimization solvers, for both convex and nonconvex problems.
翻訳日:2024-03-18 22:04:23 公開日:2024-03-14
# OmniCount:Semantic-Geometric Priorsを用いたマルチラベルオブジェクトカウント

OmniCount: Multi-label Object Counting with Semantic-Geometric Priors ( http://arxiv.org/abs/2403.05435v2 )

ライセンス: Link先を確認
Anindya Mondal, Sauradip Nag, Xiatian Zhu, Anjan Dutta, (参考訳) オブジェクトのカウントはシーンの構成を理解する上で重要である。 以前は、このタスクはクラス固有のメソッドに支配され、徐々に適応性のあるクラスに依存しない戦略へと進化してきた。 しかしながら、これらの戦略には、手動の模範入力の必要性や複数のカテゴリの複数のパスなど、独自の制限があるため、大きな非効率性が生じる。 本稿では,オープン語彙フレームワークを用いて複数のオブジェクトカテゴリを同時カウント可能な,より実用的なアプローチを提案する。 我々のソリューションであるOmniCountは、事前訓練されたモデルから意味的および幾何学的な洞察を用いて、ユーザーが指定した複数のカテゴリのオブジェクトを、追加のトレーニングなしでカウントすることで際立っている。 OmniCountは、正確なオブジェクトマスクを生成し、Segment Anything Modelを介してポイントプロンプトを活用することで、自分自身を区別する。 OmniCount-191ベンチマークは、ポイント、バウンディングボックス、VQAアノテーションを含む、複数ラベルのオブジェクトカウントを備えたファーストオブザイズ型データセットです。 OmniCount-191の包括的な評価は、他の主要なベンチマークとともに、OmniCountの優れたパフォーマンスを示し、既存のソリューションを大幅に上回り、オブジェクトカウント技術の新たな時代を告げています。

Object counting is pivotal for understanding the composition of scenes. Previously, this task was dominated by class-specific methods, which have gradually evolved into more adaptable class-agnostic strategies. However, these strategies come with their own set of limitations, such as the need for manual exemplar input and multiple passes for multiple categories, resulting in significant inefficiencies. This paper introduces a new, more practical approach enabling simultaneous counting of multiple object categories using an open vocabulary framework. Our solution, OmniCount, stands out by using semantic and geometric insights from pre-trained models to count multiple categories of objects as specified by users, all without additional training. OmniCount distinguishes itself by generating precise object masks and leveraging point prompts via the Segment Anything Model for efficient counting. To evaluate OmniCount, we created the OmniCount-191 benchmark, a first-of-its-kind dataset with multi-label object counts, including points, bounding boxes, and VQA annotations. Our comprehensive evaluation in OmniCount-191, alongside other leading benchmarks, demonstrates OmniCount's exceptional performance, significantly outpacing existing solutions and heralding a new era in object counting technology.
翻訳日:2024-03-18 21:54:39 公開日:2024-03-14
# 医療システムにおける公正で有用で信頼性の高いAIモデルを評価するためのフレームワークFURM Ground

Standing on FURM ground -- A framework for evaluating Fair, Useful, and Reliable AI Models in healthcare systems ( http://arxiv.org/abs/2403.07911v2 )

ライセンス: Link先を確認
Alison Callahan, Duncan McElfresh, Juan M. Banda, Gabrielle Bunney, Danton Char, Jonathan Chen, Conor K. Corbin, Debadutta Dash, Norman L. Downing, Sneha S. Jain, Nikesh Kotecha, Jonathan Masterson, Michelle M. Mello, Keith Morse, Srikar Nallan, Abby Pandya, Anurang Revri, Aditya Sharma, Christopher Sharp, Rahul Thapa, Michael Wornow, Alaa Youssef, Michael A. Pfeffer, Nigam H. Shah, (参考訳) 人工知能(AI)を用いて患者のケアや手術プロセスを導くことの影響は、AIモデルのアウトプットと、そのアウトプットに基づく意思決定プロトコルと、必要な後続のアクションを取るために必要なステークホルダーの能力の相互運用である。 このインタープレイの効果をデプロイ前に推定し、その後リアルタイムで研究することは、AIモデル開発と達成可能な利益の間のギャップを埋めるのに不可欠である。 これを実現するため、Stanford Health CareのData Scienceチームは、潜在的な価値のミスマッチを特定する倫理的レビュー、有用性を評価するためのシミュレーション、持続可能性を評価するための財務予測、ITの実現可能性を決定する分析、デプロイメント戦略の設計、予測監視と評価計画の推奨を通じて、公正で有用なAIモデル(FURM)を特定するためのテストと評価(T&E)メカニズムを開発した。 臨床および手術環境にまたがる6つのAI誘導ソリューションを評価するためのFURMアセスメントについて報告する。 評価プロセスを説明し、6つのアセスメントを要約し、同様のアセスメントを行うためのフレームワークを共有します。 私たちが評価した6つのソリューションのうち、2つは計画と実装フェーズに移行しました。 我々の新しいコントリビューション - シミュレーションによる有用性の推定、持続可能性の定量化のための財務予測、倫理的評価を行うプロセス - と、その基盤となる方法とオープンソースツール - は、他の医療システムにおいて、候補AIソリューションの実行可能な評価を行うことができる。

The impact of using artificial intelligence (AI) to guide patient care or operational processes is an interplay of the AI model's output, the decision-making protocol based on that output, and the capacity of the stakeholders involved to take the necessary subsequent action. Estimating the effects of this interplay before deployment, and studying it in real time afterwards, are essential to bridge the chasm between AI model development and achievable benefit. To accomplish this, the Data Science team at Stanford Health Care has developed a Testing and Evaluation (T&E) mechanism to identify fair, useful and reliable AI models (FURM) by conducting an ethical review to identify potential value mismatches, simulations to estimate usefulness, financial projections to assess sustainability, as well as analyses to determine IT feasibility, design a deployment strategy, and recommend a prospective monitoring and evaluation plan. We report on FURM assessments done to evaluate six AI guided solutions for potential adoption, spanning clinical and operational settings, each with the potential to impact from several dozen to tens of thousands of patients each year. We describe the assessment process, summarize the six assessments, and share our framework to enable others to conduct similar assessments. Of the six solutions we assessed, two have moved into a planning and implementation phase. Our novel contributions - usefulness estimates by simulation, financial projections to quantify sustainability, and a process to do ethical assessments - as well as their underlying methods and open source tools, are available for other healthcare systems to conduct actionable evaluations of candidate AI solutions.
翻訳日:2024-03-18 21:54:39 公開日:2024-03-14
# 真実の再探索:複数ラウンドで検索可能な大規模言語モデルは強力なフェイクニュース検出器である

Re-Search for The Truth: Multi-round Retrieval-augmented Large Language Models are Strong Fake News Detectors ( http://arxiv.org/abs/2403.09747v1 )

ライセンス: Link先を確認
Guanghua Li, Wensheng Lu, Wei Zhang, Defu Lian, Kezhong Lu, Rui Mao, Kai Shu, Hao Liao, (参考訳) フェイクニュースの拡散は、政治、経済、社会全体に大きく影響している。 この問題を緩和するためにフェイクニュース検出法が用いられているが、それらは主に証拠の品質と妥当性と、判定予測メカニズムの有効性の2つの重要な要素に依存している。 ウィキペディアのような静的リポジトリから情報を得る伝統的な手法は、特に新規または稀なクレームに対して、時代遅れまたは不完全なデータによって制限される。 大きな言語モデル(LLM)は、その顕著な推論と生成能力で知られており、偽ニュース検出のための新しいフロンティアを導入している。 しかし、従来の方法と同様に、LLMベースのソリューションも、古い知識と長い知識の限界に悩まされている。 さらに、LLMは、低品質なエビデンス検索やコンテキスト長制約といった問題にしばしば苦労する。 これらの課題に対処するため,我々は,新たなLLMフレームワークを導入し,その第1種として,クレーム検証のための Web ソースからキーエビデンスを自動的に戦略的に抽出する手法を提案する。 複数ラウンドの検索戦略を用いて,本フレームワークは十分な証拠の取得を保証し,性能の向上を図る。 3つの実世界のデータセットにわたる総合的な実験は、既存のメソッドよりもフレームワークの優位性を検証する。 重要なことは、我々のモデルは正確な評定を提供するだけでなく、結果の解釈性を改善するための人間可読な説明も提供します。

The proliferation of fake news has had far-reaching implications on politics, the economy, and society at large. While Fake news detection methods have been employed to mitigate this issue, they primarily depend on two essential elements: the quality and relevance of the evidence, and the effectiveness of the verdict prediction mechanism. Traditional methods, which often source information from static repositories like Wikipedia, are limited by outdated or incomplete data, particularly for emerging or rare claims. Large Language Models (LLMs), known for their remarkable reasoning and generative capabilities, introduce a new frontier for fake news detection. However, like traditional methods, LLM-based solutions also grapple with the limitations of stale and long-tail knowledge. Additionally, retrieval-enhanced LLMs frequently struggle with issues such as low-quality evidence retrieval and context length constraints. To address these challenges, we introduce a novel, retrieval-augmented LLMs framework--the first of its kind to automatically and strategically extract key evidence from web sources for claim verification. Employing a multi-round retrieval strategy, our framework ensures the acquisition of sufficient, relevant evidence, thereby enhancing performance. Comprehensive experiments across three real-world datasets validate the framework's superiority over existing methods. Importantly, our model not only delivers accurate verdicts but also offers human-readable explanations to improve result interpretability.
翻訳日:2024-03-18 21:35:10 公開日:2024-03-14
# 複数の時間的ポーリングの選択による多視点学習に向けて

Towards Diverse Perspective Learning with Selection over Multiple Temporal Poolings ( http://arxiv.org/abs/2403.09749v1 )

ライセンス: Link先を確認
Jihyeon Seong, Jungmin Kim, Jaesik Choi, (参考訳) 時系列分類(TSC)では,時系列情報を考慮した時間プール法が提案されている。 しかし、各時間プーリングは異なるメカニズムを持ち、時系列データによっては、より良く、より悪く実行できることがわかった。 この固定プール機構を時間プーリングの単一視点とする。 本稿では,多視点学習を用いた新しい時間プール手法を提案する: 複数時間プールの選択(SoM-TP)。 SoM-TPは、データごとに複数のメソッド間の最適時間プーリングを動的に選択する。 動的プール選択は、複数の出力の中からベストを選択するMCL(Multiple Choice Learning)というアンサンブル概念によって動機付けられている。 SoM-TPの注意によるプール選択は、単一の分類器内での非定位プールアンサンブルを可能にする。 さらに,視点損失とディバース・パースペクティブ・ラーニング・ネットワーク(DPLN)を定義した。 この損失は、DPLNの全てのプール視点を反映するレギュレータとして機能する。 LRP(Layer-wise Relevance Propagation)を用いた視点分析では,単一視点の制限が明らかになり,最終的には SoM-TP の多様な視点学習が示される。 また,多くのUCR/UEAレポジトリを持つTSCにおいて,他の時間プールや最先端モデルに基づくCNNモデルよりも優れた性能を示すことを示す。

In Time Series Classification (TSC), temporal pooling methods that consider sequential information have been proposed. However, we found that each temporal pooling has a distinct mechanism, and can perform better or worse depending on time series data. We term this fixed pooling mechanism a single perspective of temporal poolings. In this paper, we propose a novel temporal pooling method with diverse perspective learning: Selection over Multiple Temporal Poolings (SoM-TP). SoM-TP dynamically selects the optimal temporal pooling among multiple methods for each data by attention. The dynamic pooling selection is motivated by the ensemble concept of Multiple Choice Learning (MCL), which selects the best among multiple outputs. The pooling selection by SoM-TP's attention enables a non-iterative pooling ensemble within a single classifier. Additionally, we define a perspective loss and Diverse Perspective Learning Network (DPLN). The loss works as a regularizer to reflect all the pooling perspectives from DPLN. Our perspective analysis using Layer-wise Relevance Propagation (LRP) reveals the limitation of a single perspective and ultimately demonstrates diverse perspective learning of SoM-TP. We also show that SoM-TP outperforms CNN models based on other temporal poolings and state-of-the-art models in TSC with extensive UCR/UEA repositories.
翻訳日:2024-03-18 21:35:10 公開日:2024-03-14
# メタ認知分析:データセットと大規模言語モデルにおける宣言的および手続き的知識の評価

Meta-Cognitive Analysis: Evaluating Declarative and Procedural Knowledge in Datasets and Large Language Models ( http://arxiv.org/abs/2403.09750v1 )

ライセンス: Link先を確認
Zhuoqun Li, Hongyu Lin, Yaojie Lu, Hao Xiang, Xianpei Han, Le Sun, (参考訳) 宣言的知識と手続き的知識はメタ認知理論の2つの重要な部分であり、これら2つはLLMの事前学習と推論において重要である。 しかし、これらの2種類の知識を比較する包括的な分析は、主に定義、探索、定量的評価の課題のために欠落している。 本稿では, LLMの基盤的知識を提供し, 有効スコアを評価することによって, 新たな視点から考察する。 1) 多くのタスクにおいて、宣言的知識の恩恵は手続き的知識の恩恵よりも大きい。 2)手続き的知識の利益は、単純な論理的タスクの推論においてのみ宣言的知識よりも大きい。 3) 事前学習の進行と規模の増加に伴い, 両方の知識を活用できるモデル能力は著しく向上するが, 速度は異なる。 この結果について詳細な分析を行い、大規模言語モデルの評価と拡張のための主要なガイダンスを提供することができる。

Declarative knowledge and procedural knowledge are two key parts in meta-cognitive theory, and these two hold significant importance in pre-training and inference of LLMs. However, a comprehensive analysis comparing these two types of knowledge is lacking, primarily due to challenges in definition, probing and quantitative assessment. In this paper, we explore from a new perspective by providing ground-truth knowledge for LLMs and evaluating the effective score. Through extensive experiments with widely-used datasets and models, we get conclusions: (1) In most tasks, benefits from declarative knowledge are greater than those from procedural knowledge. (2) Profits of procedural knowledge are larger than declarative knowledge only in reasoning tasks with simple logic. (3) As pre-training progresses and size increases, model ability to utilize both kinds of knowledge significantly improves, but in different speed. We do detailed analysis for the findings and this can provide primary guidance for evaluation and enhancement of large language models.
翻訳日:2024-03-18 21:35:10 公開日:2024-03-14
# あなたのプロンプトは何だった? AIアシスタントのリモートキーログ攻撃

What Was Your Prompt? A Remote Keylogging Attack on AI Assistants ( http://arxiv.org/abs/2403.09751v1 )

ライセンス: Link先を確認
Roy Weiss, Daniel Ayzenshteyn, Guy Amit, Yisroel Mirsky, (参考訳) AIアシスタントは社会に不可欠な存在になりつつある。 本稿では,Web上のAIアシスタントから暗号化された応答(トークン長サイドチャネル)を読み取るのに使用できる,新しいサイドチャネルについて紹介する。 私たちはOpenAIやMicrosoftを含む多くのベンダーがこのサイドチャネルを持っていることに気づきました。 しかし、トークン長列からの応答の内容のみを推測することは困難である。 これは、トークンが単語に似ており、応答が数文長くなり、数百万の文法的に正しい文に繋がるからである。 本稿では,(1)大言語モデル(LLM)の力を利用してこれらのシーケンスを翻訳し,(2)検索空間を狭めるための文間コンテキストをLLMに提供すること,(3)ターゲットモデルの書き込みスタイルを微調整して既知のテキスト攻撃を実行することによって,これを克服する方法について述べる。 これらの手法を用いて、AIアシスタントの応答の29\%を正確に再構成し、その55%からトピックを推測することができた。 この脅威を示すため、私たちはOpenAIのChatGPT-4とMicrosoftのCopilotをブラウザとAPIトラフィックの両方で攻撃した。

AI assistants are becoming an integral part of society, used for asking advice or help in personal and confidential issues. In this paper, we unveil a novel side-channel that can be used to read encrypted responses from AI Assistants over the web: the token-length side-channel. We found that many vendors, including OpenAI and Microsoft, have this side-channel. However, inferring the content of a response from a token-length sequence alone proves challenging. This is because tokens are akin to words, and responses can be several sentences long leading to millions of grammatically correct sentences. In this paper, we show how this can be overcome by (1) utilizing the power of a large language model (LLM) to translate these sequences, (2) providing the LLM with inter-sentence context to narrow the search space and (3) performing a known-plaintext attack by fine-tuning the model on the target model's writing style. Using these methods, we were able to accurately reconstruct 29\% of an AI assistant's responses and successfully infer the topic from 55\% of them. To demonstrate the threat, we performed the attack on OpenAI's ChatGPT-4 and Microsoft's Copilot on both browser and API traffic.
翻訳日:2024-03-18 21:35:10 公開日:2024-03-14
# 医療物のインターネットのための説明可能な機械学習ベースのセキュリティとプライバシ保護フレームワーク

Explainable Machine Learning-Based Security and Privacy Protection Framework for Internet of Medical Things Systems ( http://arxiv.org/abs/2403.09752v1 )

ライセンス: Link先を確認
Ayoub Si-ahmed, Mohammed Ali Al-Garadi, Narhimene Boustia, (参考訳) インターネット・オブ・メディカル・モノ(IoMT)は、従来の医療境界を超越し、反応性治療から予防的予防への移行を可能にする。 この手法は、特にIoMTがリアルタイムの健康データ収集に基づいて治療を自動化する慢性疾患管理において、早期疾患の検出と調整ケアを促進することにより、医療に革命をもたらす。 それでも、そのメリットは、処理されたデータの感度と価値のためにユーザの命を危険にさらす、重大なセキュリティ上の課題に対処されている。 さらに,データ伝送における無線通信の利用は,サイバー犯罪者によるインターセプションや改ざんに医療データを公開している。 加えて、異常は人間のエラー、ネットワークの干渉、ハードウェアの故障に起因する可能性がある。 この文脈では、機械学習(ML)に基づく異常検出は興味深いソリューションであるが、説明可能性やプライバシ保護の観点からは障害に直面している。 これらの課題に対処するために、ニューラルネットワーク(ANN)を利用した侵入検知システム(IDS)の新しいフレームワークを導入し、フェデレートラーニング(FL)をプライバシ保護に活用する。 さらに、モデル説明と解釈を強化するために、eXplainable Artificial Intelligence (XAI)メソッドが組み込まれている。 提案手法の有効性を,ネットワークおよび医療データを含む複数のデータセットを用いて,医療・生理データの機密性,完全性,可用性に影響を及ぼす様々な攻撃タイプをシミュレートし,中央集権的なアプローチと比較した。 その結果, FL法は集中型手法と相容れない性能を示し, 高い性能を示した。 さらに、プライバシーを保護し、モデル説明を提供するという2つの利点もある。

The Internet of Medical Things (IoMT) transcends traditional medical boundaries, enabling a transition from reactive treatment to proactive prevention. This innovative method revolutionizes healthcare by facilitating early disease detection and tailored care, particularly in chronic disease management, where IoMT automates treatments based on real-time health data collection. Nonetheless, its benefits are countered by significant security challenges that endanger the lives of its users due to the sensitivity and value of the processed data, thereby attracting malicious interests. Moreover, the utilization of wireless communication for data transmission exposes medical data to interception and tampering by cybercriminals. Additionally, anomalies may arise due to human errors, network interference, or hardware malfunctions. In this context, anomaly detection based on Machine Learning (ML) is an interesting solution, but it comes up against obstacles in terms of explicability and protection of privacy. To address these challenges, a new framework for Intrusion Detection Systems (IDS) is introduced, leveraging Artificial Neural Networks (ANN) for intrusion detection while utilizing Federated Learning (FL) for privacy preservation. Additionally, eXplainable Artificial Intelligence (XAI) methods are incorporated to enhance model explanation and interpretation. The efficacy of the proposed framework is evaluated and compared with centralized approaches using multiple datasets containing network and medical data, simulating various attack types impacting the confidentiality, integrity, and availability of medical and physiological data. The results obtained offer compelling evidence that the FL method performs comparably to the centralized method, demonstrating high performance. Additionally, it affords the dual advantage of safeguarding privacy and providing model explanation.
翻訳日:2024-03-18 21:35:10 公開日:2024-03-14
# SpokeN-100:異なる言語における音声番号の分類のための言語間ベンチマークデータセット

SpokeN-100: A Cross-Lingual Benchmarking Dataset for The Classification of Spoken Numbers in Different Languages ( http://arxiv.org/abs/2403.09753v1 )

ライセンス: Link先を確認
René Groh, Nina Goes, Andreas M. Kist, (参考訳) ベンチマークは、マイクロコントローラなどのリソース制約のあるデバイス上での実行用に設計された、コンパクトなディープラーニングモデルの性能を評価し、向上する上で重要な役割を担っている。 そこで本研究では,音声認識に適した,完全人工的なベンチマークデータセットを提案する。 SpokeN-100は、英語、マンダリン語、ドイツ語、フランス語の4つの異なる言語で話される0から99までの話し言葉からなり、12,800の音声サンプルが得られた。 音声の特徴を判定し,UMAP(Uniform Manifold Approximation and Projection for Dimension Reduction)を次元還元法として用いて,データセットの多様性と豊かさを示す。 データセットのユースケースを強調するために、私たちは2つのベンチマークタスクを紹介した。 (i)使用言語及び/または (ii) 音声番号。 我々は最先端のディープニューラルネットワークを最適化し、32ビットARM Cortex-M4 nRF52840マイクロコントローラに最適化された小さなアーキテクチャを見つけるために進化的ニューラルネットワーク検索を行った。 我々の結果は、SpokeN-100で達成された最初のベンチマークデータを表している。

Benchmarking plays a pivotal role in assessing and enhancing the performance of compact deep learning models designed for execution on resource-constrained devices, such as microcontrollers. Our study introduces a novel, entirely artificially generated benchmarking dataset tailored for speech recognition, representing a core challenge in the field of tiny deep learning. SpokeN-100 consists of spoken numbers from 0 to 99 spoken by 32 different speakers in four different languages, namely English, Mandarin, German and French, resulting in 12,800 audio samples. We determine auditory features and use UMAP (Uniform Manifold Approximation and Projection for Dimension Reduction) as a dimensionality reduction method to show the diversity and richness of the dataset. To highlight the use case of the dataset, we introduce two benchmark tasks: given an audio sample, classify (i) the used language and/or (ii) the spoken number. We optimized state-of-the-art deep neural networks and performed an evolutionary neural architecture search to find tiny architectures optimized for the 32-bit ARM Cortex-M4 nRF52840 microcontroller. Our results represent the first benchmark data achieved for SpokeN-100.
翻訳日:2024-03-18 21:35:10 公開日:2024-03-14
# ランダム再帰木の歴史を推定する

Estimating the history of a random recursive tree ( http://arxiv.org/abs/2403.09755v1 )

ライセンス: Link先を確認
Simon Briend, Christophe Giraud, Gábor Lugosi, Déborah Sulem, (参考訳) 本稿では,ランダム再帰木における頂点の到着順序を推定する問題について検討する。 具体的には,一様アタッチメントモデルと線形優先アタッチメントモデルという2つの基本モデルについて検討する。 そこで我々は,ヨルダン中央度尺度に基づく順序推定器を提案し,注文手順の品質を定量化するためのリスク対策のファミリーを定義する。 さらに、この問題に対してミニマックス下界を確立し、提案した推定器がほぼ最適であることを証明した。 最後に,提案手法が次数ベースおよびスペクトル順序付け法より優れていることを示す。

This paper studies the problem of estimating the order of arrival of the vertices in a random recursive tree. Specifically, we study two fundamental models: the uniform attachment model and the linear preferential attachment model. We propose an order estimator based on the Jordan centrality measure and define a family of risk measures to quantify the quality of the ordering procedure. Moreover, we establish a minimax lower bound for this problem, and prove that the proposed estimator is nearly optimal. Finally, we numerically demonstrate that the proposed estimator outperforms degree-based and spectral ordering procedures.
翻訳日:2024-03-18 21:35:10 公開日:2024-03-14
# データ・ポーア・レジームにおける血流の再構成:ガウス過程回帰のための真空ネットワークカーネル

Reconstructing Blood Flow in Data-Poor Regimes: A Vasculature Network Kernel for Gaussian Process Regression ( http://arxiv.org/abs/2403.09758v1 )

ライセンス: Link先を確認
Shaghayegh Z. Ashtiani, Mohammad Sarabian, Kaveh Laksari, Hessam Babaee, (参考訳) 血管内血流の再構築は多くの臨床応用において重要である。 しかし、臨床環境では、利用可能なデータは極めて限られていることが多い。 例えば、経頭蓋ドプラ超音波(TCD)は、脳血管のいくつかの場所での血流波形を測定するために臨床環境で一般的に使用される非侵襲的な臨床ツールである。 この量のデータは、ディープニューラルネットワークやガウス過程回帰といった機械学習シュロゲートモデルのトレーニングには極めて不十分である。 本研究では,物理インフォームドカーネルに基づくガウス過程回帰手法を提案する。 非ユークリッド空間である血管ネットワーク内のカーネルを再構築する新しい手法を提案する。 提案したカーネルは時空間および容器間相関を符号化し,直接測定を欠いた血管の血流回復を可能にする。 提案したカーネルによる予測は質量原理の保存を満足することを示す。 カーネルは確率的一次元血流シミュレーションによって構築され、その確率性は境界条件に関する知識の欠如や血管幾何学における不確実性など、てんかんの不確かさを捉えている。 本研究は, 単純Y字型分岐術, 腹部大動脈, ウィリス円の3症例において, モデルの性能を実証するものである。

Blood flow reconstruction in the vasculature is important for many clinical applications. However, in clinical settings, the available data are often quite limited. For instance, Transcranial Doppler ultrasound (TCD) is a noninvasive clinical tool that is commonly used in the clinical settings to measure blood velocity waveform at several locations on brain's vasculature. This amount of data is grossly insufficient for training machine learning surrogate models, such as deep neural networks or Gaussian process regression. In this work, we propose a Gaussian process regression approach based on physics-informed kernels, enabling near-real-time reconstruction of blood flow in data-poor regimes. We introduce a novel methodology to reconstruct the kernel within the vascular network, which is a non-Euclidean space. The proposed kernel encodes both spatiotemporal and vessel-to-vessel correlations, thus enabling blood flow reconstruction in vessels that lack direct measurements. We demonstrate that any prediction made with the proposed kernel satisfies the conservation of mass principle. The kernel is constructed by running stochastic one-dimensional blood flow simulations, where the stochasticity captures the epistemic uncertainties, such as lack of knowledge about boundary conditions and uncertainties in vasculature geometries. We demonstrate the performance of the model on three test cases, namely, a simple Y-shaped bifurcation, abdominal aorta, and the Circle of Willis in the brain.
翻訳日:2024-03-18 21:35:10 公開日:2024-03-14
# 人工知能による感情知能 : 医療テキスト分析におけるNLPと深層学習

Emotional Intelligence Through Artificial Intelligence : NLP and Deep Learning in the Analysis of Healthcare Texts ( http://arxiv.org/abs/2403.09762v1 )

ライセンス: Link先を確認
Prashant Kumar Nag, Amit Bhagat, R. Vishnu Priya, Deepak kumar Khare, (参考訳) 本論文は,医療関連テキストにおける感情評価における人工知能の利用に関する方法論的考察であり,特に自然言語処理と深層学習技術の導入に注目したものである。 我々は、感情分析の強化、感情の分類、臨床物語からのテキスト情報、薬物に対する患者からのフィードバック、オンライン健康に関する議論に基づく患者結果の予測にAIを用いた多くの研究を精査する。 このレビューは、感情分類に使用されるアルゴリズムの精度、神経変性疾患のためのAIモデルの予後能力、臨床意思決定を支援するAI駆動システムの作成において、注目すべき進歩を示している。 注目すべきことに、AIアプリケーションの利用は、患者の感情を統合することでパーソナライズされた治療計画を強化し、精神疾患の早期発見に寄与している。 AIの倫理的応用を保証すること、患者の機密性を保護すること、アルゴリズムの手続きにおける潜在的なバイアスに対処することを含む、継続的な課題がある。 それでも、AIが医療プラクティスに革命をもたらす可能性はあり得ない。医療がより知識があり、効率的であるだけでなく、患者のニーズに焦点を絞った共感的な未来を提供する。 この調査は、医療におけるAIの変革的影響を強調し、医療テキストにおける感情的内容の調査におけるその役割を包括的に理解し、患者のケアに対するより思いやりのあるアプローチに向けた軌道を強調している。 この発見は、AIの分析能力と医療の人間の側面との調和した相乗効果を提唱している。

This manuscript presents a methodical examination of the utilization of Artificial Intelligence in the assessment of emotions in texts related to healthcare, with a particular focus on the incorporation of Natural Language Processing and deep learning technologies. We scrutinize numerous research studies that employ AI to augment sentiment analysis, categorize emotions, and forecast patient outcomes based on textual information derived from clinical narratives, patient feedback on medications, and online health discussions. The review demonstrates noteworthy progress in the precision of algorithms used for sentiment classification, the prognostic capabilities of AI models for neurodegenerative diseases, and the creation of AI-powered systems that offer support in clinical decision-making. Remarkably, the utilization of AI applications has exhibited an enhancement in personalized therapy plans by integrating patient sentiment and contributing to the early identification of mental health disorders. There persist challenges, which encompass ensuring the ethical application of AI, safeguarding patient confidentiality, and addressing potential biases in algorithmic procedures. Nevertheless, the potential of AI to revolutionize healthcare practices is unmistakable, offering a future where healthcare is not only more knowledgeable and efficient but also more empathetic and centered around the needs of patients. This investigation underscores the transformative influence of AI on healthcare, delivering a comprehensive comprehension of its role in examining emotional content in healthcare texts and highlighting the trajectory towards a more compassionate approach to patient care. The findings advocate for a harmonious synergy between AI's analytical capabilities and the human aspects of healthcare.
翻訳日:2024-03-18 21:35:10 公開日:2024-03-14
# 1000の嘘のイメージ:ビジョンランゲージモデル上でのプロンプト間の逆転性

An Image Is Worth 1000 Lies: Adversarial Transferability across Prompts on Vision-Language Models ( http://arxiv.org/abs/2403.09766v1 )

ライセンス: Link先を確認
Haochen Luo, Jindong Gu, Fengyuan Liu, Philip Torr, (参考訳) 従来のタスク固有の視覚モデルとは異なり、最近の大規模なVLMは、異なるテキスト命令、すなわちプロンプトを使用することで、容易に異なるビジョンタスクに適応することができる。 しかしながら、従来のタスク固有の視覚モデルに関するよく知られた懸念は、それらは知覚できない逆境の摂動によって誤解される可能性があることである。 さらに、同じ対向摂動が異なるタスク固有モデルを騙すことができるという現象により、この懸念が悪化する。 VLMが異なるタスクに適応するためのプロンプトに依存していることを考えれば、興味深い疑問が浮かび上がってくる。 単一の逆画像は、1000の異なるプロンプトが与えられたとき、VLMのすべての予測を誤解させることができるのか? この問題は本質的には、対向移動可能性(英語版)に関する新しい視点、すなわち対向移動可能性(英語版)を紹介している。 本研究では,クロスプロンプトアタック(CroPA)を提案する。 提案手法は,学習可能なプロンプトを用いて,視覚的対向摂動を更新する。 これを行うことで、CroPAはプロンプト間の敵例の転送可能性を大幅に改善する。 Flamingo, BLIP-2, InstructBLIPなどのVLMを多用したCroPAのクロスプロンプト対向性検証実験を行った。 ソースコードは \url{https://github.com/Haochen-Luo/CroPA} で公開されています。

Different from traditional task-specific vision models, recent large VLMs can readily adapt to different vision tasks by simply using different textual instructions, i.e., prompts. However, a well-known concern about traditional task-specific vision models is that they can be misled by imperceptible adversarial perturbations. Furthermore, the concern is exacerbated by the phenomenon that the same adversarial perturbations can fool different task-specific models. Given that VLMs rely on prompts to adapt to different tasks, an intriguing question emerges: Can a single adversarial image mislead all predictions of VLMs when a thousand different prompts are given? This question essentially introduces a novel perspective on adversarial transferability: cross-prompt adversarial transferability. In this work, we propose the Cross-Prompt Attack (CroPA). This proposed method updates the visual adversarial perturbation with learnable prompts, which are designed to counteract the misleading effects of the adversarial image. By doing this, CroPA significantly improves the transferability of adversarial examples across prompts. Extensive experiments are conducted to verify the strong cross-prompt adversarial transferability of CroPA with prevalent VLMs including Flamingo, BLIP-2, and InstructBLIP in various different tasks. Our source code is available at \url{https://github.com/Haochen-Luo/CroPA}.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# Floquet Liouvilliansによる工学的非平衡定常状態

Engineering nonequilibrium steady states through Floquet Liouvillians ( http://arxiv.org/abs/2403.09769v1 )

ライセンス: Link先を確認
Weijian Chen, Maryam Abbasi, Serra Erdamar, Jacob Muldoon, Yogesh N. Joglekar, Kater W. Murch, (参考訳) 非平衡定常状態への周期駆動下での散逸性超伝導量子ビットの過渡ダイナミクスを実験的に研究した。 駆動周期の整数倍数に等しいときのキュービット状態によって与えられる対応する分光的進化は、(実際には非エルミート的な)フロケ・リウヴィリアン(英語版)によって決定される。 駆動周期は、非エルミート退化と結果として生じる非平衡定常状態の両方を制御している。 これらの定常状態は、一定の駆動で達成した状態よりも高い純度を示すことができる。 さらにパラメータ変動の方向に対する定常状態の依存性について検討し、これらの知見を動的に囲む例外点の最近の研究と関連付ける。 我々の研究は、散逸性量子系の非ハーミティシティを制御するための新しいアプローチを提供し、量子状態の準備と安定化における新しいパラダイムを提示している。

We experimentally study the transient dynamics of a dissipative superconducting qubit under periodic drive towards its nonequilibrium steady states. The corresponding stroboscopic evolution, given by the qubit states at times equal to integer multiples of the drive period, is determined by a (generically non-Hermitian) Floquet Liouvillian. The drive period controls both the transients across its non-Hermitian degeneracies and the resulting nonequilibrium steady states. These steady states can exhibit higher purity compared to those achieved with a constant drive. We further study the dependence of the steady states on the direction of parameter variation and relate these findings to the recent studies of dynamically encircling exceptional points. Our work provides a new approach to control non-Hermiticity in dissipative quantum systems and presents a new paradigm in quantum state preparation and stabilization.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# 変分オートエンコーダによるディープラーニング密度汎関数理論の解法

Solving deep-learning density functional theory via variational autoencoders ( http://arxiv.org/abs/2403.09788v1 )

ライセンス: Link先を確認
Emanuele Costa, Giuseppe Scriva, Sebastiano Pilati, (参考訳) 近年、主にディープニューラルネットワークと呼ばれる機械学習モデルは、データから正確なエネルギー密度関数を学習するのに適していることが明らかになっている。 しかし、エネルギー最小化による基底状態密度プロファイルの探索において、問題のある不安定性が発生することが示されている。 実際、どんな小さなノイズでも現実的なプロファイルからアストレイを導き、学習された関数の失敗を引き起こし、したがって変動特性の強い違反を引き起こす。 本稿では,様々な量子モデルの基底状態密度プロファイルの圧縮,フレキシブル,正規表現を構築するために,変分オートエンコーダを用いる。 この圧縮空間におけるエネルギー最小化により、過度の制約による数値不安定性と変分バイアスの両方を回避することができる。 本実験は,フィールドの文献から得られた1次元単一粒子モデル,特に3次元乱れポテンシャルを用いて行った。 いずれの場合も、基底状態エネルギーは化学精度以下の誤差で推定され、密度プロファイルは数値的なアーティファクトなしで正確に再現される。

In recent years, machine learning models, chiefly deep neural networks, have revealed suited to learn accurate energy-density functionals from data. However, problematic instabilities have been shown to occur in the search of ground-state density profiles via energy minimization. Indeed, any small noise can lead astray from realistic profiles, causing the failure of the learned functional and, hence, strong violations of the variational property. In this article, we employ variational autoencoders to build a compressed, flexible, and regular representation of the ground-state density profiles of various quantum models. Performing energy minimization in this compressed space allows us to avoid both numerical instabilities and variational biases due to excessive constraints. Our tests are performed on one-dimensional single-particle models from the literature in the field and, notably, on a three-dimensional disordered potential. In all cases, the ground-state energies are estimated with errors below the chemical accuracy and the density profiles are accurately reproduced without numerical artifacts.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# アキレスのアライメント:マルチモーダル大言語モデルのジェイルブレークにおける視覚的脆弱性の爆発的発見

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models ( http://arxiv.org/abs/2403.09792v1 )

ライセンス: Link先を確認
Yifan Li, Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen, (参考訳) 本稿では,多モーダル大言語モデル~MLLMの無害アライメント問題について検討する。 代表MLLMの無害性能を系統的に解析し,画像入力がMLLMのアライメント脆弱性を生じさせることを示す。 そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽して増幅する,HADESという新しいジェイルブレイク手法を提案する。 実験の結果、HADESは既存のMLLMを効果的に脱獄させ、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。 コードとデータは公開されます。

In this paper, we study the harmlessness alignment problem of multimodal large language models~(MLLMs). We conduct a systematic empirical analysis of the harmlessness performance of representative MLLMs and reveal that the image input poses the alignment vulnerability of MLLMs. Inspired by this, we propose a novel jailbreak method named HADES, which hides and amplifies the harmfulness of the malicious intent within the text input, using meticulously crafted images. Experimental results show that HADES can effectively jailbreak existing MLLMs, which achieves an average Attack Success Rate~(ASR) of 90.26% for LLaVA-1.5 and 71.60% for Gemini Pro Vision. Our code and data will be publicly released.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# ソーシャル統合ナビゲーション: 深層強化学習型ソーシャルアクティベーションロボット

Socially Integrated Navigation: A Social Acting Robot with Deep Reinforcement Learning ( http://arxiv.org/abs/2403.09793v1 )

ライセンス: Link先を確認
Daniel Flögel, Lars Fischer, Thomas Rudolf, Tobias Schürmann, Sören Hohmann, (参考訳) 移動ロボットは様々な混み合った状況で大規模に使われており、私たちの社会の一部になっている。 個人を考慮した移動ロボットの社会的に許容されるナビゲーション行動は、スケーラブルなアプリケーションと人間の受容にとって必須の要件である。 深層強化学習(DRL)アプローチは、ロボットのナビゲーションポリシーを学習し、ロボットと人間の複雑な相互作用をモデル化するために最近使用されている。 本稿では,ロボットが提示する社会的行動に基づいて既存のDRLベースのナビゲーションアプローチを分割し,社会的行動の欠如による社会的衝突回避と,社会的行動を明確に定義した社会的行動を伴う社会的認知アプローチを区別することを提案する。 さらに,ロボットの社会的行動が適応的であり,人間との相互作用から生じる,社会的統合ナビゲーション手法を提案する。 我々のアプローチの定式化は、社会的行為が他者の行動に向けられているという社会学的定義から導かれる。 DRLポリシーは、他のエージェントが社会的に統合された相互作用を行い、ロボットの振る舞いを個別に報酬する環境で訓練される。 シミュレーションの結果, 提案手法は, 移動距離, 完了までの時間, 環境中の全てのエージェントに対する負の影響において, 社会的に意識したアプローチよりも優れていることが示された。

Mobile robots are being used on a large scale in various crowded situations and become part of our society. The socially acceptable navigation behavior of a mobile robot with individual human consideration is an essential requirement for scalable applications and human acceptance. Deep Reinforcement Learning (DRL) approaches are recently used to learn a robot's navigation policy and to model the complex interactions between robots and humans. We propose to divide existing DRL-based navigation approaches based on the robot's exhibited social behavior and distinguish between social collision avoidance with a lack of social behavior and socially aware approaches with explicit predefined social behavior. In addition, we propose a novel socially integrated navigation approach where the robot's social behavior is adaptive and emerges from the interaction with humans. The formulation of our approach is derived from a sociological definition, which states that social acting is oriented toward the acting of others. The DRL policy is trained in an environment where other agents interact socially integrated and reward the robot's behavior individually. The simulation results indicate that the proposed socially integrated navigation approach outperforms a socially aware approach in terms of distance traveled, time to completion, and negative impact on all agents within the environment.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# ヘルプフルか有害か? : 大規模言語モデルのオンライングミッシング防止効果を探る

Helpful or Harmful? Exploring the Efficacy of Large Language Models for Online Grooming Prevention ( http://arxiv.org/abs/2403.09795v1 )

ライセンス: Link先を確認
Ellie Prosser, Matthew Edwards, (参考訳) 強力な生成型大規模言語モデル(LLM)は、質問応答システムとして一般大衆に普及し、子供のような脆弱なグループによって活用されている。 子どもたちがこれらのツールと対話することがますます増えているので、研究者はLSMの安全性を精査することが不可欠である。 本稿では, オンライングルーミング防止におけるLCMの有効性を, アドバイス生成によるグルーミングの識別と回避の両面から検討し, 提案したコンテキストの変化と即時特異性によって, モデル性能に対するプロンプト設計の影響について検討する。 その結果、6000 LLM の相互作用を反映して、オンライングルーミング防止に明確なモデルが存在しないこと、行動の一貫性の欠如、特にオープンソースモデルによる有害な回答生成の可能性が確認された。 モデルをどこで、どのように短くするかを概説し、改善の提案を提供し、問題の多い方法でモデルパフォーマンスを著しく変更したプロンプト設計を特定し、ベストプラクティスの使用ガイドを通知するのに使用できる知見を提示する。

Powerful generative Large Language Models (LLMs) are becoming popular tools amongst the general public as question-answering systems, and are being utilised by vulnerable groups such as children. With children increasingly interacting with these tools, it is imperative for researchers to scrutinise the safety of LLMs, especially for applications that could lead to serious outcomes, such as online child safety queries. In this paper, the efficacy of LLMs for online grooming prevention is explored both for identifying and avoiding grooming through advice generation, and the impact of prompt design on model performance is investigated by varying the provided context and prompt specificity. In results reflecting over 6,000 LLM interactions, we find that no models were clearly appropriate for online grooming prevention, with an observed lack of consistency in behaviours, and potential for harmful answer generation, especially from open-source models. We outline where and how models fall short, providing suggestions for improvement, and identify prompt designs that heavily altered model performance in troubling ways, with findings that can be used to inform best practice usage guides.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# 大規模言語モデルと人間間の連帯性の比較:洞察とオープンな質問

Comparing Rationality Between Large Language Models and Humans: Insights and Open Questions ( http://arxiv.org/abs/2403.09798v1 )

ライセンス: Link先を確認
Dana Alsagheer, Rabimba Karanjai, Nour Diallo, Weidong Shi, Yang Lu, Suha Beydoun, Qiaoning Zhang, (参考訳) 本稿では,大規模言語モデル(LLM)の急成長に焦点をあてて,人工知能の動的景観を考察する。 我々は,LLMの合理性と意思決定能力の増強において,人間フィードバックからの強化学習(RLHF)が果たす重要な役割を強調した。 人間のインタラクションとLLM行動の複雑な関係を慎重に検討することにより、人間とLLMの合理性と性能格差に関する質問を探索し、特にチャット生成前訓練変圧器に注目した。 我々の研究は、LLMにおける不合理性の固有の課題を包括的に分析し、それらの合理性を高めるための貴重な洞察と実行可能な戦略を提供する。 これらの発見は、多種多様なドメインやアプリケーションにまたがるLLMの普及に重要な意味を持ち、人工知能の進歩を触媒する可能性を強調している。

This paper delves into the dynamic landscape of artificial intelligence, specifically focusing on the burgeoning prominence of large language models (LLMs). We underscore the pivotal role of Reinforcement Learning from Human Feedback (RLHF) in augmenting LLMs' rationality and decision-making prowess. By meticulously examining the intricate relationship between human interaction and LLM behavior, we explore questions surrounding rationality and performance disparities between humans and LLMs, with particular attention to the Chat Generative Pre-trained Transformer. Our research employs comprehensive comparative analysis and delves into the inherent challenges of irrationality in LLMs, offering valuable insights and actionable strategies for enhancing their rationality. These findings hold significant implications for the widespread adoption of LLMs across diverse domains and applications, underscoring their potential to catalyze advancements in artificial intelligence.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# BOPチャレンジ2023 種目と未知の剛体物体の検出・セグメンテーション・ポス推定に関する研究(BOP.情報ネットワーク,一般セッション)

BOP Challenge 2023 on Detection, Segmentation and Pose Estimation of Seen and Unseen Rigid Objects ( http://arxiv.org/abs/2403.09799v1 )

ライセンス: Link先を確認
Tomas Hodan, Martin Sundermeyer, Yann Labbe, Van Nguyen Nguyen, Gu Wang, Eric Brachmann, Bertram Drost, Vincent Lepetit, Carsten Rother, Jiri Matas, (参考訳) 我々は,RGB/RGB-D画像と関連するタスクから,モデルに基づく6Dオブジェクトのポーズ推定の最先端を捉えるために,一連の公開コンペティションの第5回であるBOP Challenge 2023の評価方法論,データセット,結果について述べる。 2022年の3つのタスク(モデルに基づく2D検出、2Dセグメンテーション、およびトレーニング中に見られる物体の6Dローカライゼーション)に加えて、2023年のチャレンジでは、トレーニング中に見えない物体に焦点を当てた新しいタスクが導入された。 新しいタスクでは、提供された3Dオブジェクトモデルから、短いオンボーディングステージ(最大5分、1GPU)の間に新しいオブジェクトを学習する必要がある。 未確認物体(GenFlow)の6Dローカライズのための最良の2023の手法は、目に見える物体(CosyPose)の2020年の最良の手法の精度に顕著に到達したが、顕著に遅い。 観察対象のベスト2023法(GPose)は、適度な精度向上を達成したが、最高2022法(GDRNPP)と比較して43%の実行時間改善を実現した。 2017年以降、観測対象の6Dローカライゼーションの精度は50%以上向上した(56.9から85.6 AR_C)。 オンライン評価システムはオープンであり、http://bop.felk.cvut.cz/.comで利用可能である。

We present the evaluation methodology, datasets and results of the BOP Challenge 2023, the fifth in a series of public competitions organized to capture the state of the art in model-based 6D object pose estimation from an RGB/RGB-D image and related tasks. Besides the three tasks from 2022 (model-based 2D detection, 2D segmentation, and 6D localization of objects seen during training), the 2023 challenge introduced new variants of these tasks focused on objects unseen during training. In the new tasks, methods were required to learn new objects during a short onboarding stage (max 5 minutes, 1 GPU) from provided 3D object models. The best 2023 method for 6D localization of unseen objects (GenFlow) notably reached the accuracy of the best 2020 method for seen objects (CosyPose), although being noticeably slower. The best 2023 method for seen objects (GPose) achieved a moderate accuracy improvement but a significant 43% run-time improvement compared to the best 2022 counterpart (GDRNPP). Since 2017, the accuracy of 6D localization of seen objects has improved by more than 50% (from 56.9 to 85.6 AR_C). The online evaluation system stays open and is available at: http://bop.felk.cvut.cz/.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# パラメータ空間の量子幾何学--曲線系の提案

Quantum geometry of the parameter space: a proposal for curved systems ( http://arxiv.org/abs/2403.09804v1 )

ライセンス: Link先を確認
Joshua Davy-Castillo, Javier A. Cano-Arango, Sergio B. Juárez, Joan A. Austrich-Olivares, J. David Vergara, (参考訳) 本稿では,パラメータ依存曲面空間に対する量子幾何テンソルを高次元に拡張し,そのテンソルの定式化を一般化する等価な定義を導入する。 パラメータ依存計量は、量子計量テンソルとベリー曲率の両方の振舞いを純粋に幾何学的に修正する。 我々の焦点は、従来のものと比較して一般化テンソルを使うときに現れる高次元の区別を理解することである。 2次元の例で示される比較分析を通じて、量子計量テンソルとベリー曲率の両方に対するユニークな量子幾何学的性質を強調する。 さらに,問題解決における解析的アプローチと摂動的アプローチの違いについても検討する。

In this paper, we extend the quantum geometric tensor for parameter-dependent curved spaces to higher dimensions, and introduce an equivalent definition that generalizes the Zanardi, et al, formulation of the tensor. The parameter-dependent metric modifies the behavior of both the quantum metric tensor and Berry curvature in a purely geometric way. Our focus is on understanding the distinctions in higher dimensions that emerge when using the generalized tensor compared to the conventional one. Through a comparative analysis, illustrated with examples in two dimensions, we highlight unique quantum geometric properties for both the quantum metric tensor and the Berry curvature. Additionally, we explore differences between analytical and perturbative approaches in solving the problems.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# 行動認識のための3次元ハンドケースの有用性について

On the Utility of 3D Hand Poses for Action Recognition ( http://arxiv.org/abs/2403.09805v1 )

ライセンス: Link先を確認
Md Salman Shamil, Dibyadip Chatterjee, Fadime Sener, Shugao Ma, Angela Yao, (参考訳) 3Dハンドポーズは、アクション認識のための未探索のモダリティである。 ケースはコンパクトだが有益であり、計算予算が限られているアプリケーションには大きなメリットがある。 しかし、ポーズだけでは、人間が相互作用する物体や環境を完全に捉えることができないため、アクションに対する不完全な理解を提供する。 手動物体の相互作用を効率的にモデル化するために,新しいマルチモーダルトランスであるHandFormerを提案する。 HandFormerは、細かな動きモデリングのための高時間分解能の3Dハンドポーズと、シーンセマンティクスを符号化するスパースサンプルのRGBフレームを組み合わせる。 ポーズのユニークな特徴を観察し、手の動きを時間的に分解し、各関節をその短期的軌跡で表現する。 この分解されたポーズ表現とスパースRGBのサンプルを組み合わせることは極めて効率的で高精度である。 手しか持たないUnimodal HandFormerは、既存のスケルトンベースのメソッドを5倍のFLOPで上回ります。 RGBでは,アセンブラ101とH2Oの最先端性能が向上し,エゴセントリックな動作認識が大幅に向上した。

3D hand poses are an under-explored modality for action recognition. Poses are compact yet informative and can greatly benefit applications with limited compute budgets. However, poses alone offer an incomplete understanding of actions, as they cannot fully capture objects and environments with which humans interact. To efficiently model hand-object interactions, we propose HandFormer, a novel multimodal transformer. HandFormer combines 3D hand poses at a high temporal resolution for fine-grained motion modeling with sparsely sampled RGB frames for encoding scene semantics. Observing the unique characteristics of hand poses, we temporally factorize hand modeling and represent each joint by its short-term trajectories. This factorized pose representation combined with sparse RGB samples is remarkably efficient and achieves high accuracy. Unimodal HandFormer with only hand poses outperforms existing skeleton-based methods at 5x fewer FLOPs. With RGB, we achieve new state-of-the-art performance on Assembly101 and H2O with significant improvements in egocentric action recognition.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# xLP: マスターデータ管理のための説明可能なリンク予測

xLP: Explainable Link Prediction for Master Data Management ( http://arxiv.org/abs/2403.09806v1 )

ライセンス: Link先を確認
Balaji Ganesan, Matheen Ahmed Pasha, Srinivasa Parkala, Neeraj R Singh, Gayatri Mishra, Sumit Bhatia, Hima Patel, Somashekar Naganna, Sameep Mehta, (参考訳) ユーザにニューラルモデル予測を説明するには、創造性が必要です。 特にエンタープライズアプリケーションでは、ユーザの時間にまつわるコストがあり、モデル予測に対する信頼が採用に欠かせない。 マスタデータ管理におけるリンク予測のために,解釈可能性,事実検証,パスランキング,ニューロシンボリック推論,自己説明型AIなど,さまざまな説明可能性ソリューションを構築した。 このデモでは、ユーザがより快適な説明を選択できるように、リンク予測に関する説明を創造的な方法で提示する。

Explaining neural model predictions to users requires creativity. Especially in enterprise applications, where there are costs associated with users' time, and their trust in the model predictions is critical for adoption. For link prediction in master data management, we have built a number of explainability solutions drawing from research in interpretability, fact verification, path ranking, neuro-symbolic reasoning and self-explaining AI. In this demo, we present explanations for link prediction in a creative way, to allow users to choose explanations they are more comfortable with.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# 非負多項式による隠れた物理的非古典性の研究

Revealing hidden physical nonclassicality with nonnegative polynomials ( http://arxiv.org/abs/2403.09807v1 )

ライセンス: Link先を確認
Ties-A. Ohst, Benjamin Yadin, Birte Ostermann, Timo de Wolff, Otfried Gühne, Hai-Chau Nguyen, (参考訳) 古典的な概念を超えた量子現象を理解することは、現代の量子物理学の焦点である。 ここでは、ヒルベルトの17番目の問題にまつわる非負多項式の理論が、光の古典的性質を捉えたデータを最適に活用するためにどのように用いられるかを示す。 具体的には,非負多項式が標準検出方法から隠された場合でも,データの非古典性を明らかにすることができることを示す。 さらに、非負多項式の抽象言語は、光およびスピン系の非古典性に対する統一的な数学的アプローチをもたらし、一方のメソッドを他方にマップすることができる。 逆に、物理問題は非負多項式の特徴付けに関するいくつかの数学的洞察も引き起こした。

Understanding quantum phenomena which go beyond classical concepts is a focus of modern quantum physics. Here, we show how the theory of nonnegative polynomials emerging around Hilbert's 17th problem, can be used to optimally exploit data capturing the nonclassical nature of light. Specifically, we show that nonnegative polynomials can reveal nonclassicality in data even when it is hidden from standard detection methods up to now. Moreover, the abstract language of nonnegative polynomials also leads to a unified mathematical approach to nonclassicality for light and spin systems, allowing us to map methods for one to the other. Conversely, the physical problems arising also inspire several mathematical insights into characterisation of nonnegative polynomials.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# 時系列のための自己監督型学習 - 対照的に,あるいは生成的か?

Self-Supervised Learning for Time Series: Contrastive or Generative? ( http://arxiv.org/abs/2403.09809v1 )

ライセンス: Link先を確認
Ziyu Liu, Azadeh Alavi, Minyi Li, Xiang Zhang, (参考訳) 自己教師付き学習(SSL)は、最近、大規模なラベルなしデータから表現を学習するための強力なアプローチとして現れ、時系列分析において有望な結果を示している。 自己指導型表現学習は、コントラストとジェネレーティブの2つの主流に分類することができる。 本稿では,時系列における比較的手法と生成的手法の総合的な比較研究について述べる。 まず、コントラストおよび生成SSLの基本フレームワークを紹介し、モデル最適化を導く監視信号の取得方法について論じる。 次に、各型に対して古典的アルゴリズム(SimCLR vs. MAE)を実装し、公正な設定で比較分析を行う。 この結果は,それぞれのアプローチの長所と短所に関する洞察を与え,適切なSSLメソッドを選択するための実践的な勧告を提供する。 また,表現学習の幅広い分野における研究成果の意義についても考察し,今後の研究方向性を提案する。 すべてのコードとデータは \url{https://github.com/DL4mHealth/SSL_Comparison} でリリースされる。

Self-supervised learning (SSL) has recently emerged as a powerful approach to learning representations from large-scale unlabeled data, showing promising results in time series analysis. The self-supervised representation learning can be categorized into two mainstream: contrastive and generative. In this paper, we will present a comprehensive comparative study between contrastive and generative methods in time series. We first introduce the basic frameworks for contrastive and generative SSL, respectively, and discuss how to obtain the supervision signal that guides the model optimization. We then implement classical algorithms (SimCLR vs. MAE) for each type and conduct a comparative analysis in fair settings. Our results provide insights into the strengths and weaknesses of each approach and offer practical recommendations for choosing suitable SSL methods. We also discuss the implications of our findings for the broader field of representation learning and propose future research directions. All the code and data are released at \url{https://github.com/DL4mHealth/SSL_Comparison}.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# LabelAId: クラウドソーシングシステムにおける人間のラベル付け品質とドメイン知識を改善するためのジャストインタイムAIインターベンション

LabelAId: Just-in-time AI Interventions for Improving Human Labeling Quality and Domain Knowledge in Crowdsourcing Systems ( http://arxiv.org/abs/2403.09810v1 )

ライセンス: Link先を確認
Chu Li, Zhihan Zhang, Michael Saugstad, Esteban Safranchik, Minchu Kulkarni, Xiaoyu Huang, Shwetak Patel, Vikram Iyer, Tim Althoff, Jon E. Froehlich, (参考訳) クラウドソーシングプラットフォームは、分散問題解決を変革してきたが、品質管理は依然として永続的な課題である。 労働者の事前審査や精錬指示のような伝統的な品質管理策は、しばしば経済生産の最適化にのみ焦点をあてる。 本稿では,クラウドワーカー間でのラベル付け品質とドメイン固有の知識の両面を強化するために,ジャスト・イン・タイムのAI介入について検討する。 本稿では,PWS(Programmatic Weak Supervision)とFT変換器を組み合わせた高度な推論モデルであるLabelAIdを紹介する。 技術的評価によると,当社のLabelAIdパイプラインは最先端のMLベースラインを一貫して上回り,50のダウンストリームサンプルでエラー推測精度を36.7%向上している。 その後、都市アクセシビリティのためのオープンソースのクラウドソーシングプラットフォームであるProject SidewalkにLabelAIdを実装しました。 34名の被験者による比較研究により、ラベルAIdは効率を損なうことなくラベルの精度を著しく向上し、ラベルの信頼性も向上することが示された。 本稿では,LabelAIdの成功要因,限界,および他のクラウドソース科学領域への一般化可能性について論じる。

Crowdsourcing platforms have transformed distributed problem-solving, yet quality control remains a persistent challenge. Traditional quality control measures, such as prescreening workers and refining instructions, often focus solely on optimizing economic output. This paper explores just-in-time AI interventions to enhance both labeling quality and domain-specific knowledge among crowdworkers. We introduce LabelAId, an advanced inference model combining Programmatic Weak Supervision (PWS) with FT-Transformers to infer label correctness based on user behavior and domain knowledge. Our technical evaluation shows that our LabelAId pipeline consistently outperforms state-of-the-art ML baselines, improving mistake inference accuracy by 36.7% with 50 downstream samples. We then implemented LabelAId into Project Sidewalk, an open-source crowdsourcing platform for urban accessibility. A between-subjects study with 34 participants demonstrates that LabelAId significantly enhances label precision without compromising efficiency while also increasing labeler confidence. We discuss LabelAId's success factors, limitations, and its generalizability to other crowdsourced science domains.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# 高エントロピー材料に対するOC20訓練EquiformerV2モデルの適用

Adapting OC20-trained EquiformerV2 Models for High-Entropy Materials ( http://arxiv.org/abs/2403.09811v1 )

ライセンス: Link先を確認
Christian M. Clausen, Jan Rossmeisl, Zachary W. Ulissi, (参考訳) 高エントロピー材料や触媒の研究における計算的高スループットの研究は、高次元の組成空間と無数の構造マイクロステートによって妨げられている。 それらは従来の密度汎関数理論計算の使用にボトルネックを与え、その結果、原子構造シミュレーションにおいて機械学習ポテンシャルの使用がますます広まっている。 本報告では, 領域外高エントロピー合金Ag-Ir-Pd-Pt-Ruの吸着エネルギーを推定するために, オープン触媒プロジェクトから予めトレーニングしたEquiformerV2モデルを調整し, 微調整した結果を示す。 結合部位の局所環境に基づいてエネルギーフィルタを適用することにより、ゼロショット推論が著しく改善され、少数ショットの微調整により、最先端の精度が得られる。 また、一般的な機械学習の可能性を想定したEquiformerV2は、より小さく、より焦点を絞った直接推論モデルに通知することができる。 この知識蒸留装置は複雑な結合部位の性能を高める。 これは、秩序な金属間構造から学んだ基礎知識が、固体溶液の高度に乱れた構造に外挿できることを示している。 これらのモデルの大幅に高速化された計算スループットにより、高エントロピー材料空間におけるヒッヘルト非実用的な研究が容易に利用できるようになった。

Computational high-throughput studies, especially in research on high-entropy materials and catalysts, are hampered by high-dimensional composition spaces and myriad structural microstates. They present bottlenecks to the conventional use of density functional theory calculations, and consequently, the use of machine-learned potentials is becoming increasingly prevalent in atomic structure simulations. In this communication, we show the results of adjusting and fine-tuning the pretrained EquiformerV2 model from the Open Catalyst Project to infer adsorption energies of *OH and *O on the out-of-domain high-entropy alloy Ag-Ir-Pd-Pt-Ru. By applying an energy filter based on the local environment of the binding site the zero-shot inference is markedly improved and through few-shot fine-tuning the model yields state-of-the-art accuracy. It is also found that EquiformerV2, assuming the role of general machine learning potential, is able to inform a smaller, more focused direct inference model. This knowledge distillation setup boosts performance on complex binding sites. Collectively, this shows that foundational knowledge learned from ordered intermetallic structures, can be extrapolated to the highly disordered structures of solid-solutions. With the vastly accelerated computational throughput of these models, hitherto infeasible research in the high-entropy material space is now readily accessible.
翻訳日:2024-03-18 21:25:23 公開日:2024-03-14
# 包括的マルチモーダル知覚に向けて:タッチ・ランゲージ・ビジョン・データセットの導入

Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset ( http://arxiv.org/abs/2403.09813v1 )

ライセンス: Link先を確認
Ning Cheng, You Li, Jing Gao, Bin Fang, Jinan Xu, Wenjuan Han, (参考訳) 触覚は、人間とロボットの両方の知覚と相互作用能力に対する重要なサポートと強化を提供する。 それでも、タッチに関連するマルチモーダル研究は主に視覚的・触覚的なモダリティに焦点を当てており、言語領域での探索は限られている。 語彙以外にも、文レベルの記述にはよりリッチな意味論が含まれる。 そこで我々は,マルチモードアライメントのための文レベル記述を特徴とする,人間と機械のカスケード協調によるTLV(Touch-Language-Vision)というタッチ言語ビジョンデータセットを構築した。 新しいデータセットは、提案した軽量トレーニングフレームワークTLV-Link(Linking Touch, Language, and Vision through Alignment)を微調整するために使用され、最小パラメータ調整(1%)で効果的なセマンティックアライメントを実現する。 Project Page: https://xiaoen0.github.io/touch.page/.com

Tactility provides crucial support and enhancement for the perception and interaction capabilities of both humans and robots. Nevertheless, the multimodal research related to touch primarily focuses on visual and tactile modalities, with limited exploration in the domain of language. Beyond vocabulary, sentence-level descriptions contain richer semantics. Based on this, we construct a touch-language-vision dataset named TLV (Touch-Language-Vision) by human-machine cascade collaboration, featuring sentence-level descriptions for multimode alignment. The new dataset is used to fine-tune our proposed lightweight training framework, TLV-Link (Linking Touch, Language, and Vision through Alignment), achieving effective semantic alignment with minimal parameter adjustments (1%). Project Page: https://xiaoen0.github.io/touch.page/.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# 狭線光転移におけるドップラーフリー3光子分光

Doppler-free three-photon spectroscopy on narrow-line optical transitions ( http://arxiv.org/abs/2403.09814v1 )

ライセンス: Link先を確認
Guglielmo Panelli, Shaun C. Burd, Erik J. Porter, Mark Kasevich, (参考訳) 我々は、$^{1}S_{0}$\leftrightarrow$$^{3}P_{0}$光時計遷移と$^{1}S_{0}$$\leftrightarrow$$^{3}P_{1}$対結合遷移のコヒーレントドップラーフリー三光子励起を、$^{88}Sr原子の自由空間熱雲で示す。 原子に発生する3つのレーザーの波動ベクトルの適切な配向により、全ての速度クラスにおいて1次ドップラーシフトを排除できる。 3光子励起による$^{1}S_{0}$$\leftrightarrow$$^{3}P_{1}$遷移は、1つの近共振レーザー源を用いて21$\mu$s自然寿命に匹敵する尋問時間を持つ高コントラストラムゼー分光を可能にする。 $^{1}S_{0}$$\leftrightarrow$$^{3}P_{0}$クロック遷移上の3光子分光は、$^{1}S_{0}$$\leftrightarrow$$^{3}P_{0}$と$^{1}S_{0}$$\leftrightarrow$$^{3}P_{1}$遷移とほぼ共鳴するレーザー周波数のみを用いて、2桁のドップラー拡大と、それに対応する$\sim470$Hzライン幅の縮小を可能にする。

We demonstrate coherent Doppler-free three-photon excitation of the $^{1}S_{0}$$\leftrightarrow$$^{3}P_{0}$ optical clock transition and the $^{1}S_{0}$$\leftrightarrow$$^{3}P_{1}$ intercombination transition in free-space thermal clouds of $^{88}$Sr atoms. By appropriate orientation of the wavevectors of three lasers incident on the atoms, the first-order Doppler shift can be eliminated for all velocity classes. Three-photon excitation of the $^{1}S_{0}$$\leftrightarrow$$^{3}P_{1}$ transition enables high-contrast Ramsey spectroscopy with interrogation times comparable to the 21$\mu$s natural lifetime using a single near-resonant laser source. Three-photon spectroscopy on the $^{1}S_{0}$$\leftrightarrow$$^{3}P_{0}$ clock transition, using only laser frequencies nearly resonant with the $^{1}S_{0}$$\leftrightarrow$$^{3}P_{0}$ and $^{1}S_{0}$$\leftrightarrow$$^{3}P_{1}$ transitions, enables a reduction in Doppler broadening by two orders of magnitude and a corresponding $\sim470$Hz linewidth without a confining potential.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# FastSAM3D:3Dボリューム・メディカル・イメージのための効率的なセグメンテーションモデル

FastSAM3D: An Efficient Segment Anything Model for 3D Volumetric Medical Images ( http://arxiv.org/abs/2403.09827v1 )

ライセンス: Link先を確認
Yiqing Shen, Jingxing Li, Xinyuan Shao, Blanca Inigo Romillo, Ankush Jindal, David Dreizin, Mathias Unberath, (参考訳) Segment Any Model(SAM)は、目に見えないクラスのセグメンテーションオブジェクトや、適切に誘導された未確認領域において、ゼロショットの一般化能力のために注目を集めている。 対話性はSAMの重要な強みであり、ユーザは出力を洗練するために興味のあるオブジェクトを指定するプロンプトを反復的に提供できる。 しかし,3次元医用画像処理タスクにおけるSAMの対話的利用を実現するためには,高速な推論時間が必要である。 高いメモリ要件と長い処理遅延は、この目的のためにSAMの採用を妨げる制約のままである。 具体的には、3Dボリュームに適用された2DSAMは、全てのスライスを独立に処理するための反復計算と競合するが、3DSAMはモデルパラメータとFLOPSの指数的な増加に悩まされる。 これらの課題に対処するために、NVIDIA A100 GPU上でSAM推論を8ミリ秒/18*128*128のボリューム画像に高速化するFastSAM3Dを提案する。 このスピードアップは達成される 1) 複雑な12層型ViT-Bから6層型6層型ViT-Tinyエンコーダへの知識伝達をスクラッチからトレーニングすることなく行うことができる新しい層ワイド・プログレッシブ蒸留方式 2)バニラアテンション演算子に代わる新しい3次元スパースフラッシュアテンションにより、メモリ需要を大幅に削減し、並列化を向上する。 3つの多様なデータセットの実験により、FastSAM3Dは2DSAMに比べて527.38倍、同じボリュームの3DSAMでは8.75倍のスピードアップを達成した。 したがって、FastSAM3Dは、一般的に使われているGPUハードウェアを使った、低コストでインタラクティブなSAMベースの3D医療画像セグメンテーションのための扉を開く。 コードはhttps://github.com/arcadelab/FastSAM3Dで入手できる。

Segment anything models (SAMs) are gaining attention for their zero-shot generalization capability in segmenting objects of unseen classes and in unseen domains when properly prompted. Interactivity is a key strength of SAMs, allowing users to iteratively provide prompts that specify objects of interest to refine outputs. However, to realize the interactive use of SAMs for 3D medical imaging tasks, rapid inference times are necessary. High memory requirements and long processing delays remain constraints that hinder the adoption of SAMs for this purpose. Specifically, while 2D SAMs applied to 3D volumes contend with repetitive computation to process all slices independently, 3D SAMs suffer from an exponential increase in model parameters and FLOPS. To address these challenges, we present FastSAM3D which accelerates SAM inference to 8 milliseconds per 128*128*128 3D volumetric image on an NVIDIA A100 GPU. This speedup is accomplished through 1) a novel layer-wise progressive distillation scheme that enables knowledge transfer from a complex 12-layer ViT-B to a lightweight 6-layer ViT-Tiny variant encoder without training from scratch; and 2) a novel 3D sparse flash attention to replace vanilla attention operators, substantially reducing memory needs and improving parallelization. Experiments on three diverse datasets reveal that FastSAM3D achieves a remarkable speedup of 527.38x compared to 2D SAMs and 8.75x compared to 3D SAMs on the same volumes without significant performance decline. Thus, FastSAM3D opens the door for low-cost truly interactive SAM-based 3D medical imaging segmentation with commonly used GPU hardware. Code is available at https://github.com/arcadelab/FastSAM3D.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# 医用画像におけるデータ拡張の分析 : 超音波画像のケーススタディ

Analyzing Data Augmentation for Medical Images: A Case Study in Ultrasound Images ( http://arxiv.org/abs/2403.09828v1 )

ライセンス: Link先を確認
Adam Tupper, Christian Gagné, (参考訳) データ拡張は、ディープニューラルネットワークの一般化性能を改善する最も効果的な手法の1つである。 しかし、医用画像解析において、限られたデータ利用率に直面している場合が多いが、しばしば未利用である。 これは、医用画像のタスクやモダリティにまたがる様々な拡張技術の有効性の集団的理解の欠如によるものと思われる。 これが特に当てはまる領域の1つは、乳房超音波画像である。 本研究は,超音波画像における乳腺病変の分類における異なる拡張法の有効性を解析することにより,この問題に対処する。 いくつかのデータセットにまたがって解析結果の一般化性を評価し、ある拡張が他のものよりもはるかに効果的であることを示し、それらの利用が大きなパフォーマンス向上をもたらすことを示す。

Data augmentation is one of the most effective techniques to improve the generalization performance of deep neural networks. Yet, despite often facing limited data availability in medical image analysis, it is frequently underutilized. This appears to be due to a gap in our collective understanding of the efficacy of different augmentation techniques across medical imaging tasks and modalities. One domain where this is especially true is breast ultrasound images. This work addresses this issue by analyzing the effectiveness of different augmentation techniques for the classification of breast lesions in ultrasound images. We assess the generalizability of our findings across several datasets, demonstrate that certain augmentations are far more effective than others, and show that their usage leads to significant performance gains.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# 因果表現の再利用性と構成性に向けて

Towards the Reusability and Compositionality of Causal Representations ( http://arxiv.org/abs/2403.09830v1 )

ライセンス: Link先を確認
Davide Talon, Phillip Lippe, Stuart James, Alessio Del Bue, Sara Magliacane, (参考訳) 因果表現学習(CRL)は,高次元観察から高次因果要因とその関連性を特定することを目的としている。 ほとんどのCRLは単一環境で因果表現を学習することに重点を置いているが、本研究では、新しい環境に適応したり、複数の関連する環境にまたがって構成された画像の時間的シーケンスから因果表現を学習する第一歩を提案する。 特にDECAFは,どの因果因子を再利用可能か,あるいは以前に学習した因果表現から適応する必要があるかを検出するフレームワークである。 私たちのアプローチは、各ステップでどの変数が摂動しているかを示す介入ターゲットの可用性に基づいています。 3つのベンチマークデータセットの実験により、我々のフレームワークを最先端の4つのCRLアプローチに統合すると、新しい環境における正確な表現が、ほんの数サンプルで得られます。

Causal Representation Learning (CRL) aims at identifying high-level causal factors and their relationships from high-dimensional observations, e.g., images. While most CRL works focus on learning causal representations in a single environment, in this work we instead propose a first step towards learning causal representations from temporal sequences of images that can be adapted in a new environment, or composed across multiple related environments. In particular, we introduce DECAF, a framework that detects which causal factors can be reused and which need to be adapted from previously learned causal representations. Our approach is based on the availability of intervention targets, that indicate which variables are perturbed at each time step. Experiments on three benchmark datasets show that integrating our framework with four state-of-the-art CRL approaches leads to accurate representations in a new environment with only a few samples.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# プロンプトインジェクションアタックによる大規模言語モデルによる機械翻訳のスケーリング挙動

Scaling Behavior of Machine Translation with Large Language Models under Prompt Injection Attacks ( http://arxiv.org/abs/2403.09832v1 )

ライセンス: Link先を確認
Zhifan Sun, Antonio Valerio Miceli-Barone, (参考訳) 大規模言語モデル(LLM)は、機械翻訳のような多くの自然言語処理タスクにおいて、タスク固有のモデルに匹敵する品質や、自然言語命令やコンテキスト内例によるタスク特定の単純さから、ますます好まれる基盤プラットフォームになりつつある。 しかし、その汎用性は、要求命令に埋め込み、モデルが無許可でおそらく安全でない方法で振る舞うようなエンドユーザによるサブバージョンにそれらを開放する。 本研究では,機械翻訳タスクにおける複数のLLMのファミリー上でのこれらのプロンプト注入攻撃(PIAs)について検討し,モデルサイズが攻撃成功率に与える影響に着目した。 新しいベンチマークデータセットを導入し、複数の言語ペアと英語で書かれたプロンプトをインジェクトすることで、特定の条件下でのより大きなモデルが攻撃を成功させる可能性が高まることを発見した(McKenzie et al , 2023)。 我々の知る限り、これは多言語環境での非自明なLLMスケーリングの振る舞いを研究する最初の研究である。

Large Language Models (LLMs) are increasingly becoming the preferred foundation platforms for many Natural Language Processing tasks such as Machine Translation, owing to their quality often comparable to or better than task-specific models, and the simplicity of specifying the task through natural language instructions or in-context examples. Their generality, however, opens them up to subversion by end users who may embed into their requests instructions that cause the model to behave in unauthorized and possibly unsafe ways. In this work we study these Prompt Injection Attacks (PIAs) on multiple families of LLMs on a Machine Translation task, focusing on the effects of model size on the attack success rates. We introduce a new benchmark data set and we discover that on multiple language pairs and injected prompts written in English, larger models under certain conditions may become more susceptible to successful attacks, an instance of the Inverse Scaling phenomenon (McKenzie et al., 2023). To our knowledge, this is the first work to study non-trivial LLM scaling behaviour in a multi-lingual setting.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# プライバシ保護型MRI解析によるヘルスケアの強化

Empowering Healthcare through Privacy-Preserving MRI Analysis ( http://arxiv.org/abs/2403.09836v1 )

ライセンス: Link先を確認
Al Amin, Kamrul Hasan, Saleh Zein-Sabatto, Deo Chimba, Liang Hong, Imtiaz Ahmed, Tariqul Islam, (参考訳) 医療分野では、MRI(Magnetic Resonance Imaging)が人工知能(AI)と機械学習(ML)の手法を用いて画像データから貴重な洞察を抽出するため、重要な役割を担っている。 それでも、患者プライバシの必要性は、さまざまな医療ソースからデータを集める際に重大な課題を生じさせる。 その結果、Deep Learning (DL) コミュニティはまれな特徴を検出するのに困難に直面している。 本稿では,この課題に対処するための革新的なソリューションである,EBFL(Ensemble-Based Federated Learning)フレームワークを紹介する。 EBFLフレームワークは、センシティブな患者データを共有することよりも、モデルの特徴を強調することによって、従来のアプローチから逸脱する。 このユニークな方法論は、医療機関の協調的でプライバシを重視した環境を育み、最大限のデータプライバシ標準を維持しながら、モデルリファインメントのための集中サーバの能力を活用できるようにする。逆に、堅牢なアンサンブルアーキテクチャは、単一のDLモデルと区別して、強力な機能抽出機能を備えている。 この品質はMRI解析に極めて信頼性が高い。 EBFL法を用いて, グリオーマ, 髄膜腫, 下垂体, 非腫瘍例などの脳腫瘍の分類を精度良く行い, グローバルモデルでは94%, エンサンブルモデルでは96%の精度を得た。 精度,精度,リコール,F1スコアなどの従来の評価指標を用いて厳密な評価を行った。 FL(Federated Learning)フレームワークにおけるDLの統合は、脳腫瘍を検出するための正確で信頼性の高い診断を提供する方法論を生み出した。

In the healthcare domain, Magnetic Resonance Imaging (MRI) assumes a pivotal role, as it employs Artificial Intelligence (AI) and Machine Learning (ML) methodologies to extract invaluable insights from imaging data. Nonetheless, the imperative need for patient privacy poses significant challenges when collecting data from diverse healthcare sources. Consequently, the Deep Learning (DL) communities occasionally face difficulties detecting rare features. In this research endeavor, we introduce the Ensemble-Based Federated Learning (EBFL) Framework, an innovative solution tailored to address this challenge. The EBFL framework deviates from the conventional approach by emphasizing model features over sharing sensitive patient data. This unique methodology fosters a collaborative and privacy-conscious environment for healthcare institutions, empowering them to harness the capabilities of a centralized server for model refinement while upholding the utmost data privacy standards.Conversely, a robust ensemble architecture boasts potent feature extraction capabilities, distinguishing itself from a single DL model. This quality makes it remarkably dependable for MRI analysis. By harnessing our groundbreaking EBFL methodology, we have achieved remarkable precision in the classification of brain tumors, including glioma, meningioma, pituitary, and non-tumor instances, attaining a precision rate of 94% for the Global model and an impressive 96% for the Ensemble model. Our models underwent rigorous evaluation using conventional performance metrics such as Accuracy, Precision, Recall, and F1 Score. Integrating DL within the Federated Learning (FL) framework has yielded a methodology that offers precise and dependable diagnostics for detecting brain tumors.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# IntelliJ IDEにおけるSeleniumによるGUIテストのゲーミフィケーション - プロトタイププラグイン

Gamified GUI testing with Selenium in the IntelliJ IDE: A Prototype Plugin ( http://arxiv.org/abs/2403.09842v1 )

ライセンス: Link先を確認
Giacomo Garaccione, Tommaso Fulcini, Paolo Stefanut Bodnarescul, Riccardo Coppola, Luca Ardito, (参考訳) ソフトウェアテストはソフトウェア開発において重要なフェーズであり、開発プロセス中に発生する可能性のある問題や欠陥の検出を可能にする。 これらの問題に対処することで、ソフトウェアアプリケーションの品質、信頼性、ユーザエクスペリエンス、パフォーマンスが向上します。 グラフィカルユーザインタフェース(GUI)テストは、通常のユーザとアプリケーションとのインタラクションを模倣して欠陥を識別する手法である。 しかし、GUIテストは繰り返し性、エラーの頻度、そしてテスト品質に対する即時フィードバックの欠如により、しばしば未利用である。 近年,興味やモチベーション,エンゲージメントを高めるゲーム要素をゲーム以外の文脈に取り入れたゲーム要素が,ソフトウェア工学や教育など様々な分野で注目を集めている。 本稿では,スクリプトGUIテストをサポートする統合開発環境(IDE)であるIntelliJ IDEA用のガミフィケーションプラグインのプロトタイプであるGIPGUTについて述べる。 このプラグインは、達成、報酬、プロファイルのカスタマイズを通じて、単調で退屈なタスクにテスタのエンゲージメントを高める。 GUIテストプロセスにおけるユーザビリティとゲーミフィケーションの影響を評価するため,少数のユーザグループによるプロトタイプ評価を行った。 その結果,ゲーミフィケーション要素の高利用性と肯定的な受容性が示唆された。 しかし、参加者のサンプルサイズが限られているため、プラグインの有効性を十分に理解するにはさらなる研究が必要である。

Software testing is a crucial phase in software development, enabling the detection of issues and defects that may arise during the development process. Addressing these issues enhances software applications' quality, reliability, user experience, and performance. Graphical User Interface (GUI) testing, one such technique, involves mimicking a regular user's interactions with an application to identify defects. However, GUI testing is often underutilized due to its perceived repetitiveness, error-proneness, and lack of immediate feedback on test quality. In recent years, gamification-incorporating game elements in non-game contexts to boost interest, motivation, and engagement-has gained traction in various fields, including software engineering and education. This paper presents GIPGUT: a prototype of a gamification plugin for IntelliJ IDEA, an Integrated Development Environment (IDE) that supports scripted GUI testing. The plugin enhances testers' engagement with typically monotonous and tedious tasks through achievements, rewards, and profile customization. A preliminary prototype evaluation was conducted with a small group of users to assess its usability and the impact of gamification on the GUI testing process. The results indicate high usability and positive reception of the gamification elements. However, due to the limited sample size of participants, further research is necessary to understand the plugin's effectiveness fully.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# 太陽風データからの地球影響事象の予測と機械学習による予測的特徴の評価

Forecasting Geoffective Events from Solar Wind Data and Evaluating the Most Predictive Features through Machine Learning Approaches ( http://arxiv.org/abs/2403.09847v1 )

ライセンス: Link先を確認
Sabrina Guastavino, Katsiaryna Bahamazava, Emma Perracchione, Fabiana Camattari, Gianluca Audone, Daniele Telloni, Roberto Susino, Gianalfredo Nicolini, Silvano Fineschi, Michele Piana, Anna Maria Massone, (参考訳) 本研究では,機械学習技術を利用した地磁気障害の予測について検討した。 具体的には、ロングショート長期記憶リカレントニューラルネットワークは、特に長期にわたる適用に適しているが、ラグランジアン点L$1$1$で、太陽風プラズマと複数の太陽周期以上で得られた磁場のその場測定を解析するために用いられる。 この問題は,SYM-H地磁気活動指数の50ドルnT以下の低下を1時間前に予測することを目的とした2値分類としてアプローチされ,一般に磁気圏摂動の指標と考えられる。 ニューラルネットワークのトレーニングフェーズにおいて、適切なスキルスコアを最適化するために調整された適切な損失関数を使用することで、強いクラス不均衡の問題に取り組む。 古典的スキルスコアの他に、価値重み付けされたスキルスコアが、強い時間的変動を特徴とする、ここで直面するような問題の研究に適した予測評価に使用される。 太陽過渡現象による磁気ヘリシティとエネルギーの含有量は、その検出とジオエフェクト性の可能性に関連して初めてネットワークアーキテクチャの入力特性として考慮された。 それらの予測能力は、ニューラルネットワーク予測モデルに関連する最も関連性の高い特徴をランク付けする相関駆動型特徴選択法によって示される。 運用環境で真の警告を与える重要なポイントである地磁気嵐の発生を適切に予測する上で,採用したニューラルネットワークの最適性能を最終的に示す。

This study addresses the prediction of geomagnetic disturbances by exploiting machine learning techniques. Specifically, the Long-Short Term Memory recurrent neural network, which is particularly suited for application over long time series, is employed in the analysis of in-situ measurements of solar wind plasma and magnetic field acquired over more than one solar cycle, from $2005$ to $2019$, at the Lagrangian point L$1$. The problem is approached as a binary classification aiming to predict one hour in advance a decrease in the SYM-H geomagnetic activity index below the threshold of $-50$ nT, which is generally regarded as indicative of magnetospheric perturbations. The strong class imbalance issue is tackled by using an appropriate loss function tailored to optimize appropriate skill scores in the training phase of the neural network. Beside classical skill scores, value-weighted skill scores are then employed to evaluate predictions, suitable in the study of problems, such as the one faced here, characterized by strong temporal variability. For the first time, the content of magnetic helicity and energy carried by solar transients, associated with their detection and likelihood of geo-effectiveness, were considered as input features of the network architecture. Their predictive capabilities are demonstrated through a correlation-driven feature selection method to rank the most relevant characteristics involved in the neural network prediction model. The optimal performance of the adopted neural network in properly forecasting the onset of geomagnetic storms, which is a crucial point for giving real warnings in an operational setting, is finally showed.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# 自己一貫性が数学推論の校正を後押し

Self-Consistency Boosts Calibration for Math Reasoning ( http://arxiv.org/abs/2403.09849v1 )

ライセンス: Link先を確認
Ante Wang, Linfeng Song, Ye Tian, Baolin Peng, Lifeng Jin, Haitao Mi, Jinsong Su, Dong Yu, (参考訳) 精度とモデル信頼性の相関関係を確立するキャリブレーションは,LLM開発において重要である。 我々は, 自己整合性(Wang et al , 2022)に基づく3つのオフ・ザ・シェルフ校正法を設計した。 オープンソースの強力な LLM (Mistral と LLaMA2) を用いた2つの人気のあるベンチマーク (GSM8K と MathQA) の評価を行い, p(True) (Kadavath et al , 2022) や logit (Kadavath et al , 2022) に基づく既存手法よりもモデルの信頼性と精度を橋渡しした。

Calibration, which establishes the correlation between accuracy and model confidence, is important for LLM development. We design three off-the-shelf calibration methods based on self-consistency (Wang et al., 2022) for math reasoning tasks. Evaluation on two popular benchmarks (GSM8K and MathQA) using strong open-source LLMs (Mistral and LLaMA2), our methods better bridge model confidence and accuracy than existing methods based on p(True) (Kadavath et al., 2022) or logit (Kadavath et al., 2022).
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# MARVIS: リアルと仮想イメージのセグメンテーションを意識したモーション・アンド・ジオメトリ

MARVIS: Motion & Geometry Aware Real and Virtual Image Segmentation ( http://arxiv.org/abs/2403.09850v1 )

ライセンス: Link先を確認
Jiayi Wu, Xiaomin Lin, Shahriar Negahdaripour, Cornelia Fermüller, Yiannis Aloimonos, (参考訳) 自律航法や3D再構成、水面近傍での物体認識といったタスクは、海洋ロボット工学の応用において不可欠である。 しかし、例えば、ランダムな空気-水界面からの反射や屈折、不規則な液体の流れ、それに類似した要因がダイナミックな障害を引き起こし、認識システムやナビゲーションシステムに潜在的な障害を引き起こす可能性がある。 従来のコンピュータビジョンアルゴリズムは、実際の画像領域と仮想画像領域を区別するのに苦労し、タスクをかなり複雑にしている。 仮想画像領域 (Virtual image region) は、反射や屈折によって、光線のリダイレクトによって形成される明らかな表現であり、実際の物理的な位置のない物体の存在を錯覚させる。 本研究では, 領域不変情報, 運動エントロピーカーネル, エピポーラ幾何整合性を組み合わせた合成画像を利用して, 実画像領域と仮想画像領域のセグメンテーションを行う手法を提案する。 ドメインが変更された場合、セグメンテーションネットワークを再トレーニングする必要はありません。 シミュレーションと実世界という2つの異なる領域に同じセグメンテーションネットワークを配置することで、これを実証する。 水面の複雑さを模倣したリアルな合成画像を作成することにより、実画像と仮想画像の識別を効果的に行うために、ネットワーク(MARVIS)のきめ細かいトレーニングデータを提供する。 動きと幾何学的設計の選択と総合的な実験分析により、未確認の現実世界領域における最先端の仮想画像セグメンテーション性能を達成し、IoUを78%以上、F1スコアを86%以上達成し、小さな計算フットプリントを確保した。 MARVISは1つのGPU(CPUコア)上で43 FPS(8 FPS)の推論レートを提供する。 私たちのコードとデータセットは、https://github.com/jiayi-wu-umd/MARVIS.comで利用可能です。

Tasks such as autonomous navigation, 3D reconstruction, and object recognition near the water surfaces are crucial in marine robotics applications. However, challenges arise due to dynamic disturbances, e.g., light reflections and refraction from the random air-water interface, irregular liquid flow, and similar factors, which can lead to potential failures in perception and navigation systems. Traditional computer vision algorithms struggle to differentiate between real and virtual image regions, significantly complicating tasks. A virtual image region is an apparent representation formed by the redirection of light rays, typically through reflection or refraction, creating the illusion of an object's presence without its actual physical location. This work proposes a novel approach for segmentation on real and virtual image regions, exploiting synthetic images combined with domain-invariant information, a Motion Entropy Kernel, and Epipolar Geometric Consistency. Our segmentation network does not need to be re-trained if the domain changes. We show this by deploying the same segmentation network in two different domains: simulation and the real world. By creating realistic synthetic images that mimic the complexities of the water surface, we provide fine-grained training data for our network (MARVIS) to discern between real and virtual images effectively. By motion & geometry-aware design choices and through comprehensive experimental analysis, we achieve state-of-the-art real-virtual image segmentation performance in unseen real world domain, achieving an IoU over 78% and a F1-Score over 86% while ensuring a small computational footprint. MARVIS offers over 43 FPS (8 FPS) inference rates on a single GPU (CPU core). Our code and dataset are available here https://github.com/jiayi-wu-umd/MARVIS.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# 2つのコミュニティの物語:スタックオーバーフローの学術的参照を探る

A Tale of Two Communities: Exploring Academic References on Stack Overflow ( http://arxiv.org/abs/2403.09856v1 )

ライセンス: Link先を確認
Run Huang, Souti Chattopadhyay, (参考訳) Stack Overflowは、技術的問題に対処し、実用的なソリューションを共有するためのリソースとして、ソフトウェア実践者によって広く認識されている。 学術的な議論のためのフォーラムとしては通常見なされないが、Stack Overflowのユーザは議論の中でしばしば学術的な情報源を参照している。 しかしながら、これらの学術コミュニティからの参照作品や、Stack Overflowコミュニティのニーズと関心をどう解釈するかについては、ほとんど分かっていない。 このギャップを埋めるために、Stack Overflowにおける学術文献の大規模な研究を行った。 この結果から,関心領域の異なるStack Overflowコミュニティが,様々な頻度と速度で学術文献に関わっていることが明らかとなった。 矛盾するパターンは、一部の規律が、その利益と開発軌道を、対応する実践者コミュニティから逸脱した可能性があることを示唆している。 最後に,Stack Overflowが学術研究の現実的関連性を高めている可能性について論じる。

Stack Overflow is widely recognized by software practitioners as the go-to resource for addressing technical issues and sharing practical solutions. While it is not typically seen as a forum for scholarly discourse, users on Stack Overflow often refer to academic sources in their discussions. Yet, little is known about these referenced works from the academic community and how they intersect the needs and interests of the Stack Overflow community. To bridge this gap, we conducted a large-scale study on academic references in Stack Overflow. Our findings reveal that Stack Overflow communities with different domains of interest engage with academic literature at varying frequencies and speeds. The contradicting patterns suggest that some disciplines may have diverged in their interests and development trajectories from the corresponding practitioner community. Finally, we discuss the potential of Stack Overflow in gauging the real-world relevance of academic research.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# 意識認識型自己適応型プロンプトを用いた数ショットクラスインクリメンタルラーニング

Few-Shot Class Incremental Learning with Attention-Aware Self-Adaptive Prompt ( http://arxiv.org/abs/2403.09857v1 )

ライセンス: Link先を確認
Chenxi Liu, Zhenyi Wang, Tianyi Xiong, Ruibo Chen, Yihan Wu, Junfeng Guo, Heng Huang, (参考訳) FSCIL(Few-Shot Class-Incremental Learning)モデルは、古いクラスに関する知識を保ちながら、サンプルが少ないクラスで段階的に新しいクラスを学習することを目的としている。 既存のFSCILメソッドは通常、バックボーン全体を微調整する。 一方、最近のプロンプトベースのCILアプローチでは、各タスクに十分なデータを持つトレーニングプロンプトによる忘れを軽減している。 本研究では,注意を意識した自己適応型プロンプト(ASP.NET)という新しいフレームワークを提案する。 ASP.NETはタスク不変のプロンプトを奨励し、注意点から特定の情報を減らすことで共有知識をキャプチャする。 さらに、ASPの自己適応的なタスク固有のプロンプトは、インフォメーション・ボトルネック学習の目的を持つ古いクラスから新しいクラスに、特定の情報を提供し、知識を伝達する。 要約すると、ASPはベースタスクの過度な適合を防ぎ、数秒のインクリメンタルタスクで膨大なデータを必要としない。 3つのベンチマークデータセットに対する大規模な実験は、ASPが新しいクラスを学習し、忘れを緩和するという点で、最先端のFSCILとプロンプトベースのCILメソッドを一貫して上回っていることを検証している。

Few-Shot Class-Incremental Learning (FSCIL) models aim to incrementally learn new classes with scarce samples while preserving knowledge of old ones. Existing FSCIL methods usually fine-tune the entire backbone, leading to overfitting and hindering the potential to learn new classes. On the other hand, recent prompt-based CIL approaches alleviate forgetting by training prompts with sufficient data in each task. In this work, we propose a novel framework named Attention-aware Self-adaptive Prompt (ASP). ASP encourages task-invariant prompts to capture shared knowledge by reducing specific information from the attention aspect. Additionally, self-adaptive task-specific prompts in ASP provide specific information and transfer knowledge from old classes to new classes with an Information Bottleneck learning objective. In summary, ASP prevents overfitting on base task and does not require enormous data in few-shot incremental tasks. Extensive experiments on three benchmark datasets validate that ASP consistently outperforms state-of-the-art FSCIL and prompt-based CIL methods in terms of both learning new classes and mitigating forgetting.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# FakeWatch: 偽ニュースを検知して、信頼できる選挙を確実にするフレームワーク

FakeWatch: A Framework for Detecting Fake News to Ensure Credible Elections ( http://arxiv.org/abs/2403.09858v1 )

ライセンス: Link先を確認
Shaina Raza, Tahniat Khan, Drai Paulen-Patterson, Veronica Chatrath, Mizanur Rahman, Oluwanifemi Bamgbose, (参考訳) 今日の技術的に駆り立てられた世界では、特に選挙のような重要な出来事において、フェイクニュースが急速に広まり、情報の完全性に対する脅威が高まっている。 この課題に取り組むために、フェイクニュースを検出するために慎重に設計された包括的フレームワークであるFakeWatchを紹介します。 北米の選挙関連ニュース記事を新たに収集したデータセットを活用し,ロバストな分類モデルを構築した。 本フレームワークは,従来の機械学習(ML)技術と最先端言語モデル(LM)の両方を組み合わせたモデルハブを統合し,偽ニュースを効果的に識別する。 我々の網羅的な目的は、偽情報の絶え間なく進化する風景を特定するのに十分な適応的で正確な分類モデルを提供することである。 我々のデータセット上での偽ニュース分類器の定量的評価により、最先端のLMは従来のMLモデルよりもわずかに優れているが、従来のモデルは精度と計算効率のバランスのために競争力を維持していることが明らかとなった。 さらに質的な分析は、偽ニュース記事のパターンに光を当てた。 本研究は, 情報不正対策, 特に選挙過程に関する今後の取り組みの基盤となるものである。 ラベル付きデータとモデルを公開して、使用と再現性を提供します。

In today's technologically driven world, the rapid spread of fake news, particularly during critical events like elections, poses a growing threat to the integrity of information. To tackle this challenge head-on, we introduce FakeWatch, a comprehensive framework carefully designed to detect fake news. Leveraging a newly curated dataset of North American election-related news articles, we construct robust classification models. Our framework integrates a model hub comprising of both traditional machine learning (ML) techniques and cutting-edge Language Models (LMs) to discern fake news effectively. Our overarching objective is to provide the research community with adaptable and precise classification models adept at identifying the ever-evolving landscape of misinformation. Quantitative evaluations of fake news classifiers on our dataset reveal that, while state-of-the-art LMs exhibit a slight edge over traditional ML models, classical models remain competitive due to their balance of accuracy and computational efficiency. Additionally, qualitative analyses shed light on patterns within fake news articles. This research lays the groundwork for future endeavors aimed at combating misinformation, particularly concerning electoral processes. We provide our labeled data and model publicly for use and reproducibility.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# MAMBA:メタ強化学習のための効果的な世界モデルアプローチ

MAMBA: an Effective World Model Approach for Meta-Reinforcement Learning ( http://arxiv.org/abs/2403.09859v1 )

ライセンス: Link先を確認
Zohar Rimon, Tom Jurgenson, Orr Krupnik, Gilad Adler, Aviv Tamar, (参考訳) メタ強化学習(Meta-RL)は、効率的な探索を必要とする挑戦的なドメインに取り組むための有望なフレームワークである。 既存のメタRLアルゴリズムは、サンプル効率が低く、主に低次元のタスク分布に焦点を当てている。 並行して、モデルベースRL法は部分的に観測可能なMDPの解法に成功しており、メタRLは特別な場合である。 本研究では、この成功を活用し、既存の最先端モデルベースおよびメタRL手法の要素に基づくメタRLの新しいモデルベースアプローチを提案する。 提案手法の有効性をメタRLベンチマークドメインに適用し,サンプル効率が向上し(最大15\times$)、ハイパーパラメータチューニングが極めて少ないことを実証した。 さらに,より困難な高次元領域のスレート上でのアプローチを検証し,実世界の一般化エージェントへの一歩を踏み出した。

Meta-reinforcement learning (meta-RL) is a promising framework for tackling challenging domains requiring efficient exploration. Existing meta-RL algorithms are characterized by low sample efficiency, and mostly focus on low-dimensional task distributions. In parallel, model-based RL methods have been successful in solving partially observable MDPs, of which meta-RL is a special case. In this work, we leverage this success and propose a new model-based approach to meta-RL, based on elements from existing state-of-the-art model-based and meta-RL methods. We demonstrate the effectiveness of our approach on common meta-RL benchmark domains, attaining greater return with better sample efficiency (up to $15\times$) while requiring very little hyperparameter tuning. In addition, we validate our approach on a slate of more challenging, higher-dimensional domains, taking a step towards real-world generalizing agents.
翻訳日:2024-03-18 21:15:39 公開日:2024-03-14
# 一般化された量子ゆらぎ散逸アイデンティティ

Generalized quantum fluctuation-dissipation identities ( http://arxiv.org/abs/2403.09860v1 )

ライセンス: Link先を確認
Boris Maulén, Sergio Davis, Daniel Pons, (参考訳) 本稿では, 量子統計力学の言語におけるベイズ統計学から, 系の各知識状態を表す密度行列を用いて, ゆらぎ散逸定理を導出する。 この定理は量子ゆらぎ散逸定理 (Q-FDT) と呼ばれ、連続パラメータ $\gamma \in \mathbb{R}$ に依存する量子可観測物の間の期待値を得ることを可能にする。 この意味で、観測可能量に含まれるパラメータ(例えば摂動パラメータ)やラグランジュ乗算数のようなパラメータ(ヒルベルト空間の基底を変更するパラメータを除く)を考える。 Q-FDTにおける正準密度行列と大正準密度行列の両方を用いて、結果として生じるゆらぎ・散逸の同一性について検討する。 この意味で、従来の量子統計学や量子化学において、熱力学的ゆらぎ散逸定理、エレンフェスト、ヘルマン・ファインマンの定理など、よく使われる期待値のいくつかが、Q-FDTの特別な例であることがわかった。 最後に、最大エントロピー法から生じる \textit{ Generalized} 密度行列を用いて、一般化されたゆらぎ-散逸恒等式を導出する。

In this article, we derive the fluctuation-dissipation theorem from Bayesian statistics in the language of quantum statistical mechanics, using density matrices representing the respective state of knowledge about the system. This theorem, which we have called the quantum-fluctuation-dissipation theorem (Q-FDT), allows us to obtain expectation identities between quantum observables depending on a continuous parameter $\gamma \in \mathbb{R}$. In this sense, we consider parameters contained in the observables (e.g. a perturbative parameter), or parameters such as Lagrange multipliers only, excluding parameters that modify the underlying Hilbert space. Using both canonical and grand canonical density matrices in the Q-FDT, we explore the resulting fluctuation-dissipation identities. In this sense, we found that some of the expectation identities in common use in traditional quantum statistics and quantum chemistry, such as the thermodynamical fluctuation-dissipation theorem, the Ehrenfest and the Hellmann-Feynman theorems, among others, are particular instances of the Q-FDT. Lastly, using a \textit{generalized} density matrix arising from a Maximum-Entropy procedure, we derive generalized fluctuation-dissipation identities: these generalized identities allow us to group all the previous cases in a unitary scheme.
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# NN-Defined Modulator:IoTゲートウェイ上の再構成可能でポータブルなソフトウェアモジュレータ

NN-Defined Modulator: Reconfigurable and Portable Software Modulator on IoT Gateways ( http://arxiv.org/abs/2403.09861v1 )

ライセンス: Link先を確認
Jiazhao Wang, Wenchao Jiang, Ruofeng Liu, Bin Hu, Demin Gao, Shuai Wang, (参考訳) 物理層変調器は、シンボルを信号にマッピングするIoTゲートウェイにとって不可欠なコンポーネントである。 しかしながら、ゲートウェイのマザーボードにハンダ付けされたハードウェアチップセットや、ソフトウェア無線用の様々なプラットフォーム上の様々なツールキットのため、既存のソリューションは拡張性に制限があるか、プラットフォーム固有のものである。 このような制限は、変調スキームやハードウェアプラットフォームが非常に多様になったときに無視するのは難しい。 本稿では、NN定義変調器と呼ばれるIoTゲートウェイデバイスにおける物理層変調器の抽象層としてニューラルネットワークを用いる新しいパラダイムを提案する。 本手法は,様々なハードウェアプラットフォーム上での複数の技術の拡張性とポータビリティの課題に対処する。 提案したNN-Defined modulatorは、ハードウェアアクセラレーションと異種プラットフォームへのポータビリティをネイティブにサポートしながら、固形数学的基礎に根ざしたモデル駆動手法を使用する。 我々は,Nvidia Jetson NanoやRaspberry Piなど,さまざまなプラットフォーム上でNN定義変調器の評価を行う。 評価の結果、NN定義の変調器は従来の変調器として効果的に動作し、大きな効率向上(Nvidia Jetson Nanoでは4.7\times$、Raspberry Piでは1.1\times$)を提供し、高いポータビリティを示している。 さらに,我々のNN定義変調器を用いて,商品の TI CC2650 (ZigBee) と Intel AX201 (WiFi NIC) に準拠した ZigBee と WiFi パケットを生成する実世界のアプリケーションを示す。

A physical-layer modulator is a vital component for an IoT gateway to map the symbols to signals. However, due to the soldered hardware chipsets on the gateway's motherboards or the diverse toolkits on different platforms for the software radio, the existing solutions either have limited extensibility or are platform-specific. Such limitation is hard to ignore when modulation schemes and hardware platforms have become extremely diverse. This paper presents a new paradigm of using neural networks as an abstraction layer for physical layer modulators in IoT gateway devices, referred to as NN-defined modulators. Our approach addresses the challenges of extensibility and portability for multiple technologies on various hardware platforms. The proposed NN-defined modulator uses a model-driven methodology rooted in solid mathematical foundations while having native support for hardware acceleration and portability to heterogeneous platforms. We conduct the evaluation of NN-defined modulators on different platforms, including Nvidia Jetson Nano and Raspberry Pi. Evaluations demonstrate that our NN-defined modulator effectively operates as conventional modulators and provides significant efficiency gains (up to $4.7\times$ on Nvidia Jetson Nano and $1.1\times$ on Raspberry Pi), indicating high portability. Furthermore, we show the real-world applications using our NN-defined modulators to generate ZigBee and WiFi packets, which are compliant with commodity TI CC2650 (ZigBee) and Intel AX201 (WiFi NIC), respectively.
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# ホワイトボックスニューラルネットワークのための概念的フレームワーク

A Conceptual Framework For White Box Neural Networks ( http://arxiv.org/abs/2403.09863v1 )

ライセンス: Link先を確認
Maciej Satkiewicz, (参考訳) 本稿では、完全に説明可能なニューラルネットワーク層のための一般的な概念的枠組みとして意味的特徴を紹介する。 MNISTの関連するサブプロブレムに対するよく動機付けられた概念モデルの証明は、合計4.8Kの学習可能なパラメータを持つ4つの層で構成されている。 このモデルは容易に解釈可能で、対向訓練の形で人間レベルの対向テスト精度を実現し、ハイパーパラメータチューニングをほとんど必要とせず、単一のCPUで迅速にトレーニングできる。 このテクニックの一般的な性質は、根本的に民主化され、真に一般化可能なホワイトボックスニューラルネットワークへのパラダイムシフトを約束している。 コードはhttps://github.com/314-Foundation/white-box-nnで公開されている。

This paper introduces semantic features as a general conceptual framework for fully explainable neural network layers. A well-motivated proof of concept model for relevant subproblem of MNIST consists of 4 such layers with the total of 4.8K learnable parameters. The model is easily interpretable, achieves human-level adversarial test accuracy with no form of adversarial training, requires little hyperparameter tuning and can be quickly trained on a single CPU. The general nature of the technique bears promise for a paradigm shift towards radically democratised and truly generalizable white box neural networks. The code is available at https://github.com/314-Foundation/white-box-nn
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# iBRF: バランスの取れた森林分類器の改良

iBRF: Improved Balanced Random Forest Classifier ( http://arxiv.org/abs/2403.09867v1 )

ライセンス: Link先を確認
Asif Newaz, Md. Salman Mohosheu, MD. Abdullah al Noman, Dr. Taskeed Jabid, (参考訳) クラス不均衡は、多くの現実世界のアプリケーションで頻繁に発生するシナリオである様々な分類タスクにおいて大きな課題となる。 データ再サンプリングは、この問題に対処するための標準的なアプローチだと考えられている。 この技術の目的は、新しいサンプルを生成したり、データからサンプルを取り除くことで、クラス分布のバランスをとることである。 この課題に対処するために、長年にわたって様々なサンプリング技術が提案されてきた。 サンプリング技術は、より一般化された予測性能を得るために、アンサンブル学習フレームワークに組み込むこともできる。 Balanced Random Forest (BRF) と SMOTE-Bagging は一般的なアンサンブルアプローチの一つである。 本研究では,予測性能を向上させるため,BRF分類器の修正を提案する。 元のアルゴリズムでは、ブートストラップサンプルのバランスをとるためにランダムアンダーサンプリング(RUS)技術が用いられた。 しかし、データからあまりに多くのサンプルをランダムに除去すると、データ損失が大きくなり、性能が大幅に低下する。 本稿では,各ブートストラップサブサンプルにおける不均一なクラス分布のバランスをとるために,新しいハイブリッドサンプリング手法を導入することでシナリオを緩和することを提案する。 筆者らが提案するハイブリッドサンプリング手法は,iBRFと呼ばれるランダムフォレスト分類器のフレームワークに組み込まれた場合,不均衡な分類タスクで使用される他のサンプリング手法よりも優れた予測性能が得られる。 44個の不均衡データセットを用いて実験を行い、元のBRF分類器は平均的なMCCスコア47.03%、F1スコア49.09%を生み出した。 提案アルゴリズムは,より優れたMCCスコアが53.04%,F1スコアが55%である。 その結果,iBRFアルゴリズムの優位性と,不均衡学習における効果的なサンプリング手法の可能性が示唆された。

Class imbalance poses a major challenge in different classification tasks, which is a frequently occurring scenario in many real-world applications. Data resampling is considered to be the standard approach to address this issue. The goal of the technique is to balance the class distribution by generating new samples or eliminating samples from the data. A wide variety of sampling techniques have been proposed over the years to tackle this challenging problem. Sampling techniques can also be incorporated into the ensemble learning framework to obtain more generalized prediction performance. Balanced Random Forest (BRF) and SMOTE-Bagging are some of the popular ensemble approaches. In this study, we propose a modification to the BRF classifier to enhance the prediction performance. In the original algorithm, the Random Undersampling (RUS) technique was utilized to balance the bootstrap samples. However, randomly eliminating too many samples from the data leads to significant data loss, resulting in a major decline in performance. We propose to alleviate the scenario by incorporating a novel hybrid sampling approach to balance the uneven class distribution in each bootstrap sub-sample. Our proposed hybrid sampling technique, when incorporated into the framework of the Random Forest classifier, termed as iBRF: improved Balanced Random Forest classifier, achieves better prediction performance than other sampling techniques used in imbalanced classification tasks. Experiments were carried out on 44 imbalanced datasets on which the original BRF classifier produced an average MCC score of 47.03% and an F1 score of 49.09%. Our proposed algorithm outperformed the approach by producing a far better MCC score of 53.04% and an F1 score of 55%. The results obtained signify the superiority of the iBRF algorithm and its potential to be an effective sampling technique in imbalanced learning.
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# 量子ガウス-シュレルモデル:古典光学と量子光学のリンク

The Quantum Gaussian-Schell Model: A Link Between Classical and Quantum Optics ( http://arxiv.org/abs/2403.09868v1 )

ライセンス: Link先を確認
Riley B. Dawkins, Mingyuan Hong, Chenglong You, Omar S. Magana-Loaiza, (参考訳) 電磁場の量子理論は、古典的な形態の光は、実際には非古典的な多光子波束の異なる重ね合わせによって生成されることを明らかにした。 特に、部分的にコヒーレントな光は古典的な光の最も一般的な種類である。 ここでは、部分的にコヒーレントな光場の構成多光子量子系の抽出を初めて実演する。 古典光学の領域から、複素ガウス統計的性質を用いて部分的にコヒーレントな光の量子表現を通して量子光学の領域に移行する。 量子ガウス-シェールモデルの定式化は、古典的な光場を構成する量子多光子波束を分離するために光子数分解検出を行う可能性を明らかにする。 分離真空系と導波管のコヒーレンス特性を最大16光子で実験的に検証した。 我々の発見は、古典的なマクロな天体の量子特性を観測する可能性を示すだけでなく、古典的世界と量子的世界の間に基礎的な橋渡しを築いている。

The quantum theory of the electromagnetic field uncovered that classical forms of light were indeed produced by distinct superpositions of nonclassical multiphoton wavepackets. Specifically, partially coherent light represents the most common kind of classical light. Here, for the first time, we demonstrate the extraction of the constituent multiphoton quantum systems of a partially coherent light field. We shift from the realm of classical optics to the domain of quantum optics via a quantum representation of partially coherent light using its complex-Gaussian statistical properties. Our formulation of the quantum Gaussian-Schell model unveils the possibility of performing photon-number-resolving detection to isolate the constituent quantum multiphoton wavepackets of a classical light field. We experimentally verified the coherence properties of isolated vacuum systems and wavepackets with up to sixteen photons. Our findings not only demonstrate the possibility of observing quantum properties of classical macroscopic objects, but also establish a fundamental bridge between the classical and quantum worlds.
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# GAPの考え方:グループ意識による人口変動に対するロバスト性の向上

Mind the GAP: Improving Robustness to Subpopulation Shifts with Group-Aware Priors ( http://arxiv.org/abs/2403.09869v1 )

ライセンス: Link先を確認
Tim G. J. Rudner, Ya Shi Zhang, Andrew Gordon Wilson, Julia Kempe, (参考訳) 機械学習モデルは、データ分布のサブポピュレーションシフトの下では、よく機能しない。 機械学習モデルによるこのようなシフトの一般化を可能にする手法の開発は、現実の環境での安全なデプロイに不可欠である。 本稿では,グループ認識事前分布(GAP)をニューラルネットワークパラメータ上に展開し,サブポピュレーションシフトの下で適切に一般化するモデルを提案する。 我々は、グループ情報を持つ小さなデータセットへのアクセスのみを必要とする単純なグループ認識を設計し、以前トレーニングされた非ロバストモデルの最終層のみをトレーニングした場合に、この事前のトレーニングが最先端のパフォーマンスをもたらすことを実証する。 グループ・アウェア・プライアーは概念的には単純であり、属性の擬似ラベリングやデータ再重み付けといった既存のアプローチを補完し、ベイズ的推論を活用して人口移動の堅牢性を実現するための新しい道を開く。

Machine learning models often perform poorly under subpopulation shifts in the data distribution. Developing methods that allow machine learning models to better generalize to such shifts is crucial for safe deployment in real-world settings. In this paper, we develop a family of group-aware prior (GAP) distributions over neural network parameters that explicitly favor models that generalize well under subpopulation shifts. We design a simple group-aware prior that only requires access to a small set of data with group information and demonstrate that training with this prior yields state-of-the-art performance -- even when only retraining the final layer of a previously trained non-robust model. Group aware-priors are conceptually simple, complementary to existing approaches, such as attribute pseudo labeling and data reweighting, and open up promising new avenues for harnessing Bayesian inference to enable robustness to subpopulation shifts.
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# ThermoHands:エゴセントリックな熱画像から3Dハンドポースを推定するベンチマーク

ThermoHands: A Benchmark for 3D Hand Pose Estimation from Egocentric Thermal Image ( http://arxiv.org/abs/2403.09871v1 )

ライセンス: Link先を確認
Fangqiang Ding, Yunzhou Zhu, Xiangyu Wen, Chris Xiaoxuan Lu, (参考訳) 本研究では、温度画像に基づくエゴセントリックな3Dハンドポーズ推定のための新しいベンチマークであるThermoHandsを紹介する。 このベンチマークには、手動オブジェクトと手動仮想インタラクションを実行する28人の被験者による多様なデータセットが含まれている。 熱画像におけるエゴセントリックな3Dハンドポーズ推定に2つのトランスフォーマーモジュールを利用する,双対ベースライン手法TheFormerを導入する。 以上の結果から,TheFormerの先行性能と3Dハンドポーズ推定におけるサーマルイメージングの有効性が確認された。

In this work, we present ThermoHands, a new benchmark for thermal image-based egocentric 3D hand pose estimation, aimed at overcoming challenges like varying lighting and obstructions (e.g., handwear). The benchmark includes a diverse dataset from 28 subjects performing hand-object and hand-virtual interactions, accurately annotated with 3D hand poses through an automated process. We introduce a bespoken baseline method, TheFormer, utilizing dual transformer modules for effective egocentric 3D hand pose estimation in thermal imagery. Our experimental results highlight TheFormer's leading performance and affirm thermal imaging's effectiveness in enabling robust 3D hand pose estimation in adverse conditions.
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# 素小数の和の場の理論表現と物理応用

A field theory representation of sum of powers of principal minors and physical applications ( http://arxiv.org/abs/2403.09874v1 )

ライセンス: Link先を確認
M. N. Najafi, A. Ramezanpour, M. A. Rajabpour, (参考訳) 本稿では、量子力学と統計物理学に深く影響した数学的構成である主小数点の力の和(SPPM)に関する新しい場の理論表現を紹介する。 我々はまず、SPPM問題のベレジン積分の定式化を確立し、$SU(n)$、その部分群、および粒子-ホール対称性を含む様々な対称性を通してその多元性を示す。 この表現は、新しい解析的アプローチを促進するだけでなく、複雑な量子系の対称性に関する深い洞察を与える。 例えば、SPPM問題の観点から、Hubbardモデルのパーティション関数の表現を可能にする。 さらに,SPPMを近似する3つの平均場手法を開発し,それぞれ独自の視点とユーティリティを提供する。第1の手法は平均場近似後の対称性の進化に焦点を当て,第2の手法はボゾン表現に基づく平均場の安定性の理解を高め,第3の手法はSPPMの下位境界を確立するための変分的アプローチを採用する。 これらの手法は、SPPMの同一の一貫性関係と値に収束し、その堅牢性を示す。 理論的進歩の実践的応用は、2つの説得力のあるケーススタディを通して実証される。 まず、対称三対角行列である鎖のラプラシアン行列に対するSPPM問題を正確に解き、平均場理論の結果の正確なベンチマークを行う。 第二に、横磁場イジング鎖に対するシャノン・R・エニエントロピーの最初の解析計算を行い、強磁性相における相転移と対称性の破れに関する重要な洞察を明らかにした。 この研究は、量子システム内の主マイナーーを理解するための理論的ギャップを橋渡しするだけでなく、より複雑な量子物理学および統計物理学モデルにおける将来の探索のステージも設定している。

We introduce a novel field theory representation for the Sum of Powers of Principal Minors (SPPM), a mathematical construct with profound implications in quantum mechanics and statistical physics. We begin by establishing a Berezin integral formulation of the SPPM problem, showcasing its versatility through various symmetries including $SU(n)$, its subgroups, and particle-hole symmetry. This representation not only facilitates new analytical approaches but also offers deeper insights into the symmetries of complex quantum systems. For instance, it enables the representation of the Hubbard model's partition function in terms of the SPPM problem. We further develop three mean field techniques to approximate SPPM, each providing unique perspectives and utilities: the first method focuses on the evolution of symmetries post-mean field approximation, the second, based on the bosonic representation, enhances our understanding of the stability of mean field results, and the third employs a variational approach to establish a lower bound for SPPM. These methods converge to identical consistency relations and values for SPPM, illustrating their robustness. The practical applications of our theoretical advancements are demonstrated through two compelling case studies. First, we exactly solve the SPPM problem for the Laplacian matrix of a chain, a symmetric tridiagonal matrix, allowing for precise benchmarking of mean-field theory results. Second, we present the first analytical calculation of the Shannon-R\'enyi entropy for the transverse field Ising chain, revealing critical insights into phase transitions and symmetry breaking in the ferromagnetic phase. This work not only bridges theoretical gaps in understanding principal minors within quantum systems but also sets the stage for future explorations in more complex quantum and statistical physics models.
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# Touch-GS:3Dガウシアン・スプレイティングを監督するビジュアル触覚

Touch-GS: Visual-Tactile Supervised 3D Gaussian Splatting ( http://arxiv.org/abs/2403.09875v1 )

ライセンス: Link先を確認
Aiden Swann, Matthew Strong, Won Kyung Do, Gadiel Sznaier Camps, Mac Schwager, Monroe Kennedy III, (参考訳) 本研究では,光学式触覚センサを用いた3次元ガウス撮影(3DGS)シーンの監視手法を提案する。 光触覚センサはロボティクスにおいて操作やオブジェクト表現に広く利用されているが、光学触覚センサのデータは直接3DGSシーンを監督するには適していない。 我々の表現は、ガウス的プロセス・インプリシット・サーフェスを利用してオブジェクトを暗黙的に表現し、多くのタッチを統一された表現と不確実性を組み合わせた。 このモデルを2段階のプロセスで整列した単眼深度推定ネットワークにマージし、奥行きカメラと粗い整列を行い、タッチデータに合わせて微調整する。 各トレーニング画像に対して,本手法は対応する融合深度と不確実性マップを生成する。 この追加情報を利用することで、3DGSシーンモデルのトレーニングのための新たな損失関数である分散重み付き深度教師付き損失を提案する。 我々は、DenseTact光触覚センサとRealSense RGB-Dカメラを利用して、不透明で透明な物体だけでなく、数ビューのシーン合成において、触覚と視覚の組み合わせが視覚や触覚よりも定量的に質的に良い結果をもたらすことを示す。 プロジェクトページはhttp://armlabstanford.github.io/touch-gsでご覧ください。

In this work, we propose a novel method to supervise 3D Gaussian Splatting (3DGS) scenes using optical tactile sensors. Optical tactile sensors have become widespread in their use in robotics for manipulation and object representation; however, raw optical tactile sensor data is unsuitable to directly supervise a 3DGS scene. Our representation leverages a Gaussian Process Implicit Surface to implicitly represent the object, combining many touches into a unified representation with uncertainty. We merge this model with a monocular depth estimation network, which is aligned in a two stage process, coarsely aligning with a depth camera and then finely adjusting to match our touch data. For every training image, our method produces a corresponding fused depth and uncertainty map. Utilizing this additional information, we propose a new loss function, variance weighted depth supervised loss, for training the 3DGS scene model. We leverage the DenseTact optical tactile sensor and RealSense RGB-D camera to show that combining touch and vision in this manner leads to quantitatively and qualitatively better results than vision or touch alone in a few-view scene syntheses on opaque as well as on reflective and transparent objects. Please see our project page at http://armlabstanford.github.io/touch-gs
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# Bitcoinスマートコントラクトのコスト削減方法 - シンプルな最適化オフチェーンプロトコル

How To Save Fees in Bitcoin Smart Contracts: a Simple Optimistic Off-chain Protocol ( http://arxiv.org/abs/2403.09880v1 )

ライセンス: Link先を確認
Dario Maddaloni, Riccardo Marchesin, Roberto Zunino, (参考訳) 我々はBitcoinにおけるスマートコントラクトの実行を検討します。 そこで、すべてのコントラクトステップは、古いコントラクト状態を表すアウトプットに費やした新たなトランザクションをブロックチェーンに追加し、更新されたステートに対する新しいトランザクションを生成する。 この標準手順では、契約参加者は実行ステップ毎に取引手数料を支払う必要がある。 本稿では,Bitcoin契約の実行の大部分をオフチェーンで実行するプロトコルを紹介する。 すべての参加者がこのプロトコルに従えば、取引手数料を節約できる。 対照的に、敵の存在下では、誠実な参加者はなおも契約の正しい実行を強制することができる、と元のセマンティクスは述べている。

We consider the execution of smart contracts on Bitcoin. There, every contract step corresponds to appending to the blockchain a new transaction that spends the output representing the old contract state, creating a new one for the updated state. This standard procedure requires the contract participants to pay transaction fees for every execution step. In this paper, we introduce a protocol that moves most of the execution of a Bitcoin contract off-chain. When all participants follow this protocol, they are able to save on transaction fees. By contrast, in the presence of adversaries, any honest participant is still able to enforce the correct execution of the contract, according to its original semantics.
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# GazeMotion: Gazeに誘導された人間のモーション予測

GazeMotion: Gaze-guided Human Motion Forecasting ( http://arxiv.org/abs/2403.09885v1 )

ライセンス: Link先を確認
Zhiming Hu, Syn Schmitt, Daniel Haeufle, Andreas Bulling, (参考訳) 本稿では、過去の人間のポーズ情報と人間の目視情報を組み合わせた、人間の動き予測の新しい手法であるGazeMotionを紹介する。 人間の目と身体の動きが密接に調整されていることを示す行動科学のエビデンスにインスパイアされたGazeMotionは、まず過去の視線から将来の視線を予測し、その後予測された将来の視線と過去のポーズを視線のグラフに融合し、最後に身体の動きを予測するための残差グラフ畳み込みネットワークを使用する。 提案手法をMoGaze, ADT, GIMOベンチマークデータセット上で広範囲に評価し, 接合位置誤差あたりの平均値が7.4%向上していることを示す。 本手法は, 視線をプロキシとして用いながら, 平均5.5%の精度向上を実現している。 また,本手法は,知覚リアリズムの観点からも先行手法よりも優れていることを示すオンラインユーザスタディを報告した。 これらの結果から,人間の動き予測のための視線で利用可能な重要な情報内容と,この情報を活用する方法の有効性が示された。

We present GazeMotion, a novel method for human motion forecasting that combines information on past human poses with human eye gaze. Inspired by evidence from behavioural sciences showing that human eye and body movements are closely coordinated, GazeMotion first predicts future eye gaze from past gaze, then fuses predicted future gaze and past poses into a gaze-pose graph, and finally uses a residual graph convolutional network to forecast body motion. We extensively evaluate our method on the MoGaze, ADT, and GIMO benchmark datasets and show that it outperforms state-of-the-art methods by up to 7.4% improvement in mean per joint position error. Using head direction as a proxy to gaze, our method still achieves an average improvement of 5.5%. We finally report an online user study showing that our method also outperforms prior methods in terms of perceived realism. These results show the significant information content available in eye gaze for human motion forecasting as well as the effectiveness of our method in exploiting this information.
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# Sabiá-2: ポルトガルの大規模言語モデルの新世代

Sabiá-2: A New Generation of Portuguese Large Language Models ( http://arxiv.org/abs/2403.09887v1 )

ライセンス: Link先を確認
Thales Sales Almeida, Hugo Abonizio, Rodrigo Nogueira, Ramon Pires, (参考訳) ポルトガル語のテキストで訓練された大規模言語モデルのファミリーであるSabi\'a-2を紹介する。 モデルは、ブラジルの大学へのエントリーレベル試験、専門認定試験、会計学、経済学、工学、法学、医学などの様々な分野の大学院レベルの試験など、様々な試験で評価される。 以上の結果から,これまでの最良モデルであるSabi\'a-2 Mediumは,64点中23点においてGPT-4の成績と一致し,64点中58点においてGPT-3.5を上回っていることが明らかとなった。 特に、特化はサイズを拡大することなくモデルの性能に大きな影響を与えるため、GPT-4の10倍安いトークンあたりの価格でSabi\'a-2 Mediumを提供することができます。 最後に、我々は数学とコーディングが改善を必要とする重要な能力であることを突き止めた。

We introduce Sabi\'a-2, a family of large language models trained on Portuguese texts. The models are evaluated on a diverse range of exams, including entry-level tests for Brazilian universities, professional certification exams, and graduate-level exams for various disciplines such as accounting, economics, engineering, law and medicine. Our results reveal that our best model so far, Sabi\'a-2 Medium, matches or surpasses GPT-4's performance in 23 out of 64 exams and outperforms GPT-3.5 in 58 out of 64 exams. Notably, specialization has a significant impact on a model's performance without the need to increase its size, allowing us to offer Sabi\'a-2 Medium at a price per token that is 10 times cheaper than GPT-4. Finally, we identified that math and coding are key abilities that need improvement.
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# 平均フィールドレジームにおけるスケールドディープResNetの一般化

Generalization of Scaled Deep ResNets in the Mean-Field Regime ( http://arxiv.org/abs/2403.09889v1 )

ライセンス: Link先を確認
Yihang Chen, Fanghui Liu, Yiping Lu, Grigorios G. Chrysos, Volkan Cevher, (参考訳) ResNetの広範な実証的な成功にもかかわらず、Deep ResNetの一般化特性は遅延トレーニング体制を超えて調査されることはめったにない。 本研究では,大脳神経回路系における勾配流を偏微分方程式,すなわち,大脳神経回路系における偏微分方程式により記述する,無限深度および広視野ニューラルネットワークの極限における「emph{scaled} ResNet」について検討する。 この条件下での一般化境界を導出するには、遅延学習方式で用いられる従来の時変グラム行列から時変分布依存型への移行が必要である。 この目的のために、平均場状態の下では、グラム行列の最小固有値に対する大域的下界を与える。 さらに、クルバック・リーブラー(KL)の発散のトレーサビリティについて、経験的誤差の線形収束を確立し、パラメータ分布上のKL発散の上限を推定する。 最後に、Rademacher複雑性を介して有界な一般化のための一様収束を構築する。 この結果から,遅延学習体制を超えたディープResNetの一般化能力に関する新たな知見が得られ,ディープニューラルネットワークの基本的特性の理解の促進に寄与する。

Despite the widespread empirical success of ResNet, the generalization properties of deep ResNet are rarely explored beyond the lazy training regime. In this work, we investigate \emph{scaled} ResNet in the limit of infinitely deep and wide neural networks, of which the gradient flow is described by a partial differential equation in the large-neural network limit, i.e., the \emph{mean-field} regime. To derive the generalization bounds under this setting, our analysis necessitates a shift from the conventional time-invariant Gram matrix employed in the lazy training regime to a time-variant, distribution-dependent version. To this end, we provide a global lower bound on the minimum eigenvalue of the Gram matrix under the mean-field regime. Besides, for the traceability of the dynamic of Kullback-Leibler (KL) divergence, we establish the linear convergence of the empirical error and estimate the upper bound of the KL divergence over parameters distribution. Finally, we build the uniform convergence for generalization bound via Rademacher complexity. Our results offer new insights into the generalization ability of deep ResNet beyond the lazy training regime and contribute to advancing the understanding of the fundamental properties of deep neural networks.
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# 言語モデルマージのためのフィッシャーマスクノード

Fisher Mask Nodes for Language Model Merging ( http://arxiv.org/abs/2403.09891v1 )

ライセンス: Link先を確認
Thennal D K, Ganesh Nathan, Suchithra M S, (参考訳) 微調整された事前訓練モデルは、下流のパフォーマンスにおいて大きな利点をもたらす。 BERTなどの事前学習モデルの自然言語処理におけるユビキタスな性質は、タスク固有の微調整モデルの普及にも繋がった。 これらのモデルは一般的に1つのタスクのみをうまく実行するので、マルチタスクのシナリオでは追加のトレーニングやアンサンブルが必要になる。 モデルマージの増大する分野は、複数のタスク固有のモデルを単一のマルチタスクモデルに組み合わせるという課題に対処するソリューションを提供する。 本研究では, トランスフォーマーのモデルマージ手法について紹介し, 従来のフィッシャー重み付き平均化における知見と, モデルプルーニングにおけるフィッシャー情報の利用について考察した。 トランスフォーマーアーキテクチャにおけるマスクノードのフィッシャー情報を利用して,計算効率のよい重み付け手法を提案する。 提案手法は, BERT シリーズの各種モデルにおいて, 最大で6.5 のベースライン性能向上と57.4 倍の高速化を実現し, 総フィッシャー重み付け平均性能を計算コストのごく一部で上回り, 高い性能向上を図っている。 本研究は,現在のマルチタスク学習環境における本手法の有効性を実証し,新しいモデルアーキテクチャや学習シナリオに対するスケーラビリティと適応性を提案する。

Fine-tuning pre-trained models provides significant advantages in downstream performance. The ubiquitous nature of pre-trained models such as BERT and its derivatives in natural language processing has also led to a proliferation of task-specific fine-tuned models. As these models typically only perform one task well, additional training or ensembling is required in multi-task scenarios. The growing field of model merging provides a solution, dealing with the challenge of combining multiple task-specific models into a single multi-task model. In this study, we introduce a novel model merging method for Transformers, combining insights from previous work in Fisher-weighted averaging and the use of Fisher information in model pruning. Utilizing the Fisher information of mask nodes within the Transformer architecture, we devise a computationally efficient weighted-averaging scheme. Our method exhibits a regular and significant performance increase across various models in the BERT family, outperforming full-scale Fisher-weighted averaging in a fraction of the computational cost, with baseline performance improvements of up to +6.5 and a speedup of 57.4x. Our results prove the potential of our method in current multi-task learning environments and suggest its scalability and adaptability to new model architectures and learning scenarios.
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# 地理的インフォームド言語同定

Geographically-Informed Language Identification ( http://arxiv.org/abs/2403.09892v1 )

ライセンス: Link先を確認
Jonathan Dunn, Lane Edwards-Brown, (参考訳) 本稿では,本モデルが考慮する言語の集合が問題となるテキストの地理的起源に依存する言語識別へのアプローチを開発する。 国レベルでは,多くのデジタルコーパスをジオレファレンスすることができることから,本論文は16の地域特化モデルを定式化した。 これらの地域モデルは、場所に関係なく、これらの言語を確実にカバーするために、31の国際言語も含んでいる。 従来の言語識別試験データを用いた上流評価では、fスコアは1.7ポイント(東南アジア)から10.4ポイント(北アフリカ)まで改善されている。 ソーシャルメディアデータに対するダウンストリーム評価は、この改善された性能が、大規模な実世界のコーパスに適用される言語ラベルに大きな影響を与えることを示している。 その結果,50文字のサンプルサイズで916言語をカバーする高精度モデルが得られた。

This paper develops an approach to language identification in which the set of languages considered by the model depends on the geographic origin of the text in question. Given that many digital corpora can be geo-referenced at the country level, this paper formulates 16 region-specific models, each of which contains the languages expected to appear in countries within that region. These regional models also each include 31 widely-spoken international languages in order to ensure coverage of these linguae francae regardless of location. An upstream evaluation using traditional language identification testing data shows an improvement in f-score ranging from 1.7 points (Southeast Asia) to as much as 10.4 points (North Africa). A downstream evaluation on social media data shows that this improved performance has a significant impact on the language labels which are applied to large real-world corpora. The result is a highly-accurate model that covers 916 languages at a sample size of 50 characters, the performance improved by incorporating geographic information into the model.
翻訳日:2024-03-18 21:05:51 公開日:2024-03-14
# TimeMachine: 時系列は長期予測に価値のある4つのマンバ

TimeMachine: A Time Series is Worth 4 Mambas for Long-term Forecasting ( http://arxiv.org/abs/2403.09898v1 )

ライセンス: Link先を確認
Md Atik Ahamed, Qiang Cheng, (参考訳) 長期的依存関係の把握、線形スケーラビリティの実現、計算効率の維持が困難であるため、長期的時系列予測は依然として困難である。 我々は、状態空間モデルであるMambaを利用して、線形スケーラビリティと小さなメモリフットプリントを維持しながら、多変量時系列データにおける長期依存関係をキャプチャする革新的なモデルであるTimeMachineを紹介した。 TimeMachineは時系列データのユニークな特性を活用して、多スケールで健全なコンテキストキューを生成し、革新的な統合四重項マンバアーキテクチャを活用して、チャネル混合とチャネル独立状況の処理を統一し、異なるスケールでのグローバルおよびローカルコンテキストに対する予測のためのコンテンツの効果的な選択を可能にする。 TimeMachineは、ベンチマークデータセットを使用して広範囲に検証されるように、予測精度、スケーラビリティ、メモリ効率において優れたパフォーマンスを実現している。 コードの可用性: https://github.com/Atik-Ahamed/TimeMachine

Long-term time-series forecasting remains challenging due to the difficulty in capturing long-term dependencies, achieving linear scalability, and maintaining computational efficiency. We introduce TimeMachine, an innovative model that leverages Mamba, a state-space model, to capture long-term dependencies in multivariate time series data while maintaining linear scalability and small memory footprints. TimeMachine exploits the unique properties of time series data to produce salient contextual cues at multi-scales and leverage an innovative integrated quadruple-Mamba architecture to unify the handling of channel-mixing and channel-independence situations, thus enabling effective selection of contents for prediction against global and local contexts at different scales. Experimentally, TimeMachine achieves superior performance in prediction accuracy, scalability, and memory efficiency, as extensively validated using benchmark datasets. Code availability: https://github.com/Atik-Ahamed/TimeMachine
翻訳日:2024-03-18 20:56:05 公開日:2024-03-14
# 初期学習表現のモニタリングによるロバストなサブグラフ学習

Robust Subgraph Learning by Monitoring Early Training Representations ( http://arxiv.org/abs/2403.09901v1 )

ライセンス: Link先を確認
Sepideh Neshatfar, Salimeh Yasaei Sekeh, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ学習やノード分類タスクにおける卓越したパフォーマンスに対して、大きな注目を集めている。 しかし、敵の攻撃、特に感受性のあるノードを通じての脆弱性は、意思決定に挑戦する。 頑健なグラフ要約の必要性は、グラフ全体にわたる攻撃の伝播によって生じる敵の課題において明らかである。 本稿では,SHERD(Subgraph Learning Hale through Early Training Representation Distances)を導入することで,グラフ入力の性能と対向性の両方に対処する。 SHERDは、部分的に訓練されたグラフ畳み込みネットワーク(GCN)の層からの情報を活用し、標準距離メトリクスを使用して敵攻撃中の感受性ノードを検出する。 この手法は,ノードの分類性能を維持しつつ,そのようなノードを識別し,ロバストな部分グラフを形成する。 実験により,SHERDの性能向上を実証し,従来の敵攻撃と並行して,各種ベースラインに対して,元の入力とサブグラフ入力のネットワーク性能を比較することにより,ロバスト性の向上を図った。 我々の実験は、Cora, Citeseer, Pubmedなどの引用データセットや、胎盤の細胞グラフの微細解剖学的組織構造を含む複数のデータセットにまたがって行われ、SHERDは堅牢性の向上だけでなく、ノード分類精度や計算複雑性の観点からもいくつかのベースラインを上回ります。

Graph neural networks (GNNs) have attracted significant attention for their outstanding performance in graph learning and node classification tasks. However, their vulnerability to adversarial attacks, particularly through susceptible nodes, poses a challenge in decision-making. The need for robust graph summarization is evident in adversarial challenges resulting from the propagation of attacks throughout the entire graph. In this paper, we address both performance and adversarial robustness in graph input by introducing the novel technique SHERD (Subgraph Learning Hale through Early Training Representation Distances). SHERD leverages information from layers of a partially trained graph convolutional network (GCN) to detect susceptible nodes during adversarial attacks using standard distance metrics. The method identifies "vulnerable (bad)" nodes and removes such nodes to form a robust subgraph while maintaining node classification performance. Through our experiments, we demonstrate the increased performance of SHERD in enhancing robustness by comparing the network's performance on original and subgraph inputs against various baselines alongside existing adversarial attacks. Our experiments across multiple datasets, including citation datasets such as Cora, Citeseer, and Pubmed, as well as microanatomical tissue structures of cell graphs in the placenta, highlight that SHERD not only achieves substantial improvement in robust performance but also outperforms several baselines in terms of node classification accuracy and computational complexity.
翻訳日:2024-03-18 20:56:05 公開日:2024-03-14
# FedComLoc:スパースモデルと量子化モデルのコミュニケーション効率の良い分散トレーニング

FedComLoc: Communication-Efficient Distributed Training of Sparse and Quantized Models ( http://arxiv.org/abs/2403.09904v1 )

ライセンス: Link先を確認
Kai Yi, Georg Meinhardt, Laurent Condat, Peter Richtárik, (参考訳) フェデレートラーニング(FL)は、不均一なクライアントが、プライバシーを尊重しつつ、プライベートデータをローカルに処理し、中央サーバーとやり取りできるようにするというユニークな特徴から、注目を集めている。 FLにおける重要なボトルネックは通信コストです。 この負担を軽減するための重要な戦略は、通信フェーズ間で複数の局所確率勾配降下イテレーションを実行することを含む「emph{Local Training}」である。 我々の研究は、FLにおける通信複雑性の低減を大幅に進めた革新的な 'emph{Scaffnew} アルゴリズムにインスパイアされている。 我々は,FedComLoc(Federated Compressed and Local Training)を導入し,実践的かつ効果的な圧縮を \emph{Scaffnew} に統合し,通信効率をさらに向上させる。 一般的なTopK圧縮機と量子化を用いた広汎な実験は、不均一な環境での通信オーバーヘッドを大幅に削減する技術を示している。

Federated Learning (FL) has garnered increasing attention due to its unique characteristic of allowing heterogeneous clients to process their private data locally and interact with a central server, while being respectful of privacy. A critical bottleneck in FL is the communication cost. A pivotal strategy to mitigate this burden is \emph{Local Training}, which involves running multiple local stochastic gradient descent iterations between communication phases. Our work is inspired by the innovative \emph{Scaffnew} algorithm, which has considerably advanced the reduction of communication complexity in FL. We introduce FedComLoc (Federated Compressed and Local Training), integrating practical and effective compression into \emph{Scaffnew} to further enhance communication efficiency. Extensive experiments, using the popular TopK compressor and quantization, demonstrate its prowess in substantially reducing communication overheads in heterogeneous settings.
翻訳日:2024-03-18 20:56:05 公開日:2024-03-14
# 非定常目標のためのObjectNavに向けて

Right Place, Right Time! Towards ObjectNav for Non-Stationary Goals ( http://arxiv.org/abs/2403.09905v1 )

ライセンス: Link先を確認
Vishnu Sashank Dorbala, Bhrij Patel, Amrit Singh Bedi, Dinesh Manocha, (参考訳) 本研究では,屋内環境における非定常的かつ隠蔽されたターゲットに対して,ObjectNavタスクに取り組むための新しい手法を提案する。 本稿では、このタスクをPortable ObjectNav(P-ObjectNav)と呼び、その定式化、実現可能性、および新しいメモリ拡張 LLM ベースのポリシーを用いたナビゲーションベンチマークを示す。 対象の場所が各エピソードで固定されているObjNavとは対照的に、P-ObjectNavは、対象のオブジェクトがエピソード中に移動する困難なケースに取り組む。 これはナビゲーションに時間に敏感なレイヤを追加し、エージェントが人間中心の環境でポータブルなターゲット(例えば、非配置の財布)を見つける必要があるシナリオに特に関係している。 エージェントは、ターゲットの正確な位置だけでなく、その位置で視覚的な接地を行う時間も見積もる必要がある。 オブジェクト配置の結果を2つのケースで推測することで、この問題に対処する。1つは、配置されたオブジェクトがルーチンやパスに従う場合であり、もう1つはランダムに配置される場合である。 これらの実験のためにMatterport3Dをダイナマイズし、PPOとLCMに基づくナビゲーションポリシーを変更して評価する。 PPOを用いて、ランダムケースのエージェント性能が停滞しているのに対して、ルーチンフォロー環境のエージェントは改善を続けており、ルーチンフォロー対象の配置のある環境では、P-ObjectNavが解決可能であることを推測することができる。 メモリ拡張をLCMベースのポリシーで行うことで,P-ObjectNavのベンチマークを設定した。 我々のメモリ強化エージェントは、P-ObjectNavの性能向上にメモリが与える影響を表わし、Success Rate (SR) とSuccess Rate (SRPL) で測定すると、オブジェクト配置シナリオの平均で71.76%、74.68%の非メモリベースのエージェントよりも大幅に優れています。 コードとデータセットは公開されます。

We present a novel approach to tackle the ObjectNav task for non-stationary and potentially occluded targets in an indoor environment. We refer to this task Portable ObjectNav (or P-ObjectNav), and in this work, present its formulation, feasibility, and a navigation benchmark using a novel memory-enhanced LLM-based policy. In contrast to ObjNav where target object locations are fixed for each episode, P-ObjectNav tackles the challenging case where the target objects move during the episode. This adds a layer of time-sensitivity to navigation, and is particularly relevant in scenarios where the agent needs to find portable targets (e.g. misplaced wallets) in human-centric environments. The agent needs to estimate not just the correct location of the target, but also the time at which the target is at that location for visual grounding -- raising the question about the feasibility of the task. We address this concern by inferring results on two cases for object placement: one where the objects placed follow a routine or a path, and the other where they are placed at random. We dynamize Matterport3D for these experiments, and modify PPO and LLM-based navigation policies for evaluation. Using PPO, we observe that agent performance in the random case stagnates, while the agent in the routine-following environment continues to improve, allowing us to infer that P-ObjectNav is solvable in environments with routine-following object placement. Using memory-enhancement on an LLM-based policy, we set a benchmark for P-ObjectNav. Our memory-enhanced agent significantly outperforms their non-memory-based counterparts across object placement scenarios by 71.76% and 74.68% on average when measured by Success Rate (SR) and Success Rate weighted by Path Length (SRPL), showing the influence of memory on improving P-ObjectNav performance. Our code and dataset will be made publicly available.
翻訳日:2024-03-18 20:56:05 公開日:2024-03-14
# Reality Bites: 大規模言語モデルでシナリオを駆動する現実性を評価する

Reality Bites: Assessing the Realism of Driving Scenarios with Large Language Models ( http://arxiv.org/abs/2403.09906v1 )

ライセンス: Link先を確認
Jiahui Wu, Chengjie Lu, Aitor Arrieta, Tao Yue, Shaukat Ali, (参考訳) 大規模言語モデル(LLM)は、テキスト生成、要約、分類といったタスクにおいて顕著な可能性を示している。 このようなモデルが大量のオンライン知識に基づいて訓練されていることを考慮し、LLMが自律運転テスト技術によって生成された運転シナリオが現実的であるかどうか、すなわち現実世界の運転条件に適合しているかどうかを評価することができると仮定する。 この仮説を検証するために,LLMがタスクの実行に有効で堅牢であるかどうかを実証評価した。 この現実チェックは、LLMベースの自動運転テスト技術を開発するための重要なステップである。 経験的評価では,オープンな運転シナリオデータセットである‘deepscenario’から,64の現実シナリオを選択しました。 次に、小さな変更を導入することで、576のシナリオ全体のデータセットを形成するために、さらに512の現実的なシナリオを作成しました。 このデータセットを用いて,運転シナリオの現実性を評価する上でのロバスト性を評価するために,3つのLCM(\gpt, \llama, \mistral)を評価した。 以上の結果から,(1) ほぼすべてのシナリオ, 道路, 気象条件において, \gpt は, ほぼすべてのシナリオ, 道路, 気象条件において, 最も高いロバスト性を達成し, (2) カラマは, 一定の条件下で, および (4) 道路, 気象条件がLLMのロバスト性に影響を及ぼすことが示唆された。

Large Language Models (LLMs) are demonstrating outstanding potential for tasks such as text generation, summarization, and classification. Given that such models are trained on a humongous amount of online knowledge, we hypothesize that LLMs can assess whether driving scenarios generated by autonomous driving testing techniques are realistic, i.e., being aligned with real-world driving conditions. To test this hypothesis, we conducted an empirical evaluation to assess whether LLMs are effective and robust in performing the task. This reality check is an important step towards devising LLM-based autonomous driving testing techniques. For our empirical evaluation, we selected 64 realistic scenarios from \deepscenario--an open driving scenario dataset. Next, by introducing minor changes to them, we created 512 additional realistic scenarios, to form an overall dataset of 576 scenarios. With this dataset, we evaluated three LLMs (\gpt, \llama, and \mistral) to assess their robustness in assessing the realism of driving scenarios. Our results show that: (1) Overall, \gpt achieved the highest robustness compared to \llama and \mistral, consistently throughout almost all scenarios, roads, and weather conditions; (2) \mistral performed the worst consistently; (3) \llama achieved good results under certain conditions; and (4) roads and weather conditions do influence the robustness of the LLMs.
翻訳日:2024-03-18 20:56:05 公開日:2024-03-14
# ProMark: 因果帰属のためのプロアクティブ拡散透かし

ProMark: Proactive Diffusion Watermarking for Causal Attribution ( http://arxiv.org/abs/2403.09914v1 )

ライセンス: Link先を確認
Vishal Asnani, John Collomosse, Tu Bui, Xiaoming Liu, Shruti Agarwal, (参考訳) Generative AI(GenAI)は、高レベルのプロンプトを通じて画像を合成し、操作する機能を通じて、創造的なワークフローを変革している。 しかし、クリエイティビティは、GenAIトレーニングにおけるコンテンツの使用に対する認識や報酬を十分にサポートしていない。 そこで本研究では,オブジェクト,モチーフ,テンプレート,アーティスト,スタイルなどのトレーニングデータ概念に合成生成イメージを関連付ける因果属性技術であるProMarkを提案する。 概念情報は、知覚不能な透かしを用いて入力訓練画像に積極的に埋め込まれ、拡散モデル(無条件または条件)は、生成された画像に対応する透かしを保持するように訓練される。 トレーニングデータに最大2〜16ドルのユニークな透かしを埋め込むことができ、各トレーニング画像には複数の透かしが含まれていることを示す。 ProMarkは、相関ベースの属性よりも優れた画像品質を維持することができる。 最後に、いくつかの定性的な例を示し、透かしの存在が、トレーニングデータと合成画像の因果関係を伝達する自信を与える。

Generative AI (GenAI) is transforming creative workflows through the capability to synthesize and manipulate images via high-level prompts. Yet creatives are not well supported to receive recognition or reward for the use of their content in GenAI training. To this end, we propose ProMark, a causal attribution technique to attribute a synthetically generated image to its training data concepts like objects, motifs, templates, artists, or styles. The concept information is proactively embedded into the input training images using imperceptible watermarks, and the diffusion models (unconditional or conditional) are trained to retain the corresponding watermarks in generated images. We show that we can embed as many as $2^{16}$ unique watermarks into the training data, and each training image can contain more than one watermark. ProMark can maintain image quality whilst outperforming correlation-based attribution. Finally, several qualitative examples are presented, providing the confidence that the presence of the watermark conveys a causative relationship between training data and synthetic images.
翻訳日:2024-03-18 20:56:05 公開日:2024-03-14
# CLIPを用いたロバスト軽量顔行動認識

Robust Light-Weight Facial Affective Behavior Recognition with CLIP ( http://arxiv.org/abs/2403.09915v1 )

ライセンス: Link先を確認
Li Lin, Sarah Papabathini, Xin Wang, Shu Hu, (参考訳) 人間の感情行動分析は、人間の感情に対する理解を深めるために、人間の表情や行動を調べることを目的としている。 基本表現カテゴリー(EXPR)と行動単位(AU)は、感情を分類し、顔の動きを要素単位に分解する2つの重要な要素である。 進歩にもかかわらず、式分類とAU検出における既存のアプローチは複雑なモデルとかなりの計算資源を必要とし、日常的な設定で適用性を制限する。 本研究では,表現分類とAU検出の両方を効率的に処理できる,最初の軽量フレームワークを提案する。 このフレームワークは、トレーニング可能な多層パーセプトロン(MLP)とともに凍結したCLIPイメージエンコーダを使用し、ロバストネスにCVaR(Conditional Value at Risk)を付加し、一般化を改善するためのロスランドスケープフラット化戦略を採用している。 Aff-wild2データセットの実験結果は、最小限の計算要求を維持しながらベースラインと比較して優れた性能を示し、感情行動分析のための実用的なソリューションを提供する。 コードはhttps://github.com/Purdue-M2/Affective_Behavior_Analysis_M2_PURDUEで公開されている。

Human affective behavior analysis aims to delve into human expressions and behaviors to deepen our understanding of human emotions. Basic expression categories (EXPR) and Action Units (AUs) are two essential components in this analysis, which categorize emotions and break down facial movements into elemental units, respectively. Despite advancements, existing approaches in expression classification and AU detection often necessitate complex models and substantial computational resources, limiting their applicability in everyday settings. In this work, we introduce the first lightweight framework adept at efficiently tackling both expression classification and AU detection. This framework employs a frozen CLIP image encoder alongside a trainable multilayer perceptron (MLP), enhanced with Conditional Value at Risk (CVaR) for robustness and a loss landscape flattening strategy for improved generalization. Experimental results on the Aff-wild2 dataset demonstrate superior performance in comparison to the baseline while maintaining minimal computational demands, offering a practical solution for affective behavior analysis. The code is available at https://github.com/Purdue-M2/Affective_Behavior_Analysis_M2_PURDUE
翻訳日:2024-03-18 20:56:05 公開日:2024-03-14
# マルチソース領域適応オブジェクト検出のためのアテンションに基づくクラス定義アライメント

Attention-based Class-Conditioned Alignment for Multi-Source Domain Adaptive Object Detection ( http://arxiv.org/abs/2403.09918v1 )

ライセンス: Link先を確認
Atif Belal, Akhil Meethal, Francisco Perdigon Romero, Marco Pedersoli, Eric Granger, (参考訳) オブジェクト検出(OD)のドメイン適応手法は、ソースドメインとターゲットドメイン間の特徴調整を促進することによって、分散シフトの影響を軽減する。 マルチソースドメイン適応(MSDA)は、複数のアノテーション付きソースデータセットとラベルなしターゲットデータを活用することで、検出モデルの正確性と堅牢性を向上させる。 ODのための最先端MSDA手法の多くは、クラスに依存しない方法で特徴アライメントを実行する。 オブジェクトはドメイン間のオブジェクトの外観の変化のため、ユニークなモーダル情報を持っているため、これは難しい。 最近のプロトタイプベースのアプローチでは、クラスワイドアライメントが提案されているが、ノイズの多い擬似ラベルが不均衡なデータへの適応に悪影響を及ぼすため、エラーの蓄積に悩まされている。 これらの制約を克服するために、各オブジェクトカテゴリのインスタンスをドメイン間で整列するMSDAのための注意型クラス条件アライメントスキームを提案する。 特に、敵対的ドメイン分類器と結合されたアテンションモジュールは、ドメイン不変およびクラス固有のインスタンス表現を学習することができる。 複数のベンチマークMSDAデータセットに対する実験結果から,本手法は最先端の手法よりも優れ,クラス不均衡に頑健であることが示唆された。 私たちのコードはhttps://github.com/imatif17/ACIA.comで公開されています。

Domain adaptation methods for object detection (OD) strive to mitigate the impact of distribution shifts by promoting feature alignment across source and target domains. Multi-source domain adaptation (MSDA) allows leveraging multiple annotated source datasets, and unlabeled target data to improve the accuracy and robustness of the detection model. Most state-of-the-art MSDA methods for OD perform feature alignment in a class-agnostic manner. This is challenging since the objects have unique modal information due to variations in object appearance across domains. A recent prototype-based approach proposed a class-wise alignment, yet it suffers from error accumulation due to noisy pseudo-labels which can negatively affect adaptation with imbalanced data. To overcome these limitations, we propose an attention-based class-conditioned alignment scheme for MSDA that aligns instances of each object category across domains. In particular, an attention module coupled with an adversarial domain classifier allows learning domain-invariant and class-specific instance representations. Experimental results on multiple benchmarking MSDA datasets indicate that our method outperforms the state-of-the-art methods and is robust to class imbalance. Our code is available at https://github.com/imatif17/ACIA.
翻訳日:2024-03-18 20:56:05 公開日:2024-03-14
# 大規模言語モデルにおける高速投機復号化のための逐次描画法

Recurrent Drafter for Fast Speculative Decoding in Large Language Models ( http://arxiv.org/abs/2403.09919v1 )

ライセンス: Link先を確認
Aonan Zhang, Chong Wang, Yi Wang, Xuanyu Zhang, Yunfei Cheng, (参考訳) 本稿では,大規模言語モデルの提供効率向上を目的とした投機的復号法の改良手法を提案する。 提案手法は,古典的2モデル投機的復号法と,より最近の単一モデル法であるMedusaという2つの確立された手法の長所を生かしている。 Medusaからインスピレーションを得た私たちのアプローチでは、投機的復号化のための単一モデル戦略を採用しています。 しかし,本手法は,従来の投機的復号法で使用される小型のドラフトモデルと本質的に類似しているが,完全なトランスフォーマーアーキテクチャの複雑さは伴わない。 そして、繰り返し発生する依存関係のため、ビームサーチを使用して、望ましくない候補をドラフトヘッドで素早くフィルタリングすることができる。 その結果、単一モデル設計の単純さを組み合わせ、Medusaの推論にのみデータ依存のツリーアテンション構造を作成する必要がなくなる。 提案手法がいくつかのポピュラーなオープンソース言語モデルに対して有効であることを実証的に示すとともに,このアプローチの適用に関わるトレードオフを包括的に分析する。

In this paper, we introduce an improved approach of speculative decoding aimed at enhancing the efficiency of serving large language models. Our method capitalizes on the strengths of two established techniques: the classic two-model speculative decoding approach, and the more recent single-model approach, Medusa. Drawing inspiration from Medusa, our approach adopts a single-model strategy for speculative decoding. However, our method distinguishes itself by employing a single, lightweight draft head with a recurrent dependency design, akin in essence to the small, draft model uses in classic speculative decoding, but without the complexities of the full transformer architecture. And because of the recurrent dependency, we can use beam search to swiftly filter out undesired candidates with the draft head. The outcome is a method that combines the simplicity of single-model design and avoids the need to create a data-dependent tree attention structure only for inference in Medusa. We empirically demonstrate the effectiveness of the proposed method on several popular open source language models, along with a comprehensive analysis of the trade-offs involved in adopting this approach.
翻訳日:2024-03-18 20:56:05 公開日:2024-03-14
# 見えないデータに対するAI大腸内視鏡モデルの一般化予測

Predicting Generalization of AI Colonoscopy Models to Unseen Data ( http://arxiv.org/abs/2403.09920v1 )

ライセンス: Link先を確認
Joel Shor, Carson McNeil, Yotam Intrator, Joseph R Ledsam, Hiro-o Yamano, Daisuke Tsurumaru, Hiroki Kayama, Atsushi Hamabe, Koji Ando, Mitsuhiko Ota, Haruei Ogino, Hiroshi Nakase, Kaho Kobayashi, Masaaki Miyo, Eiji Oki, Ichiro Takemasa, Ehud Rivlin, Roman Goldenberg, (参考訳) AI大腸内視鏡アルゴリズムの一般化の背景と目的は、臨床実践において広く採用される上で重要である。 しかし、現在、目に見えないデータのパフォーマンスを評価する技術は、高価で時間集約的なラベルを必要とする。 提案手法は"Masked Siamese Network" (MSN) を用いて、見えないデータにおける新しい現象を識別し、ポリプ検出器の性能を予測する。 MSNは、ラベルなしでポリプ画像のマスクされた領域を予測するように訓練されている。 本研究は,日本からの大腸内視鏡(354本,128時間)において,イスラエルからのデータのみを用いてMSNを訓練し,未確認技術,狭帯域画像(NBI)およびクロマトエンドスコープ(CE)を検出する能力をテストする。 また,MSNは日本からのデータに基づいて訓練を受けていないものの,両国の大腸粘膜におけるポリープのCAD(Computer Aided Detection)の性能を予測する能力についても検証した。 結果,NBI と CE は日本白色光 (bootstrapped z-test, |z| > 496, p < 10-8 for both) よりイスラエル白色光に似ていない。 MSNは99%の精度でNBIを検出し、ホワイトライトでのみトレーニングされているにもかかわらず、CEが我々のヒューリスティック(90%対79%の精度)より優れていると予測し、ノイズの多いラベルに対して堅牢な唯一の方法である。 MSNは、イスラエル内および日本の植民地内におけるCADポリプ検出性能(それぞれr=0.79、0.37)を予測している。 日本における検出性能の訓練例は少ないが、MSNによる日本の性能予測は改善されている(r=0.56)。 結語 臨床データにおける分布変化を同定し, ラベルなしでCADe検出性能を予測できる。 当社の自己監督型アプローチは、病院やデータがトレーニングから有意義に移行したなど、実際のデータとトレーニングの違いを検出するのに役立ちます。 MSNは大腸内視鏡以外の医療画像領域にも応用できる可能性がある。

Background and aims Generalizability of AI colonoscopy algorithms is important for wider adoption in clinical practice. However, current techniques for evaluating performance on unseen data require expensive and time-intensive labels. Methods We use a "Masked Siamese Network" (MSN) to identify novel phenomena in unseen data and predict polyp detector performance. MSN is trained to predict masked out regions of polyp images, without any labels. We test MSN's ability to be trained on data only from Israel and detect unseen techniques, narrow-band imaging (NBI) and chromendoscoy (CE), on colonoscopes from Japan (354 videos, 128 hours). We also test MSN's ability to predict performance of Computer Aided Detection (CADe) of polyps on colonoscopies from both countries, even though MSN is not trained on data from Japan. Results MSN correctly identifies NBI and CE as less similar to Israel whitelight than Japan whitelight (bootstrapped z-test, |z| > 496, p < 10-8 for both) using the label-free Frechet distance. MSN detects NBI with 99% accuracy, predicts CE better than our heuristic (90% vs 79% accuracy) despite being trained only on whitelight, and is the only method that is robust to noisy labels. MSN predicts CADe polyp detector performance on in-domain Israel and out-of-domain Japan colonoscopies (r=0.79, 0.37 respectively). With few examples of Japan detector performance to train on, MSN prediction of Japan performance improves (r=0.56). Conclusion Our technique can identify distribution shifts in clinical data and can predict CADe detector performance on unseen data, without labels. Our self-supervised approach can aid in detecting when data in practice is different from training, such as between hospitals or data has meaningfully shifted from training. MSN has potential for application to medical image domains beyond colonoscopy.
翻訳日:2024-03-18 20:56:05 公開日:2024-03-14
# 組合せ最適化におけるサロゲート支援モンテカルロ木探索

Surrogate Assisted Monte Carlo Tree Search in Combinatorial Optimization ( http://arxiv.org/abs/2403.09925v1 )

ライセンス: Link先を確認
Saeid Amiri, Parisa Zehtabi, Danial Dervovic, Michael Cashmore, (参考訳) 産業は、将来性のある地域に新たな支店を開設し、低利益を期待する地域に支店を閉鎖することで、施設網を調整している。 本稿では,特定の施設配置問題について検討する。 我々の目標は、いくつかの小売店の撤去による販売損失を最小限にすることである。 しかし、正確な売上予測は高価で時間を要する。 この課題を克服するために,我々はモンテカルロ木探索(MCTS)をサロゲートモデルで支援し,評価を高速化する。 その結果,高速な代理関数で支えられたMCTSは,サロゲート関数の恩恵を受けないMCTSと比較して,一貫した解を維持しながら解を高速に生成できることが示唆された。

Industries frequently adjust their facilities network by opening new branches in promising areas and closing branches in areas where they expect low profits. In this paper, we examine a particular class of facility location problems. Our objective is to minimize the loss of sales resulting from the removal of several retail stores. However, estimating sales accurately is expensive and time-consuming. To overcome this challenge, we leverage Monte Carlo Tree Search (MCTS) assisted by a surrogate model that computes evaluations faster. Results suggest that MCTS supported by a fast surrogate function can generate solutions faster while maintaining a consistent solution compared to MCTS that does not benefit from the surrogate function.
翻訳日:2024-03-18 20:56:05 公開日:2024-03-14
# 音声活動予測を用いた多言語ターンテイク予測

Multilingual Turn-taking Prediction Using Voice Activity Projection ( http://arxiv.org/abs/2403.06487v3 )

ライセンス: Link先を確認
Koji Inoue, Bing'er Jiang, Erik Ekstedt, Tatsuya Kawahara, Gabriel Skantze, (参考訳) 本稿では,音声対話における音声活動予測(VAP)の多言語データへの応用について検討する。 VAPモデルは、対話における参加者の今後の音声活動を継続的に予測し、参加者間の動的相互作用を捉えるために、相互注意変換器を活用する。 その結果, ある言語で訓練された単言語VAPモデルでは, 他の言語に適用してもよい予測が得られないことが示唆された。 しかし、3つの言語すべてで訓練された多言語モデルは、すべての言語にわたる単言語モデルと同等の予測性能を示す。 さらに分析した結果,多言語モデルが入力信号の言語を識別できることが判明した。 また,ターンテイキングに重要であると考えられる韻律的キューであるピッチに対する感度も分析した。 最後に、英語で事前学習したコントラスト予測符号化(CPC)と、多言語wav2vec 2.0(MMS)に基づく最近のモデルを比較した。

This paper investigates the application of voice activity projection (VAP), a predictive turn-taking model for spoken dialogue, on multilingual data, encompassing English, Mandarin, and Japanese. The VAP model continuously predicts the upcoming voice activities of participants in dyadic dialogue, leveraging a cross-attention Transformer to capture the dynamic interplay between participants. The results show that a monolingual VAP model trained on one language does not make good predictions when applied to other languages. However, a multilingual model, trained on all three languages, demonstrates predictive performance on par with monolingual models across all languages. Further analyses show that the multilingual model has learned to discern the language of the input signal. We also analyze the sensitivity to pitch, a prosodic cue that is thought to be important for turn-taking. Finally, we compare two different audio encoders, contrastive predictive coding (CPC) pre-trained on English, with a recent model based on multilingual wav2vec 2.0 (MMS).
翻訳日:2024-03-18 10:58:56 公開日:2024-03-14
# 単一ソース領域一般化のための不確実性誘導型コントラスト学習

Uncertainty-guided Contrastive Learning for Single Source Domain Generalisation ( http://arxiv.org/abs/2403.07514v2 )

ライセンス: Link先を確認
Anastasios Arsenos, Dimitrios Kollias, Evangelos Petrongonas, Christos Skliros, Stefanos Kollias, (参考訳) 単一ドメインの一般化の文脈において、目的は単一のドメインのデータにのみ訓練されたモデルであり、様々な不慣れなドメインに直面するときの強いパフォーマンスを示すことである。 本稿では,Contrastive Uncertainty Domain Generalisation Network (CUDGNet)と呼ばれる新しいモデルを紹介する。 キーとなるアイデアは、架空のドメインジェネレータを通じて入力空間とラベル空間の両方のソース容量を拡大し、対照的な学習を通じて各クラスのドメイン不変表現を共同で学習することである。 2つのSingle Source Domain Generalisation (SSDG)データセットに対する大規模な実験は、我々のアプローチの有効性を実証している。 また,提案手法は,1つのフォワードパスからジェネレータサブネットワークを経由した推論時間における効率的な不確実性推定も提供する。

In the context of single domain generalisation, the objective is for models that have been exclusively trained on data from a single domain to demonstrate strong performance when confronted with various unfamiliar domains. In this paper, we introduce a novel model referred to as Contrastive Uncertainty Domain Generalisation Network (CUDGNet). The key idea is to augment the source capacity in both input and label spaces through the fictitious domain generator and jointly learn the domain invariant representation of each class through contrastive learning. Extensive experiments on two Single Source Domain Generalisation (SSDG) datasets demonstrate the effectiveness of our approach, which surpasses the state-of-the-art single-DG methods by up to $7.08\%$. Our method also provides efficient uncertainty estimation at inference time from a single forward pass through the generator subnetwork.
翻訳日:2024-03-18 10:58:56 公開日:2024-03-14
# Masked AutoDecoderは効果的なマルチタスクビジョンジェネラリスト

Masked AutoDecoder is Effective Multi-Task Vision Generalist ( http://arxiv.org/abs/2403.07692v2 )

ライセンス: Link先を確認
Han Qiu, Jiaxing Huang, Peng Gao, Lewei Lu, Xiaoqin Zhang, Shijian Lu, (参考訳) NLPにおける汎用モデルの成功に触発された最近の研究は、異なる視覚タスクを同じシーケンス形式で統一し、シーケンス予測に自己回帰変換器を使用する。 シーケンシャルな依存関係をキャプチャし、タスクシーケンスを再帰的に生成するために、一方向の注意を適用する。 しかし、このような自己回帰変換器は視覚タスクに適さない場合があるため、視覚タスクシーケンスは通常、自然言語で一般的に見られるシーケンシャルな依存関係を欠いている。 本研究では,効率的なマルチタスク・ビジョン・ジェネラリストであるMasked AutoDecoder~(MAD)を設計する。 MADは2つのコア設計で構成されている。 まず,コンテキスト依存を包括的にキャプチャし,視覚タスクシーケンスを並列に復号化するために,双方向の注意を喚起する並列デコーディングフレームワークを開発する。 第二に、マスキングとタスクシーケンス再構築により、リッチなタスクコンテキストを学習するマスキングシーケンスモデリング手法を設計する。 このように、MADは単一のネットワークブランチで全てのタスクを処理し、タスク固有の最小限の設計で単純なクロスエントロピー損失を発生させる。 広汎な実験は、様々な視覚タスクを統合するための新しいパラダイムとして、MADの大きな可能性を実証している。 MADは、タスク固有のモデルと競合する精度を得ながら、自己回帰よりも優れた性能と推論効率を達成する。 コードはリリースされる。

Inspired by the success of general-purpose models in NLP, recent studies attempt to unify different vision tasks in the same sequence format and employ autoregressive Transformers for sequence prediction. They apply uni-directional attention to capture sequential dependencies and generate task sequences recursively. However, such autoregressive Transformers may not fit vision tasks well, as vision task sequences usually lack the sequential dependencies typically observed in natural languages. In this work, we design Masked AutoDecoder~(MAD), an effective multi-task vision generalist. MAD consists of two core designs. First, we develop a parallel decoding framework that introduces bi-directional attention to capture contextual dependencies comprehensively and decode vision task sequences in parallel. Second, we design a masked sequence modeling approach that learns rich task contexts by masking and reconstructing task sequences. In this way, MAD handles all the tasks by a single network branch and a simple cross-entropy loss with minimal task-specific designs. Extensive experiments demonstrate the great potential of MAD as a new paradigm for unifying various vision tasks. MAD achieves superior performance and inference efficiency compared to autoregressive counterparts while obtaining competitive accuracy with task-specific models. Code will be released.
翻訳日:2024-03-18 10:58:56 公開日:2024-03-14
# 説明可能なAIを用いたハイパースペクトル画像解析のためのレッドチームモデル

Red Teaming Models for Hyperspectral Image Analysis Using Explainable AI ( http://arxiv.org/abs/2403.08017v2 )

ライセンス: Link先を確認
Vladimir Zaigrajew, Hubert Baniecki, Lukasz Tulczyjew, Agata M. Wijata, Jakub Nalepa, Nicolas Longépé, Przemyslaw Biecek, (参考訳) 空間領域におけるリモートセンシング(RS)アプリケーションは、信頼性、堅牢、品質保証を備えた機械学習(ML)モデルを必要とする。 どちらの分野も独立して進展するため、赤いチーム戦略をRSに統合する際、顕著なギャップがある。 本稿では,土壌パラメータの推定に焦点をあて,HYPERVIEWチャレンジ内のハイパースペクトル画像で動作するMLモデルを検討する手法を提案する。 我々は、Explainable AI(XAI)ドメインからのポストホックな説明手法を使用して、HYPERVIEWチャレンジに勝った最高のパフォーマンスモデルを評価し、INTUITION-1ハイパースペクトルミッションに配備されたモデルのインスピレーションとなった。 当社のアプローチでは,主要な欠点を指摘・検証し,入力機能の1%に過ぎず,パフォーマンス損失の5%に過ぎず,同等のパフォーマンスを実現するモデルを構築することで,モデルを効果的に再設計しています。 さらに、高スペクトル帯域(波長)とデータ変換に関するドメイン固有情報を統合して、高スペクトル画像解析のための解釈モデルに適合する新しい説明法を提案する。

Remote sensing (RS) applications in the space domain demand machine learning (ML) models that are reliable, robust, and quality-assured, making red teaming a vital approach for identifying and exposing potential flaws and biases. Since both fields advance independently, there is a notable gap in integrating red teaming strategies into RS. This paper introduces a methodology for examining ML models operating on hyperspectral images within the HYPERVIEW challenge, focusing on soil parameters' estimation. We use post-hoc explanation methods from the Explainable AI (XAI) domain to critically assess the best performing model that won the HYPERVIEW challenge and served as an inspiration for the model deployed on board the INTUITION-1 hyperspectral mission. Our approach effectively red teams the model by pinpointing and validating key shortcomings, constructing a model that achieves comparable performance using just 1% of the input features and a mere up to 5% performance loss. Additionally, we propose a novel way of visualizing explanations that integrate domain-specific information about hyperspectral bands (wavelengths) and data transformations to better suit interpreting models for hyperspectral image analysis.
翻訳日:2024-03-18 10:58:56 公開日:2024-03-14
# OSSプロジェクトにおける有害・性差別コミュニケーションが知覚的多様性に及ぼす影響の評価

Assessing the Influence of Toxic and Gender Discriminatory Communication on Perceptible Diversity in OSS Projects ( http://arxiv.org/abs/2403.08113v2 )

ライセンス: Link先を確認
Sayma Sultana, Gias Uddin, Amiangshu Bosu, (参考訳) 近年,オープンソースソフトウェア(OSS)コミュニティにおける有毒・性同一性推論言語の存在が研究者の焦点となっている。 このようなコメントは開発者の間にフラストレーションや不満をもたらすだけでなく、OSSプロジェクトからの離脱にも影響を及ぼす可能性がある。 多様なチームが生産性を高めるという証拠は豊富にあるが、有毒または性差別的なコミュニケーションの存在は、疎外されたグループからの個人への参加に重大な脅威をもたらし、OSSプロジェクトへの多様性と包摂を促進する障壁として機能する可能性がある。 しかしながら、ジェンダーベースの有毒な言語と軽蔑的な言語と、オープンソースソフトウェアチームの知覚上の多様性との関係を探求する研究の欠如がある。 本研究は,オープンソースソフトウェア開発チームのジェンダー,民族性,在職多様性にどのような影響を及ぼすかを検討することを目的とする。 これを実現するために、アクティブなGitHubプロジェクトからデータを抽出し、さまざまなプロジェクト特性を評価し、イシュー/プルリクエストコメントの中で有毒で性別差別的な言語のインスタンスを識別する。 これらの属性を用いて回帰モデルを構築し、それらのプロジェクトの認識可能な多様性をどのように関連づけるかを探索する。

The presence of toxic and gender-identity derogatory language in open-source software (OSS) communities has recently become a focal point for researchers. Such comments not only lead to frustration and disengagement among developers but may also influence their leave from the OSS projects. Despite ample evidence suggesting that diverse teams enhance productivity, the existence of toxic or gender identity discriminatory communications poses a significant threat to the participation of individuals from marginalized groups and, as such, may act as a barrier to fostering diversity and inclusion in OSS projects. However, there is a notable lack of research dedicated to exploring the association between gender-based toxic and derogatory language with a perceptible diversity of open-source software teams. Consequently, this study aims to investigate how such content influences the gender, ethnicity, and tenure diversity of open-source software development teams. To achieve this, we extract data from active GitHub projects, assess various project characteristics, and identify instances of toxic and gender-discriminatory language within issue/pull request comments. Using these attributes, we construct a regression model to explore how they associate with the perceptible diversity of those projects.
翻訳日:2024-03-18 10:49:12 公開日:2024-03-14
# 波動-粒子二重性に基づく超微粒子現象の解明と提案された光学実験

Explanation of Superluminal Phenomena Based on Wave-Particle Duality and Proposed Optical Experiments ( http://arxiv.org/abs/1405.3364v7 )

ライセンス: Link先を確認
Hai-Long Zhao, (参考訳) 光子の波動-粒子双対性に基づく超微粒子現象の解明を提案する。 単一の光子を波のパケットと見なすことができ、その空間拡張はそのコヒーレンス体積である。 光子が真空中で波の列車として伝播するので、その速度は光の速さに過ぎません。 粒子として障壁を抜けるとき、波動関数は崩壊し、光よりも速く移動する。 超光運動はコヒーレンス長と不確実性原理に制約された時間の中でのみ起こる。 巨大な粒子はトンネルの過程で超微粒子にはならない。 そのため、超光度は因果関係に違反しない。 均質に分散する媒体における超光速と負の群速度は、パルスの単なる再形成効果であり、大きな距離でサブルミナルになる。 超光現象をテストするために、いくつかの実験が提案されている。

An explanation for superluminal phenomena based on wave-particle duality of photons is suggested. A single photon may be regarded as a wave packet, whose spatial extension is its coherence volume. As a photon propagates as a wave train in vacuum, its velocity is just the speed of light. When it tunnels through a barrier as a particle, its wave function collapses and it will travel faster than light. Superluminal motion can occur only within the coherence length and the time constrained by uncertainty principle. A massive particle cannot be superluminal during the tunneling process. So superluminality does not violate causality. As for the superluminal and negative group velocities in anomalously dispersive medium, they are merely reshaping effect of the pulse, and they will become subluminal at large distances. A couple of experiments are proposed to test the superluminal phenomena.
翻訳日:2024-03-17 17:28:01 公開日:2024-03-14
# 時間一様中心極限理論と漸近的信頼系列

Time-uniform central limit theory and asymptotic confidence sequences ( http://arxiv.org/abs/2103.06476v9 )

ライセンス: Link先を確認
Ian Waudby-Smith, David Arbour, Ritwik Sinha, Edward H. Kennedy, Aaditya Ramdas, (参考訳) 中央極限定理(CLT)に基づく信頼区間は、古典統計学の基盤となっている。 漸近的にのみ有効であるにもかかわらず、弱い仮定の下で統計的推論を許可し、漸近的推論が不可能である場合でもしばしば問題に適用できるため、ユビキタスである。 本稿では,このような漸近的信頼区間の時間一様類似を,時間とともに一様に有効な信頼区間の列である自信系列(CS)の文献に加えることにより,任意の停止時間における有効推論と,サンプルサイズを事前に固定する必要がある古典的信頼区間とは異なり,データに対する「覗き見」の罰則を生じさせないことを提案する。 文献における既存のCSは漸近的ではなく、有限サンプルの保証を享受しているが、上記の漸近的信頼区間の広範な適用性はない。 この研究は「漸近的なCS」の定義とそれらを導出するための一般的なレシピを提供する。 CLTのような汎用性と(漸近的な)時間一様保証に対する漸近的CSは非漸近的妥当性を否定する。 CLTは、ガウス平均の分布を固定標本サイズで近似するが、強い不変原理(ストラッセンの1960年代の半次研究から考える)を用いて、暗黙のガウス過程によってサンプル平均過程全体を均一に近似する。 実例として, 観測実験における平均治療効果に対する無症状CS(無症状境界は固定時状態でも導出できない)とランダム化実験を導出し, 逐次的環境における因果推論を可能にした。

Confidence intervals based on the central limit theorem (CLT) are a cornerstone of classical statistics. Despite being only asymptotically valid, they are ubiquitous because they permit statistical inference under weak assumptions and can often be applied to problems even when nonasymptotic inference is impossible. This paper introduces time-uniform analogues of such asymptotic confidence intervals, adding to the literature on confidence sequences (CS) -- sequences of confidence intervals that are uniformly valid over time -- which provide valid inference at arbitrary stopping times and incur no penalties for "peeking" at the data, unlike classical confidence intervals which require the sample size to be fixed in advance. Existing CSs in the literature are nonasymptotic, enjoying finite-sample guarantees but not the aforementioned broad applicability of asymptotic confidence intervals. This work provides a definition for "asymptotic CSs" and a general recipe for deriving them. Asymptotic CSs forgo nonasymptotic validity for CLT-like versatility and (asymptotic) time-uniform guarantees. While the CLT approximates the distribution of a sample average by that of a Gaussian for a fixed sample size, we use strong invariance principles (stemming from the seminal 1960s work of Strassen) to uniformly approximate the entire sample average process by an implicit Gaussian process. As an illustration, we derive asymptotic CSs for the average treatment effect in observational studies (for which nonasymptotic bounds are essentially impossible to derive even in the fixed-time regime) as well as randomized experiments, enabling causal inference in sequential environments.
翻訳日:2024-03-17 17:28:01 公開日:2024-03-14
# 量子機械学習のための可変構造をもつ半認識型アンサッツ

A semi-agnostic ansatz with variable structure for quantum machine learning ( http://arxiv.org/abs/2103.06712v4 )

ライセンス: Link先を確認
M. Bilkis, M. Cerezo, Guillaume Verdon, Patrick J. Coles, Lukasz Cincio, (参考訳) 量子機械学習 -- 特に変分量子アルゴリズム(VQA) -- は、化学、気象学、材料科学、データ科学、数学など、短期量子コンピュータをプログラミングするための強力で柔軟なパラダイムを提供する。 ここでは、興味あるタスクを達成するために、パラメータ化された量子回路の形でアンザッツを訓練する。 しかし、近年では、ランダム性やハードウェアノイズによる平坦なトレーニング環境のため、深いアンサーゼのトレーニングが困難であることが示唆されている。 これは、VQAのためのアンサーゼを構築するための可変構造アプローチを示す、私たちの仕事のモチベーションとなります。 我々のアプローチはVAns(可変アンザッツ)と呼ばれ、最適化中に量子ゲートを情報的かつ(厳密には)取り除くための一連のルールを適用している。 したがって、VAnsはアンザッツの浅さを保ち、トレーニング性やノイズ関連の問題を緩和するのに理想的である。 データ圧縮のための量子オートエンコーダや、すべてのケースで成功した結果を示す単体コンパイル問題において、凝縮物および量子化学応用のための変分量子固有解法にVAnを用いる。

Quantum machine learning -- and specifically Variational Quantum Algorithms (VQAs) -- offers a powerful, flexible paradigm for programming near-term quantum computers, with applications in chemistry, metrology, materials science, data science, and mathematics. Here, one trains an ansatz, in the form of a parameterized quantum circuit, to accomplish a task of interest. However, challenges have recently emerged suggesting that deep ansatzes are difficult to train, due to flat training landscapes caused by randomness or by hardware noise. This motivates our work, where we present a variable structure approach to build ansatzes for VQAs. Our approach, called VAns (Variable Ansatz), applies a set of rules to both grow and (crucially) remove quantum gates in an informed manner during the optimization. Consequently, VAns is ideally suited to mitigate trainability and noise-related issues by keeping the ansatz shallow. We employ VAns in the variational quantum eigensolver for condensed matter and quantum chemistry applications, in the quantum autoencoder for data compression and in unitary compilation problems showing successful results in all cases.
翻訳日:2024-03-17 17:28:01 公開日:2024-03-14
# Z_2対称性を持つ開量子系の分解可能なハイブリッドダイナミクス

Decodable hybrid dynamics of open quantum systems with Z_2 symmetry ( http://arxiv.org/abs/2108.04274v2 )

ライセンス: Link先を確認
Yaodong Li, Matthew P. A. Fisher, (参考訳) 我々は、局所的なデコヒーレンス(ノイズ)と局所射影測定を持つ「オープン」量子回路モデルのクラスを探索し、それぞれが大域的なZ_2対称性を尊重する。 このモデルは、Z_2対称性が自発的に壊れるスピンガラス相(平衡1d系では不可能)、発散した感受性によって特徴づけられる常磁性相、中間的な「自明」相をサポートする。 これら3つの相はまた、Z_2対称局所ユニタリゲートにも安定であり、相間の動的相転移はパーコレーション普遍性クラスに属する。 開回路力学は、(Bao, Choi, Altman, arXiv:2102.09164]のように、独自の「スクランブル」力学を持つ浴槽を明示的に導入することで浄化することができる。 スピンガラス相では、回路力学は量子反復符号として解釈でき、各符号の安定化器は有限速度で確率的に測定され、デコヒーレンスを有効ビットフリップ誤差として解釈する。 スピンガラス位相の幾何学的特徴を生かして,コード空間における任意の初期量子状態の復元のための新しい復号アルゴリズムを考案し,測定結果の履歴と最終状態における局所的なパウリ測度とゲートの実行能力を仮定した。 時間 T で走る L^d 量子ビットを持つ回路では、デコーダの実行に必要な時間は O(L^d T) としてスケールする(次元 d で)。 この復号器を手にすると、初期符号化された量子ビット状態の情報は、1d回路のLにおける時間対数、および、有限誤差閾値以下の2dにおけるLにおける少なくとも1つの時間に対して保持(そして回復)できることが分かる。 繰り返し符号とトーリック符号の両方に対して、デコードアルゴリズムと、エラーモデルをランダム結合イジングモデルにマッピングする以前のアルゴリズムを比較して比較する。

We explore a class of "open" quantum circuit models with local decoherence ("noise") and local projective measurements, each respecting a global Z_2 symmetry. The model supports a spin glass phase where the Z_2 symmetry is spontaneously broken (not possible in an equilibrium 1d system), a paramagnetic phase characterized by a divergent susceptibility, and an intermediate "trivial" phase. All three phases are also stable to Z_2-symmetric local unitary gates, and the dynamical phase transitions between the phases are in the percolation universality class. The open circuit dynamics can be purified by explicitly introducing a bath with its own "scrambling" dynamics, as in [Bao, Choi, Altman, arXiv:2102.09164], which does not change any of the universal physics. Within the spin glass phase the circuit dynamics can be interpreted as a quantum repetition code, with each stabilizer of the code measured stochastically at a finite rate, and the decoherences as effective bit-flip errors. Motivated by the geometry of the spin glass phase, we devise a novel decoding algorithm for recovering an arbitrary initial qubit state in the code space, assuming knowledge of the history of the measurement outcomes, and the ability of performing local Pauli measurements and gates on the final state. For a circuit with L^d qubits running for time T, the time needed to execute the decoder scales as O(L^d T) (with dimensionality d). With this decoder in hand, we find that the information of the initial encoded qubit state can be retained (and then recovered) for a time logarithmic in L for a 1d circuit, and for a time at least linear in L in 2d below a finite error threshold. For both the repetition and toric codes, we compare and contrast our decoding algorithm with earlier algorithms that map the error model to the random bond Ising model.
翻訳日:2024-03-17 17:28:01 公開日:2024-03-14
# FlexNN: エネルギー効率の良いエッジデバイスのためのデータフロー対応フレキシブルディープラーニングアクセラレータ

FlexNN: A Dataflow-aware Flexible Deep Learning Accelerator for Energy-Efficient Edge Devices ( http://arxiv.org/abs/2403.09026v1 )

ライセンス: Link先を確認
Arnab Raha, Deepak A. Mathaikutty, Soumendu K. Ghosh, Shamik Kundu, (参考訳) 本稿では,フレキシブルニューラルネットワークアクセラレータであるFlexNNを紹介し,汎用データフローの実現とエネルギー効率の向上にアジャイル設計の原則を適用した。 入力、重み、出力、行定常などの固定データフローに固執する従来の畳み込みニューラルネットワークアクセラレータアーキテクチャとは異なり、ソフトウェア構成可能な記述子を通じて任意のタイプの適応可能なデータフローを有効にすることで、ストレージと計算ユニット間のアクティベーションと重みを転送する。 データ移動コストは、エネルギーの観点から計算コストを大幅に上回るので、データフローの柔軟性により、固定されたデータフローアーキテクチャでは達成不可能な、データ転送とエネルギー消費の最小化のために、レイヤごとの移動を最適化することができます。 本稿では,FlexNNアーキテクチャにおけるスループットの向上とエネルギー消費の削減を目的として,アクティベーションとウェイトテンソルの両方の粒度スペーサを利用して冗長な計算を回避し,ハードウェアアクセラレーション内の畳み込みエンジンを最適化する新しいスペーサベース加速ロジックを提案する。 既存のDNNアクセラレータと比較して,FlexNNの性能とエネルギー効率は大幅に向上した。

This paper introduces FlexNN, a Flexible Neural Network accelerator, which adopts agile design principles to enable versatile dataflows, enhancing energy efficiency. Unlike conventional convolutional neural network accelerator architectures that adhere to fixed dataflows (such as input, weight, output, or row stationary) for transferring activations and weights between storage and compute units, our design revolutionizes by enabling adaptable dataflows of any type through software configurable descriptors. Considering that data movement costs considerably outweigh compute costs from an energy perspective, the flexibility in dataflow allows us to optimize the movement per layer for minimal data transfer and energy consumption, a capability unattainable in fixed dataflow architectures. To further enhance throughput and reduce energy consumption in the FlexNN architecture, we propose a novel sparsity-based acceleration logic that utilizes fine-grained sparsity in both the activation and weight tensors to bypass redundant computations, thus optimizing the convolution engine within the hardware accelerator. Extensive experimental results underscore a significant enhancement in the performance and energy efficiency of FlexNN relative to existing DNN accelerators.
翻訳日:2024-03-17 16:41:26 公開日:2024-03-14
# 局所想像時間プロパゲータの量子テンソルトレイン表現のコンパクト性

Compactness of quantics tensor train representations of local imaginary-time propagators ( http://arxiv.org/abs/2403.09161v1 )

ライセンス: Link先を確認
Haruto Takahashi, Rihito Sakurai, Hiroshi Shinaoka, (参考訳) 量子テンソルトレイン (QTT) [Phys] を用いて, 実時間プロパゲータの時空間依存性と, 量子場理論に基づく多体計算が可能であることを明らかにした。 X {\bf 13}, 021015 (2023)] しかし、温度などのシステムパラメータがデータサイズに与える影響は未調査のままである。 本稿では,1時間/周波数オブジェクトと2時間/周波数オブジェクトに対するQTTにおける局所的想像時間プロパゲータのコンパクト性について,フロベニウスや最大ノルムの点数を考慮した総合的数値解析を行う。 最悪のシナリオを研究するために、ランダムなポールモデルを使用します。 数値解析により、いくつかの重要な発見が明らかになった。 1時間/周波数オブジェクトと2時間/周波数オブジェクトの場合、結合次元は低温で飽和する。 単時間/周波数オブジェクトに対する結合次元の飽和に関するカウント数論証を提供するが、この飽和の起源は明らかになっていない。 本研究は, 提案手法の選択, 許容度, 虚構時間と虚構周波数の表現の選択について, さらなる研究の必要性を明らかにするものである。

Space-time dependence of imaginary-time propagators, vital for \textit{ab initio} and many-body calculations based on quantum field theories, has been revealed to be compressible using Quantum Tensor Trains (QTTs) [Phys. Rev. X {\bf 13}, 021015 (2023)]. However, the impact of system parameters, like temperature, on data size remains underexplored. This paper provides a comprehensive numerical analysis of the compactness of local imaginary-time propagators in QTT for one-time/-frequency objects and two-time/-frequency objects, considering truncation in terms of the Frobenius and maximum norms. We employ random pole models to study worst-case scenarios. The numerical analysis reveals several key findings. For one-time/-frequency objects and two-time/-frequency objects, the bond dimensions saturate at low temperatures, especially for truncation in terms of the Frobenius norm. We provide counting-number arguments for the saturation of bond dimensions for the one-time/-frequency objects, while the origin of this saturation for two-time/-frequency objects remains to be clarified. This paper's findings highlight the critical need for further research on the selection of truncation methods, tolerance levels, and the choice between imaginary-time and imaginary-frequency representations in practical applications.
翻訳日:2024-03-17 16:41:26 公開日:2024-03-14
# 微粒クリプトアナリシス : k-SUMとk-XORの高次条件境界

Fine-Grained Cryptanalysis: Tight Conditional Bounds for Dense k-SUM and k-XOR ( http://arxiv.org/abs/2111.00486v2 )

ライセンス: Link先を確認
Itai Dinur, Nathan Keller, Ohad Klein, (参考訳) 平均ケースの$k$-SUM予想の変種は、$r$乱数のリストで 0 に等しい$k$数を見つけると、$r^k$は$r^{\lceil k/2 \rceil}$時間以下では達成できないと主張する。 一方、リストがより多くの数を持ち、多くの解が存在する高密度なパラメータ体系では、その中の1つを見つける複雑さは、ワーグナーの$k$-treeアルゴリズムによって著しく改善される。 密集系における$k$-SUMのそのようなアルゴリズムは、特に暗号解析において多くの応用がある。 本稿では、平均ケース$k$-SUM予想を仮定し、既知のアルゴリズムが本質的に$k=3,4,5$に対して最適であることを示す。 k>5$の場合、限られたパラメータに対して$k$-treeアルゴリズムの最適性を証明する。 また、$k$-XORでも同様の結果を示し、ここでは和を排他的または排他的に置き換える。 我々の結果は、いくつかの解を持つ$k$-SUMのインスタンスを考えると、高密度な状態の多くのインスタンスから生成される自己還元によって得られる。 我々は、これら各インスタンスを高密度な$k$-SUMオラクルを用いて解決し、高密度なインスタンスに対する解が元の問題を解くことを期待する。 我々は、密集したインスタンスにノイズを加える難読化プロセスによって、潜在的に悪意のあるオラクル(相関した無意味なソリューションを繰り返し出力する)を扱う。 離散フーリエ解析を用いて、難解化は、その入力が高相関であるにもかかわらず、オラクルの解間の相関を排除していることを示す。

An average-case variant of the $k$-SUM conjecture asserts that finding $k$ numbers that sum to 0 in a list of $r$ random numbers, each of the order $r^k$, cannot be done in much less than $r^{\lceil k/2 \rceil}$ time. On the other hand, in the dense regime of parameters, where the list contains more numbers and many solutions exist, the complexity of finding one of them can be significantly improved by Wagner's $k$-tree algorithm. Such algorithms for $k$-SUM in the dense regime have many applications, notably in cryptanalysis. In this paper, assuming the average-case $k$-SUM conjecture, we prove that known algorithms are essentially optimal for $k= 3,4,5$. For $k>5$, we prove the optimality of the $k$-tree algorithm for a limited range of parameters. We also prove similar results for $k$-XOR, where the sum is replaced with exclusive or. Our results are obtained by a self-reduction that, given an instance of $k$-SUM which has a few solutions, produces from it many instances in the dense regime. We solve each of these instances using the dense $k$-SUM oracle, and hope that a solution to a dense instance also solves the original problem. We deal with potentially malicious oracles (that repeatedly output correlated useless solutions) by an obfuscation process that adds noise to the dense instances. Using discrete Fourier analysis, we show that the obfuscation eliminates correlations among the oracle's solutions, even though its inputs are highly correlated.
翻訳日:2024-03-17 13:51:55 公開日:2024-03-14
# X-CANIDS:制御領域ネットワークを用いた車載ネットワークのための信号対応説明可能な侵入検知システム

X-CANIDS: Signal-Aware Explainable Intrusion Detection System for Controller Area Network-Based In-Vehicle Network ( http://arxiv.org/abs/2303.12278v3 )

ライセンス: Link先を確認
Seonghoon Jeong, Sangho Lee, Hwejae Lee, Huy Kang Kim, (参考訳) Controller Area Network (CAN) は、車両内の複数の電子制御ユニット(ECU)を接続する重要なネットワークプロトコルである。 しかし、CANベースの車載ネットワーク(IVN)は、CAN機構によるセキュリティリスクに直面している。 敵は、CANバスにアクセス可能な場合のセキュリティリスクを活用することにより、車両を妨害することができる。 したがって、最近の行動とサイバーセキュリティ規制(UNR 155など)では、自動車メーカーは車両に侵入検知システム(IDS)を実装する必要がある。 IDSはサイバー攻撃を検出し、実行された攻撃を分析するための追加情報を提供するべきである。 多くのIDSが提案されているが、その実現可能性や説明可能性に関する考慮はいまだに欠落している。 本研究は、CANベースのIVNのための新しいIDSであるX-CANIDSを提案する。 X-CANIDSは、CANデータベースを使用して、CANメッセージのペイロードを人間の理解可能な信号に分解する。 信号は、生ペイロードのビット表現を使用する場合に比べて侵入検出性能が向上する。 これらの信号は、どの信号やECUが攻撃されているかの理解を可能にする。 X-CANIDSはトレーニングフェーズにラベル付きデータセットを必要としないため、ゼロデイ攻撃を検出することができる。 我々は,GPUを用いた自動車グレード組込みデバイス上でのベンチマークテストにより,提案手法の有効性を確認した。 この研究の結果は、車載IDSを車に搭載することを検討する自動車メーカーや研究者にとって価値があるだろう。

Controller Area Network (CAN) is an essential networking protocol that connects multiple electronic control units (ECUs) in a vehicle. However, CAN-based in-vehicle networks (IVNs) face security risks owing to the CAN mechanisms. An adversary can sabotage a vehicle by leveraging the security risks if they can access the CAN bus. Thus, recent actions and cybersecurity regulations (e.g., UNR 155) require carmakers to implement intrusion detection systems (IDSs) in their vehicles. The IDS should detect cyberattacks and provide additional information to analyze conducted attacks. Although many IDSs have been proposed, considerations regarding their feasibility and explainability remain lacking. This study proposes X-CANIDS, which is a novel IDS for CAN-based IVNs. X-CANIDS dissects the payloads in CAN messages into human-understandable signals using a CAN database. The signals improve the intrusion detection performance compared with the use of bit representations of raw payloads. These signals also enable an understanding of which signal or ECU is under attack. X-CANIDS can detect zero-day attacks because it does not require any labeled dataset in the training phase. We confirmed the feasibility of the proposed method through a benchmark test on an automotive-grade embedded device with a GPU. The results of this work will be valuable to carmakers and researchers considering the installation of in-vehicle IDSs for their vehicles.
翻訳日:2024-03-17 13:51:55 公開日:2024-03-14
# ハードウェア・ハニーポット:シークエンシャル・リバース・エンジニアリングを間違ったトラックに設定する

Hardware Honeypot: Setting Sequential Reverse Engineering on a Wrong Track ( http://arxiv.org/abs/2305.03707v2 )

ライセンス: Link先を確認
Michaela Brunner, Hye Hyun Lee, Alexander Hepp, Johanna Baehr, Georg Sigl, (参考訳) 有限状態機械(FSM)のリバースエンジニアリング(RE)は、RE攻撃から設計を保護する際に深刻な脅威となる。 最近の保護技術は秘密鍵のセキュリティに依存しているが、この研究は、ハードウェアFSMハニーポットという新しいアプローチを提示している。 これらのミツバチはREツールを間違った方向に導くが、ツールにとって非常に魅力的なFSMでありながら、オリジナルのFSMを魅力的にしない。 その結果、最先端のRE法ではFSM候補として非常に魅力的なミツバチが好まれるか、あるいは元のFSMが検出されなくなったことが示唆された。

Reverse engineering (RE) of finite state machines (FSMs) is a serious threat when protecting designs against RE attacks. While most recent protection techniques rely on the security of a secret key, this work presents a new approach: hardware FSM honeypots. These honeypots lead the RE tools to a wrong but, for the tools, very attractive FSM, while making the original FSM less attractive. The results show that state-of-the-art RE methods favor the highly attractive honeypot as FSM candidate or do no longer detect the correct, original FSM.
翻訳日:2024-03-17 13:47:35 公開日:2024-03-14
# 差別化のためのガウス的メカニズムを再考する

Less is More: Revisiting the Gaussian Mechanism for Differential Privacy ( http://arxiv.org/abs/2306.02256v3 )

ライセンス: Link先を確認
Tianxi Ji, Pan Li, (参考訳) 出力摂動による差分プライバシーは、機密データに対してクエリや計算結果をリリースするためのデファクトスタンダードとなっている。 しかし、既存のガウスのメカニズムは全て、フルランクの共分散行列の呪いに悩まされている。 この呪いを解くために、Ranc-1 Singular Multivariate Gaussian (R1SMG) 機構を設計する。 共分散行列がランダムに生成されるランク1正の半定行列である特異な多変量ガウス分布に従って、ノイズで結果を摂動することで、高次元クエリー結果のDPを実現する。 対照的に、古典的なガウス機構とその変種は、すべて決定論的フルランク共分散行列を考える。 我々のアイデアは、Dworkらによる古典的なガウスのメカニズムに関する先駆的な研究によって、文献で無視されている。多変量ガウスノイズをフルランクの共分散行列で正規直交基底に投影すると、単一の基底の係数のみがプライバシー保証に寄与する。 本稿では,以下の技術貢献を行う。 R1SMG機構は高次元のクエリ結果に対してDP保証を達成し、その予測精度の損失は、少なくともクエリ結果の次元が既存のガウスのメカニズムと比較して、桁違いに低い項によって制限される。 他のメカニズムと比較して、R1SMG機構はより安定しており、このメカニズムによって導入された非決定論的精度損失の曲率と歪度は他のメカニズムよりも大きいため、クエリ結果に圧倒される大きなノイズを発生させる可能性が低い。

Differential privacy via output perturbation has been a de facto standard for releasing query or computation results on sensitive data. However, we identify that all existing Gaussian mechanisms suffer from the curse of full-rank covariance matrices. To lift this curse, we design a Rank-1 Singular Multivariate Gaussian (R1SMG) mechanism. It achieves DP on high dimension query results by perturbing the results with noise following a singular multivariate Gaussian distribution, whose covariance matrix is a randomly generated rank-1 positive semi-definite matrix. In contrast, the classic Gaussian mechanism and its variants all consider deterministic full-rank covariance matrices. Our idea is motivated by a clue from Dwork et al.'s seminal work on the classic Gaussian mechanism that has been ignored in the literature: when projecting multivariate Gaussian noise with a full-rank covariance matrix onto a set of orthonormal basis, only the coefficient of a single basis can contribute to the privacy guarantee. This paper makes the following technical contributions. The R1SMG mechanisms achieves DP guarantee on high dimension query results, while its expected accuracy loss is lower bounded by a term that is on a lower order of magnitude by at least the dimension of query results compared existing Gaussian mechanisms. Compared with other mechanisms, the R1SMG mechanism is more stable and less likely to generate noise with large magnitude that overwhelms the query results, because the kurtosis and skewness of the nondeterministic accuracy loss introduced by this mechanism is larger than that introduced by other mechanisms.
翻訳日:2024-03-17 13:47:35 公開日:2024-03-14
# ダイボルド署名バリアントの攻撃 -- 未確認高次パディングを用いたRSA署名-

Attacking the Diebold Signature Variant -- RSA Signatures with Unverified High-order Padding ( http://arxiv.org/abs/2403.01048v2 )

ライセンス: Link先を確認
Ryan W. Gardner, Tadayoshi Kohno, Alec Yasinsac, (参考訳) 広範に使われているDiebold Touch Screenと光走査投票機に実装されたRSAシグネチャ検証の自然な実装について検討する。 実装された方式では、検証者は署名パディングの高次ビットの多数を調べず、公開指数は3である。 我々は,敵が任意のメッセージの署名を無視可能な時間で偽造できる,非常に数学的に単純な攻撃を提案する。

We examine a natural but improper implementation of RSA signature verification deployed on the widely used Diebold Touch Screen and Optical Scan voting machines. In the implemented scheme, the verifier fails to examine a large number of the high-order bits of signature padding and the public exponent is three. We present an very mathematically simple attack that enables an adversary to forge signatures on arbitrary messages in a negligible amount of time.
翻訳日:2024-03-17 13:47:35 公開日:2024-03-14
# 大規模言語モデル(LLM)のデータプライバシ保護に関する調査

On Protecting the Data Privacy of Large Language Models (LLMs): A Survey ( http://arxiv.org/abs/2403.05156v2 )

ライセンス: Link先を確認
Biwei Yan, Kun Li, Minghui Xu, Yueyan Dong, Yue Zhang, Zhaochun Ren, Xiuzhen Cheng, (参考訳) LLM(Large Language Model)は、人間の言語を理解し、生成し、翻訳できる複雑な人工知能システムである。 大量のテキストデータを分析して言語パターンを学習し、文章、会話、要約、その他の言語タスクを実行できる。 LLMが大量のデータを処理して生成する場合、機密情報を漏洩する危険性があり、データプライバシを脅かす可能性がある。 本稿では,LLMに関連するデータプライバシの懸念を解明し,包括的理解を促進することに集中する。 具体的には、LLM内の受動的プライバシー漏洩とアクティブなプライバシ攻撃の両方を含む、データプライバシの脅威の範囲を明確化するために、徹底的な調査が実施されている。 その後,LLMが採用するプライバシ保護機構を様々な段階で評価し,その有効性と制約を詳細に検討した。 最後に、この談話は、直面した課題を明確にし、LLMプライバシ保護の領域における進歩に向けた今後の方向性を概説するものである。

Large language models (LLMs) are complex artificial intelligence systems capable of understanding, generating and translating human language. They learn language patterns by analyzing large amounts of text data, allowing them to perform writing, conversation, summarizing and other language tasks. When LLMs process and generate large amounts of data, there is a risk of leaking sensitive information, which may threaten data privacy. This paper concentrates on elucidating the data privacy concerns associated with LLMs to foster a comprehensive understanding. Specifically, a thorough investigation is undertaken to delineate the spectrum of data privacy threats, encompassing both passive privacy leakage and active privacy attacks within LLMs. Subsequently, we conduct an assessment of the privacy protection mechanisms employed by LLMs at various stages, followed by a detailed examination of their efficacy and constraints. Finally, the discourse extends to delineate the challenges encountered and outline prospective directions for advancement in the realm of LLM privacy protection.
翻訳日:2024-03-17 13:47:35 公開日:2024-03-14
# クラウド上のセキュアな$k$-NN計算に対するCiphertext-Only攻撃

Ciphertext-Only Attack on a Secure $k$-NN Computation on Cloud ( http://arxiv.org/abs/2403.09080v1 )

ライセンス: Link先を確認
Shyam Murthy, Santosh Kumar Upadhyaya, Srinivas Vivek, (参考訳) クラウドコンピューティングの台頭は、データストレージと計算タスクをクラウドに転送するトレンドを呼んだ。 顧客データやビジネス詳細などの機密情報を保護するためには、クラウドストレージの前に機密データを暗号化することが不可欠である。 暗号化を実装することで、不正アクセス、データ漏洩、そして結果としての金銭的損失、評判のダメージ、法的問題を防止することができる。 さらに、クラウドに格納されたデータ上でのデータマイニングアルゴリズムの実行を容易にするために、暗号化はドメイン計算と互換性を持つ必要がある。 特定のクエリベクトルに対する$k$-nearest(k$-NN)の計算は、ロケーションベースのサービスのようなフィールドで広く使われている。 Sanyashi et al (ICISS 2023) は、非対称スカラー生成保存暗号化 (ASPE) を利用することで、クラウド上のプライバシー保護のための$k$-NN計算を容易にする暗号化スキームを提案した。 本研究は,上記のサノヤシ等の暗号方式における重大な脆弱性を同定し,効率的なアルゴリズムを提案し,その暗号方式が暗号文のみの攻撃(COA)に対して脆弱であることを実証的に実証する。

The rise of cloud computing has spurred a trend of transferring data storage and computational tasks to the cloud. To protect confidential information such as customer data and business details, it is essential to encrypt this sensitive data before cloud storage. Implementing encryption can prevent unauthorized access, data breaches, and the resultant financial loss, reputation damage, and legal issues. Moreover, to facilitate the execution of data mining algorithms on the cloud-stored data, the encryption needs to be compatible with domain computation. The $k$-nearest neighbor ($k$-NN) computation for a specific query vector is widely used in fields like location-based services. Sanyashi et al. (ICISS 2023) proposed an encryption scheme to facilitate privacy-preserving $k$-NN computation on the cloud by utilizing Asymmetric Scalar-Product-Preserving Encryption (ASPE). In this work, we identify a significant vulnerability in the aforementioned encryption scheme of Sanyashi et al. Specifically, we give an efficient algorithm and also empirically demonstrate that their encryption scheme is vulnerable to the ciphertext-only attack (COA).
翻訳日:2024-03-17 13:28:07 公開日:2024-03-14
# ロスシーネットワークを用いたIoTシステムにおけるグラフベースDDoS攻撃検出

Graph-Based DDoS Attack Detection in IoT Systems with Lossy Network ( http://arxiv.org/abs/2403.09118v1 )

ライセンス: Link先を確認
Arvin Hekmati, Bhaskar Krishnamachari, (参考訳) 本研究では、Graph Convolutional Networks(GCN)の機能を活用した、IoT(Internet of Things)システムにおけるDDoS(Distributed Denial of Service)攻撃の検出のための堅牢なソリューションを提案する。 グラフ構造内のノードとしてIoTデバイスを概念化することにより、損失のあるネットワーク環境でも効率的に動作可能な検出機構を提案する。 我々は、IoTネットワークをモデル化するための様々なグラフトポロジを導入し、それらを調整可能な未来型DDoS攻撃を検出するために評価する。 ネットワーク接続損失のレベルや様々な攻撃状況について検討することにより、相関に基づくハイブリッドグラフ構造がDDoS攻撃の発見に有効であることを示す。 その結果,最大91%のF1スコアを有するGCNベースのDDoS検出モデルの顕著な性能を示した。 さらに,F1スコアの最大2%の低下,最大50%の接続損失が観察された。 本研究の結果は,接続破壊に対する耐性を保ちながら,高い検出精度の恩恵を受けるIoTシステムのセキュリティにGCNを使用することのメリットを強調した。

This study introduces a robust solution for the detection of Distributed Denial of Service (DDoS) attacks in Internet of Things (IoT) systems, leveraging the capabilities of Graph Convolutional Networks (GCN). By conceptualizing IoT devices as nodes within a graph structure, we present a detection mechanism capable of operating efficiently even in lossy network environments. We introduce various graph topologies for modeling IoT networks and evaluate them for detecting tunable futuristic DDoS attacks. By studying different levels of network connection loss and various attack situations, we demonstrate that the correlation-based hybrid graph structure is effective in spotting DDoS attacks, substantiating its good performance even in lossy network scenarios. The results indicate a remarkable performance of the GCN-based DDoS detection model with an F1 score of up to 91%. Furthermore, we observe at most a 2% drop in F1-score in environments with up to 50% connection loss. The findings from this study highlight the advantages of utilizing GCN for the security of IoT systems which benefit from high detection accuracy while being resilient to connection disruption.
翻訳日:2024-03-17 13:28:07 公開日:2024-03-14
# IoTセンサによる同型暗号化データの異常検出のためのプライバシ保護

Privacy Preserving Anomaly Detection on Homomorphic Encrypted Data from IoT Sensors ( http://arxiv.org/abs/2403.09322v1 )

ライセンス: Link先を確認
Anca Hangan, Dragos Lazea, Tudor Cioara, (参考訳) IoTデバイスは私たちの生活に欠かせないコンポーネントとなり、AI技術の進歩によってさらに普及し、誤動作やサイバー攻撃の脆弱性が増大し、プライバシーの懸念が高まる。 暗号化はこれらの課題を軽減することができるが、既存のほとんどの異常検出技術は分析を行うためにデータを復号化しており、トランジットやストレージで提供される暗号化保護を損なう可能性がある。 均一な暗号化スキームは、IoTデータ上での操作の処理と実行を可能にする上で、有望なソリューションである。 本稿では,IoTデバイスが生成する同型暗号化データに対して,復号化を行なわずに異常値を効率的に検出する,新たなプライバシー保護型異常検出ソリューションを提案する。 我々は,TFHE方式のヒストグラムに基づく異常検出手法を適用し,ベクトル化支援演算を実装することにより,入力サイズと演算深さの制限に対処した。 これらの操作には、バケットの追加、バケット内の値配置、閾値周波数に基づく異常バケットのラベル付け、レンジに基づいた異常値のラベル付け、バケットラベルが含まれる。 評価の結果,データの復号化を必要とせず,異常を効果的に検出し,平易なデータで動作する機構に匹敵する一貫した結果が得られることがわかった。 また、ノイズの多いセンサデータ、敵攻撃、通信障害、デバイス障害など、IoT環境で一般的に発生するさまざまな課題に対して、堅牢性とレジリエンスを示す。 さらに、いくつかの解構成について決定される時間と計算オーバーヘッドは、大きいにもかかわらず、既存の文献で報告されているものと比較して妥当である。

IoT devices have become indispensable components of our lives, and the advancement of AI technologies will make them even more pervasive, increasing the vulnerability to malfunctions or cyberattacks and raising privacy concerns. Encryption can mitigate these challenges; however, most existing anomaly detection techniques decrypt the data to perform the analysis, potentially undermining the encryption protection provided during transit or storage. Homomorphic encryption schemes are promising solutions as they enable the processing and execution of operations on IoT data while still encrypted, however, these schemes offer only limited operations, which poses challenges to their practical usage. In this paper, we propose a novel privacy-preserving anomaly detection solution designed for homomorphically encrypted data generated by IoT devices that efficiently detects abnormal values without performing decryption. We have adapted the Histogram-based anomaly detection technique for TFHE scheme to address limitations related to the input size and the depth of computation by implementing vectorized support operations. These operations include addition, value placement in buckets, labeling abnormal buckets based on a threshold frequency, labeling abnormal values based on their range, and bucket labels. Evaluation results show that the solution effectively detects anomalies without requiring data decryption and achieves consistent results comparable to the mechanism operating on plain data. Also, it shows robustness and resilience against various challenges commonly encountered in IoT environments, such as noisy sensor data, adversarial attacks, communication failures, and device malfunctions. Moreover, the time and computational overheads determined for several solution configurations, despite being large, are reasonable compared to those reported in existing literature.
翻訳日:2024-03-17 13:28:07 公開日:2024-03-14
# LDPRecover: ローカルな差別的プライバシーに対する攻撃から頻度を回収する

LDPRecover: Recovering Frequencies from Poisoning Attacks against Local Differential Privacy ( http://arxiv.org/abs/2403.09351v1 )

ライセンス: Link先を確認
Xinyue Sun, Qingqing Ye, Haibo Hu, Jiawei Duan, Tianyu Wo, Jie Xu, Renyu Yang, (参考訳) ローカルディファレンシャルプライバシ(LDP)は、信頼できないサーバが、それらのユーザのプライバシを保護しながら、分散ユーザから集約された統計データを収集することを可能にするもので、実際に広くデプロイされている。 しかし、周波数推定のためのLDPプロトコルは、悪意のあるユーザから送られたデータを操作することで、攻撃者が集約された周波数に毒を盛る攻撃に対して脆弱である。 したがって、毒物から正確な集積周波数を回収することはオープンな課題である。 本研究では,サーバが攻撃の詳細を学ばなくても,攻撃から正確な集積周波数を復元する手法であるLDPRecoverを提案する。 LDPRecoverでは、悪意のあるユーザデータの影響を排除し、サーバが真のユーザデータから集約された頻度を回復するよう理論的に誘導する真の頻度推定器を確立する。 サーバは攻撃を知らないので,既存の攻撃を統一する適応攻撃を提案し,この適応攻撃における悪意のあるデータの統計を LDP プロトコルの特性を利用して学習する。 推定器と学習統計を制約とすることにより、集約された周波数を復元する問題を定式化し、実際の周波数を制約推論(CI)問題としてアプローチする。 これにより、サーバはこの問題を最適に解き、正確な集約周波数を得ることができる。 さらに、LDPRecoverは、CI問題における新たな制約として攻撃の詳細を統合することで、より正確な集約された周波数を回復する周波数回復パラダイムとして機能する。 実世界の2つのデータセット,3つの LDP プロトコル,および未標的および標的の毒殺攻撃に対する評価は,LDPRecover が様々な毒殺攻撃に対して正確かつ広く適用可能であることを示している。

Local differential privacy (LDP), which enables an untrusted server to collect aggregated statistics from distributed users while protecting the privacy of those users, has been widely deployed in practice. However, LDP protocols for frequency estimation are vulnerable to poisoning attacks, in which an attacker can poison the aggregated frequencies by manipulating the data sent from malicious users. Therefore, it is an open challenge to recover the accurate aggregated frequencies from poisoned ones. In this work, we propose LDPRecover, a method that can recover accurate aggregated frequencies from poisoning attacks, even if the server does not learn the details of the attacks. In LDPRecover, we establish a genuine frequency estimator that theoretically guides the server to recover the frequencies aggregated from genuine users' data by eliminating the impact of malicious users' data in poisoned frequencies. Since the server has no idea of the attacks, we propose an adaptive attack to unify existing attacks and learn the statistics of the malicious data within this adaptive attack by exploiting the properties of LDP protocols. By taking the estimator and the learning statistics as constraints, we formulate the problem of recovering aggregated frequencies to approach the genuine ones as a constraint inference (CI) problem. Consequently, the server can obtain accurate aggregated frequencies by solving this problem optimally. Moreover, LDPRecover can serve as a frequency recovery paradigm that recovers more accurate aggregated frequencies by integrating attack details as new constraints in the CI problem. Our evaluation on two real-world datasets, three LDP protocols, and untargeted and targeted poisoning attacks shows that LDPRecover is both accurate and widely applicable against various poisoning attacks.
翻訳日:2024-03-17 13:28:07 公開日:2024-03-14
# REPQC:ポスト量子暗号のためのリバースエンジニアリングとバックドアハードウェア加速器

REPQC: Reverse Engineering and Backdooring Hardware Accelerators for Post-quantum Cryptography ( http://arxiv.org/abs/2403.09352v1 )

ライセンス: Link先を確認
Samuel Pagliarini, Aikata Aikata, Malik Imran, Sujoy Sinha Roy, (参考訳) 量子耐性のある暗号アルゴリズムの設計に重要な研究努力が注がれている。 堅牢な量子コンピュータが利用可能になると、現在の暗号化標準が脆弱になる。 したがって、新しいポスト量子暗号(PQC)アルゴリズムが必要であり、そのようなアルゴリズムの本質的な複雑さのため、ハードウェアでそれらを高速化する必要がある。 本稿では,PQCハードウェアアクセラレータを,チップサプライチェーン内の2つの異なる敵によってバックドアすることができることを示す。 本稿では,PQCアクセラレータ内のハッシュ操作(例えばKeccak)を確実に識別する,高度なリバースエンジニアリングアルゴリズムであるREPQCを提案する。 REPQCで武装した敵は、悪質なロジックをステルスなハードウェアトロイの木馬(HTH)の形で挿入する。 ディリシウムを研究ケースとして用いた結果, 回路性能に影響を与えず, 消費電力が限界的に増加することなく, 加速器のレイアウト密度を0.1 %程度増加させるHTHを挿入できることが判明した。 重要な側面は、REPQCのリバースエンジニアリング全体が自動化されており、それに続くHTH挿入も行われ、敵は複数のHTH設計を探索し、最も適した設計を特定することができる。

Significant research efforts have been dedicated to designing cryptographic algorithms that are quantum-resistant. The motivation is clear: robust quantum computers, once available, will render current cryptographic standards vulnerable. Thus, we need new Post-Quantum Cryptography (PQC) algorithms, and, due to the inherent complexity of such algorithms, there is also a demand to accelerate them in hardware. In this paper, we show that PQC hardware accelerators can be backdoored by two different adversaries located in the chip supply chain. We propose REPQC, a sophisticated reverse engineering algorithm that can be employed to confidently identify hashing operations (i.e., Keccak) within the PQC accelerator - the location of which serves as an anchor for finding secret information to be leaked. Armed with REPQC, an adversary proceeds to insert malicious logic in the form of a stealthy Hardware Trojan Horse (HTH). Using Dilithium as a study case, our results demonstrate that HTHs that increase the accelerator's layout density by as little as 0.1\% can be inserted without any impact on the performance of the circuit and with a marginal increase in power consumption. An essential aspect is that the entire reverse engineering in REPQC is automated, and so is the HTH insertion that follows it, empowering adversaries to explore multiple HTH designs and identify the most suitable one.
翻訳日:2024-03-17 13:28:07 公開日:2024-03-14
# StarMalloc: 形式的検証,コンカレント,パフォーマンス,セキュリティ指向メモリアロケータ

StarMalloc: A Formally Verified, Concurrent, Performant, and Security-Oriented Memory Allocator ( http://arxiv.org/abs/2403.09435v1 )

ライセンス: Link先を確認
Antonin Reitz, Aymeric Fromherz, Jonathan Protzenko, (参考訳) 本稿では,セキュリティ指向の並列メモリアロケータであるStarMallocについて紹介する。 スチール分離論理フレームワークを用いて、より効率的な検証を可能にするために、依存型とモジュール抽象に依存したStarMallocの特定と検証方法を示す。 StarMallocの一部として、将来のシステム検証プロジェクトで直接再利用可能ないくつかの汎用データ構造と証明ライブラリも開発しています。 最終的に、StarMallocはFirefoxブラウザを含む現実世界のプロジェクトで使用でき、10の最先端メモリアロケータに対して評価でき、その競争力を示している。

In this work, we present StarMalloc, a verified, security-oriented, concurrent memory allocator that can be used as a drop-in replacement in real-world projects. Using the Steel separation logic framework, we show how to specify and verify StarMalloc, relying on dependent types and modular abstractions to enable efficient verification. As part of StarMalloc, we also develop several generic datastructures and proof libraries directly reusable in future systems verification projects. We finally show that StarMalloc can be used with real-world projects, including the Firefox browser, and evaluate it against 10 state-of-the-art memory allocators, demonstrating its competitiveness.
翻訳日:2024-03-17 13:28:07 公開日:2024-03-14
# 信頼できないUAVアシスト無線システムのカバー通信

Covert Communication for Untrusted UAV-Assisted Wireless Systems ( http://arxiv.org/abs/2403.09475v1 )

ライセンス: Link先を確認
Chan Gao, Linying Tian, Dong Zheng, (参考訳) 無線システムは、スマートシティにユビキタスなデータ伝送を提供する上で、最重要事項である。 しかし、無線チャンネルのブロードキャストとオープン性のため、このようなシステムは潜在的なセキュリティ上の課題に直面している。 UAV-assisted covert communication is a support technology for improve covert performances and is a hot problem in the research of wireless communication security。 本報告では,無線無線システムにおいて,信頼できないUAVの助けを借りて,送信元が送信先の宛先へ送信する通信システムにおいて,共同隠蔽とセキュリティ通信の性能について検討する。 まず、UAVを用いて秘密通信を補助し、秘密メッセージの安全性を確保した送信方式を設計する。 そこで,本論文では,ワーデンの検知誤り確率と隠蔽率とセキュリティ率の式を導出する理論モデルを構築し,その最大被覆率とセキュリティ率を,所定の隠蔽とセキュリティ要件の下での電力制御により最適化する。 最後に,これらのシステムにおける隠れ通信とセキュリティ通信の理論的解析と性能を示す数値的な結果を提供する。

Wireless systems are of paramount importance for providing ubiquitous data transmission for smart cities. However, due to the broadcasting and openness of wireless channels, such systems face potential security challenges. UAV-assisted covert communication is a supporting technology for improving covert performances and has become a hot issue in the research of wireless communication security. This paper investigates the performance of joint covert and security communication in a tow-hop UAV-assisted wireless system, where a source transmits the covert message to a destination with the help of an untrusted UAV. We first design a transmission scheme such that use UAVs to assist in covert communications while ensuring the security of covert messages. Then, we develop a theoretical model to derive the expressions for the detection error probability of the warden and the covert and security rate, and the maximum covert and security rate is optimized by power control under a given covertness and security requirements. Finally, numerical results are provided to illustrate our theoretical analysis and the performance of covert and security communication in such systems.
翻訳日:2024-03-17 13:28:07 公開日:2024-03-14
# 群衆調査のための人工バグ

Artificial Bugs for Crowdsearch ( http://arxiv.org/abs/2403.09484v1 )

ライセンス: Link先を確認
Hans Gersbach, Fikri Pitsuwan, Pio Blieske, (参考訳) バグ報奨金プログラムは、報酬(報奨金)と引き換えに、外部エージェントが脆弱性(バグ)を検索および報告するために招待され、企業がシステムを改善するための主要なツールとなっている。 人工的なバグを挿入して、実際の(有機的な)バグを検索するインセンティブを高めることで、このようなプログラムを強化することを提案する。 群集探索のモデルを用いて,人工バグによる効率向上を同定し,これに対して1つの人工バグを挿入するだけで十分であることを示す。 例えば、設計者が有機的なバグの発見に高い評価を下す場合や、報奨金の予算が十分に高くない場合など、人工的なバグは特に有益である。 人工的なバグの実装方法を議論し、さらなるメリットを概説する。

Bug bounty programs, where external agents are invited to search and report vulnerabilities (bugs) in exchange for rewards (bounty), have become a major tool for companies to improve their systems. We suggest augmenting such programs by inserting artificial bugs to increase the incentives to search for real (organic) bugs. Using a model of crowdsearch, we identify the efficiency gains by artificial bugs, and we show that for this, it is sufficient to insert only one artificial bug. Artificial bugs are particularly beneficial, for instance, if the designer places high valuations on finding organic bugs or if the budget for bounty is not sufficiently high. We discuss how to implement artificial bugs and outline their further benefits.
翻訳日:2024-03-17 13:28:07 公開日:2024-03-14
# RANDAOベースのRNG:Ethereum 2.0における最後のRevealer攻撃と潜在的な解決策

RANDAO-based RNG: Last Revealer Attacks in Ethereum 2.0 Randomness and a Potential Solution ( http://arxiv.org/abs/2403.09541v1 )

ライセンス: Link先を確認
Do Hai Son, Tran Thi Thuy Quynh, Le Quang Minh, (参考訳) Ethereum 2.0は、スケーラビリティ、スループット、セキュリティを改善するための大きなアップグレードである。 このバージョンでは、RANDAOは、提案し、ブロックを確認し、報酬を得るユーザをランダムに選択するスキームである。 しかし、LRA(Last Revealer Attack)と呼ばれる脆弱性は、ランダム数生成(RNG)プロセスにバイアスを導入することで、このスキームのランダム性を損なう。 この脆弱性は、この研究で最初に明らかにされている。 その後、我々は、LRAを緩和するためのShamir's Secret Sharing (SSS)ベースのRANDAOスキームを提案する。 解析により,提案手法はLRAを好適なネットワーク条件下で防止することができる。

Ethereum 2.0 is a major upgrade to improve its scalability, throughput, and security. In this version, RANDAO is the scheme to randomly select the users who propose, confirm blocks, and get rewards. However, a vulnerability, referred to as the `Last Revealer Attack' (LRA), compromises the randomness of this scheme by introducing bias to the Random Number Generator (RNG) process. This vulnerability is first clarified again in this study. After that, we propose a Shamir's Secret Sharing (SSS)-based RANDAO scheme to mitigate the LRA. Through our analysis, the proposed method can prevent the LRA under favorable network conditions.
翻訳日:2024-03-17 13:28:07 公開日:2024-03-14
# PreCurious: 未学習の言語モデルがいかにプライバシトラップに変わるか

PreCurious: How Innocent Pre-Trained Language Models Turn into Privacy Traps ( http://arxiv.org/abs/2403.09562v1 )

ライセンス: Link先を確認
Ruixuan Liu, Tianhao Wang, Yang Cao, Li Xiong, (参考訳) 事前学習と微調整のパラダイムは、その効果を示し、言語モデルを様々なタスクに合わせるための標準的なアプローチとなっている。 現在、コミュニティベースのプラットフォームは、厳格な検証プロセスなしで公開できるため、トレーニング済みのさまざまなモデルに簡単にアクセスできる。 しかし、事前トレーニングされたモデルのリリースは、慎重に設計されている場合、微調整データセットのプライバシトラップになる可能性がある。 本研究では,攻撃者が事前訓練されたモデルをリリースし,最終調整されたモデルにブラックボックスでアクセスできる新たな攻撃面を明らかにするためのPreCuriousフレームワークを提案する。 PreCuriousは、会員推測とデータ抽出の両方の一般的なプライバシーリスクを増大させることを目指している。 PreCuriousの背後にある重要な直感は、事前訓練されたモデルの記憶段階を操作し、正当な構成で微調整をガイドすることである。 パラメータ効率と差分的にプライベートな微調整技術がプライバシー攻撃に悪影響があることを実証的および理論的証拠が示しているように、微調整モデルに対するプライバシー攻撃に対する防御の有効性は有望であるように思われる。 しかしPreCuriousは、良心的なモデルで微調整するのと比べて、忍び寄る可能性を秘めている。 衛生データセットのさらなる活用により、PreCuriousは、もともと公開されていない秘密を、差分的にプライベートな微調整の下で抽出することができる。 このように、PreCuriousは、トレーニング済みのモデルを未知のソースからダウンロードし、チュートリアルや常識的な防御にのみ依存するユーザに対して警告を発し、完全なスクラブ後にも前もってサニタイズされたデータセットをリリースする。

The pre-training and fine-tuning paradigm has demonstrated its effectiveness and has become the standard approach for tailoring language models to various tasks. Currently, community-based platforms offer easy access to various pre-trained models, as anyone can publish without strict validation processes. However, a released pre-trained model can be a privacy trap for fine-tuning datasets if it is carefully designed. In this work, we propose PreCurious framework to reveal the new attack surface where the attacker releases the pre-trained model and gets a black-box access to the final fine-tuned model. PreCurious aims to escalate the general privacy risk of both membership inference and data extraction. The key intuition behind PreCurious is to manipulate the memorization stage of the pre-trained model and guide fine-tuning with a seemingly legitimate configuration. The effectiveness of defending against privacy attacks on a fine-tuned model seems promising, as empirical and theoretical evidence suggests that parameter-efficient and differentially private fine-tuning techniques are invulnerable to privacy attacks. But PreCurious demonstrates the possibility of breaking up invulnerability in a stealthy manner compared to fine-tuning on a benign model. By further leveraging a sanitized dataset, PreCurious can extract originally unexposed secrets under differentially private fine-tuning. Thus, PreCurious raises warnings for users who download pre-trained models from unknown sources, rely solely on tutorials or common-sense defenses, and previously release sanitized datasets even after perfect scrubbing.
翻訳日:2024-03-17 13:28:07 公開日:2024-03-14
# 量子情報の拡散の背後にある準確率変動定理

Quasiprobability fluctuation theorem behind the spread of quantum information ( http://arxiv.org/abs/2201.00385v3 )

ライセンス: Link先を確認
Kun Zhang, Jin Wang, (参考訳) 情報は時間とともに広まる。 例えば、相関系が環境などの第三者に局所的に結合すると、相関関係は散逸する。 この単純だが重要な事実は、既知の量子データ処理の不等式を形成する。 ここでは、理論的に量子情報不等式の背後にある量子ゆらぎ定理を明らかにする。 ゆらぎ定理は、基礎となる確率量子過程の統計を定量的に予測する。 量子の性質を完全に捉えるために、ここで確立された揺らぎ定理は準確率状態に拡張される。 また、疑似確率を構成する振幅を測定し、IBM量子コンピュータによって確立されたゆらぎ定理を検証するための干渉法を実験的に適用した。

Information spreads in time. For example, correlations dissipate when the correlated system locally couples to a third party, such as the environment. This simple but important fact forms the known quantum data-processing inequality. Here we theoretically uncover the quantum fluctuation theorem behind the quantum informational inequality. The fluctuation theorem quantitatively predicts the statistics of the underlying stochastic quantum process. To fully capture the quantum nature, the fluctuation theorem established here is extended to the quasiprobability regime. We also experimentally apply an interference-based method to measure the amplitudes composing the quasiprobability and verify our established fluctuation theorem by the IBM quantum computer.
翻訳日:2024-03-16 03:29:29 公開日:2024-03-14
# カーネル化概念消去

Kernelized Concept Erasure ( http://arxiv.org/abs/2201.12191v5 )

ライセンス: Link先を確認
Shauli Ravfogel, Francisco Vargas, Yoav Goldberg, Ryan Cotterell, (参考訳) テキストデータに対するニューラルモデルの表現空間は、トレーニング中に教師なしの方法で現れる。 これらの表現がどのように人間の解釈可能な概念を符号化するかを理解することは、根本的な問題である。 神経表現における概念の同定のための顕著なアプローチの1つは、消去によって概念の予測が表現から妨げられる線形部分空間を探すことである。 しかしながら、多くの線形消去アルゴリズムはトラクタブルで解釈可能であるが、ニューラルネットワークは必ずしも線形な方法で概念を表現するとは限らない。 非線形符号化された概念を識別するために,概念消去のための線形ミニマックスゲームのカーネル化を提案する。 我々は、特定の非線形敵が概念を予測するのを防ぐことが可能であることを実証した。 しかし、保護は異なる非線形敵に移動しない。 したがって、非線型符号化の概念を徹底的に消去することは、未解決の問題である。

The representation space of neural models for textual data emerges in an unsupervised manner during training. Understanding how those representations encode human-interpretable concepts is a fundamental problem. One prominent approach for the identification of concepts in neural representations is searching for a linear subspace whose erasure prevents the prediction of the concept from the representations. However, while many linear erasure algorithms are tractable and interpretable, neural networks do not necessarily represent concepts in a linear manner. To identify non-linearly encoded concepts, we propose a kernelization of a linear minimax game for concept erasure. We demonstrate that it is possible to prevent specific non-linear adversaries from predicting the concept. However, the protection does not transfer to different nonlinear adversaries. Therefore, exhaustively erasing a non-linearly encoded concept remains an open problem.
翻訳日:2024-03-16 03:29:29 公開日:2024-03-14
# フォールトトレラント量子計算の空間オーバーヘッドに対する下界

A lower bound on the space overhead of fault-tolerant quantum computation ( http://arxiv.org/abs/2202.00119v2 )

ライセンス: Link先を確認
Omar Fawzi, Alexander Müller-Hermes, Ala Shayeghi, (参考訳) しきい値定理はフォールトトレラント量子計算の理論における基本的な結果であり、ノイズレベルが一定レベル以下であれば、任意に長い量子計算を多対数的オーバーヘッドで行うことができる。 Fawzi, Grospellier and Leverrier (FOCS 2018) による最近の研究は Gottesman (QIC 2013) による結果に基づいて、空間オーバーヘッドが漸近的に回路の一定の独立性に還元できることを示した。 この研究では、最小限の量子的耐障害性モデルを用いて、耐障害性を達成するのに必要な空間オーバーヘッドの一般の低い境界を確立する。 任意の単位でない量子ビットチャネル $\mathcal{N}$ と、$\mathcal{N}$ でモデル化された任意の量子フォールトトレランススキームに対して、長さ $T$ と幅 $n$ の回路に対して、$\max\left\{\mathrm{Q}(\mathcal{N})^{-1}n,\alpha_\mathcal{N} \log T\right\}$ を下限として証明する。 ここで、$\mathrm{Q}(\mathcal{N})$は$\mathcal{N}$と$\alpha_\mathcal{N}>0$の量子容量を表す。 我々のモデルでは、回路の実行中に量子ビットを新しいビットに置き換えることを可能にし、古典計算を自由かつ完全にすることができる。 これは、古典的な計算もノイズの影響を受けていると仮定し、新しい量子ビットを追加することを許さなかった結果を改善する。 その過程で、ベンオル、ゴッテスマン、ハシディム(2013)の予想を解く振幅減衰雑音を伴う耐故障性量子計算の最大長の指数上界を証明した。

The threshold theorem is a fundamental result in the theory of fault-tolerant quantum computation stating that arbitrarily long quantum computations can be performed with a polylogarithmic overhead provided the noise level is below a constant level. A recent work by Fawzi, Grospellier and Leverrier (FOCS 2018) building on a result by Gottesman (QIC 2013) has shown that the space overhead can be asymptotically reduced to a constant independent of the circuit provided we only consider circuits with a length bounded by a polynomial in the width. In this work, using a minimal model for quantum fault tolerance, we establish a general lower bound on the space overhead required to achieve fault tolerance. For any non-unitary qubit channel $\mathcal{N}$ and any quantum fault tolerance schemes against $\mathrm{i.i.d.}$ noise modeled by $\mathcal{N}$, we prove a lower bound of $\max\left\{\mathrm{Q}(\mathcal{N})^{-1}n,\alpha_\mathcal{N} \log T\right\}$ on the number of physical qubits, for circuits of length $T$ and width $n$. Here, $\mathrm{Q}(\mathcal{N})$ denotes the quantum capacity of $\mathcal{N}$ and $\alpha_\mathcal{N}>0$ is a constant only depending on the channel $\mathcal{N}$. In our model, we allow for qubits to be replaced by fresh ones during the execution of the circuit and we allow classical computation to be free and perfect. This improves upon results that assumed classical computations to be also affected by noise, and that sometimes did not allow for fresh qubits to be added. Along the way, we prove an exponential upper bound on the maximal length of fault-tolerant quantum computation with amplitude damping noise resolving a conjecture by Ben-Or, Gottesman, and Hassidim (2013).
翻訳日:2024-03-16 03:29:29 公開日:2024-03-14
# ショートカット行動の緩和を探求するタイポロジー

A Typology for Exploring the Mitigation of Shortcut Behavior ( http://arxiv.org/abs/2203.03668v6 )

ライセンス: Link先を確認
Felix Friedrich, Wolfgang Stammer, Patrick Schramowski, Kristian Kersting, (参考訳) 機械学習モデルはますます大きくなり、潜在的に未処理のデータセットに対して弱い教師付きで訓練されるようになると、学習のショートカットを緩和し、学習知識が人間の知識と一致していることを保証するために、モデルを検査、相互作用、修正するためのメカニズムを確立することがますます重要になる。 この目的のために最近提案されたXILフレームワークが開発され、それぞれが個別のモチベーションと方法論の詳細を持ついくつかの手法が導入された。 本研究では,基本モジュールの共通集合を確立することにより,XIL法を単一型に統一する。 そうすることで、私たちは既存の、しかし重要なことに、将来のXILアプローチを原則的に比較する道を開いたのです。 さらに,本研究では,XIL手法の全体的な能力を評価するための新しい尺度とベンチマークについて論じる。 タイポロジーや測定,ベンチマークなど,この広範なツールボックスを考慮に入れた上で,最近のXIL手法を方法論的,定量的に比較した。 我々の評価では、全ての手法がモデルを再修正することを証明している。 しかし、個々のベンチマークタスクに顕著な違いが見られ、これらのベンチマークを将来の手法に組み込む上で、貴重なアプリケーション関連側面が明らかになった。

As machine learning models become increasingly larger, trained weakly supervised on large, possibly uncurated data sets, it becomes increasingly important to establish mechanisms for inspecting, interacting, and revising models to mitigate learning shortcuts and guarantee their learned knowledge is aligned with human knowledge. The recently proposed XIL framework was developed for this purpose, and several such methods have been introduced, each with individual motivations and methodological details. In this work, we provide a unification of various XIL methods into a single typology by establishing a common set of basic modules. In doing so, we pave the way for a principled comparison of existing, but, importantly, also future XIL approaches. In addition, we discuss existing and introduce novel measures and benchmarks for evaluating the overall abilities of a XIL method. Given this extensive toolbox, including our typology, measures, and benchmarks, we finally compare several recent XIL methods methodologically and quantitatively. In our evaluations, all methods prove to revise a model successfully. However, we found remarkable differences in individual benchmark tasks, revealing valuable application-relevant aspects for integrating these benchmarks in developing future methods.
翻訳日:2024-03-16 03:29:29 公開日:2024-03-14
# ビジュアル音声分析のためのディープラーニング:サーベイ

Deep Learning for Visual Speech Analysis: A Survey ( http://arxiv.org/abs/2205.10839v2 )

ライセンス: Link先を確認
Changchong Sheng, Gangyao Kuang, Liang Bai, Chenping Hou, Yulan Guo, Xin Xu, Matti Pietikäinen, Li Liu, (参考訳) 視覚音声は、公共の安全、医療、軍事防衛、映画エンターテイメントなど、幅広い用途で注目を集めている。 強力なAI戦略として、深層学習技術は視覚音声学習の発展を広範囲に促進してきた。 過去5年間で、この領域の様々な問題、特に自動視覚音声認識と生成に対処するために、多くのディープラーニングに基づく手法が提案されている。 本稿では,視覚音声に関する今後の研究を推し進めるために,視覚音声分析におけるディープラーニング手法の最近の進歩を包括的にレビューすることを目的とする。 私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。 また、現在の研究のギャップを特定し、今後の研究の方向性について論じる。

Visual speech, referring to the visual domain of speech, has attracted increasing attention due to its wide applications, such as public security, medical treatment, military defense, and film entertainment. As a powerful AI strategy, deep learning techniques have extensively promoted the development of visual speech learning. Over the past five years, numerous deep learning based methods have been proposed to address various problems in this area, especially automatic visual speech recognition and generation. To push forward future research on visual speech, this paper aims to present a comprehensive review of recent progress in deep learning methods on visual speech analysis. We cover different aspects of visual speech, including fundamental problems, challenges, benchmark datasets, a taxonomy of existing methods, and state-of-the-art performance. Besides, we also identify gaps in current research and discuss inspiring future research directions.
翻訳日:2024-03-16 03:29:29 公開日:2024-03-14
# SPI-GAN:直線パス補間による拡散GANのノイズ化

SPI-GAN: Denoising Diffusion GANs with Straight-Path Interpolations ( http://arxiv.org/abs/2206.14464v3 )

ライセンス: Link先を確認
Jinsung Jeon, Noseong Park, (参考訳) スコアベース生成モデル(SGM)は、最先端のサンプリング品質と多様性を示している。 しかし、そのトレーニング/サンプリングの複雑さは、非常に複雑なフォワード/リバースプロセスのために悪名高いため、リソース制限の設定には適さない。 この問題を解決するために、より単純なプロセスを学ぶことが、現在多くの注目を集めています。 我々は,提案した直線パス補間定義を用いて,SPI-GAN(SPI-GAN)と呼ばれる拡張されたGANに基づく分極法を提案する。 この目的のために,我々はGANアーキテクチャを提案する。 一 進路をなだめること、及び 二 妄想経路を模倣するための連続的なマッピングニューラルネットワークにより特徴づけられること。 このアプローチは、サンプリング時間を大幅に短縮し、SGMと同じくらい高いサンプリング品質と多様性を実現する。 その結果、SPI-GANはCIFAR-10とCelebA-HQ-256のサンプリング品質、多様性、時間の中で最もバランスのとれたモデルの1つである。

Score-based generative models (SGMs) show the state-of-the-art sampling quality and diversity. However, their training/sampling complexity is notoriously high due to the highly complicated forward/reverse processes, so they are not suitable for resource-limited settings. To solving this problem, learning a simpler process is gathering much attention currently. We present an enhanced GAN-based denoising method, called SPI-GAN, using our proposed straight-path interpolation definition. To this end, we propose a GAN architecture i) denoising through the straight-path and ii) characterized by a continuous mapping neural network for imitating the denoising path. This approach drastically reduces the sampling time while achieving as high sampling quality and diversity as SGMs. As a result, SPI-GAN is one of the best-balanced models among the sampling quality, diversity, and time for CIFAR-10, and CelebA-HQ-256.
翻訳日:2024-03-16 03:23:03 公開日:2024-03-14
# 決定依存分布を伴う確率近似:漸近正規性と最適性

Stochastic Approximation with Decision-Dependent Distributions: Asymptotic Normality and Optimality ( http://arxiv.org/abs/2207.04173v3 )

ライセンス: Link先を確認
Joshua Cutler, Mateo Díaz, Dmitriy Drusvyatskiy, (参考訳) 決定依存問題に対する確率近似アルゴリズムを解析し、アルゴリズムが使用するデータ分布は反復列に沿って進化する。 このような問題の主な例は、性能予測とそのマルチプレイヤー拡張である。 軽微な仮定では,アルゴリズムの平均反復率と解の偏差は漸近的に正常であり,勾配雑音と分布シフトの影響を明らかに分離する共分散が示される。 さらに,H'ajek と Le Cam の業績に基づいて,平均化によるアルゴリズムの漸近性能が局所的に極小であることを示す。

We analyze a stochastic approximation algorithm for decision-dependent problems, wherein the data distribution used by the algorithm evolves along the iterate sequence. The primary examples of such problems appear in performative prediction and its multiplayer extensions. We show that under mild assumptions, the deviation between the average iterate of the algorithm and the solution is asymptotically normal, with a covariance that clearly decouples the effects of the gradient noise and the distributional shift. Moreover, building on the work of H\'ajek and Le Cam, we show that the asymptotic performance of the algorithm with averaging is locally minimax optimal.
翻訳日:2024-03-16 03:23:03 公開日:2024-03-14
# 自然言語による多段階推論:アウト・オブ・ディストリビューションの一般化に関する実証的研究

Multi-Step Deductive Reasoning Over Natural Language: An Empirical Study on Out-of-Distribution Generalisation ( http://arxiv.org/abs/2207.14000v2 )

ライセンス: Link先を確認
Qiming Bao, Alex Yuxuan Peng, Tim Hartill, Neset Tan, Zhenyun Deng, Michael Witbrock, Jiamou Liu, (参考訳) 深層学習と記号論理推論を組み合わせることは、両方の分野の成功に乗じることを目的としており、注目を集めている。 Inspireed by DeepLogic, a end-to-end model to perform inference on logic program, we introduced IMA-GloVe-GA, a iterationative neural inference network for multi-step reasoning expressed in natural language。 本モデルでは,ゲートアテンション機構を備えたRNNに基づく反復型メモリニューラルネットワークを用いて推論を行う。 IMA-GloVe-GAを3つのデータセット(PARARULES, CONCEPTRULES V1, CONCEPTRULES V2)で評価した。 ゲートアテンションのあるDeepLogicは、DeepLogicや他のRNNベースラインモデルよりも高いテスト精度が得られることを示す実験結果が得られた。 このモデルでは,ルールがシャッフルされた場合,RoBERTa-Largeよりも分布外一般化が優れている。 さらに、現在の多段階推論データセットにおける推論深度の不均衡分布の問題に対処するため、より深い推論ステップを必要とするサンプルを持つ大規模データセットであるPARARULE-Plusを開発した。 実験結果から,PARARULE-Plusの追加により,より深い推論深度を必要とする事例において,モデルの性能が向上することが示唆された。 ソースコードとデータはhttps://github.com/Strong-AI-Lab/Multi-Step-Deductive-Reasoning-Over-Natural-Languageで公開されている。

Combining deep learning with symbolic logic reasoning aims to capitalize on the success of both fields and is drawing increasing attention. Inspired by DeepLogic, an end-to-end model trained to perform inference on logic programs, we introduce IMA-GloVe-GA, an iterative neural inference network for multi-step reasoning expressed in natural language. In our model, reasoning is performed using an iterative memory neural network based on RNN with a gate attention mechanism. We evaluate IMA-GloVe-GA on three datasets: PARARULES, CONCEPTRULES V1 and CONCEPTRULES V2. Experimental results show DeepLogic with gate attention can achieve higher test accuracy than DeepLogic and other RNN baseline models. Our model achieves better out-of-distribution generalisation than RoBERTa-Large when the rules have been shuffled. Furthermore, to address the issue of unbalanced distribution of reasoning depths in the current multi-step reasoning datasets, we develop PARARULE-Plus, a large dataset with more examples that require deeper reasoning steps. Experimental results show that the addition of PARARULE-Plus can increase the model's performance on examples requiring deeper reasoning depths. The source code and data are available at https://github.com/Strong-AI-Lab/Multi-Step-Deductive-Reasoning-Over-Natural-Language.
翻訳日:2024-03-16 03:23:03 公開日:2024-03-14
# DPAR:ノードレベル差分プライバシーを備えたグラフニューラルネットワークの分離

DPAR: Decoupled Graph Neural Networks with Node-Level Differential Privacy ( http://arxiv.org/abs/2210.04442v2 )

ライセンス: Link先を確認
Qiuchen Zhang, Hong kyu Lee, Jing Ma, Jian Lou, Carl Yang, Li Xiong, (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データによる学習において大きな成功を収めている。 また、ノードの特徴と構造情報の両方を含むグラフのセンシティブな情報を公開可能な、トレーニング済みモデルのプライバシに関する懸念も提起されている。 本稿では,ノードとエッジが保護されるように,GNNをトレーニングするためのノードレベルの差分プライバシー(DP)を実現することを目的とする。 ノードDPは、すべてのダイレクトおよびマルチホップ隣人がレイヤーワイドメッセージパスを介して各ノードの勾配の計算に参加するため、GNNにとって本質的に困難である。 本稿では,プライバシーとユーティリティのトレードオフが強化されたGNNをトレーニングするために,異なる方法で \textbf{P}rivate \textbf{A}pproximate Personalized Page\textbf{R}ank (DPAR) を付与したGNNを提案する。 鍵となるアイデアは、DP PageRankアルゴリズムを介して機能プロジェクションとメッセージパッシングを分離することである。 各ノードの最も重要な隣人を捕捉し、レイヤワイドメッセージパッシングを避けることで、ノードの感度を制限し、レイヤワイドの摂動に基づく方法と比較して、プライバシーとユーティリティのトレードオフを改善する。 両プロセスのノードDP保証を理論的に解析し,同レベルのノードDPを持つDPARの有用性を,最先端の手法と比較して実証的に実証する。

Graph Neural Networks (GNNs) have achieved great success in learning with graph-structured data. Privacy concerns have also been raised for the trained models which could expose the sensitive information of graphs including both node features and the structure information. In this paper, we aim to achieve node-level differential privacy (DP) for training GNNs so that a node and its edges are protected. Node DP is inherently difficult for GNNs because all direct and multi-hop neighbors participate in the calculation of gradients for each node via layer-wise message passing and there is no bound on how many direct and multi-hop neighbors a node can have, so existing DP methods will result in high privacy cost or poor utility due to high node sensitivity. We propose a \textbf{D}ecoupled GNN with Differentially \textbf{P}rivate \textbf{A}pproximate Personalized Page\textbf{R}ank (DPAR) for training GNNs with an enhanced privacy-utility tradeoff. The key idea is to decouple the feature projection and message passing via a DP PageRank algorithm which learns the structure information and uses the top-$K$ neighbors determined by the PageRank for feature aggregation. By capturing the most important neighbors for each node and avoiding the layer-wise message passing, it bounds the node sensitivity and achieves improved privacy-utility tradeoff compared to layer-wise perturbation based methods. We theoretically analyze the node DP guarantee for the two processes combined together and empirically demonstrate better utilities of DPAR with the same level of node DP compared with state-of-the-art methods.
翻訳日:2024-03-16 03:23:03 公開日:2024-03-14
# 進化的計算に基づくニューラルアーキテクチャ探索アルゴリズムの隠れ時間予測の解析

Analyzing the Expected Hitting Time of Evolutionary Computation-based Neural Architecture Search Algorithms ( http://arxiv.org/abs/2210.05397v2 )

ライセンス: Link先を確認
Zeqiong Lv, Chao Qian, Gary G. Yen, Yanan Sun, (参考訳) 進化的計算に基づくニューラルネットワーク探索(ENAS)は、ディープニューラルネットワークのアーキテクチャ設計を自動化する一般的な手法である。 基礎的な応用にもかかわらず、ENASの理論的な研究は行われていない。 期待ヒット時間(EHT)は、平均計算時間の複雑さを意味するため、理論上の最も重要な問題の一つである。 本稿では,共通構成,探索空間分割,遷移確率推定,人口分布の適合,ヒット時間解析などを含むENASアルゴリズムのEHTを推定するための理論と実験を統合することで,一般的な手法を提案する。 提案手法を利用して,異なる突然変異演算子を持つ($\lambda$+$\lambda$)-ENASアルゴリズムを検討し,EHTの下位境界を推定する。 さらに,NAS-Bench-101問題に対するEHTについて検討し,提案手法の有効性を実証した。 我々の知る限りでは、この研究はENASアルゴリズムの理論的基盤を確立する最初の試みである。

Evolutionary computation-based neural architecture search (ENAS) is a popular technique for automating architecture design of deep neural networks. Despite its groundbreaking applications, there is no theoretical study for ENAS. The expected hitting time (EHT) is one of the most important theoretical issues, since it implies the average computational time complexity. This paper proposes a general method by integrating theory and experiment for estimating the EHT of ENAS algorithms, which includes common configuration, search space partition, transition probability estimation, population distribution fitting, and hitting time analysis. By exploiting the proposed method, we consider the ($\lambda$+$\lambda$)-ENAS algorithms with different mutation operators and estimate the lower bounds of the EHT. Furthermore, we study the EHT on the NAS-Bench-101 problem, and the results demonstrate the validity of the proposed method. To the best of our knowledge, this work is the first attempt to establish a theoretical foundation for ENAS algorithms.
翻訳日:2024-03-16 03:23:03 公開日:2024-03-14
# 対数線形ガードネスとその意味

Log-linear Guardedness and its Implications ( http://arxiv.org/abs/2210.10012v4 )

ライセンス: Link先を確認
Shauli Ravfogel, Yoav Goldberg, Ryan Cotterell, (参考訳) 線形性を仮定する神経表現から人間の解釈可能な概念を消去する方法は、抽出可能で有用であることが判明した。 しかし、この除去が修正表現で訓練された下流分類器の挙動に与える影響は、完全には理解されていない。 本研究は,対数線ガードネスの概念を,敵の表現から直接概念を予測できないものと定義し,その意味について考察する。 バイナリの場合、ある仮定の下では、下流の対数線形モデルでは消去された概念を復元できないことを示す。 しかし,マルチクラス対数線形モデルであるemph{can}が,対数線形ガード性の本質的な限界を下流バイアス緩和手法として指摘し,間接的にこの概念を回復することを示す。 これらの知見は線形消去法の理論的限界に光を当て、ニューラルモデルにおける内在バイアスと外因バイアスの関連性についてさらなる研究の必要性を強調した。

Methods for erasing human-interpretable concepts from neural representations that assume linearity have been found to be tractable and useful. However, the impact of this removal on the behavior of downstream classifiers trained on the modified representations is not fully understood. In this work, we formally define the notion of log-linear guardedness as the inability of an adversary to predict the concept directly from the representation, and study its implications. We show that, in the binary case, under certain assumptions, a downstream log-linear model cannot recover the erased concept. However, we demonstrate that a multiclass log-linear model \emph{can} be constructed that indirectly recovers the concept in some cases, pointing to the inherent limitations of log-linear guardedness as a downstream bias mitigation technique. These findings shed light on the theoretical limitations of linear erasure methods and highlight the need for further research on the connections between intrinsic and extrinsic bias in neural models.
翻訳日:2024-03-16 03:23:03 公開日:2024-03-14
# ソフトラベルプロトタイプを用いた事例から新しい課題を学習する

Learning New Tasks from a Few Examples with Soft-Label Prototypes ( http://arxiv.org/abs/2210.17437v3 )

ライセンス: Link先を確認
Avyav Kumar Singh, Ekaterina Shutova, Helen Yannakoudakis, (参考訳) 既存のNLPにおける少数ショット学習へのアプローチは、配布外のデータを一般化するために、大きな言語モデルとこれらを微調整に依存している。 そこで本研究では,入力領域の異なるクラスの分布を集合的に把握するソフトラベルのプロトタイプに基づいて,モデルがクラス毎に4つの例にしか公開されない「極端」少数ショット学習のための,シンプルかつ強力なアプローチを提案する。 単変量または単純多変量(合成)データに関する以前の研究(Sucholutsky et al , 2021)に触発されて, 大規模・高次元・実世界のデータセットに有効な新しいアプローチを提案する。 ニューラルフレームワーク(DeepSLP)内でソフトラベルのプロトタイプを学習し、31/48のテストタスクと数ショット設定において優れたパフォーマンスを実現し、残りの部分での強いベースラインのパフォーマンスを密に一致させることを実験的に実証した。 従来のNLPタスクをラベル単位のごく少数の例(4,8,16)から学習することに集中し,提案手法の有効性を詳細に分析した。

Existing approaches to few-shot learning in NLP rely on large language models and fine-tuning of these to generalise on out-of-distribution data. In this work, we propose a simple yet powerful approach to "extreme" few-shot learning, wherein models are exposed to as little as 4 examples per class, based on soft-label prototypes that collectively capture the distribution of different classes across the input domain space. Inspired by previous work (Sucholutsky et al., 2021) on univariate or simple multivariate (synthetic) data, we propose a novel approach that is effective on large, high-dimensional and real-world datasets. We learn soft-label prototypes within a neural framework (DeepSLP) and we experimentally demonstrate that it achieves superior performance on 31/48 tested tasks and few-shot settings while closely matching the performance of strong baselines on the rest. We focus on learning previously unseen NLP tasks from very few examples (4, 8, 16) per label and present an in-depth analysis of the effectiveness of our approach.
翻訳日:2024-03-16 03:23:03 公開日:2024-03-14
# 量子リスク分析:(概念的)バリュー・アット・リスクを超えて

Quantum Risk Analysis: Beyond (Conditional) Value-at-Risk ( http://arxiv.org/abs/2211.04456v2 )

ライセンス: Link先を確認
Christian Laudagé, Ivica Turkalj, (参考訳) リスク対策は、企業のリザーブの充実度を測定する上で重要な指標である。 最も一般的なリスク対策は、バリュー・アット・リスク(VaR)と条件付きバリュー・アット・リスク(CVaR)である。 近年、量子ベースのアルゴリズムを導入して計算している。 これらの手順は、古典的モンテカルロ法に比べて2次速度を上回るいわゆる量子振幅推定アルゴリズムに基づいている。 これらのアイデアに基づいて,VaR と CVaR の代替案,すなわち expectile Value-at-Risk (EVaR) と Range Value-at-Risk (RVaR) を計算するための量子ベースのアルゴリズムを構築した。 量子アルゴリズムを構築して計算する。 これらのアルゴリズムは量子振幅推定に基づいている。 ケーススタディでは,VaRとCVaRの量子ベースアルゴリズムとの性能を比較した。 量子シミュレータでは,全てのアルゴリズムが十分に動作することがわかった。 さらに、EVaRとVaRの計算は、実量子デバイス上のノイズに対して堅牢である。 CVaRとRVaRはそうではない。

Risk measures are important key figures to measure the adequacy of the reserves of a company. The most common risk measures in practice are Value-at-Risk (VaR) and Conditional Value-at-Risk (CVaR). Recently, quantum-based algorithms are introduced to calculate them. These procedures are based on the so-called quantum amplitude estimation algorithm which lead to a quadratic speed up compared to classical Monte-Carlo based methods. Based on these ideas, we construct quantum-based algorithms to calculate alternatives for VaR and CVaR, namely the Expectile Value-at-Risk (EVaR) and the Range Value-at-Risk (RVaR). We construct quantum algorithms to calculate them. These algorithms are based on quantum amplitude estimation. In a case study, we compare their performance with the quantum-based algorithms for VaR and CVaR. We find that all of the algorithms perform sufficiently well on a quantum simulator. Further, the calculations of EVaR and VaR are robust against noise on a real quantum device. This is not the case for CVaR and RVaR.
翻訳日:2024-03-16 03:23:03 公開日:2024-03-14
# SVD-PINNs:特異値分解による物理インフォームニューラルネットワークの伝達学習

SVD-PINNs: Transfer Learning of Physics-Informed Neural Networks via Singular Value Decomposition ( http://arxiv.org/abs/2211.08760v2 )

ライセンス: Link先を確認
Yihang Gao, Ka Chun Cheung, Michael K. Ng, (参考訳) 近年、物理インフォームドニューラルネットワーク(PINN)は、従来の方法で現れる次元の呪いを軽減するため、偏微分方程式(PDE)の解法として注目されている。 しかし、PINNの最も欠点は、1つのニューラルネットワークが1つのPDEに対応することである。 実際には、私たちは通常、PDEのクラスを1つだけでなく1つのクラスで解決する必要があります。 深層学習の爆発的成長に伴い、一般の深層学習における多くの有用な技術がPINNにも適している。 転送学習手法は、PDEのクラスを解く際のPINNのコストを削減できる。 本稿では,特異ベクトルを保持し,特異値(SVD-PINN)を最適化することで,PINNの伝達学習手法を提案する。 高次元PDE(10-d線型放物型方程式と10-dアレン-カーン方程式)に関する数値実験は、SVD-PINNが異なる右辺関数を持つPDEのクラスを解くのに有効であることを示している。

Physics-informed neural networks (PINNs) have attracted significant attention for solving partial differential equations (PDEs) in recent years because they alleviate the curse of dimensionality that appears in traditional methods. However, the most disadvantage of PINNs is that one neural network corresponds to one PDE. In practice, we usually need to solve a class of PDEs, not just one. With the explosive growth of deep learning, many useful techniques in general deep learning tasks are also suitable for PINNs. Transfer learning methods may reduce the cost for PINNs in solving a class of PDEs. In this paper, we proposed a transfer learning method of PINNs via keeping singular vectors and optimizing singular values (namely SVD-PINNs). Numerical experiments on high dimensional PDEs (10-d linear parabolic equations and 10-d Allen-Cahn equations) show that SVD-PINNs work for solving a class of PDEs with different but close right-hand-side functions.
翻訳日:2024-03-16 03:23:03 公開日:2024-03-14
# 機械知覚のための計算画像:収差を超えてセマンティックセグメンテーションを転送する

Computational Imaging for Machine Perception: Transferring Semantic Segmentation beyond Aberrations ( http://arxiv.org/abs/2211.11257v2 )

ライセンス: Link先を確認
Qi Jiang, Hao Shi, Shaohua Gao, Jiaming Zhang, Kailun Yang, Lei Sun, Huajian Ni, Kaiwei Wang, (参考訳) モバイルおよびウェアラブルアプリケーションにおけるMinimalist Optical Systems (MOS)によるセマンティックなシーン理解は、光学収差による画像品質の劣化のため、依然として課題である。 しかし、従来の研究は、コンピュータ・イメージング(CI)技術による主観的画像品質の向上にのみ焦点を当てており、セマンティックセグメンテーションの進歩の可能性を無視している。 本稿では,光収差下でのセマンティックセグメンテーション(SSOA)のMOSによる研究の先駆者となる。 SSOAをベンチマークするために、光学シミュレーションにより仮想プロトタイプレンズ群を構築し、異なる振る舞いと収差レベルの下でCityscapes-abおよびKITTI-360-abデータセットを生成する。 我々は、実世界のシナリオにおけるラベル付き収差データの不足に対処するために、教師なしのドメイン適応の観点からSSOAを考察する。 さらに、SSOAにおける堅牢なパフォーマンスのために、CIの事前知識を活用するために、CIADA(Computational Imaging Assisted Domain Adaptation)を提案する。 ベンチマークに基づいて,古典的セグメンタの収差に対する堅牢性について実験を行った。 さらに、SSOAの可能なソリューションを広範囲に評価した結果、CIADAは全ての収差分布において優れた性能を達成し、計算画像とMOSの下流アプリケーションとのギャップを埋めることが判明した。 プロジェクトページはhttps://github.com/zju-jiangqi/CIADAにある。

Semantic scene understanding with Minimalist Optical Systems (MOS) in mobile and wearable applications remains a challenge due to the corrupted imaging quality induced by optical aberrations. However, previous works only focus on improving the subjective imaging quality through the Computational Imaging (CI) technique, ignoring the feasibility of advancing semantic segmentation. In this paper, we pioneer the investigation of Semantic Segmentation under Optical Aberrations (SSOA) with MOS. To benchmark SSOA, we construct Virtual Prototype Lens (VPL) groups through optical simulation, generating Cityscapes-ab and KITTI-360-ab datasets under different behaviors and levels of aberrations. We look into SSOA via an unsupervised domain adaptation perspective to address the scarcity of labeled aberration data in real-world scenarios. Further, we propose Computational Imaging Assisted Domain Adaptation (CIADA) to leverage prior knowledge of CI for robust performance in SSOA. Based on our benchmark, we conduct experiments on the robustness of classical segmenters against aberrations. In addition, extensive evaluations of possible solutions to SSOA reveal that CIADA achieves superior performance under all aberration distributions, bridging the gap between computational imaging and downstream applications for MOS. The project page is at https://github.com/zju-jiangqi/CIADA.
翻訳日:2024-03-16 03:23:03 公開日:2024-03-14
# 物体検出のためのプラグアンドプレイアクティブラーニング

Plug and Play Active Learning for Object Detection ( http://arxiv.org/abs/2211.11612v2 )

ライセンス: Link先を確認
Chenhongyi Yang, Lichao Huang, Elliot J. Crowley, (参考訳) オブジェクト検出のためのデータセットの注釈付けは、高価で時間を要する作業である。 この負担を最小限に抑えるため、アクティブラーニング(AL)技術を用いて、制約付きアノテーション予算の中で最も情報性の高いアノテーションサンプルを選択する。 従来のAL戦略は、通常、クエリサンプリングのためのモデル不確実性やサンプルの多様性に頼っているが、より高度な手法は、AL固有のオブジェクト検出アーキテクチャの開発に重点を置いて、パフォーマンスを向上させる。 しかし、これらの特殊なアプローチは、統合に必要な重要なエンジニアリング努力のために、異なるオブジェクト検出器に容易に適応できない。 この課題を克服するために、オブジェクト検出のためのシンプルで効果的なAL戦略であるPlug and Play Active Learning (PPAL)を導入する。 PPALは不確実性と多様性に基づくサンプリングフェーズを含む2段階の手法である。 第1段階では、分類と局所化の難しさと再重み付きインスタンスの不確実性の両方を組み合わせたカテゴリワイドの難易度係数を利用して、その後の多様性に基づくサンプリングの候補プールをサンプリングする。 第2段階では,k-Means++アルゴリズムを用いて最終的なALクエリをサンプリングし,複数インスタンス画像の類似性をインスタンス類似性のアンサンブルとしてよりよく計算するカテゴリ条件マッチング類似性を提案する。 PPALはモデルアーキテクチャや検出器訓練パイプラインを変更しないため、異なる物体検出器に容易に一般化することができる。 我々は,MS-COCO と Pascal VOC のデータセット上で,異なる検出器アーキテクチャを用いてPPAL をベンチマークし,本手法が先行処理よりも高い性能を示すことを示す。 コードはhttps://github.com/ChenhongyiYang/PPALで公開されている。

Annotating datasets for object detection is an expensive and time-consuming endeavor. To minimize this burden, active learning (AL) techniques are employed to select the most informative samples for annotation within a constrained "annotation budget". Traditional AL strategies typically rely on model uncertainty or sample diversity for query sampling, while more advanced methods have focused on developing AL-specific object detector architectures to enhance performance. However, these specialized approaches are not readily adaptable to different object detectors due to the significant engineering effort required for integration. To overcome this challenge, we introduce Plug and Play Active Learning (PPAL), a simple and effective AL strategy for object detection. PPAL is a two-stage method comprising uncertainty-based and diversity-based sampling phases. In the first stage, our Difficulty Calibrated Uncertainty Sampling leverage a category-wise difficulty coefficient that combines both classification and localisation difficulties to re-weight instance uncertainties, from which we sample a candidate pool for the subsequent diversity-based sampling. In the second stage, we propose Category Conditioned Matching Similarity to better compute the similarities of multi-instance images as ensembles of their instance similarities, which is used by the k-Means++ algorithm to sample the final AL queries. PPAL makes no change to model architectures or detector training pipelines; hence it can be easily generalized to different object detectors. We benchmark PPAL on the MS-COCO and Pascal VOC datasets using different detector architectures and show that our method outperforms prior work by a large margin. Code is available at https://github.com/ChenhongyiYang/PPAL
翻訳日:2024-03-16 03:23:03 公開日:2024-03-14
# 相互作用量子力学における絡み合いと吸収状態遷移

Entanglement and Absorbing-State Transitions in Interactive Quantum Dynamics ( http://arxiv.org/abs/2211.12526v2 )

ライセンス: Link先を確認
Nicholas O'Dea, Alan Morningstar, Sarang Gopalakrishnan, Vedika Khemani, (参考訳) 初期の量子コンピュータは、非古典的なシナリオにおける量子多体系の探索を動機付けている。 例えば、一元的進化と測定の両方の下で進化するシステムの力学を探求することは自然になった。 このような系は、測定結果に基づいて量子軌道の絡み合い特性の動的相転移を行うことができる。 そこで本研究では,これらの測定結果を(局所的に)対象状態に向けて操り,その結果の位相図を測定・フィードバック率の関数として検討する。 ステアリングは、測定とフィードバック率が閾値を超えると成功し、軌道平均密度行列における吸収状態遷移をもたらす。 吸収状態遷移は一般に、個々の軌道の絡み合い遷移から異なる臨界パラメータで発生し、異なる臨界特性を持つと主張する。 ステアリングの有効性は、特に長距離相関状態をターゲットにした局所力学では、ステアリングは必然的に遅く、絡み合いとステアリング遷移はパラメータ空間内で十分に分離される。

Nascent quantum computers motivate the exploration of quantum many-body systems in nontraditional scenarios. For example, it has become natural to explore the dynamics of systems evolving under both unitary evolution and measurement. Such systems can undergo dynamical phase transitions in the entanglement properties of quantum trajectories conditional on the measurement outcomes. Here, we explore dynamics in which one attempts to (locally) use those measurement outcomes to steer the system toward a target state, and we study the resulting phase diagram as a function of the measurement and feedback rates. Steering succeeds when the measurement and feedback rates exceed a threshold, yielding an absorbing-state transition in the trajectory-averaged density matrix. We argue that the absorbing-state transition generally occurs at different critical parameters from the entanglement transition in individual trajectories and has distinct critical properties. The efficacy of steering depends on the nature of the target state: in particular, for local dynamics targeting long-range correlated states, steering is necessarily slow and the entanglement and steering transitions are well separated in parameter space.
翻訳日:2024-03-16 03:23:03 公開日:2024-03-14
# COMET:分散ディープラーニング学習のための総合的クラスタ設計手法

COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training ( http://arxiv.org/abs/2211.16648v2 )

ライセンス: Link先を確認
Divya Kiran Kadiyala, Saeed Rashidi, Taekyung Heo, Abhimanyu Rajeshkumar Bambhaniya, Tushar Krishna, Alexandros Daglis, (参考訳) 現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。 このようなクラスタを設計してパフォーマンスと利用の両方を最大化する — コストの急激な削減 — 計算、メモリ、ネットワークリソースの慎重なバランスを必要とする、困難な作業です。 さらに、各モデルのチューニングノブのプレソラは、複雑なクラスタワークロードの共同設計プロセスを必要とするクラスタの特性に依存することが多いため、パフォーマンスに大きな影響を与えます。 このような巨大なDLトレーニングクラスタの設計空間の探索を容易にするために,並列化戦略とキークラスタリソースプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを導入する。 再利用可能なフレキシブルな方法論を確立するためのステップバイステップのプロセスを開発し、可変計算、メモリ、ネットワークリソースのクラスタ構成に関する大規模モデルをトレーニングするケーススタディでその応用を実証する。 ケーススタディでは、COMETが有望なアーキテクチャ最適化の方向性を特定し、システムデザイナにキーモデルとクラスタパラメータの設定を指示する役割を実証している。 クラスタ構成比較では、最大7.7倍の性能差を識別し、メモリ拡張を最適化手法として使用する場合、最大1.4倍の性能最適化の機会を強調する。

Modern Deep Learning (DL) models have grown to sizes requiring massive clusters of specialized, high-end nodes to train. Designing such clusters to maximize both performance and utilization--to amortize their steep cost--is a challenging task requiring careful balance of compute, memory, and network resources. Moreover, a plethora of each model's tuning knobs drastically affect the performance, with optimal values often depending on the underlying cluster's characteristics, which necessitates a complex cluster-workload co-design process. To facilitate the design space exploration of such massive DL training clusters, we introduce COMET, a holistic cluster design methodology and workflow to jointly study the impact of parallelization strategies and key cluster resource provisioning on the performance of distributed DL training. We develop a step-by-step process to establish a reusable and flexible methodology, and demonstrate its application with case studies of training large models on cluster configurations of variable compute, memory, and network resources. Our case studies demonstrate COMET's utility in identifying promising architectural optimization directions and guiding system designers in configuring key model and cluster parameters. To illustrate, cluster configuration comparisons identify performance differences of up to 7.7x and highlight performance optimization opportunities of up to 1.4x when employing memory expansion as an optimization technique.
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# 変圧器エンコーダモデルの分類課題に対する系列長学習の影響評価

Assessing the Impact of Sequence Length Learning on Classification Tasks for Transformer Encoder Models ( http://arxiv.org/abs/2212.08399v2 )

ライセンス: Link先を確認
Jean-Thomas Baillargeon, Luc Lamontagne, (参考訳) Transformerアーキテクチャを用いた分類アルゴリズムは、異なるクラスからの観測が異なる長さ分布を持つ場合、シーケンス長学習問題の影響を受け得る。 この問題は、重要なテキスト情報に頼るのではなく、シーケンス長を予測機能として使用するモデルを引き起こす。 ほとんどの公開データセットはこの問題の影響を受けていないが、医療や保険などの分野で個人所有のコーパスがこのデータバイアスを負う可能性がある。 このシーケンス長機能の利用は、これらの機械学習モデルがクリティカルなアプリケーションで使用できるため、バリューチェーン全体の課題を引き起こします。 本稿では,この問題を実証的に明らかにし,その影響を最小限に抑えるためのアプローチを提案する。

Classification algorithms using Transformer architectures can be affected by the sequence length learning problem whenever observations from different classes have a different length distribution. This problem causes models to use sequence length as a predictive feature instead of relying on important textual information. Although most public datasets are not affected by this problem, privately owned corpora for fields such as medicine and insurance may carry this data bias. The exploitation of this sequence length feature poses challenges throughout the value chain as these machine learning models can be used in critical applications. In this paper, we empirically expose this problem and present approaches to minimize its impacts.
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# ヒューマンパーシングのためのディープラーニング技術:調査と展望

Deep Learning Technique for Human Parsing: A Survey and Outlook ( http://arxiv.org/abs/2301.00394v2 )

ライセンス: Link先を確認
Lu Yang, Wenhe Jia, Shan Li, Qing Song, (参考訳) 人間のパーシングは、人間を画像やビデオに分割し、複数のピクセルレベルのセマンティック部分に分割することを目的としている。 過去10年間で、コンピュータビジョンコミュニティへの関心が大幅に高まり、セキュリティ監視、ソーシャルメディア、視覚特殊効果など、幅広い応用に利用されてきた。 ディープラーニングに基づく人間解析ソリューションは目覚ましい成果を上げてきたが、多くの重要な概念、既存の課題、そして潜在的研究の方向性はいまだに混乱している。 本調査では,各タスク設定,背景概念,関連する問題や応用,代表文献,データセットの3つのサブタスクを総合的にレビューする。 また、ベンチマークデータセット上でのレビュー手法の定量的な性能比較について述べる。 また,地域社会の持続可能な発展を促進するため,トランスフォーマーを基盤としたヒューマン・パーシング・フレームワークを推進し,普遍的で簡潔で拡張可能なソリューションによるフォローアップ研究のための高性能なベースラインを提供する。 最後に,この分野では未解明のオープンな課題の集合を指摘し,今後の研究に向けた新たな方向性を提案する。 また、定期的に更新されたプロジェクトページも提供し、この高速開発分野における最近の開発を継続的に追跡しています。

Human parsing aims to partition humans in image or video into multiple pixel-level semantic parts. In the last decade, it has gained significantly increased interest in the computer vision community and has been utilized in a broad range of practical applications, from security monitoring, to social media, to visual special effects, just to name a few. Although deep learning-based human parsing solutions have made remarkable achievements, many important concepts, existing challenges, and potential research directions are still confusing. In this survey, we comprehensively review three core sub-tasks: single human parsing, multiple human parsing, and video human parsing, by introducing their respective task settings, background concepts, relevant problems and applications, representative literature, and datasets. We also present quantitative performance comparisons of the reviewed methods on benchmark datasets. Additionally, to promote sustainable development of the community, we put forward a transformer-based human parsing framework, providing a high-performance baseline for follow-up research through universal, concise, and extensible solutions. Finally, we point out a set of under-investigated open issues in this field and suggest new directions for future study. We also provide a regularly updated project page, to continuously track recent developments in this fast-advancing field: https://github.com/soeaver/awesome-human-parsing.
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# スマートホームにおけるエネルギー分散とアプライアンス同定:伝達学習によるエッジコンピューティングの実現

Energy Disaggregation & Appliance Identification in a Smart Home: Transfer Learning enables Edge Computing ( http://arxiv.org/abs/2301.03018v2 )

ライセンス: Link先を確認
M. Hashim Shahab, Hasan Mujtaba Buttar, Ahsan Mehmood, Waqas Aman, M. Mahboob Ur Rahman, M. Wasim Nawaz, Haris Pervaiz, Qammer H. Abbasi, (参考訳) 非侵入負荷監視(NILM)またはエネルギー分散は、スマートホームのメインの総負荷プロファイルを考慮し、個々の家電機器の負荷プロファイルを抽出することを目的としている。 本研究は,NILM問題を解くための新しい深層学習およびエッジコンピューティング手法を提案する。 1) 提案するセク2点畳み込みニューラルネットワーク(CNN)モデルに基づいて,提案したセク2点CNNモデルを構築し,(家庭)NILM問題とサイト-NILM問題(基本的には,小型のNILM)を解決する。 2) 2D-CNNモデル(AlexNet, ResNet-18, DenseNet-121)を用いて,ウェーブレットと短時間フーリエ変換(STFT)に基づく2D電気署名を微調整した。 3 最後に, 同一家電の電力消費を複数の家庭で比較することにより, 個々の家電の健康状態に関する基本的な質的推測を行う。 REFITデータセットが使用されているサイトNILMを除いて、低周波のREDDデータセットはすべての問題に使用される。 その結果,ホーム・NILMでは94.6\%,サイト・NILMでは81\%,アプライアンス識別では88.9\%(Resnet-based model)が得られた。

Non-intrusive load monitoring (NILM) or energy disaggregation aims to extract the load profiles of individual consumer electronic appliances, given an aggregate load profile of the mains of a smart home. This work proposes a novel deep-learning and edge computing approach to solve the NILM problem and a few related problems as follows. 1) We build upon the reputed seq2-point convolutional neural network (CNN) model to come up with the proposed seq2-[3]-point CNN model to solve the (home) NILM problem and site-NILM problem (basically, NILM at a smaller scale). 2) We solve the related problem of appliance identification by building upon the state-of-the-art (pre-trained) 2D-CNN models, i.e., AlexNet, ResNet-18, and DenseNet-121, which are fine-tuned two custom datasets that consist of Wavelets and short-time Fourier transform (STFT)-based 2D electrical signatures of the appliances. 3) Finally, we do some basic qualitative inference about an individual appliance's health by comparing the power consumption of the same appliance across multiple homes. Low-frequency REDD dataset is used for all problems, except site-NILM where REFIT dataset has been used. As for the results, we achieve a maximum accuracy of 94.6\% for home-NILM, 81\% for site-NILM, and 88.9\% for appliance identification (with Resnet-based model).
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# Demystifying Vision-Language Navigationのための行動的原子概念学習

Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation ( http://arxiv.org/abs/2302.06072v2 )

ライセンス: Link先を確認
Bingqian Lin, Yi Zhu, Xiaodan Liang, Liang Lin, Jianzhuang Liu, (参考訳) VLN(Vision-Language Navigation)は、エージェントが複雑な視覚的観察を言語命令に合わせることで目標に到達させる、という課題である。 既存のほとんどのVLNエージェントは、ワンホットラベルを用いて訓練された生の方向特徴と視覚的特徴を直接言語指導特徴に合わせるように学習する。 しかし、これらのマルチモーダル入力間の大きな意味的ギャップにより、アライメントが難しくなり、ナビゲーション性能が制限される。 本稿では,行動的原子概念学習(AACL)を提案し,視覚的観察を行動的原子概念にマッピングしてアライメントを容易にする。 具体的には、アクション・アトミックの概念は、アトミック・アクションとオブジェクト、eg , ``go up steps''を含む自然言語句である。 これらの行動原子の概念は、観測と指示の間の橋渡しとして機能し、意味的ギャップを効果的に緩和し、アライメントを単純化することができる。 AACLは3つのコアコンポーネントを含んでいる。 1) VLN環境と最近提案されたContrastive Language- Image Pretraining (CLIP)モデルを通して, 観測結果を行動原子概念表現にマッピングする概念マッピングモジュール。 2)CLIPによる予測対象概念の再ランク付けにより、より命令指向のオブジェクト概念抽出を促進するための概念修正アダプタ。 3)観察表現を正規化するために概念表現を利用する観察共埋め込みモジュール。 我々のAACLは、細粒度(R2R)と高レベル(REVERIEとR2R-Last)のVLNベンチマークで新しい最先端結果を確立します。 さらに、AACLは行動決定における解釈可能性を大幅に改善することを示す。

Vision-Language Navigation (VLN) is a challenging task which requires an agent to align complex visual observations to language instructions to reach the goal position. Most existing VLN agents directly learn to align the raw directional features and visual features trained using one-hot labels to linguistic instruction features. However, the big semantic gap among these multi-modal inputs makes the alignment difficult and therefore limits the navigation performance. In this paper, we propose Actional Atomic-Concept Learning (AACL), which maps visual observations to actional atomic concepts for facilitating the alignment. Specifically, an actional atomic concept is a natural language phrase containing an atomic action and an object, e.g., ``go up stairs''. These actional atomic concepts, which serve as the bridge between observations and instructions, can effectively mitigate the semantic gap and simplify the alignment. AACL contains three core components: 1) a concept mapping module to map the observations to the actional atomic concept representations through the VLN environment and the recently proposed Contrastive Language-Image Pretraining (CLIP) model, 2) a concept refining adapter to encourage more instruction-oriented object concept extraction by re-ranking the predicted object concepts by CLIP, and 3) an observation co-embedding module which utilizes concept representations to regularize the observation representations. Our AACL establishes new state-of-the-art results on both fine-grained (R2R) and high-level (REVERIE and R2R-Last) VLN benchmarks. Moreover, the visualization shows that AACL significantly improves the interpretability in action decision.
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# ウォームスタートと量子コンピューティング:システムマッピング研究

Warm-Starting and Quantum Computing: A Systematic Mapping Study ( http://arxiv.org/abs/2303.06133v2 )

ライセンス: Link先を確認
Felix Truger, Johanna Barzen, Marvin Bechtold, Martin Beisel, Frank Leymann, Alexander Mandl, Vladimir Yussupov, (参考訳) 量子ビットの数が少なかったことと、そのエラー確率のため、ノイズ中間スケール量子(NISQ)コンピュータは、正常に実行可能な量子アルゴリズムのサイズに制約を課す。 最先端の研究は、既知のあるいは安価に生成された近似、ソリューション、またはモデルを利用して、スクラッチから始めるのではなく、タスクにアプローチするための出発点として、これらの制限に対処する様々な技術を導入している。 いわゆるウォームスタート技術は、量子リソース消費を減らすことを目的としており、NISQコンピュータの能力に合ったアルゴリズムの設計を容易にする。 本研究では,量子コンピューティング領域におけるウォームスタート技術に関する科学文献の収集と分析を行う。 特に私達は 一 系統地図研究の確立されたガイドラインを用いて、ウォームスタート技術に関する最先端研究の体系地図を作成すること。 二 当該技法の関連性を識別し、 (iii)これらの特性に基づき、拡張可能な分類方式で文献で特定された技法を分類する。 この結果は,研究分野の知見を提供し,量子ソフトウェア技術者がウォームスタートテクニックを分類し,実際に適用することを支援することを目的としている。 さらに,本研究は,既存の研究の概要を提供し,研究ギャップの特定を容易にするため,温暖化に関するさらなる研究の出発点となる可能性がある。

Due to low numbers of qubits and their error-proneness, Noisy Intermediate-Scale Quantum (NISQ) computers impose constraints on the size of quantum algorithms they can successfully execute. State-of-the-art research introduces various techniques addressing these limitations by utilizing known or inexpensively generated approximations, solutions, or models as a starting point to approach a task instead of starting from scratch. These so-called warm-starting techniques aim to reduce quantum resource consumption, thus facilitating the design of algorithms suiting the capabilities of NISQ computers. In this work, we collect and analyze scientific literature on warm-starting techniques in the quantum computing domain. In particular, we (i) create a systematic map of state-of-the-art research on warm-starting techniques using established guidelines for systematic mapping studies, (ii) identify relevant properties of such techniques, and (iii) based on these properties classify the techniques identified in the literature in an extensible classification scheme. Our results provide insights into the research field and aim to help quantum software engineers to categorize warm-starting techniques and apply them in practice. Moreover, our contributions may serve as a starting point for further research on the warm-starting topic since they provide an overview of existing work and facilitate the identification of research gaps.
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# 結合した1次元量子気体の予熱

Prethermalization in coupled one-dimensional quantum gases ( http://arxiv.org/abs/2303.12490v2 )

ライセンス: Link先を確認
Maciej Łebek, Miłosz Panfil, Robert M. Konik, (参考訳) 密度-密度相互作用により互いに弱結合する1次元ボースガス管における定常状態の発達の問題を考察する。 我々はボルツマン衝突積分法を用いてこの発展を解析する。 衝突積分の先頭の順序が個々の気体中で単一粒子-ホール励起が生成される場合、ガスの状態は最初に非熱的固定点、すなわち予熱プラトーへと進化する。 この順序は、一対の管が、例えば異なる温度または異なる効果的な相互作用パラメータである$\gamma$と等価でないときに支配的である。 我々はこの非熱的予熱台地を特徴付け、この台地の存在を制御できる準保存量と、関連する一般化されたギブスのアンサンブルの両方を構築した。

We consider the problem of the development of steady states in one-dimensional Bose gas tubes that are weakly coupled to one another through a density-density interaction. We analyze this development through a Boltzmann collision integral approach. We argue that when the leading order of the collision integral, where single particle-hole excitations are created in individual gases, is dominant, the state of the gas evolves first to a non-thermal fixed point, i.e. a prethermalization plateau. This order is dominant when a pair of tubes are inequivalent with, say, different temperatures or different effective interaction parameters, $\gamma$. We characterize this non-thermal prethermalization plateau, constructing both the quasi-conserved quantities that control the existence of this plateau as well as the associated generalized Gibbs ensemble.
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# 複数ラベルテキスト分類のためのラベル依存型セット予測ネットワーク

Label Dependencies-aware Set Prediction Networks for Multi-label Text Classification ( http://arxiv.org/abs/2304.07022v2 )

ライセンス: Link先を確認
Du Xinkai, Han Quanjie, Sun Yalin, Lv Chao, Sun Maosong, (参考訳) マルチラベルテキスト分類では、文からすべての関連するラベルを抽出する。 これらのラベルの順序のない性質を考慮し,設定された予測タスクとして問題にアプローチすることを提案する。 ラベル間の相関に対処するために、グラフ畳み込みネットワークを活用し、ラベル間の統計的関係に基づいて隣接行列を構築する。 さらに,Bhattacharyya距離を設定された予測ネットワークの出力分布に適用することにより,リコール能力を向上させる。 提案手法の有効性を2つのマルチラベルデータセットで評価し,実験結果により,従来のベースラインよりも優れていることを示す。

Multi-label text classification involves extracting all relevant labels from a sentence. Given the unordered nature of these labels, we propose approaching the problem as a set prediction task. To address the correlation between labels, we leverage Graph Convolutional Networks and construct an adjacency matrix based on the statistical relations between labels. Additionally, we enhance recall ability by applying the Bhattacharyya distance to the output distributions of the set prediction networks. We evaluate the effectiveness of our approach on two multi-label datasets and demonstrate its superiority over previous baselines through experimental results.
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# なぜ可照性が高いのか?-非現実的騒音に対する検索強化モデルのロバスト性を高める

Why So Gullible? Enhancing the Robustness of Retrieval-Augmented Models against Counterfactual Noise ( http://arxiv.org/abs/2305.01579v2 )

ライセンス: Link先を確認
Giwon Hong, Jeonghwan Kim, Junmo Kang, Sung-Hyon Myaeng, Joyce Jiyoung Whang, (参考訳) ほとんどの既存の検索拡張言語モデル(LM)は、検索されたドキュメントセットの中で、クエリ関連性と非関連性という、単純な二分法を前提としている。 本研究は,「関連文書」でさえ誤認や誤認を招き,検索した文書間に矛盾が生じ,モデル決定がノイズとして負の影響を及ぼすという,より困難なシナリオを考察する。 既存のLMは、微調整と文脈内数ショット学習の両方で矛盾する情報が存在するため、非常に脆弱である。 本稿では,識別器を明示的に微調整したり,GPT-3.5に識別能力の付与を促すことによって,検索した文書間の知識衝突を処理する手法を提案する。 オープンドメインQAにおける実験結果から,これらの手法がモデルロバスト性を大幅に向上させることが示された。 また,2つの異なる学習手法の利点を活かす方法を提案する。 私たちの発見と並行して、この方向の研究をさらに促進するために、マシンが生成し、競合によって引き起こされるデータセットであるMacNoiseを提供しています。

Most existing retrieval-augmented language models (LMs) assume a naive dichotomy within a retrieved document set: query-relevance and irrelevance. Our work investigates a more challenging scenario in which even the "relevant" documents may contain misleading or incorrect information, causing conflict among the retrieved documents and thereby negatively influencing model decisions as noise. We observe that existing LMs are highly brittle to the presence of conflicting information in both the fine-tuning and in-context few-shot learning scenarios. We propose approaches for handling knowledge conflicts among retrieved documents by explicitly fine-tuning a discriminator or prompting GPT-3.5 to elicit its discriminative capability. Our empirical results on open-domain QA show that these approaches significantly enhance model robustness. We also provide our findings on incorporating the fine-tuned discriminator's decision into the in-context learning process, proposing a way to exploit the benefits of two disparate learning schemes. Alongside our findings, we provide MacNoise, a machine-generated, conflict-induced dataset to further encourage research in this direction.
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# 確率的ポリシー勾配による意味コミュニケーションのモデルフリー強化学習

Model-free Reinforcement Learning of Semantic Communication by Stochastic Policy Gradient ( http://arxiv.org/abs/2305.03571v2 )

ライセンス: Link先を確認
Edgar Beck, Carsten Bockelmann, Armin Dekorsy, (参考訳) 無線通信における機械学習ツールの成功に続いて、1949年のWeaverによる意味コミュニケーションのアイデアが注目されている。 シャノンの古典的な設計パラダイムは、正確なバージョンではなくメッセージの意味、すなわち意味論を伝達することを目的としており、情報レートの節約を可能にしている。 本研究では、Stochastic Policy Gradient(SPG)を用いて、強化学習による意味コミュニケーションシステムを設計し、送信機と受信機を分離し、既知の、または異なるチャネルモデルを必要としない。 さらに、受信変数と対象変数の相互情報の最大化から、古典的および意味的コミュニケーションにおけるSPGの利用を導出する。 数値計算の結果,コンバージェンス率の低下にもかかわらず,再パラメータ化手法に基づくモデル認識手法に匹敵する性能が得られた。

Following the recent success of Machine Learning tools in wireless communications, the idea of semantic communication by Weaver from 1949 has gained attention. It breaks with Shannon's classic design paradigm by aiming to transmit the meaning, i.e., semantics, of a message instead of its exact version, allowing for information rate savings. In this work, we apply the Stochastic Policy Gradient (SPG) to design a semantic communication system by reinforcement learning, separating transmitter and receiver, and not requiring a known or differentiable channel model -- a crucial step towards deployment in practice. Further, we derive the use of SPG for both classic and semantic communication from the maximization of the mutual information between received and target variables. Numerical results show that our approach achieves comparable performance to a model-aware approach based on the reparametrization trick, albeit with a decreased convergence rate.
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# AdaptiveClick: 対話型画像セグメンテーションのためのAdaptive Focal Loss付きクリック対応変換器

AdaptiveClick: Clicks-aware Transformer with Adaptive Focal Loss for Interactive Image Segmentation ( http://arxiv.org/abs/2305.04276v2 )

ライセンス: Link先を確認
Jiacheng Lin, Jiajun Chen, Kailun Yang, Alina Roitberg, Siyu Li, Zhiyong Li, Shutao Li, (参考訳) アノテーション時間を短縮するための有望な手法として,IIS(Interactive Image Segmentation)が登場している。 IISの事前および後処理における実質的な進歩は確認されていないが、相互作用のあいまいさ、特にセグメンテーションの品質を阻害する重要な問題は研究されていない。 これに対処するため、AdaptiveClickというクリック対応のトランスフォーマーを導入しました。このトランスフォーマーは、アノテーションの不整合に対処するアダプティブフォーカスロスを、マスクやピクセルレベルの曖昧性解決のためのツールと組み合わせています。 我々の知る限りでは、AdaptiveClickはIISのためのトランスフォーマーベースのマスク適応セグメンテーションフレームワークである。 Click-Aware Mask-Adaptive Transformer Decoder (CAMD) はクリックと画像の特徴の相互作用を強化する。 さらに、AdaptiveClickは、決定空間における困難で簡単なサンプルのピクセル適応的な微分を可能にする。 これは、AFL(Adaptive Focal Loss)を理論的な保証で最適化することで主に達成され、2つの適応係数がハードピクセルと易画素の勾配値の比を制御している。 分析の結果, 一般的に使用されているFocalとBCEの損失は, 提案したAFLの特別な場合と考えられることが明らかとなった。 通常のViTバックボーンでは、9つのデータセットに対する広範な実験結果から、AdaptiveClickが最先端の手法よりも優れていることが示される。 ソースコードはhttps://github.com/lab206/AdaptiveClick.comで公開されている。

Interactive Image Segmentation (IIS) has emerged as a promising technique for decreasing annotation time. Substantial progress has been made in pre- and post-processing for IIS, but the critical issue of interaction ambiguity, notably hindering segmentation quality, has been under-researched. To address this, we introduce AdaptiveClick -- a click-aware transformer incorporating an adaptive focal loss that tackles annotation inconsistencies with tools for mask- and pixel-level ambiguity resolution. To the best of our knowledge, AdaptiveClick is the first transformer-based, mask-adaptive segmentation framework for IIS. The key ingredient of our method is the Click-Aware Mask-adaptive transformer Decoder (CAMD), which enhances the interaction between click and image features. Additionally, AdaptiveClick enables pixel-adaptive differentiation of hard and easy samples in the decision space, independent of their varying distributions. This is primarily achieved by optimizing a generalized Adaptive Focal Loss (AFL) with a theoretical guarantee, where two adaptive coefficients control the ratio of gradient values for hard and easy pixels. Our analysis reveals that the commonly used Focal and BCE losses can be considered special cases of the proposed AFL. With a plain ViT backbone, extensive experimental results on nine datasets demonstrate the superiority of AdaptiveClick compared to state-of-the-art methods. The source code is publicly available at https://github.com/lab206/AdaptiveClick.
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# 1/2-BPS状態の一般支配順序付け

A generalized dominance ordering for 1/2-BPS states ( http://arxiv.org/abs/2305.06768v2 )

ライセンス: Link先を確認
Garreth Kemp, (参考訳) 対称群 $S_{n}$ の既約表現に対する一般化された支配順序は、ある有限数のカシミール作用素が知られているとき、$U(N)$ 超ヤン・ミルズ理論の1/2-BPSセクターの対応する状態の区別を目的として議論する。 カシミール作用素の制限された集合に関する知識は、このセクターにおける情報損失のメカニズムとAdS$_{5}\times S^{5}$における双対重力理論として提案された。 このセクターの状態が、$n$ボックスを持つヤング図式によってラベル付けられていることはよく知られている。 ヤング図形のよく知られた支配順序付けの一般化を提案する。 この一般化を用いて、1/2-BPS状態と重力理論におけるそれらの双対を区別するために必要なカシミール作用素の数に対する上限を決定するための予想を仮定する。 我々はこの予想の数値的および解析的な証拠を提供する。 最後に、状態のエネルギー$n$が漸近的に大きいときに、この予想がもたらす意味について議論する。

We discuss a generalized dominance ordering for irreducible representations of the symmetric group $S_{n}$ with the aim of distinguishing the corresponding states in the 1/2-BPS sector of $U(N)$ Super Yang-Mills theory when a certain finite number of Casimir operators are known. Having knowledge of a restricted set of Casimir operators was proposed as a mechanism for information loss in this sector and its dual gravity theory in AdS$_{5}\times S^{5}$. It is well-known that the states in this sector are labeled by Young diagrams with $n$ boxes. We propose a generalization of the well-known dominance ordering of Young diagrams. Using this generalization, we posit a conjecture to determine an upper bound for the number of Casimir operators needed to distinguish between the 1/2-BPS states and thus also between their duals in the gravity theory. We offer numerical and analytic evidence for the conjecture. Lastly, we discuss implications of this conjecture when the energy $n$ of the states is asymptotically large.
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# トリビュートAIコンペティションの物語の紹介

Introducing Tales of Tribute AI Competition ( http://arxiv.org/abs/2305.08234v3 )

ライセンス: Link先を確認
Jakub Kowalski, Radosław Miernik, Katarzyna Polak, Dominik Budzki, Damian Kowalik, (参考訳) 本稿では,The Elder Scrolls OnlineのHigh Isle章でリリースされた2人のプレイヤーによるデッキビルディングカードゲームに基づいて,新たなAIチャレンジであるTOTAIC(T Tales of Tribute AI Competition)を提案する。 現在、CCG(Collectible Card Games)のジャンルをカバーしているAIコンペティションは他になく、デッキビルディングゲームをターゲットにしたコンペティションは一度もない。 したがって、ランダム性や隠れ情報、大きな分岐要因など、通常のCCG関連の障害を克服するためには、長期的な計画と汎用性も必要である。 このゲームは、古典的な敵探索、シングルプレイヤー計画、ニューラルネットワークベースのアルゴリズムなど、複数のアプローチで対処することができる。 本稿では,競争の枠組みを紹介し,ゲームのルールを説明し,サンプルAIエージェント間のトーナメントの結果を示す。

This paper presents a new AI challenge, the Tales of Tribute AI Competition (TOTAIC), based on a two-player deck-building card game released with the High Isle chapter of The Elder Scrolls Online. Currently, there is no other AI competition covering Collectible Card Games (CCG) genre, and there has never been one that targets a deck-building game. Thus, apart from usual CCG-related obstacles to overcome, like randomness, hidden information, and large branching factor, the successful approach additionally requires long-term planning and versatility. The game can be tackled with multiple approaches, including classic adversarial search, single-player planning, and Neural Networks-based algorithms. This paper introduces the competition framework, describes the rules of the game, and presents the results of a tournament between sample AI agents.
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# ZeroFlow: 蒸留によるスケーラブルなシーンフロー

ZeroFlow: Scalable Scene Flow via Distillation ( http://arxiv.org/abs/2305.10424v8 )

ライセンス: Link先を確認
Kyle Vedder, Neehar Peri, Nathaniel Chodosh, Ishan Khatri, Eric Eaton, Dinesh Jayaraman, Yang Liu, Deva Ramanan, James Hays, (参考訳) シーンフロー推定は、時間的に連続する点雲間の3次元運動場を記述するタスクである。 State-of-the-artメソッドは強力な事前処理とテストタイム最適化技術を使用するが、フルサイズのポイントクラウドを処理するには数秒の順序を必要とするため、オープンワールドオブジェクト検出などのリアルタイムアプリケーションではコンピュータビジョンプリミティブとして使用できない。 フィードフォワード法はかなり高速で、フルサイズの点雲では数十から数百ミリ秒の順序で実行されるが、高価な人間の監督を必要とする。 両制約に対処するために,ラベルなし最適化手法を用いてフィードフォワードモデルを監督するために擬似ラベルを生成する,シンプルでスケーラブルな蒸留フレームワークであるDistillationによるScene Flowを提案する。 このフレームワークのインスタンス化であるZeroFlowは、大規模で多様なラベル付きデータをトレーニングすることで、ゼロのラベルを使用しながら、Argoverse 2 Self-Supervised Scene Flow Challengeにおける最先端のパフォーマンスを実現します。 テスト時には、ZeroFlowは、フルサイズのポイントクラウド(34 FPS vs 0.028 FPS)上で、ラベルなしの最先端の最適化ベースのメソッドよりも1000倍高速で、人間のアノテーションのコスト(394対~750,000ドル)に比べて、ラベル付きデータのトレーニングに1000倍以上のコストがかかる。 さらなる研究を容易にするため、私たちはコード、トレーニングされたモデルウェイト、Argoverse 2とWaymo Openデータセットの高品質な擬似ラベルをhttps://vedder.io/zeroflow.comでリリースしています。

Scene flow estimation is the task of describing the 3D motion field between temporally successive point clouds. State-of-the-art methods use strong priors and test-time optimization techniques, but require on the order of tens of seconds to process full-size point clouds, making them unusable as computer vision primitives for real-time applications such as open world object detection. Feedforward methods are considerably faster, running on the order of tens to hundreds of milliseconds for full-size point clouds, but require expensive human supervision. To address both limitations, we propose Scene Flow via Distillation, a simple, scalable distillation framework that uses a label-free optimization method to produce pseudo-labels to supervise a feedforward model. Our instantiation of this framework, ZeroFlow, achieves state-of-the-art performance on the Argoverse 2 Self-Supervised Scene Flow Challenge while using zero human labels by simply training on large-scale, diverse unlabeled data. At test-time, ZeroFlow is over 1000x faster than label-free state-of-the-art optimization-based methods on full-size point clouds (34 FPS vs 0.028 FPS) and over 1000x cheaper to train on unlabeled data compared to the cost of human annotation (\$394 vs ~\$750,000). To facilitate further research, we release our code, trained model weights, and high quality pseudo-labels for the Argoverse 2 and Waymo Open datasets at https://vedder.io/zeroflow.html
翻訳日:2024-03-16 03:12:58 公開日:2024-03-14
# 実行フィードバックによる言語モデルの改善

Making Language Models Better Tool Learners with Execution Feedback ( http://arxiv.org/abs/2305.13068v3 )

ライセンス: Link先を確認
Shuofei Qiao, Honghao Gui, Chengfei Lv, Qianghuai Jia, Huajun Chen, Ningyu Zhang, (参考訳) ツールは、人間が環境を理解し、形を変えることができる重要なインターフェースとして機能する。 基礎モデルの出現により、AIシステムは、その能力を拡張し、現実世界と対話するツールを利用することができる。 既存のツール学習手法は、教師付き微調整と迅速なエンジニアリングアプローチを含んでおり、複雑なタスクが自身の能力を超える場合が多いため、しばしば大きな言語モデルにツールを無差別に活用させる。 しかし、モデル自体が容易に解決できる単純なタスクのためのツールを導入することは、パフォーマンスを向上させるのではなく、不注意にエラーを伝播させる可能性がある。 言語モデルにいつ、どのようにツールを使うかを教えることができるか? このニーズを満たすために,ツールleaRning wIth exeCution fEedback (TRICE) という2段階のエンドツーエンドフレームワークを提案する。 さらなる分析によって得られた実験結果から, TRICEはツールの精度を向上し, ツール学習の不十分さを軽減し, ツールへの過剰依存を軽減することで, 大規模言語モデルをツールを選択的に活用できることが示唆された。 コードはhttps://github.com/zjunlp/TRICEで入手できる。

Tools serve as pivotal interfaces that enable humans to understand and reshape the environment. With the advent of foundation models, AI systems can utilize tools to expand their capabilities and interact with the real world. Existing tool learning methodologies, encompassing supervised fine-tuning and prompt engineering approaches, often induce large language models to utilize tools indiscriminately, as complex tasks often exceed their own competencies. However, introducing tools for simple tasks, which the models themselves can readily resolve, can inadvertently propagate errors rather than enhance performance. This leads to the research question: can we teach language models when and how to use tools? To meet this need, we propose Tool leaRning wIth exeCution fEedback (TRICE), a two-stage end-to-end framework that enables the model to continually learn through feedback derived from tool execution, thereby learning when and how to use tools effectively. Experimental results, backed by further analysis, show that TRICE can make the large language model selectively use tools by improving the accuracy of tool usage while enhancing insufficient tool learning and mitigating excessive reliance on tools. Code is available at https://github.com/zjunlp/TRICE.
翻訳日:2024-03-16 03:02:59 公開日:2024-03-14
# 大規模言語モデルのための自己教師型論理強化学習の探索

Exploring Self-supervised Logic-enhanced Training for Large Language Models ( http://arxiv.org/abs/2305.13718v5 )

ライセンス: Link先を確認
Fangkai Jiao, Zhiyang Teng, Bosheng Ding, Zhengyuan Liu, Nancy F. Chen, Shafiq Joty, (参考訳) 言語モデルの論理的推論能力を改善する努力は、主に教師付き微調整に依存し、新しいドメインやタスクへの一般化を妨げる。 LLM(Large Langauge Models)の開発は、豊富な知識を単一のプロキシに圧縮する能力を示し、複数のタスクに効果的に対処できるようにする。 予備実験では, LLMは論理的推論の能力を示していない。 論理的推論ベンチマークにおけるLLMのパフォーマンスは、既存の最先端のベースラインよりもはるかに遅れている。 本稿では,自己教師付きポストトレーニングを通じて論理知識を組み込むことの実現可能性について検討し,論理LLM(LogicLLM)と呼ぶコンテキスト内学習を通じてそれを活性化する試みを行う。 具体的には、自動回帰客観的なMERItを考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。 さらに、論理指向のプロキシタスクを設計する上で重要な要素を分析するために、広範囲にわたるアブレーション研究を行っている。

Existing efforts to improve logical reasoning ability of language models have predominantly relied on supervised fine-tuning, hindering generalization to new domains and/or tasks. The development of Large Langauge Models (LLMs) has demonstrated the capacity of compressing abundant knowledge into a single proxy, enabling them to tackle multiple tasks effectively. Our preliminary experiments, nevertheless, show that LLMs do not show capability on logical reasoning. The performance of LLMs on logical reasoning benchmarks is far behind the existing state-of-the-art baselines. In this paper, we make the first attempt to investigate the feasibility of incorporating logical knowledge through self-supervised post-training, and activating it via in-context learning, which we termed as LogicLLM. Specifically, we devise an auto-regressive objective variant of MERIt and integrate it with two LLM series, i.e., FLAN-T5 and LLaMA, with parameter size ranging from 3 billion to 13 billion. The results on two challenging logical reasoning benchmarks demonstrate the effectiveness of LogicLLM. Besides, we conduct extensive ablation studies to analyze the key factors in designing logic-oriented proxy tasks.
翻訳日:2024-03-16 03:02:59 公開日:2024-03-14
# 凸結合によるロバスト性検証のための表現的損失

Expressive Losses for Verified Robustness via Convex Combinations ( http://arxiv.org/abs/2305.13991v2 )

ライセンス: Link先を確認
Alessandro De Palma, Rudy Bunel, Krishnamurthy Dvijotham, M. Pawan Kumar, Robert Stanforth, Alessio Lomuscio, (参考訳) 検証された対向ロバスト性のためにネットワークをトレーニングするためには、摂動領域に対する最悪の損失を過度に近似することが一般的であり、その結果、標準的な性能を犠牲にして検証可能なネットワークが得られる。 最近の研究で示されているように、敵のトレーニングと過剰近似を慎重に結合することで、精度と堅牢性の間のトレードオフをより良く得ることができる。 損失関数の表現性は,下界と上界のトレードオフの範囲を1つのパラメータ(オーバー近似係数)を通して最悪の場合の損失に拡大する能力として形式化され,最先端の性能を達成するための鍵となる。 本仮説を裏付けるために,敵攻撃とIPP境界の凸結合により得られた自明な表現的損失は,その概念的単純さにもかかわらず,様々な状況において最先端の結果をもたらすことを示す。 本稿では, 過近似係数と異なる表現的損失に対する性能プロファイルの関係を詳細に解析し, 表現性は不可欠であるが, 最悪の場合の損失のより優れた近似は, 必ずしも優れた強靭性-精度トレードオフに関係しないことを示した。

In order to train networks for verified adversarial robustness, it is common to over-approximate the worst-case loss over perturbation regions, resulting in networks that attain verifiability at the expense of standard performance. As shown in recent work, better trade-offs between accuracy and robustness can be obtained by carefully coupling adversarial training with over-approximations. We hypothesize that the expressivity of a loss function, which we formalize as the ability to span a range of trade-offs between lower and upper bounds to the worst-case loss through a single parameter (the over-approximation coefficient), is key to attaining state-of-the-art performance. To support our hypothesis, we show that trivial expressive losses, obtained via convex combinations between adversarial attacks and IBP bounds, yield state-of-the-art results across a variety of settings in spite of their conceptual simplicity. We provide a detailed analysis of the relationship between the over-approximation coefficient and performance profiles across different expressive losses, showing that, while expressivity is essential, better approximations of the worst-case loss are not necessarily linked to superior robustness-accuracy trade-offs.
翻訳日:2024-03-16 03:02:59 公開日:2024-03-14
# 翻訳指導による多言語ファインタニングによる大言語モデルの翻訳能力の軽減

Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions ( http://arxiv.org/abs/2305.15083v3 )

ライセンス: Link先を確認
Jiahuan Li, Hao Zhou, Shujian Huang, Shanbo Cheng, Jiajun Chen, (参考訳) ChatGPTやGPT4のような大規模事前学習言語モデル(LLM)は、並列コーパスで明示的に訓練されることなく、多言語翻訳において強力な能力を示している。 LLMが様々な言語に対して翻訳命令を実行する能力を得る様子は興味深い。 本稿では,多言語事前学習型言語モデルであるXGLM-7Bを微調整して,与えられた指示に従って多言語翻訳を行う方法を提案する。 まず,多言語LLMは従来よりも翻訳能力が高いことを示す。 特定の言語の場合、パフォーマンスは英語と類似度と事前学習フェーズで使用されるデータの量に依存する。 第二に、LLMが翻訳命令を実行する能力は、翻訳命令の理解と異なる言語間のアライメントに依存している。 多言語ファインタニングにより、LLMは、命令チューニングフェーズ中に見つからない言語ペアであっても、翻訳タスクをうまく実行することができる。

Large-scale Pretrained Language Models (LLMs), such as ChatGPT and GPT4, have shown strong abilities in multilingual translations, without being explicitly trained on parallel corpora. It is interesting how the LLMs obtain their ability to carry out translation instructions for different languages. In this paper, we present a detailed analysis by finetuning a multilingual pretrained language model, XGLM-7B, to perform multilingual translation following given instructions. Firstly, we show that multilingual LLMs have stronger translation abilities than previously demonstrated. For a certain language, the performance depends on its similarity to English and the amount of data used in the pretraining phase. Secondly, we find that LLMs' ability to carry out translation instructions relies on the understanding of translation instructions and the alignment among different languages. With multilingual finetuning, LLMs could learn to perform the translation task well even for those language pairs unseen during the instruction tuning phase.
翻訳日:2024-03-16 03:02:59 公開日:2024-03-14
# 時間ステップシフトサンプリングによる拡散モデルにおける露光バイアスの緩和

Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps ( http://arxiv.org/abs/2305.15583v6 )

ライセンス: Link先を確認
Mingxiao Li, Tingyu Qu, Ruicong Yao, Wei Sun, Marie-Francine Moens, (参考訳) 拡散確率モデル (DPM) は高品質な画像の合成において顕著な有効性を示した。 しかし、それらの推論プロセスには、訓練と推論の相違による露光バイアスの問題を誇張する反復的なステップが数百個必要である。 これまでの作業では、トレーニング中に入力を摂動させることでこの問題を緩和しようと試みており、結果としてDPMの再訓練が義務付けられている。 本研究では, DPMにおける露出バイアスの系統的研究を行い, 興味深いことに, モデルを再学習することなく, 提案する新しいサンプリング手法により, 露光バイアスを緩和できることを見出した。 我々は、推論において、各後方時間ステップ $t$ と対応する状態 $\hat{x}_t$ に対して、$\hat{x}_t$ との優れた結合を示す別の時間ステップ $t_s$ が存在することを実証的に理論的に示す。 そこで本研究では,Time-Shift Smplerというサンプリング手法を提案する。 我々のフレームワークはDDPMやDDIMなどの既存のサンプリングアルゴリズムとシームレスに統合でき、最小限の追加計算を誘導できる。 実験結果から,本手法は異なるデータセットおよびサンプリング手法におけるFIDスコアを大幅に改善し,一貫した改善をもたらすことが示された。 例えば、時間シフトサンプリングをF-PNDMに統合するとFID=3.88となり、F-PNDMと比較して44.49\%改善され、CIFAR-10では10個のサンプリングステップで、100個のサンプリングステップでバニラDDIMよりもパフォーマンスが高い。 私たちのコードはhttps://github.com/Mingxiao-Li/TS-DPMで公開しています。

Diffusion Probabilistic Models (DPM) have shown remarkable efficacy in the synthesis of high-quality images. However, their inference process characteristically requires numerous, potentially hundreds, of iterative steps, which could exaggerate the problem of exposure bias due to the training and inference discrepancy. Previous work has attempted to mitigate this issue by perturbing inputs during training, which consequently mandates the retraining of the DPM. In this work, we conduct a systematic study of exposure bias in DPM and, intriguingly, we find that the exposure bias could be alleviated with a novel sampling method that we propose, without retraining the model. We empirically and theoretically show that, during inference, for each backward time step $t$ and corresponding state $\hat{x}_t$, there might exist another time step $t_s$ which exhibits superior coupling with $\hat{x}_t$. Based on this finding, we introduce a sampling method named Time-Shift Sampler. Our framework can be seamlessly integrated to existing sampling algorithms, such as DDPM, DDIM and other high-order solvers, inducing merely minimal additional computations. Experimental results show our method brings significant and consistent improvements in FID scores on different datasets and sampling methods. For example, integrating Time-Shift Sampler to F-PNDM yields a FID=3.88, achieving 44.49\% improvements as compared to F-PNDM, on CIFAR-10 with 10 sampling steps, which is more performant than the vanilla DDIM with 100 sampling steps. Our code is available at https://github.com/Mingxiao-Li/TS-DPM.
翻訳日:2024-03-16 03:02:59 公開日:2024-03-14
# 直交微細化によるテキスト・画像拡散の制御

Controlling Text-to-Image Diffusion by Orthogonal Finetuning ( http://arxiv.org/abs/2306.07280v3 )

ライセンス: Link先を確認
Zeju Qiu, Weiyang Liu, Haiwen Feng, Yuxuan Xue, Yao Feng, Zhen Liu, Dan Zhang, Adrian Weller, Bernhard Schölkopf, (参考訳) 大きなテキストから画像への拡散モデルでは、テキストプロンプトからフォトリアリスティックな画像を生成することができる。 異なる下流タスクを実行するためにこれらの強力なモデルを効果的にガイドし、制御する方法は、重要なオープンな問題である。 この課題に対処するため,本研究では,テキストから画像への拡散モデルを下流タスクに適用するための,原理的な微調整手法であるorthogonal Finetuning (OFT)を導入する。 既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。 テキストから画像への拡散モデルのセマンティック生成能力を維持するためには,この特性が不可欠であることがわかった。 微調整安定性を向上させるため,超球面に新たな半径制限を課す制約付き直交微調整(COFT)を提案する。 具体的には、対象の少数の画像とテキストプロンプトが与えられた被験者固有の画像を生成することを目的とする主観駆動生成と、モデルが追加の制御信号を入力できるようにすることを目標とする制御可能生成という2つの重要な微調整テキスト・ツー・イメージタスクについて考察する。 我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。

Large text-to-image diffusion models have impressive capabilities in generating photorealistic images from text prompts. How to effectively guide or control these powerful models to perform different downstream tasks becomes an important open problem. To tackle this challenge, we introduce a principled finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image diffusion models to downstream tasks. Unlike existing methods, OFT can provably preserve hyperspherical energy which characterizes the pairwise neuron relationship on the unit hypersphere. We find that this property is crucial for preserving the semantic generation ability of text-to-image diffusion models. To improve finetuning stability, we further propose Constrained Orthogonal Finetuning (COFT) which imposes an additional radius constraint to the hypersphere. Specifically, we consider two important finetuning text-to-image tasks: subject-driven generation where the goal is to generate subject-specific images given a few images of a subject and a text prompt, and controllable generation where the goal is to enable the model to take in additional control signals. We empirically show that our OFT framework outperforms existing methods in generation quality and convergence speed.
翻訳日:2024-03-16 03:02:59 公開日:2024-03-14
# 順序最適回帰境界を用いたカーネル化強化学習

Kernelized Reinforcement Learning with Order Optimal Regret Bounds ( http://arxiv.org/abs/2306.07745v3 )

ライセンス: Link先を確認
Sattar Vakili, Julia Olkhovskaya, (参考訳) 強化学習 (Reinforcement Learning, RL) は、複雑なモデルと大きな状態行動空間を持つ様々な実世界の環境において経験的な成功を示している。 しかし、既存の分析結果は通常、少数の状態アクションや線形モデル化された状態アクション値関数のような単純なモデルによる設定に焦点を当てる。 より一般的な値関数を持つ大きな状態-作用空間を効率的に処理するRLポリシーを導出するために、最近の研究では、カーネルリッジ回帰を用いた非線形関数近似が検討されている。 状態-作用値関数が再生カーネルヒルベルト空間(RKHS)で表されるとき、最小二乗値反復の楽観的な修正である$\pi$-KRVIを提案する。 我々は、一般的な設定の下で、最初の順序最適後悔保証を証明します。 以上の結果より, エピソード数の改善に有意な多項式が認められた。 特に、非常に非滑らかなカーネル(Neural Tangent kernel や Mat\'ern kernel など)では、既存の結果は自明な(エピソード数で超直線的な)後悔境界に繋がる。 マトエルン核の場合、後悔の低い境界が知られている場合、順序が最適である部分線型後悔境界を示す。

Reinforcement learning (RL) has shown empirical success in various real world settings with complex models and large state-action spaces. The existing analytical results, however, typically focus on settings with a small number of state-actions or simple models such as linearly modeled state-action value functions. To derive RL policies that efficiently handle large state-action spaces with more general value functions, some recent works have considered nonlinear function approximation using kernel ridge regression. We propose $\pi$-KRVI, an optimistic modification of least-squares value iteration, when the state-action value function is represented by a reproducing kernel Hilbert space (RKHS). We prove the first order-optimal regret guarantees under a general setting. Our results show a significant polynomial in the number of episodes improvement over the state of the art. In particular, with highly non-smooth kernels (such as Neural Tangent kernel or some Mat\'ern kernels) the existing results lead to trivial (superlinear in the number of episodes) regret bounds. We show a sublinear regret bound that is order optimal in the case of Mat\'ern kernels where a lower bound on regret is known.
翻訳日:2024-03-16 03:02:59 公開日:2024-03-14
# スピンロックされた超伝導量子ビットを持つロバストゲート

Robust gates with spin-locked superconducting qubits ( http://arxiv.org/abs/2306.09149v3 )

ライセンス: Link先を確認
Ido Zuk, Daniel Cohen, Alexey V. Gorshkov, Alex Retzker, (参考訳) 動的デカップリングは、ほとんどの量子計算プラットフォームにおけるゲートエラーの低減に有効であり、将来のフォールトトレラント構造において重要な役割を果たすと予測されている。 しかし、超伝導回路では、動的疎結合の利点を利用するのは難しいことが証明されている。 本研究では,スピンロックと呼ばれる動的疎結合の連続的なバージョンと,トランスモンのためのカプラ型CZゲートを組み込んだ理論的提案を行い,その有効性を示す解析的および数値的結果を提供する。

Dynamical decoupling is effective in reducing gate errors in most quantum computation platforms and is therefore projected to play an essential role in future fault-tolerant constructions. In superconducting circuits, however, it has proven difficult to utilize the benefits of dynamical decoupling. In this work, we present a theoretical proposal that incorporates a continuous version of dynamical decoupling, namely spin locking, with a coupler-based CZ gate for transmons and provide analytical and numerical results that demonstrate its effectiveness.
翻訳日:2024-03-16 03:02:59 公開日:2024-03-14
# CorNav:Zero-Shot Vision-and-Language Navigationのための自己修正型計画自動エージェント

CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation ( http://arxiv.org/abs/2306.10322v3 )

ライセンス: Link先を確認
Xiwen Liang, Liang Ma, Shanshan Guo, Jianhua Han, Hang Xu, Shikui Ma, Xiaodan Liang, (参考訳) 複雑な現実世界の環境をナビゲートしながら自然言語の指示を理解し、追跡することは、汎用ロボットにとって重要な課題である。 これらの環境は、しばしば障害物や歩行者を含むため、自律的なエージェントが周囲からのフィードバックに基づいて行動を調整するための自己修正計画能力を持つことが不可欠である。 しかしながら、既存のヴィジュアル・アンド・ランゲージナビゲーション(VLN)手法の大部分は、現実的でないシミュレータ環境で運用されており、環境フィードバックを意思決定プロセスに組み込んでいない。 このギャップに対処するため、私たちはCorNavという新しいゼロショットフレームワークを導入しました。 1【今後の計画の整備・調整のための環境フィードバックの活用】 2) 複数のドメインエキスパートによる説明のパース、シーン理解、予測されたアクションの精査。 このフレームワークに加えて、Unreal Engine 5を使って現実的なシナリオをレンダリングする3Dシミュレータを開発した。 ゼロショットマルチタスク設定におけるナビゲーションエージェントの有効性と一般化を評価するため,NavBenchというベンチマークを作成する。 大規模な実験では、CorNavはすべてのタスクにおいて、すべてのベースラインをはるかに上回っている。 CorNav の平均成功率は 28.1 % であり、最高のベースラインのパフォーマンスは 20.5 % を超えている。

Understanding and following natural language instructions while navigating through complex, real-world environments poses a significant challenge for general-purpose robots. These environments often include obstacles and pedestrians, making it essential for autonomous agents to possess the capability of self-corrected planning to adjust their actions based on feedback from the surroundings. However, the majority of existing vision-and-language navigation (VLN) methods primarily operate in less realistic simulator settings and do not incorporate environmental feedback into their decision-making processes. To address this gap, we introduce a novel zero-shot framework called CorNav, utilizing a large language model for decision-making and comprising two key components: 1) incorporating environmental feedback for refining future plans and adjusting its actions, and 2) multiple domain experts for parsing instructions, scene understanding, and refining predicted actions. In addition to the framework, we develop a 3D simulator that renders realistic scenarios using Unreal Engine 5. To evaluate the effectiveness and generalization of navigation agents in a zero-shot multi-task setting, we create a benchmark called NavBench. Extensive experiments demonstrate that CorNav consistently outperforms all baselines by a significant margin across all tasks. On average, CorNav achieves a success rate of 28.1\%, surpassing the best baseline's performance of 20.5\%.
翻訳日:2024-03-16 03:02:59 公開日:2024-03-14
# RepViT:モバイルCNNをViTの視点から再考

RepViT: Revisiting Mobile CNN From ViT Perspective ( http://arxiv.org/abs/2307.09283v8 )

ライセンス: Link先を確認
Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding, (参考訳) 近年、軽量ビジョントランスフォーマー(ViTs)は、リソース制約のあるモバイルデバイス上での軽量畳み込みニューラルネットワーク(CNNs)と比較して、パフォーマンスとレイテンシの低下を実証している。 研究者は、軽量ViTと軽量CNNの間の多くの構造的接続を発見した。 しかし, ブロック構造, マクロ, マイクロデザインの顕著な違いについては, 十分に検討されていない。 本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。 具体的には、軽量なVTの効率的なアーキテクチャ設計を統合することにより、標準軽量CNNであるMobileNetV3のモバイルフレンドリ性を漸進的に強化する。 最終的に、純粋な軽量CNN、すなわちRepViTの新しいファミリーが誕生する。 大規模な実験によると、RepViTは既存の最先端の軽量ViTよりも優れており、様々なビジョンタスクにおいて好ましいレイテンシを示している。 ImageNetによると、RepViTは、iPhone 12の1.0ミリ秒のレイテンシで80%以上のトップ1の精度を達成しています。 さらに、RepViTがSAMと出会うと、我々のRepViT-SAMは、高度なMobileSAMよりも10$\times$高速な推論を達成できます。 コードとモデルは \url{https://github.com/THU-MIG/RepViT} で公開されている。

Recently, lightweight Vision Transformers (ViTs) demonstrate superior performance and lower latency, compared with lightweight Convolutional Neural Networks (CNNs), on resource-constrained mobile devices. Researchers have discovered many structural connections between lightweight ViTs and lightweight CNNs. However, the notable architectural disparities in the block structure, macro, and micro designs between them have not been adequately examined. In this study, we revisit the efficient design of lightweight CNNs from ViT perspective and emphasize their promising prospect for mobile devices. Specifically, we incrementally enhance the mobile-friendliness of a standard lightweight CNN, \ie, MobileNetV3, by integrating the efficient architectural designs of lightweight ViTs. This ends up with a new family of pure lightweight CNNs, namely RepViT. Extensive experiments show that RepViT outperforms existing state-of-the-art lightweight ViTs and exhibits favorable latency in various vision tasks. Notably, on ImageNet, RepViT achieves over 80\% top-1 accuracy with 1.0 ms latency on an iPhone 12, which is the first time for a lightweight model, to the best of our knowledge. Besides, when RepViT meets SAM, our RepViT-SAM can achieve nearly 10$\times$ faster inference than the advanced MobileSAM. Codes and models are available at \url{https://github.com/THU-MIG/RepViT}.
翻訳日:2024-03-16 03:02:59 公開日:2024-03-14
# 時間均質確率力学系の不変表現の学習

Learning invariant representations of time-homogeneous stochastic dynamical systems ( http://arxiv.org/abs/2307.09912v3 )

ライセンス: Link先を確認
Vladimir R. Kostic, Pietro Novelli, Riccardo Grazzi, Karim Lounici, Massimiliano Pontil, (参考訳) 離散的かつ連続的な時間均質確率力学系の一般的なクラスを考察し、その力学を忠実に捉えた状態の表現を学習する問題を考察する。 これは、転送演算子やシステムのジェネレータを学ぶのに役立ち、システムダイナミクスの予測や解釈など、多くのタスクに使用できる。 ニューラルネットワークに対する最適化問題として,優れた表現の探索が可能であることを示す。 本手法は, 統計学習理論の最近の成果に支えられ, 学習問題における近似誤差と計量歪みの役割を強調している。 目的関数は、表現空間からデータ空間への射影演算子に関連付けられ、計量歪みを克服し、データから経験的に推定できる。 離散時間設定では、微分可能かつ数値的によく条件付けられた緩和対象関数をさらに導出する。 提案手法を,さまざまなデータセットに対する最先端アプローチと比較した結果,ボード全体のパフォーマンスが向上した。

We consider the general class of time-homogeneous stochastic dynamical systems, both discrete and continuous, and study the problem of learning a representation of the state that faithfully captures its dynamics. This is instrumental to learning the transfer operator or the generator of the system, which in turn can be used for numerous tasks, such as forecasting and interpreting the system dynamics. We show that the search for a good representation can be cast as an optimization problem over neural networks. Our approach is supported by recent results in statistical learning theory, highlighting the role of approximation error and metric distortion in the learning problem. The objective function we propose is associated with projection operators from the representation space to the data space, overcomes metric distortion, and can be empirically estimated from data. In the discrete-time setting, we further derive a relaxed objective function that is differentiable and numerically well-conditioned. We compare our method against state-of-the-art approaches on different datasets, showing better performance across the board.
翻訳日:2024-03-16 03:02:59 公開日:2024-03-14
# 連続監視量子系の逐次仮説検証

Sequential hypothesis testing for continuously-monitored quantum systems ( http://arxiv.org/abs/2307.14954v3 )

ライセンス: Link先を確認
Giulio Gasbarri, Matias Bilkis, Elisabet Roda-Salichs, John Calsamiglia, (参考訳) 我々は、連続的に監視されている量子系を考察し、測定信号を生成する。 このようなデータのストリームから、基盤となるシステムのダイナミクスに関する情報を推測する必要がある。 ここでは、仮説テストの問題に焦点をあて、信号がリアルタイムで分析されるシーケンシャル戦略の利用を推し進め、基礎となる仮説を所定の成功確率で特定できれば、実験を迅速に終了させることができる。 本研究は, 所定測定時間に基づいて, 現在使用されている戦略に対して有意な優位性を示すとともに, 停止時間挙動を調べた結果, 逐次試験の性能を解析した。

We consider a quantum system that is being continuously monitored, giving rise to a measurement signal. From such a stream of data, information needs to be inferred about the underlying system's dynamics. Here we focus on hypothesis testing problems and put forward the usage of sequential strategies where the signal is analyzed in real time, allowing the experiment to be concluded as soon as the underlying hypothesis can be identified with a certified prescribed success probability. We analyze the performance of sequential tests by studying the stopping-time behavior, showing a considerable advantage over currently-used strategies based on a fixed predetermined measurement time.
翻訳日:2024-03-16 03:02:59 公開日:2024-03-14
# ニューラルネットワーク量子状態におけるrenyiエントロピーの測定

Measuring Renyi Entropy in Neural Network Quantum States ( http://arxiv.org/abs/2308.05513v2 )

ライセンス: Link先を確認
Han-Qing Shi, Hai-Qing Zhang, (参考訳) 本稿では,ニューラルネットワーク法により構築された状態に作用するスワッピング演算子を用いて,一次元横場量子イジングモデルにおけるRenyiエントロピーを計算する。 静的基底状態では、レニイエントロピーは常磁性から強磁性への量子相転移の臨界点を明らかにすることができる。 臨界点において、レニイエントロピーとサブシステムサイズの関係は共形場理論からの予測を満たす。 力学の場合、線形クエンチの終端の後、レニイエントロピーのコヒーレント振動が見つかる。 これらの振動は励起状態の重畳から生じる普遍周波数を持つ。 レニイエントロピーの漸近形式は、臨界点から離れた新しい長さのスケールを意味する。 この長さスケールは、縮小されたレニイエントロピーと次元のないサブシステムサイズとの重なりによっても検証される。

We compute the Renyi entropy in a one-dimensional transverse-field quantum Ising model by employing a swapping operator acting on the states which are prepared from the neural network methods. In the static ground state, Renyi entropy can uncover the critical point of the quantum phase transition from paramagnetic to ferromagnetic. At the critical point, the relation between the Renyi entropy and the subsystem size satisfies the predictions from conformal field theory. In the dynamical case, we find coherent oscillations of the Renyi entropy after the end of the linear quench. These oscillations have universal frequencies which may come from the superpositions of excited states. The asymptotic form of the Renyi entropy implies a new length scale away from the critical point. This length scale is also verified by the overlap of the reduced Renyi entropy against the dimensionless subsystem size.
翻訳日:2024-03-16 03:02:59 公開日:2024-03-14
# Role-Play Promptingによるゼロショット推論の改善

Better Zero-Shot Reasoning with Role-Play Prompting ( http://arxiv.org/abs/2308.07702v2 )

ライセンス: Link先を確認
Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xin Zhou, Enzhi Wang, Xiaohang Dong, (参考訳) 現代の大きな言語モデル(LLM)はロールプレイングの優れた能力を示しており、人間のキャラクターだけでなく、人間以外の実体を具現化することができる。 この汎用性は、複雑な人間のような相互作用や振る舞いを様々な文脈でシミュレートし、特定のオブジェクトやシステムをエミュレートすることを可能にする。 これらの能力はユーザエンゲージメントを高め、新しいインタラクションモードを導入したが、LLMの推論能力に対するロールプレイングの影響は未解明のままである。 本研究では、戦略的に設計されたロールプレイプロンプト手法を導入し、12の多様な推論ベンチマークにおいてゼロショット設定による性能評価を行う。 私たちの経験的結果は、ロールプレイのプロンプトが、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っていることを示している。 特にChatGPTを用いた実験では、AQuAの精度は53.5%から63.8%に上昇し、Last Letterでは23.8%から84.2%に上昇した。 さらにZero-Shot-CoT技術と比較すると、このモデルが「ステップバイステップ」のモデルとなり、我々の研究はロールプレイ・プロンプトがCoTプロセスのより効果的なトリガーとなることを示した。 このことは、LLMの推論能力を増強する可能性を強調している。 コードをhttps://github.com/NKU-HLT/Role-Play-Promptingでリリースします。

Modern large language models (LLMs) exhibit a remarkable capacity for role-playing, enabling them to embody not only human characters but also non-human entities. This versatility allows them to simulate complex human-like interactions and behaviors within various contexts, as well as to emulate specific objects or systems. While these capabilities have enhanced user engagement and introduced novel modes of interaction, the influence of role-playing on LLMs' reasoning abilities remains underexplored. In this study, we introduce a strategically designed role-play prompting methodology and assess its performance under the zero-shot setting across twelve diverse reasoning benchmarks. Our empirical results illustrate that role-play prompting consistently surpasses the standard zero-shot approach across most datasets. Notably, in experiments conducted using ChatGPT, accuracy on AQuA rises from 53.5% to 63.8%, and on Last Letter from 23.8% to 84.2%.Upon further comparison with the Zero-Shot-CoT technique, which prompts the model to "think step by step", our study demonstrates that role-play prompting acts as a more effective trigger for the CoT process. This highlights its potential to augment the reasoning capabilities of LLMs. We release our code at https://github.com/NKU-HLT/Role-Play-Prompting.
翻訳日:2024-03-16 02:52:50 公開日:2024-03-14
# 分類のための精度とリコールリジェクト曲線

Precision and Recall Reject Curves for Classification ( http://arxiv.org/abs/2308.08381v3 )

ライセンス: Link先を確認
Lydia Fischer, Patricia Wollstadt, (参考訳) いくつかの分類シナリオでは、訓練されたモデルが高い確実性と関連付ける分類インスタンスのみを使用するのが望ましい。 このような高確かさのインスタンスを得るために、従来の研究は精度-再帰曲線を提案した。 リジェクト曲線は、分類を受け入れたり拒否したりするためのしきい値の範囲で、異なる確実性尺度のパフォーマンスを評価し、比較することができる。 しかし、精度は全てのアプリケーションに最も適した評価基準ではなく、代わりに精度やリコールが好ましい。 これは例えば、不均衡なクラス分布を持つデータの場合である。 そこで我々は,精度とリコール,リコール・リジェクト曲線,精度・リジェクト曲線を評価するリジェクション曲線を提案する。 学習ベクトル量子化からプロトタイプベースの分類器を用いて,まず,精度の低下曲線をベースラインとして,人工ベンチマークデータ上で提案した曲線を検証した。 次に、不均衡なベンチマークと、これらのシナリオにおいて、提案した精度曲線とリコール曲線は、精度の低下曲線よりも、分類器の性能に関するより正確な洞察を与えることを示す。

For some classification scenarios, it is desirable to use only those classification instances that a trained model associates with a high certainty. To obtain such high-certainty instances, previous work has proposed accuracy-reject curves. Reject curves allow to evaluate and compare the performance of different certainty measures over a range of thresholds for accepting or rejecting classifications. However, the accuracy may not be the most suited evaluation metric for all applications, and instead precision or recall may be preferable. This is the case, for example, for data with imbalanced class distributions. We therefore propose reject curves that evaluate precision and recall, the recall-reject curve and the precision-reject curve. Using prototype-based classifiers from learning vector quantization, we first validate the proposed curves on artificial benchmark data against the accuracy reject curve as a baseline. We then show on imbalanced benchmarks and medical, real-world data that for these scenarios, the proposed precision- and recall-curves yield more accurate insights into classifier performance than accuracy reject curves.
翻訳日:2024-03-16 02:52:50 公開日:2024-03-14
# 大規模言語モデルのためのインストラクションチューニング:サーベイ

Instruction Tuning for Large Language Models: A Survey ( http://arxiv.org/abs/2308.10792v5 )

ライセンス: Link先を確認
Shengyu Zhang, Linfeng Dong, Xiaoya Li, Sen Zhang, Xiaofei Sun, Shuhe Wang, Jiwei Li, Runyi Hu, Tianwei Zhang, Fei Wu, Guoyin Wang, (参考訳) 本稿では,大規模言語モデル(LLM)の能力と制御性を向上するための重要な技術である,命令チューニング(IT)の急速な発展分野における研究成果について調査する。 インストラクションチューニング(インストラクションチューニング)とは、LLMの次の単語予測目標と、LLMを人間の指示に従わせるというユーザの目的とのギャップを埋める、教師付き方式で、‘textsc{(インストラクション、アウトプット)’ペアからなるデータセット上で、LLMをさらに訓練するプロセスを指す。 本研究は、ITの一般的な方法論、ITデータセットの構築、ITモデルの構築、異なるモダリティ、ドメイン、アプリケーションへのアプリケーション、およびITの結果に影響を与える側面(例えば、命令出力の生成、命令データセットのサイズなど)の分析を含む、文献の体系的なレビューを行う。 また、ITの潜在的な落とし穴とそれに対する批判、および既存の戦略の現在の欠陥を指摘し、実りある研究の道筋を提案する。 プロジェクトページ:github.com/xiaoya-li/Instruction-Tuning-Survey

This paper surveys research works in the quickly advancing field of instruction tuning (IT), a crucial technique to enhance the capabilities and controllability of large language models (LLMs). Instruction tuning refers to the process of further training LLMs on a dataset consisting of \textsc{(instruction, output)} pairs in a supervised fashion, which bridges the gap between the next-word prediction objective of LLMs and the users' objective of having LLMs adhere to human instructions. In this work, we make a systematic review of the literature, including the general methodology of IT, the construction of IT datasets, the training of IT models, and applications to different modalities, domains and applications, along with an analysis on aspects that influence the outcome of IT (e.g., generation of instruction outputs, size of the instruction dataset, etc). We also review the potential pitfalls of IT along with criticism against it, along with efforts pointing out current deficiencies of existing strategies and suggest some avenues for fruitful research. Project page: github.com/xiaoya-li/Instruction-Tuning-Survey
翻訳日:2024-03-16 02:52:50 公開日:2024-03-14
# 加速光トラップを用いた捕捉原子干渉計の可能性

Feasibility of a trapped atom interferometer with accelerating optical traps ( http://arxiv.org/abs/2308.12246v3 )

ライセンス: Link先を確認
Gayathrini Premawardhana, Jonathan Kunjummen, Sarthak Subhankar, Jacob M. Taylor, (参考訳) 原子干渉計の測定フェーズを増やし、感度を向上させるために、研究者は、インターフェロメーターアーム間のより大きな分離と長い進化時間を持つ2つの方法を用いて、囲まれた時空領域を拡大しようと試みた。 しかし、進化時間の増大はサンプリング可能な帯域幅を減少させる一方、進化時間の減少は感度を悪化させる。 本稿では、高帯域アプリケーションのためのセットアップを提案し、全体的な感度を改善して、この問題に対処する。 これは光双極子トラップを用いて原子を加速・保持することで実現される。 最大10^{3}$-$10^{5}$ m/s$^2$の加速度は、AODを用いてトラップを動かすことができる。 従来の原子干渉計の基準線としての加速度へのアプローチの感度を比較することで、最先端技術にかなりの改善が見られた。 適切なビームと光学安定化の限界において、10$^{-14}$ (m/s$^2$)/$\sqrt{\rm Hz}$は1Hzで達成可能であり、従来の自由落下原子干渉計よりも1kHzの感度で検出できる。

In order to increase the measured phase of an atom interferometer and improve its sensitivity, researchers attempt to increase the enclosed space-time area using two methods: creating larger separations between the interferometer arms and having longer evolution times. However, increasing the evolution time reduces the bandwidth that can be sampled, whereas decreasing the evolution time worsens the sensitivity. In this paper, we attempt to address this by proposing a setup for high-bandwidth applications, with improved overall sensitivity. This is realized by accelerating and holding the atoms using optical dipole traps. We find that accelerations of up to $10^{3}$-$10^{5}$ m/s$^2$ can be achieved using acousto-optic deflectors (AODs) to move the traps. By comparing the sensitivity of our approach to acceleration as a baseline to traditional atom interferometry, we find a substantial improvement to the state of the art. In the limit of appropriate beam and optics stabilization, sensitivities approaching 10$^{-14}$ (m/s$^2$)/$\sqrt{\rm Hz}$ may be achievable at 1 Hz, while detection at 1 kHz with a sensitivity an order of magnitude better than traditional free-fall atom interferometers is possible with today's systems.
翻訳日:2024-03-16 02:52:50 公開日:2024-03-14
# MetaWeather: 天気が劣化した画像の復元

MetaWeather: Few-Shot Weather-Degraded Image Restoration ( http://arxiv.org/abs/2308.14334v3 )

ライセンス: Link先を確認
Youngrae Kim, Younggeol Cho, Thanh-Tung Nguyen, Seunghoon Hong, Dongman Lee, (参考訳) 実際の気象条件は複雑で、しばしば同時に起こる。 しかし,既存の修復手法の多くは,訓練データにおける特定の気象条件の適用性に限界があり,現実の気象条件を含む未知の気象タイプへの一般化に苦慮しているため,メタウェザーは単一統一モデルで多様で新しい気象条件を扱える普遍的なアプローチである。 メタウェザーは、強力なメタラーニングフレームワークを拡張し、気象劣化画像復元のタスクを、クエリ画像の劣化パターンを予測する数ショット適応問題として定式化し、新しい空間型マッチングアルゴリズムにより、目に見えない気象条件に適応することを学ぶ。 BID Task II.A, SPA-Data, RealSnow のデータセットによる実験結果から,提案手法が観測不能な気象条件に適応可能であることを示す。

Real-world weather conditions are intricate and often occur concurrently. However, most existing restoration approaches are limited in their applicability to specific weather conditions in training data and struggle to generalize to unseen weather types, including real-world weather conditions.To address this issue, we introduce MetaWeather, a universal approach that can handle diverse and novel weather conditions with a single unified model. Extending a powerful meta-learning framework, MetaWeather formulates the task of weather-degraded image restoration as a few-shot adaptation problem that predicts the degradation pattern of a query image, and learns to adapt to unseen weather conditions through a novel spatial-channel matching algorithm. Experimental results on the BID Task II.A, SPA-Data, and RealSnow datasets demonstrate that the proposed method can adapt to unseen weather conditions, significantly outperforming the state-of-the-art multi-weather image restoration methods.
翻訳日:2024-03-16 02:52:50 公開日:2024-03-14
# 画像の高分解能化とスチル化のための画素認識安定拡散

Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization ( http://arxiv.org/abs/2308.14469v3 )

ライセンス: Link先を確認
Tao Yang, Rongyuan Wu, Peiran Ren, Xuansong Xie, Lei Zhang, (参考訳) 拡散モデルは様々な画像生成、編集、拡張、翻訳タスクにおいて顕著な性能を示した。 特に、事前訓練されたテキスト・ツー・イメージの安定拡散モデルは、困難な現実的な超解像(Real-ISR)と画像スタイリング問題に対する潜在的な解決策となる。 しかし、この線に沿った既存の手法は、しばしば忠実なピクセル画像構造を維持するのに失敗する。 詳細を再現するために余分なスキップ接続が使用される場合、イメージ空間における追加のトレーニングが必要となり、画像スタイリングのような遅延スペースのタスクにアプリケーションを制限される。 本研究では,高機能なReal-ISRとパーソナライズされた画像スタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。 具体的には、画像局所構造を画素単位で知覚する拡散モデルを可能にするために、画素対応クロスアテンションモジュールを導入し、劣化除去モジュールを用いて劣化不感な特徴を抽出し、画像高レベル情報とともに拡散過程を導出する。 補正可能なノイズスケジュールを導入し、画像復元結果をさらに改善する。 ベース拡散モデルをスタイリングされたものに置き換えることによって、PASDはペアのトレーニングデータを収集することなく多様なスタイリングされた画像を生成することができ、ベースモデルを美的なものにシフトさせることで、古い写真を生き返らせることができる。 画像強調タスクとスタイリングタスクの多種多様な実験により,提案手法の有効性が示された。 ソースコードは \url{https://github.com/yangxy/PASD/} で公開しています。

Diffusion models have demonstrated impressive performance in various image generation, editing, enhancement and translation tasks. In particular, the pre-trained text-to-image stable diffusion models provide a potential solution to the challenging realistic image super-resolution (Real-ISR) and image stylization problems with their strong generative priors. However, the existing methods along this line often fail to keep faithful pixel-wise image structures. If extra skip connections are used to reproduce details, additional training in image space will be required, limiting the application to tasks in latent space such as image stylization. In this work, we propose a pixel-aware stable diffusion (PASD) network to achieve robust Real-ISR and personalized image stylization. Specifically, a pixel-aware cross attention module is introduced to enable diffusion models perceiving image local structures in pixel-wise level, while a degradation removal module is used to extract degradation insensitive features to guide the diffusion process together with image high level information. An adjustable noise schedule is introduced to further improve the image restoration results. By simply replacing the base diffusion model with a stylized one, PASD can generate diverse stylized images without collecting pairwise training data, and by shifting the base model with an aesthetic one, PASD can bring old photos back to life. Extensive experiments in a variety of image enhancement and stylization tasks demonstrate the effectiveness of our proposed PASD approach. Our source codes are available at \url{https://github.com/yangxy/PASD/}.
翻訳日:2024-03-16 02:52:50 公開日:2024-03-14
# 熱電場二重状態におけるニールセン複雑性の位置依存性

Position dependence of Nielsen complexity for the Thermofield double state ( http://arxiv.org/abs/2308.15836v3 )

ライセンス: Link先を確認
F. Khorasani, Reza Pirmoradian, Mohammad Reza Tanhayi, (参考訳) 本稿では,高調波発振器の熱場二重状態に対するNielsen複雑度の位置依存性を調べるために,Nielsen幾何法を用いる。 本稿では、外部電界の影響による状態変化を示し、対応する回路の構築においてその重要性を示す。 数値解析により,周波数と外界が複雑性のダイナミクスに与える影響について検討する。 観測の結果,周波数の上昇に伴ってシステムの複雑性が著しく低下することが明らかとなった。 さらに, 周波数のエスカレーションによりより複雑化するにつれて, 外部電界下では, 複雑さが顕著な挙動を示すことが示唆された。 しかし、電場の大きさが大きくなると、システムは以前の挙動に戻る。 また、参照状態の周波数が複雑さに与える影響についても言及する。

In this paper, the Nielsen geometric method is used to study the position dependence of the Nielsen complexity for the thermofield double state of a harmonic oscillator. We present the state shift under the influence of an external electric field and demonstrate its importance for the construction of the corresponding circuit. By numerical analysis, we investigate the effect of the frequency and the external field on the dynamics of complexity. Our observation reveals that the system's complexity diminishes considerably with the rise of the frequency. Furthermore, our findings indicate that the complexity exhibits a distinct behavior under a feeble external electric field, as it grows more intricate with the escalation of the frequency. However, with higher magnitudes of the electric field, the system reverts to its prior behavior. We also remark on the influence of the reference state's frequency on the complexity.
翻訳日:2024-03-16 02:52:50 公開日:2024-03-14
# SLiMe:Segment Like Me

SLiMe: Segment Like Me ( http://arxiv.org/abs/2309.03179v4 )

ライセンス: Link先を確認
Aliasghar Khani, Saeid Asgari Taghanaki, Aditya Sanghi, Ali Mahdavi Amiri, Ghassan Hamarneh, (参考訳) 画像編集、画像対応、3D形状生成など、さまざまな下流タスクのために、SD(Stable Diffusion)のような大きな視覚言語モデルを使用して、重要なステップが作成されている。 これらの進歩に触発されて、SLiMeを提案することで1つの注釈付きサンプルを用いて、任意の粒度で画像のセグメンテーションにこれらの広範囲な視覚言語モデルを活用することを検討する。 SLiMeはこの問題を最適化タスクとして捉えている。 具体的には,1枚のトレーニング画像とそのセグメンテーションマスクから,SD前の「重み付き累積自己注意マップ」を含む注意マップを抽出する。 そして、抽出した注目マップを用いて、安定拡散のテキスト埋め込みを最適化し、トレーニング画像からそれぞれ1つのセグメント化された領域について学習する。 これらの学習された埋め込みは、アテンションマップ内のセグメンテーションされた領域を強調し、そこからセグメンテーションマップを導出することができる。 これにより、SLiMeはトレーニングイメージ内のセグメント化された領域の粒度の推論中に、たった1つの例を使って、現実世界のイメージをセグメント化できる。 さらに、利用可能な追加のトレーニングデータ、すなわち数ショットを活用することで、SLiMeのパフォーマンスが向上する。 各種設計因子について知識豊富な実験を行い,SLiMeが既存の一発・小発のセグメンテーション法よりも優れていることを示した。

Significant strides have been made using large vision-language models, like Stable Diffusion (SD), for a variety of downstream tasks, including image editing, image correspondence, and 3D shape generation. Inspired by these advancements, we explore leveraging these extensive vision-language models for segmenting images at any desired granularity using as few as one annotated sample by proposing SLiMe. SLiMe frames this problem as an optimization task. Specifically, given a single training image and its segmentation mask, we first extract attention maps, including our novel "weighted accumulated self-attention map" from the SD prior. Then, using the extracted attention maps, the text embeddings of Stable Diffusion are optimized such that, each of them, learn about a single segmented region from the training image. These learned embeddings then highlight the segmented region in the attention maps, which in turn can then be used to derive the segmentation map. This enables SLiMe to segment any real-world image during inference with the granularity of the segmented region in the training image, using just one example. Moreover, leveraging additional training data when available, i.e. few-shot, improves the performance of SLiMe. We carried out a knowledge-rich set of experiments examining various design factors and showed that SLiMe outperforms other existing one-shot and few-shot segmentation methods.
翻訳日:2024-03-16 02:52:50 公開日:2024-03-14
# EGIC:セマンティックセグメンテーションによる低ビットレート生成画像圧縮の強化

EGIC: Enhanced Low-Bit-Rate Generative Image Compression Guided by Semantic Segmentation ( http://arxiv.org/abs/2309.03244v2 )

ライセンス: Link先を確認
Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller, (参考訳) 本稿では,1つのモデルから歪み知覚曲線を効率的にトラバースできる改良された生成画像圧縮手法EGICを紹介する。 EGICは2つの新しいビルディングブロックに基づいている。 一)OASIS-Cは、空間的及び意味的に認識された勾配フィードバックをジェネレータに提供し、潜画像分布を条件とした条件付き訓練済みセマンティックセマンティクス誘導識別装置である。 二 出力残差予測(英: Output Residual Prediction、ORP)とは、MSE最適化とGAN最適化デコーダ出力の残差がGAN再構成に与える影響を調整することにより、合成過程の制御を可能にするマルチリアリズム画像圧縮の逆最適化ソリューションである。 共に、EGICは強力なコーデックを形成し、最先端の拡散とGANベースの手法(例えば、HiFiC、MS-ILLM、DIRAC-100)を上回り、歪み端のVTM-20.0とほぼ同等に動作する。 EGICは実装が簡単で、非常に軽量であり、補間特性に優れたので、低ビット範囲をターゲットとした実用的なアプリケーションには有望な候補となる。

We introduce EGIC, an enhanced generative image compression method that allows traversing the distortion-perception curve efficiently from a single model. EGIC is based on two novel building blocks: i) OASIS-C, a conditional pre-trained semantic segmentation-guided discriminator, which provides both spatially and semantically-aware gradient feedback to the generator, conditioned on the latent image distribution, and ii) Output Residual Prediction (ORP), a retrofit solution for multi-realism image compression that allows control over the synthesis process by adjusting the impact of the residual between an MSE-optimized and GAN-optimized decoder output on the GAN-based reconstruction. Together, EGIC forms a powerful codec, outperforming state-of-the-art diffusion and GAN-based methods (e.g., HiFiC, MS-ILLM, and DIRAC-100), while performing almost on par with VTM-20.0 on the distortion end. EGIC is simple to implement, very lightweight, and provides excellent interpolation characteristics, which makes it a promising candidate for practical applications targeting the low bit range.
翻訳日:2024-03-16 02:52:50 公開日:2024-03-14
# 中性子スピンエコーは「二つの道の量子物語」である

Neutron spin echo is a "quantum tale of two paths'' ( http://arxiv.org/abs/2309.03987v2 )

ライセンス: Link先を確認
S. McKay, A. A. M. Irfan, Q. Le Thien, N. Geerits, S. R. Parnell, R. M. Dalgliesh, N. V. Lavrik, I. I. Kravchenko, G. Ortiz, R. Pynn, (参考訳) 典型的な中性子スピンエコー小角散乱(SESANS)実験において,各中性子のスピンアップ成分とスピンダウン成分が空間的に分離された平行経路に沿って連続的に伝播する2経路干渉法モデルを強く支持する実験について述べる。 具体的には, 中性子パケットの横幅が有限であるとき, 周期的な位相格子で得られたSESANS信号のスピンエコー長の関数として減衰を予測した。 しかし、そのような減衰は実験的に観測されず、ラーモアモデルが誤りであるか、あるいは波状パケットの逆幅が非常に大きいことを示唆している。 これとは対照的に、単一中性子の2つのモード絡み合うスピン状態(すなわち粒子内絡み合うスピン状態)が空間で分離される量子力学的干渉モデルが、格子と相互作用すると、波のパケット幅に依存しない測定されたSESANS信号が正確に予測されることを理論的に示す。

We describe an experiment that strongly supports a two-path interferometric model in which the spin-up and spin-down components of each neutron propagate coherently along spatially separated parallel paths in a typical neutron spin echo small angle scattering (SESANS) experiment. Specifically, we show that the usual semi-classical, single-path treatment of Larmor precession of a polarized neutron in an external magnetic field predicts a damping as a function of the spin echo length of the SESANS signal obtained with a periodic phase grating when the transverse width of the neutron wave packet is finite. However, no such damping is observed experimentally, implying either that the Larmor model is incorrect or that the transverse extent of the wave packet is very large. In contrast, we demonstrate theoretically that a quantum-mechanical interferometric model in which the two mode-entangled (i.e. intraparticle entangled) spin states of a single neutron are separated in space when they interact with the grating accurately predicts the measured SESANS signal, which is independent of the wave packet width.
翻訳日:2024-03-16 02:52:49 公開日:2024-03-14
# 有向重み付きグラフのための最適輸送距離:細胞間通信網を用いたケーススタディ

Optimal transport distances for directed, weighted graphs: a case study with cell-cell communication networks ( http://arxiv.org/abs/2309.07030v3 )

ライセンス: Link先を確認
James S. Nagai, Ivan G. Costa, Michael T. Schaub, (参考訳) 最適輸送によるグラフの比較は近年注目されており、最適輸送によって誘導される距離は、グラフ間の原則付きメトリックと、輸送計画の観点からグラフ間の関連する変化の解釈可能な記述の両方を提供する。 対称性の欠如が典型的に考慮された定式化の課題をもたらすため、グラフの最適輸送距離は、主に無向グラフのために開発された。 ここでは、最適輸送の変種に基づく有向グラフの比較のための2つの距離測度を提案する。 (i)土の移動距離(ワッサーシュタイン) (II)Gromov-Wasserstein (GW) 距離。 これら2つの距離を評価し, シミュレーショングラフデータと実世界指向の細胞間通信グラフの両方に対して, 単一セルRNA-seqデータから推定した相対的性能について検討した。

Comparing graphs by means of optimal transport has recently gained significant attention, as the distances induced by optimal transport provide both a principled metric between graphs as well as an interpretable description of the associated changes between graphs in terms of a transport plan. As the lack of symmetry introduces challenges in the typically considered formulations, optimal transport distances for graphs have mostly been developed for undirected graphs. Here, we propose two distance measures to compare directed graphs based on variants of optimal transport: (i) an earth movers distance (Wasserstein) and (ii) a Gromov-Wasserstein (GW) distance. We evaluate these two distances and discuss their relative performance for both simulated graph data and real-world directed cell-cell communication graphs, inferred from single-cell RNA-seq data.
翻訳日:2024-03-16 02:52:49 公開日:2024-03-14
# Mixed-Distil-BERT: バングラ語、英語、ヒンディー語のためのコード混合言語モデリング

Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi ( http://arxiv.org/abs/2309.10272v2 )

ライセンス: Link先を確認
Md Nishat Raihan, Dhiman Goswami, Antara Mahmud, (参考訳) 自然言語処理の分野で最も人気のある下流タスクの1つは、テキスト分類である。 テキスト分類タスクは、テキストがコードミキシングされたときに、さらに厄介になっている。 事前トレーニング中にそのようなテキストに公開されていないが、さまざまなBERTモデルは、Code-Mixed NLPの課題に対処することに成功した。 繰り返しになるが、その性能を向上させるために、Code-Mixed NLPモデルは、合成データと実世界のデータの組み合わせに依存している。 BERTモデルのパフォーマンスが、対応するコードミックス言語を使用して事前トレーニングされている場合、どのように影響するかを理解することが不可欠である。 本稿では、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに微調整されたMixed-Distil-BERTを紹介する。 どちらのモデルも複数のNLPタスクで評価され、mBERTやXLM-Rのようなより大きなモデルと競合する性能を示す。 我々の2層事前学習アプローチは、多言語およびコード混合言語理解のための効率的な代替手段を提供し、この分野の進歩に寄与する。

One of the most popular downstream tasks in the field of Natural Language Processing is text classification. Text classification tasks have become more daunting when the texts are code-mixed. Though they are not exposed to such text during pre-training, different BERT models have demonstrated success in tackling Code-Mixed NLP challenges. Again, in order to enhance their performance, Code-Mixed NLP models have depended on combining synthetic data with real-world data. It is crucial to understand how the BERT models' performance is impacted when they are pretrained using corresponding code-mixed languages. In this paper, we introduce Tri-Distil-BERT, a multilingual model pre-trained on Bangla, English, and Hindi, and Mixed-Distil-BERT, a model fine-tuned on code-mixed data. Both models are evaluated across multiple NLP tasks and demonstrate competitive performance against larger models like mBERT and XLM-R. Our two-tiered pre-training approach offers efficient alternatives for multilingual and code-mixed language understanding, contributing to advancements in the field.
翻訳日:2024-03-16 02:52:49 公開日:2024-03-14
# DCPT:夜間UAVでのダークネスの追跡

DCPT: Darkness Clue-Prompted Tracking in Nighttime UAVs ( http://arxiv.org/abs/2309.10491v4 )

ライセンス: Link先を確認
Jiawen Zhu, Huayi Tang, Zhi-Qi Cheng, Jun-Yan He, Bin Luo, Shihao Qiu, Shengming Li, Huchuan Lu, (参考訳) 既存の夜間無人航空機(UAV)トラッカーは"Enhance-then-Track"アーキテクチャに従っている。 この分離された拡張と追跡は、エンドツーエンドのトレーニング可能な視覚システムを構築するのに失敗する。 そこで本研究では,夜間の強靭なUAV追跡を効率よく学習し,暗黙の手がかりを生成する,Darkness Clue-Prompted Tracking (DCPT) という新しいアーキテクチャを提案する。 別個のエンハンサーがなければ、DCPTは暗黒誘導プロンプト(DCP)を使用して、アンチダーク機能を直接プロンプトにエンコードする。 具体的には、DCPは暗黒の手がかりの投影を強調し、損なうことを反復的に学習する。 そして、学習した視覚的プロンプトを、トランスフォーマー層にまたがる固定パラメータで、昼間のトラッカーに注入する。 さらに、ゲート特徴集約機構は、プロンプトとプロンプトとベースモデルとの適応的な融合を可能にする。 複数のダークシナリオベンチマークにおいて,DCPTの最先端性能を示す実験を行った。 DCPTにおける拡張と追跡の統一的なエンドツーエンド学習は、より訓練可能なシステムを実現する。 暗黒の手がかりは、余分な加群なしで効果的に反暗黒の知識を注入する。 コードはhttps://github.com/bearyi26/DCPTで入手できる。

Existing nighttime unmanned aerial vehicle (UAV) trackers follow an "Enhance-then-Track" architecture - first using a light enhancer to brighten the nighttime video, then employing a daytime tracker to locate the object. This separate enhancement and tracking fails to build an end-to-end trainable vision system. To address this, we propose a novel architecture called Darkness Clue-Prompted Tracking (DCPT) that achieves robust UAV tracking at night by efficiently learning to generate darkness clue prompts. Without a separate enhancer, DCPT directly encodes anti-dark capabilities into prompts using a darkness clue prompter (DCP). Specifically, DCP iteratively learns emphasizing and undermining projections for darkness clues. It then injects these learned visual prompts into a daytime tracker with fixed parameters across transformer layers. Moreover, a gated feature aggregation mechanism enables adaptive fusion between prompts and between prompts and the base model. Extensive experiments show state-of-the-art performance for DCPT on multiple dark scenario benchmarks. The unified end-to-end learning of enhancement and tracking in DCPT enables a more trainable system. The darkness clue prompting efficiently injects anti-dark knowledge without extra modules. Code is available at https://github.com/bearyi26/DCPT.
翻訳日:2024-03-16 02:52:49 公開日:2024-03-14
# 深層学習ネットワークの幾何学的構造とグローバル${\mathcal L}^2$ミニマの構築

Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers ( http://arxiv.org/abs/2309.10639v4 )

ライセンス: Link先を確認
Thomas Chen, Patricia Muñoz Ewald, (参考訳) 本稿では,低パラメータ化ディープラーニング(DL)ネットワークにおける$\mathcal{L}^2$コスト関数の局所的および大域的最小化を明示的に決定する。 本研究のどの点においても勾配降下流を誘導することなく, 直接構成によりこれを達成した。 具体的には、$L$隠蔽層、ReLUランプ活性化関数、$\mathcal{L}^2$Schattenクラス(またはHilbert-Schmidt)コスト関数、入力および出力空間$\mathbb{R}^Q$と等しい次元の$Q\geq1$、および$\mathbb{R}^{Q}$で定義される隠蔽層についても検討する。 トレーニング入力サイズ$N$は任意に大きいので、過度にパラメータ化されたレシエーションを検討しています。 より一般的な設定は将来の作業に委ねられる。 我々は、コスト関数の大域的最小値に対する明示的な最小値の族を$L\geq Q$ の場合に構築し、縮退することを示す。 さらに,コスト関数の縮退型局所最小値の集合を2^Q-1$で決定する。 ここでは、DLネットワークの隠れレイヤの結合を、信号比へのノイズを最小化し、トレーニング入力を"キュレート"する {\em truncation map}の再帰的応用として再解釈する。

In this paper, we explicitly determine local and global minimizers of the $\mathcal{L}^2$ cost function in underparametrized Deep Learning (DL) networks; our main goal is to shed light on their geometric structure and properties. We accomplish this by a direct construction, without invoking the gradient descent flow at any point of this work. We specifically consider $L$ hidden layers, a ReLU ramp activation function, an $\mathcal{L}^2$ Schatten class (or Hilbert-Schmidt) cost function, input and output spaces $\mathbb{R}^Q$ with equal dimension $Q\geq1$, and hidden layers also defined on $\mathbb{R}^{Q}$; the training inputs are assumed to be sufficiently clustered. The training input size $N$ can be arbitrarily large - thus, we are considering the underparametrized regime. More general settings are left to future work. We construct an explicit family of minimizers for the global minimum of the cost function in the case $L\geq Q$, which we show to be degenerate. Moreover, we determine a set of $2^Q-1$ distinct degenerate local minima of the cost function. In the context presented here, the concatenation of hidden layers of the DL network is reinterpreted as a recursive application of a {\em truncation map} which "curates" the training inputs by minimizing their noise to signal ratio.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# K-pop Lyric Translation:データセット,解析,ニューラルモデリング

K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling ( http://arxiv.org/abs/2309.11093v2 )

ライセンス: Link先を確認
Haven Kim, Jongmin Jung, Dasaem Jeong, Juhan Nam, (参考訳) 歌詞翻訳は1世紀以上にわたって研究されてきた分野であり、現在では計算言語学の研究者を惹きつけている。 我々は以前の研究で2つの限界を特定した。 第一に、歌詞翻訳の研究は西洋のジャンルや言語に重点を置いており、その人気にもかかわらずK-popを中心にした以前の研究は行われていない。 第二に、歌詞翻訳の分野は、公開データセットの欠如に悩まされており、私たちの知る限り、そのようなデータセットは存在しない。 歌詞翻訳研究におけるジャンルや言語の範囲を広げるために,K-popの歌詞からなる歌詞翻訳データセットを新たに導入する。 このデータセットは、韓国語と英語の歌詞を並べて、セクションごとに並べる。 我々は、このデータセットを利用して、K-pop歌詞翻訳の特徴を明らかにし、他の広く研究されているジャンルと区別し、ニューラル・歌詞翻訳モデルを構築し、歌唱可能な歌詞翻訳のための専用のデータセットの重要性を強調した。

Lyric translation, a field studied for over a century, is now attracting computational linguistics researchers. We identified two limitations in previous studies. Firstly, lyric translation studies have predominantly focused on Western genres and languages, with no previous study centering on K-pop despite its popularity. Second, the field of lyric translation suffers from a lack of publicly available datasets; to the best of our knowledge, no such dataset exists. To broaden the scope of genres and languages in lyric translation studies, we introduce a novel singable lyric translation dataset, approximately 89\% of which consists of K-pop song lyrics. This dataset aligns Korean and English lyrics line-by-line and section-by-section. We leveraged this dataset to unveil unique characteristics of K-pop lyric translation, distinguishing it from other extensively studied genres, and to construct a neural lyric translation model, thereby underscoring the importance of a dedicated dataset for singable lyric translations.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# 一般応答型に対するモデルベース因果的特徴選択

Model-based causal feature selection for general response types ( http://arxiv.org/abs/2309.12833v3 )

ライセンス: Link先を確認
Lucas Kook, Sorawit Saengkyongam, Anton Rask Lundborg, Torsten Hothorn, Jonas Peters, (参考訳) 観測データから因果関係を明らかにすることは、基本的なが難しい課題である。 Invariant causal Prediction (ICP, Peters et al , 2016) は、不均一な設定からのデータを必要とする因果的特徴選択の手法であり、因果的モデルが不変であることを悪用する。 ICPは、一般的な付加雑音モデルや条件付き独立試験を用いた非パラメトリック設定に拡張されている。 しかしながら、後者は低電力(または低出力I型エラー制御)に悩まされることが多く、連続的なスケールで応答が測定されないアプリケーションには追加ノイズモデルが適さないが、カテゴリやカウントを反映している。 ここでは、変換モデル(TRAM)ベースのICPを開発し、連続的、分類的、カウントタイプ、および非形式的に検閲された応答を可能にする(これらのモデルクラスは、一般に、外生異種性がない場合の識別性を許容しない)。 そこで本研究では,TRAM-GCMを環境間の条件共分散と,一様漸近レベル保証によるスコア残差に基づいて提案する。 線形シフトTRAMの特別な場合については、ウォルド統計量に基づいて不変性をテストするTRAM-Waldについても考察する。 我々は、オープンソースのRパッケージ「tramicp」を提供し、シミュレーションデータに対する我々のアプローチを評価し、重篤な患者の生存の因果的特徴を調査する事例研究を行った。

Discovering causal relationships from observational data is a fundamental yet challenging task. Invariant causal prediction (ICP, Peters et al., 2016) is a method for causal feature selection which requires data from heterogeneous settings and exploits that causal models are invariant. ICP has been extended to general additive noise models and to nonparametric settings using conditional independence tests. However, the latter often suffer from low power (or poor type I error control) and additive noise models are not suitable for applications in which the response is not measured on a continuous scale, but reflects categories or counts. Here, we develop transformation-model (TRAM) based ICP, allowing for continuous, categorical, count-type, and uninformatively censored responses (these model classes, generally, do not allow for identifiability when there is no exogenous heterogeneity). As an invariance test, we propose TRAM-GCM based on the expected conditional covariance between environments and score residuals with uniform asymptotic level guarantees. For the special case of linear shift TRAMs, we also consider TRAM-Wald, which tests invariance based on the Wald statistic. We provide an open-source R package 'tramicp' and evaluate our approach on simulated data and in a case study investigating causal features of survival in critically ill patients.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# 正方形格子上のJ_1-J_2$ハイゼンベルク模型におけるスピン液相の存在

Absence of Spin Liquid Phase in the $J_1-J_2$ Heisenberg model on the Square Lattice ( http://arxiv.org/abs/2309.13630v2 )

ライセンス: Link先を確認
Xiangjian Qian, Mingpu Qin, (参考訳) 正方格子上のJ_1-J_2$ハイゼンベルクモデルの位相図を詳細に調べる。 我々は密度行列再正規化グループと完全拡張行列積状態法を活用し、大きな結合次元で前例のない精度に達する。 我々は、位相遷移点をピンポイントするために励起レベル交差解析を利用する。 以前は、N'eel反強磁性(AFM)と価結合固相(VBS)で挟まれた狭いスピン液体相が存在すると考えられていた。 水平交差点の慎重な有限スケールスケーリングにより、N'eel AFM と VBS の位相間の直接位相遷移が$J_2/J_1 = 0.535(3)$ となり、中間スピン液相が存在しないことが示唆される。 また, N'eel AFM 相と VBS 相の遷移が連続していることが判明した。 これらの結果は、モデルに分解された量子臨界点が$J_2/J_1 = 0.535(3)$であることを示している。 VBSとストリップAFMの第一次相転移の正確な位置を、J_2/J_1=0.610$で決定する。

We perform an in-depth investigation of the phase diagram of the $J_1-J_2$ Heisenberg model on the square lattice. We take advantage of Density Matrix Renormalization Group and Fully-Augmented Matrix Product States methods and reach unprecedented accuracy with large bond dimensions. We utilize excited-level crossing analysis to pinpoint the phase transition points. It was believed before that there exists a narrow spin liquid phase sandwiched by the N\'eel antiferromagnetic (AFM) and valence bond solid (VBS) phases. Through careful finite size scaling of the level crossing points, we find a direct phase transition between the N\'eel AFM and VBS phases at $J_2/J_1 = 0.535(3)$, suggesting the absence of an intermediate spin liquid phase. We also provide accurate results for ground state energies for a variety of sizes, from which we find the transition between the N\'eel AFM and VBS phases is continuous. These results indicate the existence of a deconfined quantum critical point at $J_2/J_1 = 0.535(3)$ in the model. From the crossing of the first derivative of the energies with $J_2$ for different sizes, we also determine the precise location of the first order phase transition between the VBS and stripe AFM phases at $J_2/J_1=0.610(5)$.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# IBVC:補間駆動型Bフレームビデオ圧縮

IBVC: Interpolation-driven B-frame Video Compression ( http://arxiv.org/abs/2309.13835v2 )

ライセンス: Link先を確認
Chenming Xu, Meiqin Liu, Chao Yao, Weisi Lin, Yao Zhao, (参考訳) 学習されたBフレームビデオ圧縮は、双方向の動き推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。 しかし、従来の学習手法では、双方向の光フロー推定やビデオフレーム補間に依存して、ニューラルPフレームコーデックを直接Bフレームに拡張することが多い。 彼らは不正確な量子化された動きと非効率な動き補償に悩まされる。 これらの問題に対処するために、補間駆動型Bフレームビデオ圧縮(IBVC)と呼ばれるシンプルだが効果的な構造を提案する。 提案手法は,ビデオフレーム補間とアーティファクトリダクション圧縮の2つの主要な操作に限られる。 IBVCは補間に基づくビットレートフリーMEMCを導入し、光フロー量子化や圧縮歪みの増大を避ける。 その後、重複ビットレートの消費を減らし、非整合アーティファクトにフォーカスするために、補間されたマルチスケール依存関係で意味のあるコンテキストを適応的に選択するために、残留誘導マスキングエンコーダが配置される。 また,他の手法でMEMC符号化を行う代わりに,位置誤りやアーティファクトを除去する条件付き時空間デコーダを提案する。 Bフレーム符号化の実験結果から、ICBVCは関連する最先端手法と比較して大幅に改善されていることが示された。 一方,本手法は,H.266 (VTM) のランダムアクセス (RA) 構成と比較してビットレートを削減できる。 コードはhttps://github.com/ruhig6/IBVC.comで入手できる。

Learned B-frame video compression aims to adopt bi-directional motion estimation and motion compensation (MEMC) coding for middle frame reconstruction. However, previous learned approaches often directly extend neural P-frame codecs to B-frame relying on bi-directional optical-flow estimation or video frame interpolation. They suffer from inaccurate quantized motions and inefficient motion compensation. To address these issues, we propose a simple yet effective structure called Interpolation-driven B-frame Video Compression (IBVC). Our approach only involves two major operations: video frame interpolation and artifact reduction compression. IBVC introduces a bit-rate free MEMC based on interpolation, which avoids optical-flow quantization and additional compression distortions. Later, to reduce duplicate bit-rate consumption and focus on unaligned artifacts, a residual guided masking encoder is deployed to adaptively select the meaningful contexts with interpolated multi-scale dependencies. In addition, a conditional spatio-temporal decoder is proposed to eliminate location errors and artifacts instead of using MEMC coding in other methods. The experimental results on B-frame coding demonstrate that IBVC has significant improvements compared to the relevant state-of-the-art methods. Meanwhile, our approach can save bit rates compared with the random access (RA) configuration of H.266 (VTM). The code will be available at https://github.com/ruhig6/IBVC.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# Era Splitting - 決定木に対する不変学習

Era Splitting -- Invariant Learning for Decision Trees ( http://arxiv.org/abs/2309.14496v4 )

ライセンス: Link先を確認
Timothy DeLise, (参考訳) 実生活における機械学習の問題は、ある時間から別の時間、あるいはある場所から別の場所へのデータの分散シフトを示す。 この行動は、従来の経験的リスク最小化パラダイムの範囲を超えており、これは時間と場所をまたいだデータの分散を前提としている。 アウト・オブ・ディストリビューション(OOD)の一般化は、環境情報や時代的な情報をアルゴリズムに組み込んだ新しい理論とアルゴリズムによって、この現実に対処する。 これまでのところ、ほとんどの研究は線形モデルやニューラルネットワークに焦点を当てている。 本研究では,決定木に対する2つの新たな分割基準を開発し,OOD一般化研究のアイデアを決定木モデル,すなわち勾配促進決定木(GBDT)に適用する。 新しい分割基準では、データに関連付けられた時代的情報を使用して、データ内のすべての不整合時代において最適なツリーベースのモデルを成長させます。 本稿では,2つの新たな分割基準を定義し,理論的に分析する。 有効性は、単純な合成から複雑な実世界の応用まで、4つの実験で試験される。 特に、金融市場におけるOODドメイン適応問題では、新しいモデルがNumeraiデータセット上で、最先端のGBDTモデルより優れています。 新しい基準はScikit-Learnコードベースに組み込まれ、オンラインで無料で利用できる。

Real-life machine learning problems exhibit distributional shifts in the data from one time to another or from one place to another. This behavior is beyond the scope of the traditional empirical risk minimization paradigm, which assumes i.i.d. distribution of data over time and across locations. The emerging field of out-of-distribution (OOD) generalization addresses this reality with new theory and algorithms which incorporate environmental, or era-wise information into the algorithms. So far, most research has been focused on linear models and/or neural networks. In this research we develop two new splitting criteria for decision trees, which allow us to apply ideas from OOD generalization research to decision tree models, namely, gradient boosting decision trees (GBDT). The new splitting criteria use era-wise information associated with the data to grow tree-based models that are optimal across all disjoint eras in the data, instead of optimal over the entire data set pooled together, which is the default setting. In this paper, two new splitting criteria are defined and analyzed theoretically. Effectiveness is tested on four experiments, ranging from simple, synthetic to complex, real-world applications. In particular we cast the OOD domain-adaptation problem in the context of financial markets, where the new models out-perform state-of-the-art GBDT models on the Numerai data set. The new criteria are incorporated into the Scikit-Learn code base and made freely available online.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# T5APR:チェックポイントアンサンブルによる言語間の自動プログラム修復の強化

T5APR: Empowering Automated Program Repair across Languages through Checkpoint Ensemble ( http://arxiv.org/abs/2309.15742v2 )

ライセンス: Link先を確認
Reza Gharibi, Mohammad Hadi Sadreddini, Seyed Mostafa Fakhrahmad, (参考訳) 近年、ディープラーニング技術を用いた自動プログラム修復(APR)が重要な研究領域となり、ソフトウェアの信頼性と保守性を向上させるバグ修正パッチを自動生成することを目指している。 しかし、既存のほとんどの手法は単一の言語をターゲットにするか、多言語モデルを訓練するために高い計算資源を必要とする。 本稿では,T5APRを提案する。T5APRは,複数のプログラミング言語にまたがるバグ修正のための統一的なソリューションを提供するニューラルプログラム修復手法である。 T5APRは、トレーニング済みの強力なテキスト-テキスト変換モデルであるCodeT5を活用し、パッチレコメンデーションを改善するためにチェックポイントアンサンブル戦略を採用している。 我々は、4つのプログラミング言語(Java、Python、C、JavaScript)でよく知られた6つのベンチマークを総合的に評価し、T5APRの最先端技術との競争性を実証した。 T5APRは1,985のバグを正しく修正する。 我々は、異なる手法間の正確なパッチランキングを比較するなど、詳細な分析を行うことにより、アプローチの有効性をさらに支援する。 本研究は,実世界の応用におけるT5APRの可能性を示し,APR分野における多言語アプローチの重要性を強調した。

Automated program repair (APR) using deep learning techniques has become an important area of research in recent years, aiming to automatically generate bug-fixing patches that can improve software reliability and maintainability. However, most existing methods either target a single language or require high computational resources to train multilingual models. In this paper, we propose T5APR, a novel neural program repair approach that provides a unified solution for bug fixing across multiple programming languages. T5APR leverages CodeT5, a powerful pre-trained text-to-text transformer model, and adopts a checkpoint ensemble strategy to improve patch recommendation. We conduct comprehensive evaluations on six well-known benchmarks in four programming languages (Java, Python, C, JavaScript), demonstrating T5APR's competitiveness against state-of-the-art techniques. T5APR correctly fixes 1,985 bugs, including 1,442 bugs that none of the compared techniques has fixed. We further support the effectiveness of our approach by conducting detailed analyses, such as comparing the correct patch ranking among different techniques. The findings of this study demonstrate the potential of T5APR for use in real-world applications and highlight the importance of multilingual approaches in the field of APR.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# DyVal: タスクの推論のための大規模言語モデルの動的評価

DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks ( http://arxiv.org/abs/2309.17167v3 )

ライセンス: Link先を確認
Kaijie Zhu, Jiaao Chen, Jindong Wang, Neil Zhenqiang Gong, Diyi Yang, Xing Xie, (参考訳) 大規模言語モデル (LLM) は様々な評価ベンチマークで顕著な性能を達成した。 しかし、膨大な量のトレーニングコーパスにおいて、潜在的なデータ汚染に関する懸念が持ち上がっている。 さらに、現在のベンチマークの静的な性質と固定された複雑さは、LLMの進行能力を不適切に評価することができる。 本稿では,LLMの動的評価のための汎用かつ柔軟なプロトコルであるDyValを紹介する。 本フレームワークでは,有向非巡回グラフの構造的利点を活用して,制御可能な複素量を持つ評価サンプルを動的に生成することにより,グラフインフォームドDyValを構築する。 DyValは、数学、論理的推論、アルゴリズム問題を含む推論タスクに関する挑戦的な評価セットを生成する。 Flan-T5-large から GPT-3.5-Turbo および GPT-4 まで様々な LLM の評価を行った。 実験により, 複雑度が異なるDyVal生成評価試料では, LLMが低下し, 動的評価の重要性が示された。 また、異なるプロンプト手法の障害事例と結果も分析する。 さらに、DyValの生成したサンプルは評価セットだけではなく、既存のベンチマーク上でのLCMの性能向上のための微調整に役立つデータでもある。 我々はDyValが将来のLCMの評価研究に光を当てられることを願っている。 コードは、https://github.com/microsoft/promptbench.comで入手できる。

Large language models (LLMs) have achieved remarkable performance in various evaluation benchmarks. However, concerns are raised about potential data contamination in their considerable volume of training corpus. Moreover, the static nature and fixed complexity of current benchmarks may inadequately gauge the advancing capabilities of LLMs. In this paper, we introduce DyVal, a general and flexible protocol for dynamic evaluation of LLMs. Based on our framework, we build graph-informed DyVal by leveraging the structural advantage of directed acyclic graphs to dynamically generate evaluation samples with controllable complexities. DyVal generates challenging evaluation sets on reasoning tasks including mathematics, logical reasoning, and algorithm problems. We evaluate various LLMs ranging from Flan-T5-large to GPT-3.5-Turbo and GPT-4. Experiments show that LLMs perform worse in DyVal-generated evaluation samples with different complexities, highlighting the significance of dynamic evaluation. We also analyze the failure cases and results of different prompting methods. Moreover, DyVal-generated samples are not only evaluation sets, but also helpful data for fine-tuning to improve the performance of LLMs on existing benchmarks. We hope that DyVal can shed light on future evaluation research of LLMs. Code is available at: https://github.com/microsoft/promptbench.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# TextField3D: ノイズの多いテキストフィールドによるオープン語彙3D生成の実現を目指して

TextField3D: Towards Enhancing Open-Vocabulary 3D Generation with Noisy Text Fields ( http://arxiv.org/abs/2309.17175v2 )

ライセンス: Link先を確認
Tianyu Huang, Yihan Zeng, Bowen Dong, Hang Xu, Songcen Xu, Rynson W. H. Lau, Wangmeng Zuo, (参考訳) 最近の研究はテキスト3Dガイダンスに基づいて3D表現を明示的に学習している。 しかし、制限されたテキスト3Dデータは、世代ごとの語彙スケールとテキストコントロールを制限する。 ジェネレータは特定のテキストプロンプトのステレオタイプ概念に容易に陥り、オープン語彙生成能力を失う。 この問題に対処するために,条件付き3D生成モデルであるTextField3Dを導入する。 具体的には、テキストプロンプトを直接入力として使用するのではなく、与えられたテキストプロンプトの潜在空間、すなわちノイズテキストフィールド(NTF)に動的ノイズを注入することを提案する。 このようにして、NTFによって拡張されるテキスト潜在空間の適切な範囲に、限られた3Dデータをマッピングすることができる。 この目的のために、NTFGenモジュールはノイズ場における一般的なテキスト潜在コードをモデル化するために提案される。 一方、NTFBindモジュールは、ビュー不変の遅延符号をノイズ場に整列させ、さらに画像条件3D生成をサポートする。 テクスチャとテクスチャの両方において条件生成を導くため、テキスト3D判別器とテキスト2.5D判別器でマルチモーダル識別を構築する。 以前の方法と比較して、TextField3Dには3つのメリットがある。 1)大語彙 2)テキストの一貫性,および 3)低レイテンシ。 広汎な実験により,本手法が開語彙3次元生成能力を実現することを示す。

Recent works learn 3D representation explicitly under text-3D guidance. However, limited text-3D data restricts the vocabulary scale and text control of generations. Generators may easily fall into a stereotype concept for certain text prompts, thus losing open-vocabulary generation ability. To tackle this issue, we introduce a conditional 3D generative model, namely TextField3D. Specifically, rather than using the text prompts as input directly, we suggest to inject dynamic noise into the latent space of given text prompts, i.e., Noisy Text Fields (NTFs). In this way, limited 3D data can be mapped to the appropriate range of textual latent space that is expanded by NTFs. To this end, an NTFGen module is proposed to model general text latent code in noisy fields. Meanwhile, an NTFBind module is proposed to align view-invariant image latent code to noisy fields, further supporting image-conditional 3D generation. To guide the conditional generation in both geometry and texture, multi-modal discrimination is constructed with a text-3D discriminator and a text-2.5D discriminator. Compared to previous methods, TextField3D includes three merits: 1) large vocabulary, 2) text consistency, and 3) low latency. Extensive experiments demonstrate that our method achieves a potential open-vocabulary 3D generation capability.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# PRIME:障害モード抽出における解釈可能性の優先順位付け

PRIME: Prioritizing Interpretability in Failure Mode Extraction ( http://arxiv.org/abs/2310.00164v2 )

ライセンス: Link先を確認
Keivan Rezaei, Mehrdad Saberi, Mazda Moayeri, Soheil Feizi, (参考訳) 本研究では,訓練された画像分類モデルにおいて,故障モードに対する人間の理解可能な記述を提供することの課題について検討する。 既存の研究は、まず不正確な分類されたサンプルのクラスタ(または方向)を潜在空間で識別し、人間に理解可能なテキスト記述を提供することによってこの問題に対処する。 テキストの記述が特定された障害モードとうまく一致しないケースもあるが、これは部分的には、障害モードの共有解釈可能な属性が機能領域のクラスタリングを使って取得できないためである。 これらの欠点を改善するために、我々は、まずデータセット内の画像の人間の理解可能な概念(タグ)を取得し、これらのタグの組み合わせの有無に基づいてモデルの振る舞いを分析することから、この問題における解釈可能性の優先順位付けを行う新しいアプローチを提案する。 また、障害モードを記述するタグが最小限の集合を形成し、冗長でノイズの多い記述を避けることも保証している。 提案手法は,異なるデータセットに対するいくつかの実験を通じて,障害モードの同定に成功し,それに関連する高品質なテキスト記述を生成する。 これらの結果は、モデルの失敗を理解する上での解釈可能性の優先順位付けの重要性を強調している。

In this work, we study the challenge of providing human-understandable descriptions for failure modes in trained image classification models. Existing works address this problem by first identifying clusters (or directions) of incorrectly classified samples in a latent space and then aiming to provide human-understandable text descriptions for them. We observe that in some cases, describing text does not match well with identified failure modes, partially owing to the fact that shared interpretable attributes of failure modes may not be captured using clustering in the feature space. To improve on these shortcomings, we propose a novel approach that prioritizes interpretability in this problem: we start by obtaining human-understandable concepts (tags) of images in the dataset and then analyze the model's behavior based on the presence or absence of combinations of these tags. Our method also ensures that the tags describing a failure mode form a minimal set, avoiding redundant and noisy descriptions. Through several experiments on different datasets, we show that our method successfully identifies failure modes and generates high-quality text descriptions associated with them. These results highlight the importance of prioritizing interpretability in understanding model failures.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# InstructCV:ビジョンジェネラリストとしてのインストラクション付きテキスト-画像拡散モデル

InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists ( http://arxiv.org/abs/2310.00390v2 )

ライセンス: Link先を確認
Yulu Gan, Sungwoo Park, Alexander Schubert, Anthony Philippakis, Ahmed M. Alaa, (参考訳) 生成拡散モデルの最近の進歩は、印象的な品質を持つ現実的で多様な画像のテキスト制御合成を可能にしている。 これらの顕著な進歩にもかかわらず、コンピュータビジョンにおけるテキストから画像への生成モデルの適用は依然として限られている。 これらのタスクの現在の事実上のアプローチは、そのタスクに合わせたモデルアーキテクチャと損失関数を設計することである。 本稿では,タスク固有の設計選択を抽象化し,自然言語命令に従うことでタスク実行を可能にする,コンピュータビジョンタスクのための統一型言語インタフェースを開発する。 我々のアプローチは、複数のコンピュータビジョンタスクをテキスト・画像生成問題としてキャストすることである。 ここでは、テキストはタスクを記述する命令を表し、その結果のイメージは視覚的に符号化されたタスク出力である。 モデルのトレーニングには、セグメンテーション、オブジェクト検出、深さ推定、分類など、さまざまなタスクをカバーするコンピュータビジョンデータセットをプールする。 そこで我々は,各画像上で実行すべき特定のタスクを伝達するテンプレートのプロンプトを,大規模言語モデルで表現し,このプロセスを通じて,入力および出力画像と注釈付き命令とを組み合わせたマルチモーダルおよびマルチタスクのトレーニングデータセットを作成する。 InstructPix2Pixアーキテクチャに従うと、構築したデータセットを用いて、命令チューニングをテキストから画像への拡散モデルに適用し、その機能を生成モデルから命令誘導型マルチタスク視覚学習者へ誘導する。 InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能することを示した。 さらに、データやカテゴリ、ユーザインストラクションを表示できないような、魅力的な一般化機能も備えています。

Recent advances in generative diffusion models have enabled text-controlled synthesis of realistic and diverse images with impressive quality. Despite these remarkable advances, the application of text-to-image generative models in computer vision for standard visual recognition tasks remains limited. The current de facto approach for these tasks is to design model architectures and loss functions that are tailored to the task at hand. In this paper, we develop a unified language interface for computer vision tasks that abstracts away task-specific design choices and enables task execution by following natural language instructions. Our approach involves casting multiple computer vision tasks as text-to-image generation problems. Here, the text represents an instruction describing the task, and the resulting image is a visually-encoded task output. To train our model, we pool commonly-used computer vision datasets covering a range of tasks, including segmentation, object detection, depth estimation, and classification. We then use a large language model to paraphrase prompt templates that convey the specific tasks to be conducted on each image, and through this process, we create a multi-modal and multi-task training dataset comprising input and output images along with annotated instructions. Following the InstructPix2Pix architecture, we apply instruction-tuning to a text-to-image diffusion model using our constructed dataset, steering its functionality from a generative model to an instruction-guided multi-task vision learner. Experiments demonstrate that our model, dubbed InstructCV, performs competitively compared to other generalist and task-specific vision models. Moreover, it exhibits compelling generalization capabilities to unseen data, categories, and user instructions.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# 合併、そして圧縮-効率の良いSMoEをルーティング政策のヒントでデミスティフィケート

Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy ( http://arxiv.org/abs/2310.01334v2 )

ライセンス: Link先を確認
Pingzhi Li, Zhenyu Zhang, Prateek Yadav, Yi-Lin Sung, Yu Cheng, Mohit Bansal, Tianlong Chen, (参考訳) わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。 (a)高メモリ使用は、ネットワーク層が複数のコピーに重複していることによるものであり、かつ、 b) 共通学習に基づくルーティングポリシーが表現的崩壊に苦しむ専門家の冗長性 したがって、バニラSMoEモデルはメモリ非効率であり、特にリソース制約のある下流シナリオではスケールできない。 本稿では,専門家情報を統合することで,コンパクトなSMoEモデルを構築できるだろうか? 複数の専門家を少ないがより知識のある専門家にマージする最良のレシピは何ですか? 実験により,従来のモデルマージ手法では,SMoEのエキスパートマージには有効ではないことが明らかとなった。 潜在的な理由は、(1) 過剰な情報が専門家を覆い隠すこと、(2) 各専門家に適切なニューロンの置換が欠如していることである。 そこで我々は,M-SMoEを提案する。このM-SMoEは,ルーティング統計を利用して,エキスパートのマージをガイドする。 具体的には、専門家のためのニューロン置換アライメントから始まり、その後、支配的な専門家とその「グループメンバー」が形成される。最後に、各専門家グループは、それぞれの専門家のアクティベーション周波数をマージのウェイトとして利用することにより、重要でない専門家の影響を減らし、単一の専門家にマージされる。 さらに,本提案手法は,合併した専門家の重み空間における低次元性を促進し,自然に圧縮の道を開くことを観察した。 したがって、最終手法であるMC-SMoE(Merge, then Compress SMoE)は、マージされた専門家を低ランクで構造的なスパースな代替品に分解する。 MC-SMoEの有効性を8つのベンチマークで検証した。 例えば、私たちのMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能の低下はほとんどありません。

Sparsely activated Mixture-of-Experts (SMoE) has shown promise to scale up the learning capacity of neural networks, however, they have issues like (a) High Memory Usage, due to duplication of the network layers into multiple copies as experts; and (b) Redundancy in Experts, as common learning-based routing policies suffer from representational collapse. Therefore, vanilla SMoE models are memory inefficient and non-scalable, especially for resource-constrained downstream scenarios. In this paper, we ask: Can we craft a compact SMoE model by consolidating expert information? What is the best recipe to merge multiple experts into fewer but more knowledgeable experts? Our pilot investigation reveals that conventional model merging methods fail to be effective in such expert merging for SMoE. The potential reasons are: (1) redundant information overshadows critical experts; (2) appropriate neuron permutation for each expert is missing to bring all of them in alignment. To address this, we propose M-SMoE, which leverages routing statistics to guide expert merging. Specifically, it starts with neuron permutation alignment for experts; then, dominant experts and their "group members" are formed; lastly, every expert group is merged into a single expert by utilizing each expert's activation frequency as their weight for merging, thus diminishing the impact of insignificant experts. Moreover, we observed that our proposed merging promotes a low dimensionality in the merged expert's weight space, naturally paving the way for additional compression. Hence, our final method, MC-SMoE (i.e., Merge, then Compress SMoE), further decomposes the merged experts into low-rank and structural sparse alternatives. Extensive experiments across 8 benchmarks validate the effectiveness of MC-SMoE. For instance, our MC-SMoE achieves up to 80% memory and a 20% FLOPs reduction, with virtually no loss in performance.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# DriveGPT4:大規模言語モデルによるエンドツーエンド自律運転の解釈

DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model ( http://arxiv.org/abs/2310.01412v4 )

ライセンス: Link先を確認
Zhenhua Xu, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kwan-Yee. K. Wong, Zhenguo Li, Hengshuang Zhao, (参考訳) マルチモーダル大言語モデル(MLLM)は、画像やビデオを含む非テキストデータを扱う能力と推論能力から、研究コミュニティにおいて顕著な関心領域として浮上している。 本研究は, MLLMの自律運転領域への応用を, LLMに基づく新しい解釈可能なエンド・ツー・エンド自動運転システムであるDriveGPT4の導入により拡張することを目的とする。 複数フレームのビデオ入力とテキストクエリを処理できるDriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。 さらに、DriveGPT4はエンドツーエンドで低レベル車両制御信号を予測する。 これらの高度な能力は、特に自動運転アプリケーションに適した、目覚ましくないビジュアルインストラクションチューニングデータセットの利用と、ミックスファインタニングのトレーニング戦略によって達成される。 DriveGPT4は、解釈可能なエンドツーエンドの自動運転ソリューションの開発にLLMを活用する先駆的な取り組みである。 BDD-Xデータセットで行った評価では,DriveGPT4の質的,定量的な性能が向上した。 さらに、ドメイン固有のデータの微調整により、DriveGPT4は、GPT4-Vと対照的に自律走行グラウンドの点において、近いあるいは改善された結果を得ることができる。 コードとデータセットが公開される。

Multimodal large language models (MLLMs) have emerged as a prominent area of interest within the research community, given their proficiency in handling and reasoning with non-textual data, including images and videos. This study seeks to extend the application of MLLMs to the realm of autonomous driving by introducing DriveGPT4, a novel interpretable end-to-end autonomous driving system based on LLMs. Capable of processing multi-frame video inputs and textual queries, DriveGPT4 facilitates the interpretation of vehicle actions, offers pertinent reasoning, and effectively addresses a diverse range of questions posed by users. Furthermore, DriveGPT4 predicts low-level vehicle control signals in an end-to-end fashion. These advanced capabilities are achieved through the utilization of a bespoke visual instruction tuning dataset, specifically tailored for autonomous driving applications, in conjunction with a mix-finetuning training strategy. DriveGPT4 represents the pioneering effort to leverage LLMs for the development of an interpretable end-to-end autonomous driving solution. Evaluations conducted on the BDD-X dataset showcase the superior qualitative and quantitative performance of DriveGPT4. Additionally, the fine-tuning of domain-specific data enables DriveGPT4 to yield close or even improved results in terms of autonomous driving grounding when contrasted with GPT4-V. The code and dataset will be publicly available.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# GPT-4を用いたグラフニューラルアーキテクチャ探索

Graph Neural Architecture Search with GPT-4 ( http://arxiv.org/abs/2310.01436v2 )

ライセンス: Link先を確認
Haishuai Wang, Yang Gao, Xin Zheng, Peng Zhang, Hongyang Chen, Jiajun Bu, Philip S. Yu, (参考訳) Graph Neural Architecture Search (GNAS)は、グラフニューラルネットワークを自動設計する有望な結果を示している。 しかし、GNASは検索空間と検索戦略を設計するために、豊富なドメイン知識を持つ人的労働力を必要とする。 本稿では,GPT-4をGNASに統合し,GPT-4に基づくグラフニューラルネットワーク探索手法を提案する。 本手法の基本的な考え方は,GPT-4をグラフニューラルアーキテクチャの生成タスクへと導くための新しいプロンプトを設計することである。 このプロンプトは、GNASの検索空間、検索戦略、検索フィードバックの記述から成り立っている。 プロンプトでGPT-4を反復実行することにより、GPT4GNASは高速収束でより正確なグラフニューラルネットワークを生成する。 実験結果から, GPT-4をGNASに埋め込むことは, 最先端のGNAS法よりも優れていることがわかった。

Graph Neural Architecture Search (GNAS) has shown promising results in automatically designing graph neural networks. However, GNAS still requires intensive human labor with rich domain knowledge to design the search space and search strategy. In this paper, we integrate GPT-4 into GNAS and propose a new GPT-4 based Graph Neural Architecture Search method (GPT4GNAS for short). The basic idea of our method is to design a new class of prompts for GPT-4 to guide GPT-4 toward the generative task of graph neural architectures. The prompts consist of descriptions of the search space, search strategy, and search feedback of GNAS. By iteratively running GPT-4 with the prompts, GPT4GNAS generates more accurate graph neural networks with fast convergence. Experimental results show that embedding GPT-4 into GNAS outperforms the state-of-the-art GNAS methods.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# GNNX-BENCH: 詳細なベンチマークを通じて、摂動に基づくGNN Explainerの有用性を強調

GNNX-BENCH: Unravelling the Utility of Perturbation-based GNN Explainers through In-depth Benchmarking ( http://arxiv.org/abs/2310.01794v3 )

ライセンス: Link先を確認
Mert Kosan, Samidha Verma, Burouj Armgaan, Khushbu Pahwa, Ambuj Singh, Sourav Medya, Sayan Ranu, (参考訳) GNNの内部動作に光を放つための多くの説明可能性法が提案されている。 提案した全てのアルゴリズムに経験的評価が組み込まれているにもかかわらず、これらの評価の疑わしい側面は多様性を欠いている。 その結果,非凸損失面の異なるGNNアーキテクチャ,ノイズ,確率性,領域制約下での実現可能性など,GNNに関するさまざまな説明可能性について,反ファクト的推論器の比較分析,GNNアーキテクチャの安定性,非凸損失面における確率性,ドメイン制約中の実現可能性など,公式な調査は行われていない。 そこで我々は, GNNの摂動に基づく説明可能性手法のベンチマーク研究を行い, 幅広い説明可能性手法を体系的に評価し, 比較することを目的とした。 本研究の要点として,ノイズの存在下での優れた有効性と安定性を示すパレート最適手法を同定した。 いずれにせよ,本研究では,すべてのアルゴリズムがノイズの多いデータに直面すると,安定性の問題によって影響を受けることが明らかとなった。 さらに, 現世代の対実的説明者は, ドメイン固有の考慮事項によって符号化されたトポロジ的制約の違反により, 実現不可能な言説をしばしば提供できないことが判明した。 総合的に、このベンチマーク研究は、GNNの分野におけるステークホルダーに、最先端の説明可能性方法、さらなる拡張のための潜在的研究問題、そして実世界のシナリオにおける彼らの応用の意味を包括的に理解させる。

Numerous explainability methods have been proposed to shed light on the inner workings of GNNs. Despite the inclusion of empirical evaluations in all the proposed algorithms, the interrogative aspects of these evaluations lack diversity. As a result, various facets of explainability pertaining to GNNs, such as a comparative analysis of counterfactual reasoners, their stability to variational factors such as different GNN architectures, noise, stochasticity in non-convex loss surfaces, feasibility amidst domain constraints, and so forth, have yet to be formally investigated. Motivated by this need, we present a benchmarking study on perturbation-based explainability methods for GNNs, aiming to systematically evaluate and compare a wide range of explainability techniques. Among the key findings of our study, we identify the Pareto-optimal methods that exhibit superior efficacy and stability in the presence of noise. Nonetheless, our study reveals that all algorithms are affected by stability issues when faced with noisy data. Furthermore, we have established that the current generation of counterfactual explainers often fails to provide feasible recourses due to violations of topological constraints encoded by domain-specific considerations. Overall, this benchmarking study empowers stakeholders in the field of GNNs with a comprehensive understanding of the state-of-the-art explainability methods, potential research problems for further enhancement, and the implications of their application in real-world scenarios.
翻訳日:2024-03-16 02:42:46 公開日:2024-03-14
# 大規模言語モデルでは、自己修正型推論はまだできない

Large Language Models Cannot Self-Correct Reasoning Yet ( http://arxiv.org/abs/2310.01798v2 )

ライセンス: Link先を確認
Jie Huang, Xinyun Chen, Swaroop Mishra, Huaixiu Steven Zheng, Adams Wei Yu, Xinying Song, Denny Zhou, (参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションにまたがる非並列テキスト生成機能を備えた画期的な技術として登場した。 それでも、生成されたコンテンツの正確性や適切性については懸念が続いている。 現代の方法論である自己補正がこれらの問題に対する対策として提案されている。 この前提に基づいて,本論文はLLMにおける自己補正の役割と効果を批判的に検討し,その真の可能性と限界について光を当てる。 我々の研究の中心は、内在的自己補正の概念であり、LLMは、外部からのフィードバックの欠如なしに、その固有の能力のみに基づいて初期応答を補正しようと試みる。 推論の文脈では、LLMは外部からのフィードバックなしに自己修正に苦慮しており、時には自己修正後にその性能が低下することさえある。 これらの知見から,本分野での今後の研究と実践的応用について提案する。

Large Language Models (LLMs) have emerged as a groundbreaking technology with their unparalleled text generation capabilities across various applications. Nevertheless, concerns persist regarding the accuracy and appropriateness of their generated content. A contemporary methodology, self-correction, has been proposed as a remedy to these issues. Building upon this premise, this paper critically examines the role and efficacy of self-correction within LLMs, shedding light on its true potential and limitations. Central to our investigation is the notion of intrinsic self-correction, whereby an LLM attempts to correct its initial responses based solely on its inherent capabilities, without the crutch of external feedback. In the context of reasoning, our research indicates that LLMs struggle to self-correct their responses without external feedback, and at times, their performance even degrades after self-correction. Drawing from these insights, we offer suggestions for future research and practical applications in this field.
翻訳日:2024-03-16 02:32:48 公開日:2024-03-14
# 最大ログ型オブジェクトの残差を用いた確率モデルの安定トレーニング

Stable Training of Probabilistic Models Using the Leave-One-Out Maximum Log-Likelihood Objective ( http://arxiv.org/abs/2310.03556v2 )

ライセンス: Link先を確認
Kutay Bölat, Simon H. Tindemans, Peter Palensky, (参考訳) 電力系統の運用と計画プロセスの確率論的モデリングは、十分な大規模なデータセットを必要とするデータ駆動方式に依存している。 歴史的データがこれを欠いている場合、データ品質を評価し、必要に応じてより多くのデータを生成する確率分布として、基礎となるデータ生成メカニズムをモデル化することが望まれる。 カーネル密度推定(KDE)に基づくモデルは、このタスクの一般的な選択であるが、密度の異なるデータ領域に適応できない。 本稿では、適応KDEモデルを用いてこれを回避し、モデル内の各カーネルが個別の帯域幅を持つようにする。 LOO-MLL(Leave-out-out maximum log-likelihood)基準は、通常のMLL基準がもたらす特異解を回避するために提案され、LOO-MLLがこれらを防ぐことが証明されている。 この保証されたロバスト性に基づいて、モデルはカーネルの調整可能な重みによって拡張される。 さらに、最適化速度を確実に高速化するために、改良された期待最大化アルゴリズムが使用される。 提案手法とモデルの性能は,異なる統計的テストとガウス混合モデルとの比較により,2つのパワーシステムデータセットに表される。 その結果,提案モデルには特異性防止の保証に加えて,有望な性能が期待できることがわかった。

Probabilistic modelling of power systems operation and planning processes depends on data-driven methods, which require sufficiently large datasets. When historical data lacks this, it is desired to model the underlying data generation mechanism as a probability distribution to assess the data quality and generate more data, if needed. Kernel density estimation (KDE) based models are popular choices for this task, but they fail to adapt to data regions with varying densities. In this paper, an adaptive KDE model is employed to circumvent this, where each kernel in the model has an individual bandwidth. The leave-one-out maximum log-likelihood (LOO-MLL) criterion is proposed to prevent the singular solutions that the regular MLL criterion gives rise to, and it is proven that LOO-MLL prevents these. Relying on this guaranteed robustness, the model is extended by adjustable weights for the kernels. In addition, a modified expectation-maximization algorithm is employed to accelerate the optimization speed reliably. The performance of the proposed method and models are exhibited on two power systems datasets using different statistical tests and by comparison with Gaussian mixture models. Results show that the proposed models have promising performance, in addition to their singularity prevention guarantees.
翻訳日:2024-03-16 02:32:48 公開日:2024-03-14
# 教師なしドメイン適応型夜間セマンティックセマンティックセマンティックセマンティックセグメンテーションのための動的および小さな物体の微細化に向けて

Towards Dynamic and Small Objects Refinement for Unsupervised Domain Adaptative Nighttime Semantic Segmentation ( http://arxiv.org/abs/2310.04747v2 )

ライセンス: Link先を確認
Jingyi Pan, Sihang Li, Yucheng Chen, Jinjing Zhu, Lin Wang, (参考訳) 夜間セマンティックセグメンテーションは、不適切な照明条件やよく注釈されたデータセットの欠如によってしばしば困難に遭遇する自律運転のような実践的な応用において重要な役割を担っている。 さらに、日中のデータセットで訓練されたセマンティックセグメンテーションモデルは、夜間の状況に効果的に一般化することの難しさに直面することが多い。 非教師なしドメイン適応(UDA)は、これらの課題に対処する可能性を示し、夜間のセマンティックセグメンテーションにおいて顕著な結果を得た。 しかし、既存の方法は依然として限界に直面している。 1)複雑な夜間環境への一般化に苦慮する様式の移転・啓蒙モデルへの依存 2) 車両やポールのような動的で小さな物体の無知は, 他領域から直接の学習が困難である。 本稿では,夜間セマンティックセマンティックセグメンテーションのための動的および小型オブジェクトのラベルレベルと特徴レベルの両方を改良する新しいUDA手法を提案する。 まず、夜間ドメインをターゲットとした動的・小型オブジェクトの知識を補完する動的・小型オブジェクトリファインメントモジュールを提案する。 これらの動的および小さなオブジェクトは、通常、未公開の条件下では文脈に一貫性がない。 そこで我々は,異なるドメインから同一クラスの特徴とプロトタイプの対比学習をデプロイし,動的および小オブジェクトのカテゴリを再重み付けすることで,ドメインギャップを低減する機能プロトタイプアライメントモジュールを設計する。 3つのベンチマークデータセットの大規模な実験により、我々の手法は夜間セグメンテーションの大きなマージンで先行技術より優れていることが示された。 プロジェクトページ: https://rorisis.github.io/DSRNSS/。

Nighttime semantic segmentation plays a crucial role in practical applications, such as autonomous driving, where it frequently encounters difficulties caused by inadequate illumination conditions and the absence of well-annotated datasets. Moreover, semantic segmentation models trained on daytime datasets often face difficulties in generalizing effectively to nighttime conditions. Unsupervised domain adaptation (UDA) has shown the potential to address the challenges and achieved remarkable results for nighttime semantic segmentation. However, existing methods still face limitations in 1) their reliance on style transfer or relighting models, which struggle to generalize to complex nighttime environments, and 2) their ignorance of dynamic and small objects like vehicles and poles, which are difficult to be directly learned from other domains. This paper proposes a novel UDA method that refines both label and feature levels for dynamic and small objects for nighttime semantic segmentation. First, we propose a dynamic and small object refinement module to complement the knowledge of dynamic and small objects from the source domain to target the nighttime domain. These dynamic and small objects are normally context-inconsistent in under-exposed conditions. Then, we design a feature prototype alignment module to reduce the domain gap by deploying contrastive learning between features and prototypes of the same class from different domains, while re-weighting the categories of dynamic and small objects. Extensive experiments on three benchmark datasets demonstrate that our method outperforms prior arts by a large margin for nighttime segmentation. Project page: https://rorisis.github.io/DSRNSS/.
翻訳日:2024-03-16 02:32:48 公開日:2024-03-14
# 文脈ルールと役割相関を利用した文書レベルのイベント調停抽出

Utilizing Contextual Clues and Role Correlations for Enhancing Document-level Event Argument Extraction ( http://arxiv.org/abs/2310.05116v3 )

ライセンス: Link先を確認
Wanlong Liu, Dingyi Zeng, Li Zhou, Yichen Xiao, Weishan Kong, Malu Zhang, Shaohuan Cheng, Hongyang Zhao, Wenyu Chen, (参考訳) 文書レベルのイベント引数抽出は,情報抽出分野において重要な課題である。 現在の主流のアプローチは、主にイベントトリガとその引数間の情報インタラクションに焦点を当てており、コンテキストインタラクションの不十分さとイベント相関の無知という2つの制限に直面しています。 本稿では,CARLG (Contextual Aggregation of clues and Role-based Latent Guidance) という,CCA (Contextual Clues Aggregation) とRLIG (Role-based Latent Information Guidance) の2つの革新的なコンポーネントを紹介する。 CCAモジュールは、事前訓練されたエンコーダから得られた注意重みを利用して、より広いコンテキスト情報を適応的に同化し、RLIGモジュールはイベントロール間の意味的相関をキャプチャすることを目的としている。 次に、CARLGフレームワークを現在の主流EAEアプローチの2つのタイプに基づいて2つの変種にインスタンス化する。 特に、我々のCARLGフレームワークは1%未満の新しいパラメータを導入したが、性能は大幅に改善した。 RAMS、WikiEvents、MLEEデータセットにわたる総合的な実験により、CARLGの優位性が確認され、主要なベンチマークと比較してパフォーマンスと推論速度の両方において大きな優位性を示している。 さらに解析を行い,提案手法の有効性を示した。

Document-level event argument extraction is a crucial yet challenging task within the field of information extraction. Current mainstream approaches primarily focus on the information interaction between event triggers and their arguments, facing two limitations: insufficient context interaction and the ignorance of event correlations. Here, we introduce a novel framework named CARLG (Contextual Aggregation of clues and Role-based Latent Guidance), comprising two innovative components: the Contextual Clues Aggregation (CCA) and the Role-based Latent Information Guidance (RLIG). The CCA module leverages the attention weights derived from a pre-trained encoder to adaptively assimilates broader contextual information, while the RLIG module aims to capture the semantic correlations among event roles. We then instantiate the CARLG framework into two variants based on two types of current mainstream EAE approaches. Notably, our CARLG framework introduces less than 1% new parameters yet significantly improving the performance. Comprehensive experiments across the RAMS, WikiEvents, and MLEE datasets confirm the superiority of CARLG, showing significant superiority in terms of both performance and inference speed compared to major benchmarks. Further analyses demonstrate the effectiveness of the proposed modules.
翻訳日:2024-03-16 02:32:48 公開日:2024-03-14
# XAL: 説明可能なアクティブラーニングは、低リソースラーナーをより良くする

XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners ( http://arxiv.org/abs/2310.05502v2 )

ライセンス: Link先を確認
Yun Luo, Zhen Yang, Fandong Meng, Yingjie Li, Fang Guo, Qinglin Qi, Jie Zhou, Yue Zhang, (参考訳) アノテーションのために最も形式的でないデータを反復的にキュレートすることで効果的なトレーニングセットを構築することを目的としたアクティブラーニング(AL)は、低リソースタスクで広く利用されている。 分類における最も活発な学習技術は、表層パターンの過度な信頼の問題と探索の欠如に悩まされ、ラベルのないデータを選択するためのモデルの不確実性や不一致に依存している。 人間が因果情報を通じて推論し予測する認知プロセスに触発されて、我々は論理をALに統合する最初の試みを行い、低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案します。 具体的には、事前学習された双方向エンコーダの分類に加えて、事前学習された一方向デコーダを用いて説明を生成し、スコア付けする。 提案するランキング損失により、モデルと人間の推論的嗜好との整合をさらに促進する。 ラベルなしデータの選択中、エンコーダの予測不確かさとデコーダの説明スコアが最終指標として補完し、情報データを取得する。 6つのデータセットに対する大規模な実験は、XALが9つの強いベースラインに対して一貫した改善を達成していることを示している。 解析により,提案手法は,その予測に対して対応する説明を生成できることが示唆された。

Active learning (AL), which aims to construct an effective training set by iteratively curating the most formative unlabeled data for annotation, has been widely used in low-resource tasks. Most active learning techniques in classification rely on the model's uncertainty or disagreement to choose unlabeled data, suffering from the problem of over-confidence in superficial patterns and a lack of exploration. Inspired by the cognitive processes in which humans deduce and predict through causal information, we take an initial attempt towards integrating rationales into AL and propose a novel Explainable Active Learning framework (XAL) for low-resource text classification, which aims to encourage classifiers to justify their inferences and delve into unlabeled data for which they cannot provide reasonable explanations. Specifically, besides using a pre-trained bi-directional encoder for classification, we employ a pre-trained uni-directional decoder to generate and score the explanation. We further facilitate the alignment of the model with human reasoning preference through a proposed ranking loss. During the selection of unlabeled data, the predicted uncertainty of the encoder and the explanation score of the decoder complement each other as the final metric to acquire informative data. Extensive experiments on six datasets show that XAL achieves consistent improvement over 9 strong baselines. Analysis indicates that the proposed method can generate corresponding explanations for its predictions.
翻訳日:2024-03-16 02:32:48 公開日:2024-03-14
# iTransformer:逆変換器は時系列予測に有効

iTransformer: Inverted Transformers Are Effective for Time Series Forecasting ( http://arxiv.org/abs/2310.06625v4 )

ライセンス: Link先を確認
Yong Liu, Tengge Hu, Haoran Zhang, Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long, (参考訳) 線形予測モデルの最近のブームは、トランスフォーマーベースの予測器のアーキテクチャ変更に対する継続的な情熱に疑問を呈している。 これらの予測器はTransformerを利用して時系列の時間的トークンに対するグローバルな依存関係をモデル化し、各トークンは同じタイムスタンプの複数の変数によって形成される。 しかし、トランスフォーマーは、性能劣化と計算の爆発により、見返り窓が大きいシリーズの予測に挑戦する。 さらに、各時間トークンの埋め込みは、潜在的な遅延事象と異なる物理的測定を表わす複数の変数を融合させ、変数中心の表現の学習に失敗し、無意味な注意マップをもたらす可能性がある。 本研究では,Transformer コンポーネントの能力的責務を反映し,基本コンポーネントを変更することなく Transformer アーキテクチャを再利用する。 逆次元に注意とフィードフォワードのネットワークを単純に適用するiTransformerを提案する。 具体的には、各系列の時間点を多変量相関を捉えるためにアテンション機構によって利用される可変トークンに埋め込むとともに、各可変トークンに対してフィードフォワードネットワークを適用して非線形表現を学習する。 iTransformerモデルは、挑戦的な現実世界のデータセットの最先端化を実現し、Transformerファミリーをさらに強化し、パフォーマンスの向上、さまざまな変数をまたいだ一般化能力、任意のルックバックウィンドウの利用性を向上し、時系列予測の基本的なバックボーンとして優れた代替手段となる。 コードは、このリポジトリで入手できる。

The recent boom of linear forecasting models questions the ongoing passion for architectural modifications of Transformer-based forecasters. These forecasters leverage Transformers to model the global dependencies over temporal tokens of time series, with each token formed by multiple variates of the same timestamp. However, Transformers are challenged in forecasting series with larger lookback windows due to performance degradation and computation explosion. Besides, the embedding for each temporal token fuses multiple variates that represent potential delayed events and distinct physical measurements, which may fail in learning variate-centric representations and result in meaningless attention maps. In this work, we reflect on the competent duties of Transformer components and repurpose the Transformer architecture without any modification to the basic components. We propose iTransformer that simply applies the attention and feed-forward network on the inverted dimensions. Specifically, the time points of individual series are embedded into variate tokens which are utilized by the attention mechanism to capture multivariate correlations; meanwhile, the feed-forward network is applied for each variate token to learn nonlinear representations. The iTransformer model achieves state-of-the-art on challenging real-world datasets, which further empowers the Transformer family with promoted performance, generalization ability across different variates, and better utilization of arbitrary lookback windows, making it a nice alternative as the fundamental backbone of time series forecasting. Code is available at this repository: https://github.com/thuml/iTransformer.
翻訳日:2024-03-16 02:32:48 公開日:2024-03-14
# 誤りのない微分スワップ機能を有する一般化ニューラルソーティングネットワーク

Generalized Neural Sorting Networks with Error-Free Differentiable Swap Functions ( http://arxiv.org/abs/2310.07174v2 )

ライセンス: Link先を確認
Jungtaek Kim, Jeongbeen Yoon, Minsu Cho, (参考訳) ソーティングは全てのコンピュータシステムの基本的な操作であり、長年にわたって重要な研究トピックであった。 従来のソートアルゴリズムの問題定式化以外にも、より抽象的で表現力のある入力、例えば、マルチ桁画像や画像フラグメントに対するソート問題をニューラルソートネットワークを通じて検討する。 高次元入力から順序変数への写像を学習するには、ソートネットワークの微分可能性を保証する必要がある。 本稿では、微分可能スワップ関数による軟化誤差を定義し、非減少条件と微分可能性を有するエラーフリースワップ関数を開発する。 さらに、マルチヘッドアテンションを持つ変圧器ネットワークを用いて、入力間の依存性を捕捉し、そのモデル容量を自己注意で活用する。 多様なソートベンチマーク実験により,本手法はベースライン法に匹敵する性能を示した。

Sorting is a fundamental operation of all computer systems, having been a long-standing significant research topic. Beyond the problem formulation of traditional sorting algorithms, we consider sorting problems for more abstract yet expressive inputs, e.g., multi-digit images and image fragments, through a neural sorting network. To learn a mapping from a high-dimensional input to an ordinal variable, the differentiability of sorting networks needs to be guaranteed. In this paper we define a softening error by a differentiable swap function, and develop an error-free swap function that holds a non-decreasing condition and differentiability. Furthermore, a permutation-equivariant Transformer network with multi-head attention is adopted to capture dependency between given inputs and also leverage its model capacity with self-attention. Experiments on diverse sorting benchmarks show that our methods perform better than or comparable to baseline methods.
翻訳日:2024-03-16 02:32:48 公開日:2024-03-14
# CacheGen:KVキャッシュストリーミングによる言語モデルアプリケーションの高速コンテキストローディング

CacheGen: Fast Context Loading for Language Model Applications via KV Cache Streaming ( http://arxiv.org/abs/2310.07240v3 )

ライセンス: Link先を確認
Yuhan Liu, Hanchen Li, Yihua Cheng, Siddhant Ray, Yuyang Huang, Qizheng Zhang, Kuntai Du, Jiayi Yao, Shan Lu, Ganesh Ananthanarayanan, Michael Maire, Henry Hoffmann, Ari Holtzman, Junchen Jiang, (参考訳) 大規模言語モデル(LLM)が複雑なタスクをこなすにつれて、その入力はドメイン知識やユーザ固有の情報を含む長いコンテキストで補完される。 しかし、長いコンテキストを使うことは、LLMが処理するまで何も生成できないため、応答性のあるLLMシステムにとって課題となる。 異なる入力間でコンテキストのKVキャッシュを再利用することで、コンテキスト処理の遅延を低減することができるが、ネットワーク上の大きなテンソルを含むKVキャッシュを取得すると、ネットワーク上の追加の遅延が発生する可能性がある。 CacheGenは、LLMシステムのための高速なコンテキストローディングモジュールである。 まず、CacheGenはKVキャッシュの分散プロパティを取り入れた独自のテンソルエンコーダを使用して、KVキャッシュをよりコンパクトなビットストリーム表現にエンコードする。 これにより、KVキャッシュを取得するための帯域幅の需要が減少する。 第二に、低コンテキストローディング遅延と高ジェネレーション品質を維持するために、CacheGenはストリーミング戦略を適用して、利用可能な帯域幅の変化に対処する。 利用可能な帯域幅が減少すると、CacheGenはコンテキストの一部の圧縮レベルを上げるか、KVキャッシュをオンザフライで再計算するかを選択する。 CacheGenは、さまざまなサイズの4つの人気のあるLLMと4つのデータセット(合計662のコンテキスト)でテストします。 KVキャッシュを再利用した最近のシステムと比較すると、CacheGenはKVキャッシュのサイズを3.7-4.3xに減らし、フェッチと処理の合計遅延を2.7-3.2xに減らした。

As large language models (LLMs) take on complex tasks, their inputs are supplemented with longer contexts that incorporate domain knowledge or user-specific information. Yet using long contexts poses a challenge for responsive LLM systems, as nothing can be generated until the whole context is processed by the LLM. While the context-processing delay can be reduced by reusing the KV cache of a context across different inputs, fetching the KV cache, which contains large tensors, over the network can cause extra network delays. CacheGen is a fast context-loading module for LLM systems. First, CacheGen uses a custom tensor encoder, which embraces KV cache's distributional properties, to encode a KV cache into more compact bitstream representations with negligible encoding/decoding overhead. This reduces the bandwidth demand to fetch the KV cache. Second, to maintain low context-loading delay and high generation quality, CacheGen adapts the streaming strategies to cope with changes in available bandwidth. When available bandwidth drops, CacheGen may raise the compression level for a part of the context or choose to recompute its KV cache on the fly. We test CacheGen on four popular LLMs of various sizes and four datasets (662 contexts in total). Compared to the recent systems that reuse the KV cache, CacheGen reduces the KV cache size by 3.7-4.3x and the total delay in fetching and processing contexts by 2.7-3.2x while having negligible impact on the LLM response quality in accuracy or perplexity.
翻訳日:2024-03-16 02:32:48 公開日:2024-03-14
# 説明が人間-AI意思決定の公正性に及ぼす影響--保護とプロキシの特徴-

The Impact of Explanations on Fairness in Human-AI Decision-Making: Protected vs Proxy Features ( http://arxiv.org/abs/2310.08617v2 )

ライセンス: Link先を確認
Navita Goyal, Connor Baumler, Tin Nguyen, Hal Daumé III, (参考訳) AIシステムは、現実世界のデータにおけるバイアスを増幅することが知られている。 説明は、人間とAIのチームがより公平な意思決定のためにこれらのバイアスに対処するのに役立ちます。 通常、説明は健全な入力機能に焦点を当てる。 モデルが保護されたグループに対して偏りがある場合、このバイアスを示す特徴を含む場合もあるが、プロキシ機能によってバイアスが実現された場合、このプロキシ機能と保護されたグループとの関係は人間にとって明確でない可能性がある。 本研究では,保護的特徴とプロキシ的特徴が,モデルフェアネスに対する参加者の認識と,AI単独による人口比率向上能力に及ぼす影響について検討する。 さらに、異なる治療(説明、モデルバイアス開示、プロキシ相関開示)が公正感とパリティにどのように影響するかを検討する。 説明は直接的ではあるが間接的偏見を検出するのに役立ちます。 さらに、バイアスの種類に関係なく、説明はモデルバイアスとの一致を増加させる傾向があります。 開示は間接バイアスに対するこの効果を緩和し、不公平さ認識と意思決定公正性の両方を改善するのに役立つ。 我々はこの発見が、公正な人間-AI意思決定を支援するための説明の進展に関するさらなる研究に役立つことを願っている。

AI systems have been known to amplify biases in real-world data. Explanations may help human-AI teams address these biases for fairer decision-making. Typically, explanations focus on salient input features. If a model is biased against some protected group, explanations may include features that demonstrate this bias, but when biases are realized through proxy features, the relationship between this proxy feature and the protected one may be less clear to a human. In this work, we study the effect of the presence of protected and proxy features on participants' perception of model fairness and their ability to improve demographic parity over an AI alone. Further, we examine how different treatments -- explanations, model bias disclosure and proxy correlation disclosure -- affect fairness perception and parity. We find that explanations help people detect direct but not indirect biases. Additionally, regardless of bias type, explanations tend to increase agreement with model biases. Disclosures can help mitigate this effect for indirect biases, improving both unfairness recognition and decision-making fairness. We hope that our findings can help guide further research into advancing explanations in support of fair human-AI decision-making.
翻訳日:2024-03-16 02:32:48 公開日:2024-03-14
# CodeChain: 代表サブモジュールとの自己修正によるモジュールコード生成を目指す

CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules ( http://arxiv.org/abs/2310.08992v3 )

ライセンス: Link先を確認
Hung Le, Hailin Chen, Amrita Saha, Akash Gokul, Doyen Sahoo, Shafiq Joty, (参考訳) LLM(Large Language Models)は、HumanEvalやMBPPベンチマークのような単純なプログラミングタスクを解くのに、すでに非常に熟練している。 しかし、より複雑で競争的なプログラミングタスクの解決は、これらのモデルにとって依然として非常に難しい - おそらくは、論理的なサブタスクやサブモジュールに分解する代わりに、モノリシックなコードブロックとしてソリューションを生成する傾向があるからだ。 一方、経験豊富なプログラマは、しばしば以前開発されたモジュールを再利用して、複雑なタスクを解決するための抽象的なモジュール化されたコードを書く。 このギャップに対処するために、我々はCodeChainを提案する。これは、モジュール化されたコード生成を一連の自己修正を通じて引き起こす新しいフレームワークであり、それぞれが以前のイテレーションで生成されたいくつかの代表的なサブモジュールによってガイドされる。 具体的には、CodeChainはまずLLMに、チェーン・オブ・ソート・プロンプトを通じてモジュール化されたコードを生成するように指示する。 次に、2つのステップを繰り返すことで、一連の自己修正を適用します。 1)生成されたサブモジュールを抽出してクラスタ化し、クラスタ代表をより汎用的で再利用可能な実装として選択し、 2) これらのモジュールの実装によってオリジナルのチェーン・オブ・シークレットのプロンプトを拡大し、新しいモジュール化されたソリューションを再生成するようLLMに指示する。 我々は、LLMが以前開発され、検証されたサブモジュールの再利用を自然に促すことで、CodeChainは、生成したソリューションのモジュラリティと正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を達成できることがわかった。 これはOpenAI LLMとWizardCoderのようなオープンソースLLMの両方で有効であることが示されている。 また,CodeChainの成功を支える有用な洞察を提供するために,クラスタ数,モデルサイズ,プログラム品質など,さまざまな方法による包括的なアブレーション研究も行っています。

Large Language Models (LLMs) have already become quite proficient at solving simpler programming tasks like those in HumanEval or MBPP benchmarks. However, solving more complex and competitive programming tasks is still quite challenging for these models - possibly due to their tendency to generate solutions as monolithic code blocks instead of decomposing them into logical sub-tasks and sub-modules. On the other hand, experienced programmers instinctively write modularized code with abstraction for solving complex tasks, often reusing previously developed modules. To address this gap, we propose CodeChain, a novel framework for inference that elicits modularized code generation through a chain of self-revisions, each being guided by some representative sub-modules generated in previous iterations. Concretely, CodeChain first instructs the LLM to generate modularized codes through chain-of-thought prompting. Then it applies a chain of self-revisions by iterating the two steps: 1) extracting and clustering the generated sub-modules and selecting the cluster representatives as the more generic and re-usable implementations, and 2) augmenting the original chain-of-thought prompt with these selected module-implementations and instructing the LLM to re-generate new modularized solutions. We find that by naturally encouraging the LLM to reuse the previously developed and verified sub-modules, CodeChain can significantly boost both modularity as well as correctness of the generated solutions, achieving relative pass@1 improvements of 35% on APPS and 76% on CodeContests. It is shown to be effective on both OpenAI LLMs as well as open-sourced LLMs like WizardCoder. We also conduct comprehensive ablation studies with different methods of prompting, number of clusters, model sizes, program qualities, etc., to provide useful insights that underpin CodeChain's success.
翻訳日:2024-03-16 02:32:48 公開日:2024-03-14
# クラス非依存関係ネットワークを用いたゼロショットオブジェクトゴールビジュアルナビゲーション

Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network ( http://arxiv.org/abs/2310.09883v2 )

ライセンス: Link先を確認
Xinting Li, Shiguang Zhang, Yue LU, Kerry Dang, Lingyan Ran, (参考訳) 本稿では,ゼロショット目標視覚ナビゲーション問題について検討する。 オブジェクトゴール視覚ナビゲーションタスクでは、エージェントは、エゴセントリックな視覚入力からナビゲーションターゲットを特定する必要がある。 ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。 訓練中のナビゲーション能力と目標特徴とを結合する問題に対処するため,CIRN(Class-Independent Relationship Network)を提案する。 本発明の方法は、目標検出情報と、目標と航法目標との相対的意味的類似性を組み合わせて、類似度ランキングに基づいて、真に新しい状態表現を構築し、この状態表現は、目標特徴や環境特徴を含んでおらず、エージェントの航法能力を目標特徴から効果的に切り離す。 また、グラフ畳み込みネットワーク(GCN)を用いて、異なるオブジェクト間の関係を類似性に基づいて学習する。 テスト中は、ターゲットと環境の異なるゼロショットナビゲーションタスクを含む、強力な一般化機能を示す。 AI2-THOR仮想環境における広範囲な実験を通じて、この手法はゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。 さらに,本手法のロバスト性や一般化性を更に検証するため,より挑戦的なクロスターゲット・クロスシーン・セッティング実験を行った。 私たちのコードは、https://github.com/SmartAndCleverRobot/ICRA-CIRN.comで利用可能です。

This paper investigates the zero-shot object goal visual navigation problem. In the object goal visual navigation task, the agent needs to locate navigation targets from its egocentric visual input. "Zero-shot" means that the target the agent needs to find is not trained during the training phase. To address the issue of coupling navigation ability with target features during training, we propose the Class-Independent Relationship Network (CIRN). This method combines target detection information with the relative semantic similarity between the target and the navigation target, and constructs a brand new state representation based on similarity ranking, this state representation does not include target feature or environment feature, effectively decoupling the agent's navigation ability from target features. And a Graph Convolutional Network (GCN) is employed to learn the relationships between different objects based on their similarities. During testing, our approach demonstrates strong generalization capabilities, including zero-shot navigation tasks with different targets and environments. Through extensive experiments in the AI2-THOR virtual environment, our method outperforms the current state-of-the-art approaches in the zero-shot object goal visual navigation task. Furthermore, we conducted experiments in more challenging cross-target and cross-scene settings, which further validate the robustness and generalization ability of our method. Our code is available at: https://github.com/SmartAndCleverRobot/ICRA-CIRN.
翻訳日:2024-03-16 02:22:46 公開日:2024-03-14
# テスト時間適応による大規模事前学習モデルにおけるクラスインクリメンタル学習の再考

Rethinking Class-incremental Learning in the Era of Large Pre-trained Models via Test-Time Adaptation ( http://arxiv.org/abs/2310.11482v2 )

ライセンス: Link先を確認
Imad Eddine Marouf, Subhankar Roy, Enzo Tartaglione, Stéphane Lathuilière, (参考訳) クラス増分学習(クラス増分学習、class-incremental learning、CIL)は、それまでの学習情報を忘れずに、新しいタスクからクラスを分類するシーケンシャルな学習を伴う課題である。 大規模事前学習モデル(PTM)の出現は、非常に伝達可能なPTM表現により、CILの進歩を急速に追跡している。 しかし、各タスクの微調整を繰り返しは、PTMの豊かな表現を破壊し、さらに以前のタスクを忘れてしまう。 本稿では,CIL における PTM の安定性と可塑性のバランスを打つために,新しいタスクのトレーニングをなくし,最初のタスクのみに PTM を訓練し,テスト時間適応 (TTA) を用いて推論時に表現を洗練する新たな視点を提案する。 具体的には,最初のタスクでアダプタを用いてPTMを微調整し,タスク固有の特徴を学習するために各テストインスタンス上でPTMのLayer Normパラメータを調整し,最後に適応モデルにリセットし,安定性を保ちます。 その結果、TTACILは、豊富なPTM機能によって各タスクの恩恵を受けながら、一切の忘れを行なわなかった。 さらに、設計上、TTACILは一般的なデータ破損に対して堅牢です。 本手法は, クリーンデータと破損データの両方で複数のCILベンチマークで評価した場合に, 最先端のCIL法よりも優れる。 コードは、https://github.com/IemProg/TTACILで入手できる。

Class-incremental learning (CIL) is a challenging task that involves sequentially learning to categorize classes from new tasks without forgetting previously learned information. The advent of large pre-trained models (PTMs) has fast-tracked the progress in CIL due to the highly transferable PTM representations, where tuning a small set of parameters leads to state-of-the-art performance when compared with the traditional CIL methods that are trained from scratch. However, repeated fine-tuning on each task destroys the rich representations of the PTMs and further leads to forgetting previous tasks. To strike a balance between the stability and plasticity of PTMs for CIL, we propose a novel perspective of eliminating training on every new task and instead train PTM only on the first task, and then refine its representation at inference time using test-time adaptation (TTA). Concretely, we propose Test-Time Adaptation for Class-Incremental Learning (TTACIL) that first fine-tunes PTMs using Adapters on the first task, then adjusts Layer Norm parameters of the PTM on each test instance for learning task-specific features, and finally resets them back to the adapted model to preserve stability. As a consequence, our TTACIL does not undergo any forgetting, while benefiting each task with the rich PTM features. Additionally, by design, our TTACIL is robust to common data corruptions. Our method outperforms several state-of-the-art CIL methods when evaluated on multiple CIL benchmarks under both clean and corrupted data. Code is available at: https://github.com/IemProg/TTACIL.
翻訳日:2024-03-16 02:22:46 公開日:2024-03-14
# 汎用バックボーンネットワーク設計のための画像復元ネットワークの比較検討

A Comparative Study of Image Restoration Networks for General Backbone Network Design ( http://arxiv.org/abs/2310.11881v3 )

ライセンス: Link先を確認
Xiangyu Chen, Zheyuan Li, Yuandong Pu, Yihao Liu, Jiantao Zhou, Yu Qiao, Chao Dong, (参考訳) 様々な画像復元作業における深層モデルによる顕著な進歩にもかかわらず、既存の画像復元ネットワークはタスクの汎用性の観点からも課題に直面している。 直感的な表現は、あるタスクで優れているネットワークは、他のタスクで満足な結果をもたらすのに失敗することが多い、ということである。 この点を説明するために、5つの代表的ネットワークを選択し、5つの古典的画像復元タスクの比較研究を行う。 まず、画像復元タスクとバックボーンネットワークの特徴について、詳細な説明を行う。 次に、ベンチマーク結果を示し、様々なタスクにおける異なるモデルの性能格差の背景にある理由を分析する。 この比較研究から,一般的な画像復元バックボーンネットワークは多様なタスクの機能的要件を満たす必要があることを示唆する。 この原理に基づいて,新しい画像復元バックボーンネットワークであるX-Restormerを設計する。 大規模な実験により、X-Restormerは優れたタスクの汎用性を有し、様々なタスクで最先端のパフォーマンスを達成することが示された。

Despite the significant progress made by deep models in various image restoration tasks, existing image restoration networks still face challenges in terms of task generality. An intuitive manifestation is that networks which excel in certain tasks often fail to deliver satisfactory results in others. To illustrate this point, we select five representative networks and conduct a comparative study on five classic image restoration tasks. First, we provide a detailed explanation of the characteristics of different image restoration tasks and backbone networks. Following this, we present the benchmark results and analyze the reasons behind the performance disparity of different models across various tasks. Drawing from this comparative study, we propose that a general image restoration backbone network needs to meet the functional requirements of diverse tasks. Based on this principle, we design a new general image restoration backbone network, X-Restormer. Extensive experiments demonstrate that X-Restormer possesses good task generality and achieves state-of-the-art performance across a variety of tasks.
翻訳日:2024-03-16 02:22:46 公開日:2024-03-14
# 視覚言語モデルは強化学習のためのゼロショット・リワードモデルである

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning ( http://arxiv.org/abs/2310.12921v2 )

ライセンス: Link先を確認
Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner, (参考訳) 強化学習(Reinforcement Learning, RL)は、しばしば実現不可能な報酬関数を手動で指定することや、大量のフィードバックから報酬モデルを学ぶことを必要とする。 本稿では,事前学習された視覚言語モデル (VLM) をゼロショット報酬モデル (RM) として用いて,自然言語によるタスクの特定を行う。 本稿では,VLMを報酬モデルとして用いるための,自然かつ汎用的なアプローチを提案し,これをVLM-RMと呼ぶ。 CLIPをベースとしたVLM-RMを使用して、MuJoCoヒューマノイドをトレーニングし、ひざまずいて、スプリットを行い、ロータス位置に座っているような、手動で特定された報酬関数なしで複雑なタスクを学習する。 これらのタスクのそれぞれに対して、最小限のプロンプトエンジニアリングで所望のタスクを記述する1つのテキストプロンプトのみを提供する。 トレーニングされたエージェントのビデオは、https://sites.google.com/view/vlm-rm.comで公開しています。 第二の"ベースライン"プロンプトを提供し、目標とベースラインの区別に無関係にCLIP埋め込みスペースの一部を投影することで、パフォーマンスを向上させることができる。 さらに、より多くの計算とデータで訓練されたより大きなVLMはより良い報酬モデルである。 私たちが遭遇したVLM-RMの障害モードは、空間的推論能力の制限や、VLMにとって遠く離れた視覚的非現実的な環境など、現在のVLMの既知の能力制限と関係している。 VLM-RMは、VLMが十分に大きい限り、非常に頑丈である。 これは、将来のVLMがより広範囲のRLアプリケーションに対してより有用な報酬モデルになることを示唆している。

Reinforcement learning (RL) requires either manually specifying a reward function, which is often infeasible, or learning a reward model from a large amount of human feedback, which is often very expensive. We study a more sample-efficient alternative: using pretrained vision-language models (VLMs) as zero-shot reward models (RMs) to specify tasks via natural language. We propose a natural and general approach to using VLMs as reward models, which we call VLM-RMs. We use VLM-RMs based on CLIP to train a MuJoCo humanoid to learn complex tasks without a manually specified reward function, such as kneeling, doing the splits, and sitting in a lotus position. For each of these tasks, we only provide a single sentence text prompt describing the desired task with minimal prompt engineering. We provide videos of the trained agents at: https://sites.google.com/view/vlm-rm. We can improve performance by providing a second "baseline" prompt and projecting out parts of the CLIP embedding space irrelevant to distinguish between goal and baseline. Further, we find a strong scaling effect for VLM-RMs: larger VLMs trained with more compute and data are better reward models. The failure modes of VLM-RMs we encountered are all related to known capability limitations of current VLMs, such as limited spatial reasoning ability or visually unrealistic environments that are far off-distribution for the VLM. We find that VLM-RMs are remarkably robust as long as the VLM is large enough. This suggests that future VLMs will become more and more useful reward models for a wide range of RL applications.
翻訳日:2024-03-16 02:22:46 公開日:2024-03-14
# 線形補間による安定な非凸非凸トレーニング

Stable Nonconvex-Nonconcave Training via Linear Interpolation ( http://arxiv.org/abs/2310.13459v4 )

ライセンス: Link先を確認
Thomas Pethick, Wanyun Xie, Volkan Cevher, (参考訳) 本稿では,線形補間理論をニューラルネットワークトレーニングの安定化(大規模)のための原理的手法として提案する。 最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、線形補間が非拡張作用素の理論を活用することによってどのように役立つかを示す。 緩和近似近点 (RAPP) と呼ばれる新しい最適化手法を構築し、これは、$\rho > -\tfrac{1}{2L}$のみを必要としながら、$\rho$-comonotone問題に対する最後の反復収束率を達成できない最初の明示的手法である。 構成は制約付きおよび規則化された設定にまで拡張される。 RAPPにおける内部オプティマイザを置き換えることで、基底オプティマイザが勾配勾配勾配の上昇であるとしても、コヒポモノトン問題の収束を確立するLookaheadアルゴリズムの族を再発見する。 Lookaheadが収束するコヒポモノトン問題の範囲はさらに拡大され、Lookaheadがベースオプティマイザの特性を継承する。 RAPPとLookaheadの両方に存在する線形補間による利点を実証する、生成的対向ネットワークの実験で結果を裏付ける。

This paper presents a theoretical analysis of linear interpolation as a principled method for stabilizing (large-scale) neural network training. We argue that instabilities in the optimization process are often caused by the nonmonotonicity of the loss landscape and show how linear interpolation can help by leveraging the theory of nonexpansive operators. We construct a new optimization scheme called relaxed approximate proximal point (RAPP), which is the first explicit method without anchoring to achieve last iterate convergence rates for $\rho$-comonotone problems while only requiring $\rho > -\tfrac{1}{2L}$. The construction extends to constrained and regularized settings. By replacing the inner optimizer in RAPP we rediscover the family of Lookahead algorithms for which we establish convergence in cohypomonotone problems even when the base optimizer is taken to be gradient descent ascent. The range of cohypomonotone problems in which Lookahead converges is further expanded by exploiting that Lookahead inherits the properties of the base optimizer. We corroborate the results with experiments on generative adversarial networks which demonstrates the benefits of the linear interpolation present in both RAPP and Lookahead.
翻訳日:2024-03-16 02:22:46 公開日:2024-03-14
# 結合型古典振動子の変動パラメトリック駆動は散逸量子ビットをシミュレートできる

Fluctuating parametric drive of coupled classical oscillators can simulate dissipative qubits ( http://arxiv.org/abs/2310.13631v3 )

ライセンス: Link先を確認
Lorenzo Bernazzani, Guido Burkard, (参考訳) 内部パラメータの確率的変動を考慮した2つの結合振動子からなるシステムについて検討する。 特に、2レベル系(TLS)の量子力学、すなわち2つの結合振動子によって提供される量子ビットの古典的類似が、散逸性量子系の力学をシミュレートするために拡張できるかどうかという疑問に答える。 ナノメカニクスの文脈では、散逸フリーケースのアナロジーは、例えば、二重クランプまたはカンチレバー弦共振器や光浮上粒子など、複数の実験装置で既に試験されている。 この古典的なアナロジーのよく知られた結果は、アナログ量子系の緩和時間と脱コヒーレンス時間(例えば$T_1=T_2$)が、量子TLSの一般的な場合とは対照的に等しくなければならないことである。 この基本量子的特徴、すなわち$T_1\neq T_2$は、上記の古典システムでも内部パラメータに確率的ゆらぎを加えることで実装可能であることを示す。 さらに、これらの確率的寄与は、これらのシステムの制御装置に組み込むことができ、特に、この理論を浮遊ナノ粒子やナノストリング共振器に応用することについて議論する。

We investigate a system composed of two coupled oscillators subject to stochastic fluctuations in its internal parameters. In particular, we answer the question whether the well-known classical analogy of the quantum dynamics of two-level systems (TLS), i.e. qubits, provided by two coupled oscillators can be extended to simulate the dynamics of dissipative quantum systems. In the context of nanomechanics, the analogy in the dissipation free case has already been tested in multiple experimental setups, e.g., doubly clamped or cantilever string resonators and optically levitated particles. A well-known result of this classical analogy is that the relaxation and decoherence times of the analog quantum system must be equal, i.e. $T_1=T_2$, in contrast to the general case of quantum TLS. We show that this fundamentally quantum feature, i.e. $T_1\neq T_2$, can be implemented as well in the aforementioned classical systems by adding stochastic fluctuations in their internal parameters. Moreover, we show that these stochastic contributions can be engineered in the control apparatus of those systems, discussing, in particular, the application of this theory to levitated nanoparticles and to nanostring resonators.
翻訳日:2024-03-16 02:22:46 公開日:2024-03-14
# 片手で複数のオブジェクトをグラフ化する

Grasp Multiple Objects with One Hand ( http://arxiv.org/abs/2310.15599v2 )

ライセンス: Link先を確認
Yuyang Li, Bo Liu, Yiran Geng, Puhao Li, Yaodong Yang, Yixin Zhu, Tengyu Liu, Siyuan Huang, (参考訳) 人間の手の複雑なキネマティクスは、複数のオブジェクトの同時把握と操作を可能にし、オブジェクトの移動や手動操作のようなタスクに必須である。 その重要性にもかかわらず、ロボット多目的把握の領域は比較的未探索であり、キネマティクス、ダイナミクス、オブジェクト構成において顕著な課題を提示している。 本稿では,テーブルトップ上に自在な多指ロボットハンドを用いた多目的グリップのための新しい2段階アプローチであるMultiGraspを紹介する。 プロセスは、 一 事前の申告書の作成及び (二 物をつかんで持ち上げること。) 我々の実験は、主に二重物体把握に焦点をあて、44.13%の成功率を達成し、新しい物体構成への適応性と不正確な把握に対する耐性を強調した。 さらに、このフレームワークは推論速度を犠牲にして2つ以上のオブジェクトをつかむ可能性を実証している。

The intricate kinematics of the human hand enable simultaneous grasping and manipulation of multiple objects, essential for tasks such as object transfer and in-hand manipulation. Despite its significance, the domain of robotic multi-object grasping is relatively unexplored and presents notable challenges in kinematics, dynamics, and object configurations. This paper introduces MultiGrasp, a novel two-stage approach for multi-object grasping using a dexterous multi-fingered robotic hand on a tabletop. The process consists of (i) generating pre-grasp proposals and (ii) executing the grasp and lifting the objects. Our experimental focus is primarily on dual-object grasping, achieving a success rate of 44.13%, highlighting adaptability to new object configurations and tolerance for imprecise grasps. Additionally, the framework demonstrates the potential for grasping more than two objects at the cost of inference speed.
翻訳日:2024-03-16 02:22:46 公開日:2024-03-14
# 生成拡散モデルの統計熱力学:相転移、対称性の破れ、臨界不安定性

The statistical thermodynamics of generative diffusion models: Phase transitions, symmetry breaking and critical instability ( http://arxiv.org/abs/2310.17467v2 )

ライセンス: Link先を確認
Luca Ambrogioni, (参考訳) 生成的拡散モデルは、生成的モデリングの多くの分野で顕著な性能を達成した。 これらのモデルの背後にある基本的な考え方は、非平衡物理学、変分推論、確率計算であるが、この記事では、これらのモデルの多くの側面が平衡統計力学のツールを用いて理解可能であることを示す。 この再構成を用いて、生成拡散モデルが対称性の破れ現象に対応する2次相転移を行うことを示す。 これらの相転移は常に平均場普遍性クラスであり、生成力学における自己整合状態の結果であることを示す。 位相遷移から生じる臨界不安定性は、その生成能力の中心にあり、これは平均場臨界指数によって特徴づけられる。 さらに、乱れ系の統計物理学を用いて、記憶は乱れ相転移に対応する臨界凝縮の一形態として理解できることを示す。 最後に、生成過程の動的方程式は、系を熱平衡に保ちながら自由エネルギーを最小化する確率的断熱変換と解釈できることを示す。

Generative diffusion models have achieved spectacular performance in many areas of generative modeling. While the fundamental ideas behind these models come from non-equilibrium physics, variational inference and stochastic calculus, in this paper we show that many aspects of these models can be understood using the tools of equilibrium statistical mechanics. Using this reformulation, we show that generative diffusion models undergo second-order phase transitions corresponding to symmetry breaking phenomena. We show that these phase-transitions are always in a mean-field universality class, as they are the result of a self-consistency condition in the generative dynamics. We argue that the critical instability that arises from the phase transitions lies at the heart of their generative capabilities, which are characterized by a set of mean field critical exponents. Furthermore, using the statistical physics of disordered systems, we show that memorization can be understood as a form of critical condensation corresponding to a disordered phase transition. Finally, we show that the dynamic equation of the generative process can be interpreted as a stochastic adiabatic transformation that minimizes the free energy while keeping the system in thermal equilibrium.
翻訳日:2024-03-16 02:22:46 公開日:2024-03-14
# AnomalyCLIP:ゼロショット異常検出のための物体認識型プロンプト学習

AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection ( http://arxiv.org/abs/2310.18961v7 )

ライセンス: Link先を確認
Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen, (参考訳) ゼロショット異常検出(ZSAD)は、ターゲットデータセットのトレーニングサンプルなしで異常を検出するために補助データを使用してトレーニングされた検出モデルを必要とする。 さまざまな関心事,例えばデータのプライバシなどによって,トレーニングデータにアクセスできない場合には重要な課題だが,前景オブジェクトの出現や異常領域,さまざまな製品や組織の欠陥や腫瘍などのバックグラウンド機能など,さまざまな領域にわたる異常に一般化する必要があるため,大きな課題がある。 近年、CLIPのような大規模な事前学習された視覚言語モデル(VLM)は、異常検出を含む様々な視覚タスクにおいて強力なゼロショット認識能力を示している。 しかし、VLMは画像の異常や異常ではなく、前景オブジェクトのクラスセマンティクスをモデル化することに重点を置いているため、ZSAD性能は弱い。 本稿では、AnomalyCLIPと呼ばれる新しいアプローチを導入し、CLIPを異なるドメイン間で正確なZSADに適応させる。 AnomalyCLIPの重要な洞察は、オブジェクトに依存しないテキストのプロンプトを学習することであり、前景のオブジェクトに関係なく、画像の一般的な正規性と異常をキャプチャする。 これにより、オブジェクトのセマンティクスではなく、異常画像領域に焦点を合わせることができ、多種多様なオブジェクトに対する一般化された正規性と異常認識を可能にする。 17個の実世界の異常検出データセットに対する大規模な実験により、AnomalyCLIPは、様々な欠陥検査と医用画像領域からの高度に多様なクラスセマンティクスのデータセットにおいて、異常を検出し、セグメンテーションする優れたゼロショット性能を達成している。 コードはhttps://github.com/zqhang/AnomalyCLIPで公開される。

Zero-shot anomaly detection (ZSAD) requires detection models trained using auxiliary data to detect anomalies without any training sample in a target dataset. It is a crucial task when training data is not accessible due to various concerns, eg, data privacy, yet it is challenging since the models need to generalize to anomalies across different domains where the appearance of foreground objects, abnormal regions, and background features, such as defects/tumors on different products/organs, can vary significantly. Recently large pre-trained vision-language models (VLMs), such as CLIP, have demonstrated strong zero-shot recognition ability in various vision tasks, including anomaly detection. However, their ZSAD performance is weak since the VLMs focus more on modeling the class semantics of the foreground objects rather than the abnormality/normality in the images. In this paper we introduce a novel approach, namely AnomalyCLIP, to adapt CLIP for accurate ZSAD across different domains. The key insight of AnomalyCLIP is to learn object-agnostic text prompts that capture generic normality and abnormality in an image regardless of its foreground objects. This allows our model to focus on the abnormal image regions rather than the object semantics, enabling generalized normality and abnormality recognition on diverse types of objects. Large-scale experiments on 17 real-world anomaly detection datasets show that AnomalyCLIP achieves superior zero-shot performance of detecting and segmenting anomalies in datasets of highly diverse class semantics from various defect inspection and medical imaging domains. Code will be made available at https://github.com/zqhang/AnomalyCLIP.
翻訳日:2024-03-16 02:22:46 公開日:2024-03-14
# LILO:コードの圧縮と文書化による解釈可能なライブラリの学習

LILO: Learning Interpretable Libraries by Compressing and Documenting Code ( http://arxiv.org/abs/2310.19791v3 )

ライセンス: Link先を確認
Gabriel Grand, Lionel Wong, Matthew Bowers, Theo X. Olausson, Muxin Liu, Joshua B. Tenenbaum, Jacob Andreas, (参考訳) 大規模言語モデル(LLM)はコード生成に優れていますが、ソフトウェア開発の重要な側面はリファクタリングのテクニックです。 本稿では、特定の問題領域に適したライブラリを構築するために、反復的に合成、圧縮、文書コードを生成する、ニューロシンボリックなフレームワークであるLILOを紹介する。 LILOは、LLM誘導型プログラム合成と、Stitchからの自動リファクタリングにおける最近のアルゴリズム的進歩を組み合わせた、大規模なコードコーパスをまたいだ最適なラムダ抽象化を効率的に識別するシンボリック圧縮システムである。 これらの抽象化を解釈できるように、文脈的使用例に基づいて自然言語名や文書を推論するAuto-Doc(Auto-Docmentation)手順を導入する。 人間の可読性の改善に加えて、AutoDocはLILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、パフォーマンスを向上させる。 我々は、文字列編集、シーン推論、グラフィック合成のための3つの帰納的プログラム合成ベンチマーク上でLILOを評価する。 最先端のライブラリ学習アルゴリズムDreamCoderを含む既存のニューラルおよびシンボリックメソッドと比較して、LILOはより複雑なタスクを解決し、言語知識に根ざしたリッチなライブラリを学ぶ。

While large language models (LLMs) now excel at code generation, a key aspect of software development is the art of refactoring: consolidating code into libraries of reusable and readable programs. In this paper, we introduce LILO, a neurosymbolic framework that iteratively synthesizes, compresses, and documents code to build libraries tailored to particular problem domains. LILO combines LLM-guided program synthesis with recent algorithmic advances in automated refactoring from Stitch: a symbolic compression system that efficiently identifies optimal lambda abstractions across large code corpora. To make these abstractions interpretable, we introduce an auto-documentation (AutoDoc) procedure that infers natural language names and docstrings based on contextual examples of usage. In addition to improving human readability, we find that AutoDoc boosts performance by helping LILO's synthesizer to interpret and deploy learned abstractions. We evaluate LILO on three inductive program synthesis benchmarks for string editing, scene reasoning, and graphics composition. Compared to existing neural and symbolic methods - including the state-of-the-art library learning algorithm DreamCoder - LILO solves more complex tasks and learns richer libraries that are grounded in linguistic knowledge.
翻訳日:2024-03-16 02:22:46 公開日:2024-03-14
# 脳の復号化 : 視覚のリアルタイム再構築に向けて

Brain decoding: toward real-time reconstruction of visual perception ( http://arxiv.org/abs/2310.19812v3 )

ライセンス: Link先を確認
Yohann Benchetrit, Hubert Banville, Jean-Rémi King, (参考訳) 過去5年間で、生成的および基礎的AIシステムの使用は、脳活動の復号化を大幅に改善した。 特に視覚知覚は、顕著な忠実さを持つ機能的磁気共鳴イメージング(fMRI)から復号することができる。 しかし、このニューロイメージング技術は時間分解能の限界(0.5Hz)に悩まされており、したがってそのリアルタイム利用を根本的に制限している。 本稿では、高時間分解能(5,000Hz)で脳活動を計測できる脳波計測装置である脳磁図(MEG)に基づく別のアプローチを提案する。 この目的のために、コントラストと回帰の両方の目的を訓練し、3つのモジュールからなるMEG復号モデルを開発する。 一 画像から得られる予め訓練された埋め込み 二 エンドツーエンドの訓練を受けたMEGモジュール及び 三 予め訓練した画像生成装置 第一に、私たちのMEGデコーダは、古典的線形デコーダよりも画像検索が7倍改善したことを示す。 第2に、画像に対する後期脳反応は、最近の基礎画像モデルであるDINOv2で最もよくデコードされる。 第3に、画像検索と世代はどちらも、高レベルの視覚的特徴をMEG信号からデコードできることを示唆しているが、同様に7T fMRIにも適用されたアプローチは、より低レベルの特徴を回復させる。 全体として、これらの結果は予備的ではあるが、人間の脳内で連続的に展開する視覚過程のデコード(リアルタイムで)への重要なステップを提供する。

In the past five years, the use of generative and foundational AI systems has greatly improved the decoding of brain activity. Visual perception, in particular, can now be decoded from functional Magnetic Resonance Imaging (fMRI) with remarkable fidelity. This neuroimaging technique, however, suffers from a limited temporal resolution ($\approx$0.5 Hz) and thus fundamentally constrains its real-time usage. Here, we propose an alternative approach based on magnetoencephalography (MEG), a neuroimaging device capable of measuring brain activity with high temporal resolution ($\approx$5,000 Hz). For this, we develop an MEG decoding model trained with both contrastive and regression objectives and consisting of three modules: i) pretrained embeddings obtained from the image, ii) an MEG module trained end-to-end and iii) a pretrained image generator. Our results are threefold: Firstly, our MEG decoder shows a 7X improvement of image-retrieval over classic linear decoders. Second, late brain responses to images are best decoded with DINOv2, a recent foundational image model. Third, image retrievals and generations both suggest that high-level visual features can be decoded from MEG signals, although the same approach applied to 7T fMRI also recovers better low-level features. Overall, these results, while preliminary, provide an important step towards the decoding -- in real-time -- of the visual processes continuously unfolding within the human brain.
翻訳日:2024-03-16 02:22:46 公開日:2024-03-14
# 言語モデルの強化ファインタニングにおける回避勾配

Vanishing Gradients in Reinforcement Finetuning of Language Models ( http://arxiv.org/abs/2310.20703v3 )

ライセンス: Link先を確認
Noam Razin, Hattie Zhou, Omid Saremi, Vimal Thilak, Arwen Bradley, Preetum Nakkiran, Joshua Susskind, Etai Littwin, (参考訳) 事前訓練された言語モデルは、政策勾配アルゴリズムを用いて(おそらく学習可能な)報酬関数を最大化する強化微調整(RFT)によって、人間の好みや下流タスクと整合することが多い。 この研究は、RFTにおける基本的な最適化の障害を特定し、モデルの下での報酬標準偏差が小さくても、入力の期待勾配がなくなることを証明した。 RFTベンチマークと制御された環境の実験、および理論的解析を通じて、小さな報酬標準偏差による失効勾配が一般的かつ有害であることを示し、非常に低い報酬最大化をもたらす。 最後に、RFTにおける消滅する勾配を克服する方法を検討する。 我々は,初期教師付き微調整(SFT)フェーズが最も有望な候補であることに気付き,RFTパイプラインにおけるその重要性を浮き彫りにする。 さらに,入力サンプルの1%に留まらず,比較的少数のSFT最適化ステップが十分であることを示すとともに,初期SFTフェーズが計算やデータラベリングにおいて高価でなくてもよいことを示す。 以上の結果から,評価基準偏差によって期待される勾配が消える入力に対して注意が必要であることが,RTTの実行を成功させる上で重要であることが示唆された。

Pretrained language models are commonly aligned with human preferences and downstream tasks via reinforcement finetuning (RFT), which refers to maximizing a (possibly learned) reward function using policy gradient algorithms. This work identifies a fundamental optimization obstacle in RFT: we prove that the expected gradient for an input vanishes when its reward standard deviation under the model is small, even if the expected reward is far from optimal. Through experiments on an RFT benchmark and controlled environments, as well as a theoretical analysis, we then demonstrate that vanishing gradients due to small reward standard deviation are prevalent and detrimental, leading to extremely slow reward maximization. Lastly, we explore ways to overcome vanishing gradients in RFT. We find the common practice of an initial supervised finetuning (SFT) phase to be the most promising candidate, which sheds light on its importance in an RFT pipeline. Moreover, we show that a relatively small number of SFT optimization steps on as few as 1% of the input samples can suffice, indicating that the initial SFT phase need not be expensive in terms of compute and data labeling efforts. Overall, our results emphasize that being mindful for inputs whose expected gradient vanishes, as measured by the reward standard deviation, is crucial for successful execution of RFT.
翻訳日:2024-03-16 02:22:46 公開日:2024-03-14
# ゼロコーディネートシフト:物理インフォームド演算子学習のためのWhetted Automatic Differentiation

Zero Coordinate Shift: Whetted Automatic Differentiation for Physics-informed Operator Learning ( http://arxiv.org/abs/2311.00860v3 )

ライセンス: Link先を確認
Kuangdai Leng, Mallikarjun Shankar, Jeyan Thiyagalingam, (参考訳) 自動微分(AD)は、ネットワーク出力w.r.t.座標の高次微分を計算するために必要となる物理インフォームド機械学習における重要なステップである。 本稿では,ZCS(Zero Coordinate Shift)と呼ばれる物理インフォームド演算子学習のための新しい軽量アルゴリズムを提案する。 すべてのサンプル座標を葉変数とする代わりに、ZCSは空間的あるいは時間的次元ごとに1つのスカラー値の葉変数のみを導入し、「マニールート-マニー-リーブ」から「ワンルート-マニー-リーブ」への所望の微分を単純化し、逆モードADを直接利用できるようにする。 これは、関数の次元(物理パラメータ)に沿った計算グラフの重複を避けることで、卓越した性能向上につながった。 ZCSは現在のディープラーニングライブラリで簡単に実装できますが、私たちの独自の実装はDeepXDEパッケージを拡張して実現しています。 我々は、データなしで偏微分方程式(PDE)を解くために、総合的なベンチマーク分析といくつかのケーススタディを行い、物理情報を用いたDeepONetsを訓練する。 以上の結果から,ZCSはGPUメモリ使用量とトレーニングのウォール時間を桁違いに削減し,その削減係数は関数数に比例して拡大した。 低レベルの最適化手法として、ZCSはデータ、物理(PDE)、ネットワークアーキテクチャに制限を課さず、あらゆる面からトレーニング結果を損なうことはない。

Automatic differentiation (AD) is a critical step in physics-informed machine learning, required for computing the high-order derivatives of network output w.r.t. coordinates of collocation points. In this paper, we present a novel and lightweight algorithm to conduct AD for physics-informed operator learning, which we call the trick of Zero Coordinate Shift (ZCS). Instead of making all sampled coordinates as leaf variables, ZCS introduces only one scalar-valued leaf variable for each spatial or temporal dimension, simplifying the wanted derivatives from "many-roots-many-leaves" to "one-root-many-leaves" whereby reverse-mode AD becomes directly utilisable. It has led to an outstanding performance leap by avoiding the duplication of the computational graph along the dimension of functions (physical parameters). ZCS is easy to implement with current deep learning libraries; our own implementation is achieved by extending the DeepXDE package. We carry out a comprehensive benchmark analysis and several case studies, training physics-informed DeepONets to solve partial differential equations (PDEs) without data. The results show that ZCS has persistently reduced GPU memory consumption and wall time for training by an order of magnitude, and such reduction factor scales with the number of functions. As a low-level optimisation technique, ZCS imposes no restrictions on data, physics (PDE) or network architecture and does not compromise training results from any aspect.
翻訳日:2024-03-16 02:22:46 公開日:2024-03-14
# 長距離絡み付き有限局所深部回路におけるバレンプラトーの存在

Absence of barren plateaus in finite local-depth circuits with long-range entanglement ( http://arxiv.org/abs/2311.01393v3 )

ライセンス: Link先を確認
Hao-Kai Zhang, Shuo Liu, Shi-Xin Zhang, (参考訳) グランドステートの準備は、ハミルトン将軍にとって古典的に魅力的である。 量子デバイスでは、浅いパラメータ化回路は、変分量子固有解法(英語版)のパラダイムの下で短距離の絡み合った状態を得るために効果的に訓練することができるが、深い回路はバレンプラトー現象のために一般には訓練できない。 このレターでは、局所的な2次元設計からなる任意の量子回路に対して、回路勾配のばらつきに関する一般的な下界を与える。 統一された枠組みに基づいて、局所ハミルトンの基底状態に対する有限局所深度回路(FLDC)のトレーニングにおいてバレンプラトーが存在しないことを証明した。 FLDCは、トポロジカルに順序づけられた状態のような長距離の絡み合った基底状態を生成するために、従来の回路深さの奥深くにあることが許されているが、その局所的な深さは有限であり、すなわち個々のキュービットに作用するゲートは有限である。 この特性は、FLDCを浅い回路とは切り離して設定する: FLDCは、2次元以上の既存のテンソルネットワーク法により、局所的な可観測物を効率的に推定するために古典的にシミュレートすることはできない。 解析結果を広範囲な数値シミュレーションで検証し,一般化トーリック符号モデルを用いた変分学習の有効性を実証する。

Ground state preparation is classically intractable for general Hamiltonians. On quantum devices, shallow parameterized circuits can be effectively trained to obtain short-range entangled states under the paradigm of variational quantum eigensolver, while deep circuits are generally untrainable due to the barren plateau phenomenon. In this Letter, we give a general lower bound on the variance of circuit gradients for arbitrary quantum circuits composed of local 2-designs. Based on our unified framework, we prove the absence of barren plateaus in training finite local-depth circuits (FLDC) for the ground states of local Hamiltonians. FLDCs are allowed to be deep in the conventional circuit depth to generate long-range entangled ground states, such as topologically ordered states, but their local depths are finite, i.e., there is only a finite number of gates acting on individual qubits. This characteristic sets FLDC apart from shallow circuits: FLDC in general cannot be classically simulated to estimate local observables efficiently by existing tensor network methods in two and higher dimensions. We validate our analytical results with extensive numerical simulations and demonstrate the effectiveness of variational training using the generalized toric code model.
翻訳日:2024-03-16 02:12:48 公開日:2024-03-14
# 任意の対称二分割ベルシナリオに対するハーディ型パラドックス

Hardy-type paradoxes for an arbitrary symmetric bipartite Bell scenario ( http://arxiv.org/abs/2311.02045v2 )

ライセンス: Link先を確認
Kai-Siang Chen, Shiladitya Mal, Gelo Noel M. Tabia, Yeong-Cherng Liang, (参考訳) ベルの不等式と同様に、ハーディのパラドックスは、量子論によって与えられる予測と局所隠れ変数理論との矛盾を示す。 本研究では、2つの観測者を含む任意の対称なベルシナリオに対してそのようなパラドックスを示すハーディの主張を2つの一般化する。 我々はMeng et al (Phys. Rev. A. 98, 062103 (2018)) を回復し, カベロ (Phys. Rev. A 65, 032108 (2002)) を特別事例として議論した。 2つの構成のうち、1つは自然に、含意の推移性(FTI)の失敗のデモンストレーションと解釈できる。 さらに、特別なケースは、ハーディのパラドックスに対するはしご耐性型引数と同値である。 成功度と呼ばれる成功確率を適切に一般化した概念を通じて、FTIに基づく定式化が、他の既存の提案よりも高い成功度を示すことを示す証拠を提供する。 さらに、この利点は、そのようなパラドックスにおけるゼロ確率制約の実現において不完全性を許すとしても持続しているように見える。 不等式のない非局所性のいくつかの証明を実現する明示的な量子戦略が提供される。

As with a Bell inequality, Hardy's paradox manifests a contradiction between the prediction given by quantum theory and local-hidden variable theories. In this work, we give two generalizations of Hardy's arguments for manifesting such a paradox to an arbitrary, but symmetric Bell scenario involving two observers. Our constructions recover that of Meng et al. [Phys. Rev. A. 98, 062103 (2018)] and that first discussed by Cabello [Phys. Rev. A 65, 032108 (2002)] as special cases. Among the two constructions, one can be naturally interpreted as a demonstration of the failure of the transitivity of implications (FTI). Moreover, a special case of which is equivalent to a ladder-proof-type argument for Hardy's paradox. Through a suitably generalized notion of success probability called degree of success, we provide evidence showing that the FTI-based formulation exhibits a higher degree of success compared with all other existing proposals. Moreover, this advantage seems to persist even if we allow imperfections in realizing the zero-probability constraints in such paradoxes. Explicit quantum strategies realizing several of these proofs of nonlocality without inequalities are provided.
翻訳日:2024-03-16 02:12:48 公開日:2024-03-14
# 拡散パーソナライゼーションのためのアイデンティティ保護の強化に関するデータ展望

A Data Perspective on Enhanced Identity Preservation for Diffusion Personalization ( http://arxiv.org/abs/2311.04315v3 )

ライセンス: Link先を確認
Xingzhe He, Zhiwen Cao, Nicholas Kolkin, Lantao Yu, Kun Wan, Helge Rhodin, Ratheesh Kalarot, (参考訳) 大規模なテキスト画像モデルは、自然言語を使って画像を生成する能力に革命をもたらした。 しかし、特にペットや家具のようなユニークな、あるいは個人的な視覚概念は、オリジナルのモデルでは捉えられない。 これはテキスト・ツー・イメージ・モデルのパーソナライズ方法への関心につながった。 かなりの進歩にもかかわらず、この課題は、特に被写体のアイデンティティを維持する上で、恐ろしい課題である。 ほとんどの研究者はモデルアーキテクチャを変更してこの問題に対処しようと試みている。 これらの手法は被写体の構造と色を保持できるが、識別の詳細を保存できない。 この問題に向けて、私たちのアプローチはデータ中心の視点を取ります。 テキストと画像の両レベルで,新たな正規化データセット生成戦略を導入する。 この戦略により、モデルはテキストやロゴなど、所望の主題の細部を保存できる。 本手法はアーキテクチャ非依存であり,様々なテキスト・イメージ・モデルに柔軟に適用可能である。 データ中心のアプローチが、アイデンティティの保存とテキストアライメントという観点から、新たな最先端技術を形成することを、確立されたベンチマークで示しています。

Large text-to-image models have revolutionized the ability to generate imagery using natural language. However, particularly unique or personal visual concepts, such as pets and furniture, will not be captured by the original model. This has led to interest in how to personalize a text-to-image model. Despite significant progress, this task remains a formidable challenge, particularly in preserving the subject's identity. Most researchers attempt to address this issue by modifying model architectures. These methods are capable of keeping the subject structure and color but fail to preserve identity details. Towards this issue, our approach takes a data-centric perspective. We introduce a novel regularization dataset generation strategy on both the text and image level. This strategy enables the model to preserve fine details of the desired subjects, such as text and logos. Our method is architecture-agnostic and can be flexibly applied on various text-to-image models. We show on established benchmarks that our data-centric approach forms the new state of the art in terms of identity preservation and text alignment.
翻訳日:2024-03-16 02:12:48 公開日:2024-03-14
# Euclidean, Projective, Conformal:等変変換器のための幾何学的代数の選択

Euclidean, Projective, Conformal: Choosing a Geometric Algebra for Equivariant Transformers ( http://arxiv.org/abs/2311.04744v2 )

ライセンス: Link先を確認
Pim de Haan, Taco Cohen, Johann Brehmer, (参考訳) Geometric Algebra Transformer (GATr) は射影幾何学的代数に基づく幾何学的深層学習のための汎用アーキテクチャである。 我々はこのアーキテクチャをブループリントに一般化し、幾何(またはクリフォード)代数を与えられたスケーラブルなトランスフォーマーアーキテクチャを構築することができる。 我々は、ユークリッド、射影、共形代数のこのアーキテクチャのバージョンについて研究し、これらすべては3次元データを表現するのに適しており、理論と実践でそれらを評価している。 最も単純なユークリッドアーキテクチャは計算的に安価であるが、対称性群が小さく、サンプル効率が良くないが、射影モデルは十分に表現できない。 共形代数と射影代数の改良版の両方が、強力でパフォーマンスの良いアーキテクチャを定義する。

The Geometric Algebra Transformer (GATr) is a versatile architecture for geometric deep learning based on projective geometric algebra. We generalize this architecture into a blueprint that allows one to construct a scalable transformer architecture given any geometric (or Clifford) algebra. We study versions of this architecture for Euclidean, projective, and conformal algebras, all of which are suited to represent 3D data, and evaluate them in theory and practice. The simplest Euclidean architecture is computationally cheap, but has a smaller symmetry group and is not as sample-efficient, while the projective model is not sufficiently expressive. Both the conformal algebra and an improved version of the projective algebra define powerful, performant architectures.
翻訳日:2024-03-16 02:12:48 公開日:2024-03-14
# BeLLM: 文の埋め込みのための後方依存の強化された大規模言語モデル

BeLLM: Backward Dependency Enhanced Large Language Model for Sentence Embeddings ( http://arxiv.org/abs/2311.05296v2 )

ライセンス: Link先を確認
Xianming Li, Jing Li, (参考訳) 文の埋め込みは意味的類似性を測定するのに不可欠である。 最近の研究では、大きな言語モデル(LLM)を用いて文の埋め込みを学習している。 既存のLLMは主に、明示的な後方依存性モデリングを伴わない自己回帰型アーキテクチャを採用している。 そこで本研究では,LLMの後方依存性が意味的類似度測定に与える影響について検討した。 具体的には,後方依存性を拡張した大規模言語モデル(BeLLM)を提案する。 特定の注意層を一方向から双方向に変換することで文の埋め込みを学習する。 様々な意味的テキスト類似性(STS)タスクや下流アプリケーションに対して広範囲に実験を行った。 BeLLMは様々なシナリオで最先端のパフォーマンスを達成する。 自動回帰 LLM は文埋め込みの後方依存性の恩恵を受ける。

Sentence embeddings are crucial in measuring semantic similarity. Most recent studies employed large language models (LLMs) to learn sentence embeddings. Existing LLMs mainly adopted autoregressive architecture without explicit backward dependency modeling. Therefore, we examined the effects of backward dependencies in LLMs for semantic similarity measurements. Concretely, we propose a novel model: backward dependency enhanced large language model (BeLLM). It learns sentence embeddings via transforming specific attention layers from uni- to bi-directional. We extensively experiment across various semantic textual similarity (STS) tasks and downstream applications. BeLLM achieves state-of-the-art performance in varying scenarios. It shows that auto-regressive LLMs benefit from backward dependencies for sentence embeddings.
翻訳日:2024-03-16 02:12:48 公開日:2024-03-14
# 量子多体系の初検出戻り時間における熱力学的相

Thermodynamic phases in first detected return times of quantum many-body systems ( http://arxiv.org/abs/2311.05585v2 )

ライセンス: Link先を確認
Benjamin Walter, Gabriele Perfetto, Andrea Gambassi, (参考訳) 本研究では, ストロボスコープ法で観測した量子多体系の初期状態に対する第1帰還時間の確率分布について検討した。 この分布は、非相互作用領域を平衡に持つスピン鎖の正準分割関数の連続として解釈でき、これは量子多体系のロシミット振幅によって完全に特徴づけられる。 これにより、スピンモデルが強磁性相または常磁性相を示すかどうかによって、この確率が代数的にも指数的にも時相的にも崩壊する可能性があることを示すことができる。 このアイデアは、強結合モデルにおけるN$隣接フェルミオンの戻り時間を例に説明し、N$で探索時間をスケールすることで調整できる豊富な位相挙動を明らかにする。 我々の解析的予測は正確な数値計算によって裏付けられている。

We study the probability distribution of the first return time to the initial state of a quantum many-body system subject to stroboscopic projective measurements. We show that this distribution can be interpreted as a continuation of the canonical partition function of a spin chain with non-interacting domains at equilibrium, which is entirely characterised by the Loschmidt amplitude of the quantum many-body system. This allows us to show that this probability may decay either algebraically or exponentially asymptotically in time, depending on whether the spin model displays a ferromagnetic or a paramagnetic phase. We illustrate this idea on the example of the return time of $N$ adjacent fermions in a tight-binding model, revealing a rich phase behaviour, which can be tuned by scaling the probing time with $N$. Our analytical predictions are corroborated by exact numerical computations.
翻訳日:2024-03-16 02:12:48 公開日:2024-03-14
# Plum:メタヒューリスティックを用いたプロンプトラーニング

Plum: Prompt Learning using Metaheuristic ( http://arxiv.org/abs/2311.08364v2 )

ライセンス: Link先を確認
Rui Pan, Shuo Xing, Shizhe Diao, Wenhe Sun, Xiang Liu, Kashun Shum, Renjie Pi, Jipeng Zhang, Tong Zhang, (参考訳) 大規模言語モデルの出現以来、迅速な学習はこれらのモデルの最適化とカスタマイズの一般的な方法となっている。 Chain-of-Thoughtのような特別なプロンプトは、これらのモデルの中でこれまで未知の推論能力を明らかにしている。 しかし、効果的なプロンプトの発見の進行は遅くなり、一般的なプロンプト最適化手法への欲求が高まった。 残念ながら、真の「一般」、すなわち、自動的、離散的、ブラックボックス、グラデーションフリー、そして全てを同時に解釈する基準を満たす既存の素早い学習方法はほとんどない。 本稿では,100以上の選択肢を持つ離散非凸最適化手法の分岐であるメタヒューリスティックスを,学習の迅速化に向けた有望なアプローチとして紹介する。 本パラダイムでは,山登り,シミュレート・アニーリング,クロスオーバーのない遺伝的アルゴリズム,タブ検索,調和探索の6つの方法を試行し,その効果をホワイトボックスとブラックボックスのプロンプト学習で実証した。 さらに、これらの手法は、これまで推論や画像生成のタスクで知られていなかった、より人間に理解可能なプロンプトの発見に利用でき、即時最適化における可能性のコルヌコピアへの扉を開くことができることを示す。 すべてのコードは \url{https://github.com/research4pan/Plum} でリリースします。

Since the emergence of large language models, prompt learning has become a popular method for optimizing and customizing these models. Special prompts, such as Chain-of-Thought, have even revealed previously unknown reasoning capabilities within these models. However, the progress of discovering effective prompts has been slow, driving a desire for general prompt optimization methods. Unfortunately, few existing prompt learning methods satisfy the criteria of being truly "general", i.e., automatic, discrete, black-box, gradient-free, and interpretable all at once. In this paper, we introduce metaheuristics, a branch of discrete non-convex optimization methods with over 100 options, as a promising approach to prompt learning. Within our paradigm, we test six typical methods: hill climbing, simulated annealing, genetic algorithms with/without crossover, tabu search, and harmony search, demonstrating their effectiveness in white-box and black-box prompt learning. Furthermore, we show that these methods can be used to discover more human-understandable prompts that were previously unknown in both reasoning and image generation tasks, opening the door to a cornucopia of possibilities in prompt optimization. We release all the codes in \url{https://github.com/research4pan/Plum}.
翻訳日:2024-03-16 02:12:48 公開日:2024-03-14
# 地図を考えて! オンラインHDMapをセンサから推定する際の既存の地図情報の会計

Mind the map! Accounting for existing map information when estimating online HDMaps from sensor ( http://arxiv.org/abs/2311.10517v2 )

ライセンス: Link先を確認
Rémy Sun, Li Yang, Diane Lingrand, Frédéric Precioso, (参考訳) HDMapsは自動運転の重要なコンポーネントだが、買収とメンテナンスには費用がかかる。 そのため、センサーからこれらのマップを推定することで、コストを大幅に削減できる。 しかし、これらの推定は既存のHDMapを見落とし、ほとんどの場合、低品質の地図を地理的に配置したり、既知の地図の一般的なデータベースを考慮に入れたりする。 本稿では,HDMapを推定する際の高精度な状況の既存のマップについて考察する。 3種類の有用な既存地図(ミニマリスト、ノイズ、時代遅れ)を同定する。 また、既存の地図を考慮した新しいオンラインHDMap推定フレームワークであるMapEXについても紹介する。 MapEXは、Map要素をクエリトークンにエンコードし、古典的なクエリベースのマップ推定モデルをトレーニングするために使用されるマッチングアルゴリズムを精細化する。 MapEXはnuScenesデータセットに大幅な改善をもたらすことを実証しています。 例えば、MapEX(ノイズの多いマップ)は、現在のSOTAをベースとしたMapTRv2検出器よりも38%改善され、現在のSOTAよりも8%改善されている。

While HDMaps are a crucial component of autonomous driving, they are expensive to acquire and maintain. Estimating these maps from sensors therefore promises to significantly lighten costs. These estimations however overlook existing HDMaps, with current methods at most geolocalizing low quality maps or considering a general database of known maps. In this paper, we propose to account for existing maps of the precise situation studied when estimating HDMaps. We identify 3 reasonable types of useful existing maps (minimalist, noisy, and outdated). We also introduce MapEX, a novel online HDMap estimation framework that accounts for existing maps. MapEX achieves this by encoding map elements into query tokens and by refining the matching algorithm used to train classic query based map estimation models. We demonstrate that MapEX brings significant improvements on the nuScenes dataset. For instance, MapEX - given noisy maps - improves by 38% over the MapTRv2 detector it is based on and by 8% over the current SOTA.
翻訳日:2024-03-16 02:12:48 公開日:2024-03-14
# ガウス滑らか化とガウス微分の離散近似

Discrete approximations of Gaussian smoothing and Gaussian derivatives ( http://arxiv.org/abs/2311.11317v4 )

ライセンス: Link先を確認
Tony Lindeberg, (参考訳) 本稿では,離散データに適用するためのスケール空間理論におけるガウススムージングとガウス微分計算の近似問題に関する詳細な処理法を開発する。 連続的および離散的スケール空間理論の以前の公理的処理と密接な関係で、これらのスケール空間の操作を明示的な離散的畳み込みの観点から区別する3つの主要な方法を考える。 (i)ガウス核とガウス微分核をサンプリングする。 (ii)各画素支持領域上にガウス核とガウス微分核を局所的に統合し、 3) ガウス核の離散的類似点のスケール空間解析を基礎とし, 空間的スムーズな画像データに小サポート中央差分演算子を適用することにより微分近似を計算する。 本研究では,これら3つの主要な離散化手法の特性を理論的・実験的に検討し,その性能を定量的に評価する。 その結果、サンプル化されたガウス核と導関数、および統合されたガウス核と導関数は、非常に微細なスケールで非常に低性能であることがわかった。 非常に微細なスケールでは、ガウス核の離散的な類似とそれに対応する離散微分近似が大幅に向上する。 一方、サンプル化されたガウス核とサンプル化されたガウス微分は、スケールパラメータが十分に大きい場合、グリッド間隔の単位においてスケールパラメータが約1より大きい場合、対応する連続結果の数値的に非常に良い近似をもたらす。

This paper develops an in-depth treatment concerning the problem of approximating the Gaussian smoothing and Gaussian derivative computations in scale-space theory for application on discrete data. With close connections to previous axiomatic treatments of continuous and discrete scale-space theory, we consider three main ways discretizing these scale-space operations in terms of explicit discrete convolutions, based on either (i) sampling the Gaussian kernels and the Gaussian derivative kernels, (ii) locally integrating the Gaussian kernels and the Gaussian derivative kernels over each pixel support region and (iii) basing the scale-space analysis on the discrete analogue of the Gaussian kernel, and then computing derivative approximations by applying small-support central difference operators to the spatially smoothed image data. We study the properties of these three main discretization methods both theoretically and experimentally, and characterize their performance by quantitative measures, including the results they give rise to with respect to the task of scale selection, investigated for four different use cases, and with emphasis on the behaviour at fine scales. The results show that the sampled Gaussian kernels and derivatives as well as the integrated Gaussian kernels and derivatives perform very poorly at very fine scales. At very fine scales, the discrete analogue of the Gaussian kernel with its corresponding discrete derivative approximations performs substantially better. The sampled Gaussian kernel and the sampled Gaussian derivatives do, on the other hand, lead to numerically very good approximations of the corresponding continuous results, when the scale parameter is sufficiently large, in the experiments presented in the paper, when the scale parameter is greater than a value of about 1, in units of the grid spacing.
翻訳日:2024-03-16 02:12:48 公開日:2024-03-14
# ビデオの顔の再老化: 一時的に一貫性のある顔の再老化に向けて

Video Face Re-Aging: Toward Temporally Consistent Face Re-Aging ( http://arxiv.org/abs/2311.11642v3 )

ライセンス: Link先を確認
Abdul Muqeet, Kyuchul Lee, Bumsoo Kim, Yohan Hong, Hyungrae Lee, Woonggon Kim, KwangHee Lee, (参考訳) ビデオの顔のリエイジは、人の見かけの年齢をビデオのターゲット年齢に変更する。 この問題は、ペア化されたビデオデータセットがアイデンティティと年齢の時間的一貫性を維持していないため、難しい。 ほとんどの再老化手法は、ビデオの時間的一貫性を考慮せずに、個々の画像を個別に処理する。 いくつかの既存の研究は、潜伏空間におけるビデオ顔属性の操作による時間的コヒーレンス(英語版)の問題に対処しているが、年齢変化において満足なパフォーマンスを達成できない場合が多い。 課題に対処するために,(1)多様な年齢層を対象とする新しい合成ビデオデータセット,(2)提案したデータセットの有効性を検証するためのベースラインアーキテクチャ,(3)ビデオ再生技術の時間的一貫性を明示的に評価するための新しいメトリクスの開発を提案する。 VFHQやCelebA-HQといった公開データセットに関する包括的実験により、我々の手法は年齢変化の精度と時間的整合性において既存の手法よりも優れていることが示された。 特にユーザ調査では,48.1\%の参加者,39.3\%の若年者に対して,時間的一貫性を優先した。

Video face re-aging deals with altering the apparent age of a person to the target age in videos. This problem is challenging due to the lack of paired video datasets maintaining temporal consistency in identity and age. Most re-aging methods process each image individually without considering the temporal consistency of videos. While some existing works address the issue of temporal coherence through video facial attribute manipulation in latent space, they often fail to deliver satisfactory performance in age transformation. To tackle the issues, we propose (1) a novel synthetic video dataset that features subjects across a diverse range of age groups; (2) a baseline architecture designed to validate the effectiveness of our proposed dataset, and (3) the development of novel metrics tailored explicitly for evaluating the temporal consistency of video re-aging techniques. Our comprehensive experiments on public datasets, including VFHQ and CelebA-HQ, show that our method outperforms existing approaches in age transformation accuracy and temporal consistency. Notably, in user studies, our method was preferred for temporal consistency by 48.1\% of participants for the older direction and by 39.3\% for the younger direction.
翻訳日:2024-03-16 02:12:48 公開日:2024-03-14
# 自然言語誘導型ドローンに向けて:空間関係マッチングを用いたGeoText-1652ベンチマーク

Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching ( http://arxiv.org/abs/2311.12751v2 )

ライセンス: Link先を確認
Meng Chu, Zhedong Zheng, Wei Ji, Tingyu Wang, Tat-Seng Chua, (参考訳) 自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットの欠如と、視覚的データとテキストデータの整列のための厳密な精度要件のため、依然として難しい。 このようなニーズに対処するため,新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を導入する。 このデータセットは、Large Language Model(LLM)駆動のアノテーション技術と事前学習された視覚モデルを利用する対話型ヒューマンコンピュータプロセスによって体系的に構築される。 GeoText-1652は、確立されたUniversity-1652イメージデータセットを空間対応のテキストアノテーションで拡張し、画像、テキスト、バウンディングボックス要素の1対1対応を確立する。 さらに、領域レベルの空間関係マッチングにおいて、混合空間マッチングと呼ばれる、きめ細かい空間関係を利用するための新しい最適化目標を導入する。 大規模な実験により,本手法は,他の一般的なクロスモダリティ手法と比較して,競争力のあるリコール率を維持していることが明らかとなった。 このことは、現実のシナリオにおける自然言語コマンドのシームレスな統合を通じて、ドローンの制御とナビゲーションを向上する我々のアプローチの有望な可能性を浮き彫りにしている。

Navigating drones through natural language commands remains challenging due to the dearth of accessible multi-modal datasets and the stringent precision requirements for aligning visual and textual data. To address this pressing need, we introduce GeoText-1652, a new natural language-guided geo-localization benchmark. This dataset is systematically constructed through an interactive human-computer process leveraging Large Language Model (LLM) driven annotation techniques in conjunction with pre-trained vision models. GeoText-1652 extends the established University-1652 image dataset with spatial-aware text annotations, thereby establishing one-to-one correspondences between image, text, and bounding box elements. We further introduce a new optimization objective to leverage fine-grained spatial associations, called blending spatial matching, for region-level spatial relation matching. Extensive experiments reveal that our approach maintains a competitive recall rate comparing other prevailing cross-modality methods. This underscores the promising potential of our approach in elevating drone control and navigation through the seamless integration of natural language commands in real-world scenarios.
翻訳日:2024-03-16 02:12:48 公開日:2024-03-14
# HGCLIP:階層的理解のためのグラフ表現を用いた視覚言語モデルの探索

HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding ( http://arxiv.org/abs/2311.14064v2 )

ライセンス: Link先を確認
Peng Xia, Xingtong Yu, Ming Hu, Lie Ju, Zhiyong Wang, Peibo Duan, Zongyuan Ge, (参考訳) 対象分類は、典型的には多粒性分類階層に分類される。 異なる階層レベルでカテゴリを分類する場合、従来のユニモーダルアプローチは主にイメージ機能に焦点を当て、複雑なシナリオにおける制限を明らかにする。 ビジョンランゲージモデル(VLM)とクラス階層を統合する最近の研究は、将来性を示しているが、階層関係を完全に活用するには至っていない。 これらの取り組みは、様々なカテゴリの粒度で効果的に実行できないことによる制約を受けている。 本稿では,CLIPとグラフ表現学習による階層型クラス構造のより深い活用を効果的に組み合わせた新しいフレームワーク(HGCLIP)を提案する。 クラス階層をグラフに構築し、そのノードは各カテゴリのテキストや画像の特徴を表す。 グラフエンコーダを通した後、テキスト機能には階層構造情報が含まれ、画像機能は、注意機構を通じてプロトタイプから派生したクラス認識機能を強調する。 提案手法は,11種類の視覚認識ベンチマークにおいて有意な改善が見られた。 私たちのコードはhttps://github.com/richard-peng-xia/HGCLIPで完全に利用可能です。

Object categories are typically organized into a multi-granularity taxonomic hierarchy. When classifying categories at different hierarchy levels, traditional uni-modal approaches focus primarily on image features, revealing limitations in complex scenarios. Recent studies integrating Vision-Language Models (VLMs) with class hierarchies have shown promise, yet they fall short of fully exploiting the hierarchical relationships. These efforts are constrained by their inability to perform effectively across varied granularity of categories. To tackle this issue, we propose a novel framework (HGCLIP) that effectively combines CLIP with a deeper exploitation of the Hierarchical class structure via Graph representation learning. We explore constructing the class hierarchy into a graph, with its nodes representing the textual or image features of each category. After passing through a graph encoder, the textual features incorporate hierarchical structure information, while the image features emphasize class-aware features derived from prototypes through the attention mechanism. Our approach demonstrates significant improvements on 11 diverse visual recognition benchmarks. Our codes are fully available at https://github.com/richard-peng-xia/HGCLIP.
翻訳日:2024-03-16 02:12:48 公開日:2024-03-14
# GAIA:ゼロショットトーキングアバター世代

GAIA: Zero-shot Talking Avatar Generation ( http://arxiv.org/abs/2311.15230v2 )

ライセンス: Link先を確認
Tianyu He, Junliang Guo, Runyi Yu, Yuchi Wang, Jialiang Zhu, Kaikai An, Leyi Li, Xu Tan, Chunyu Wang, Han Hu, HsiangTao Wu, Sheng Zhao, Jiang Bian, (参考訳) ゼロショット音声アバター生成は、音声と1枚のポートレート画像から自然な会話ビデオを合成することを目的としている。 従来の手法は、ワーピングに基づく運動表現や3次元モルファブルモデルといったドメイン固有のヒューリスティックに依存しており、生成したアバターの自然性と多様性を制限している。 本研究ではGAIA(Generative AI for Avatar)を紹介する。 音声がアバターの動きのみを駆動するのに対して、アバターと背景の外観はビデオ全体を通して通常同じであり、我々のアプローチは2つの段階に分けられる。 1) 各フレームを動作及び外観表現に切り離す。 2) 音声および参照ポートレート画像に条件付けされた動き系列を生成する。 大規模な高品質な音声アバターデータセットを収集し、異なるスケール(最大2Bパラメータ)でモデルをトレーニングします。 GAIAの優越性,スケーラビリティ,柔軟性を検証した実験結果 1) 結果のモデルは,自然性,多様性,リップシンク品質,視覚的品質の点で,従来のベースラインモデルを上回る。 2) より大きなモデルはより良い結果をもたらすので、フレームワークはスケーラブルです。 3) 汎用的で, 制御可能な音声アバター生成やテキスト指示アバター生成など, 様々な応用が可能である。

Zero-shot talking avatar generation aims at synthesizing natural talking videos from speech and a single portrait image. Previous methods have relied on domain-specific heuristics such as warping-based motion representation and 3D Morphable Models, which limit the naturalness and diversity of the generated avatars. In this work, we introduce GAIA (Generative AI for Avatar), which eliminates the domain priors in talking avatar generation. In light of the observation that the speech only drives the motion of the avatar while the appearance of the avatar and the background typically remain the same throughout the entire video, we divide our approach into two stages: 1) disentangling each frame into motion and appearance representations; 2) generating motion sequences conditioned on the speech and reference portrait image. We collect a large-scale high-quality talking avatar dataset and train the model on it with different scales (up to 2B parameters). Experimental results verify the superiority, scalability, and flexibility of GAIA as 1) the resulting model beats previous baseline models in terms of naturalness, diversity, lip-sync quality, and visual quality; 2) the framework is scalable since larger models yield better results; 3) it is general and enables different applications like controllable talking avatar generation and text-instructed avatar generation.
翻訳日:2024-03-16 02:12:48 公開日:2024-03-14
# EucliDreamer:安定拡散深さ3次元モデルのための高速かつ高品質なテクスチャ

EucliDreamer: Fast and High-Quality Texturing for 3D Models with Stable Diffusion Depth ( http://arxiv.org/abs/2311.15573v2 )

ライセンス: Link先を確認
Cindy Le, Congrui Hetang, Chendi Lin, Ang Cao, Yihui He, (参考訳) 本稿では,テキストプロンプトと3Dメッシュを用いた3次元モデルのテクスチャ生成手法を提案する。 深度条件安定拡散を伴うスコア蒸留サンプリング(SDS)プロセスを実行するために、追加の深度情報を考慮に入れる。 我々は、オープンソースのデータセットObjaverse上でモデルを動作させ、その結果を様々な3Dテクスチャ法と比較した。 我々は,本モデルによりより満足な結果が得られ,同じオブジェクトに対して様々なアートスタイルが生成できることを実証した。 さらに、同等の品質のテクスチャを生成する場合、より高速な時間を実現しました。 また、サンプリングステップ、ガイダンススケール、負のプロンプト、データ強化、標高範囲、SDSの代替品など、異なる要因が生成品質にどのように影響するかについて、徹底的なアブレーション研究を行った。

This paper presents a novel method to generate textures for 3D models given text prompts and 3D meshes. Additional depth information is taken into account to perform the Score Distillation Sampling (SDS) process with depth conditional Stable Diffusion. We ran our model over the open-source dataset Objaverse and conducted a user study to compare the results with those of various 3D texturing methods. We have shown that our model can generate more satisfactory results and produce various art styles for the same object. In addition, we achieved faster time when generating textures of comparable quality. We also conduct thorough ablation studies of how different factors may affect generation quality, including sampling steps, guidance scale, negative prompts, data augmentation, elevation range, and alternatives to SDS.
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# GaitContour: Contour-Pose表現に基づく効率的な歩行認識

GaitContour: Efficient Gait Recognition based on a Contour-Pose Representation ( http://arxiv.org/abs/2311.16497v2 )

ライセンス: Link先を確認
Yuxiang Guo, Anshul Shah, Jiang Liu, Ayush Gupta, Rama Chellappa, Cheng Peng, (参考訳) 歩行認識は、外見情報ではなく歩行パターンに基づいて、被験者をしっかりと識別する約束を持っている。 近年、この分野は、密集したシルエットマスクやスパースポーズキーポイントという2つの主要な入力表現に基づく学習方法によって支配されている。 本研究では,身体形状と身体部分情報の両方をコンパクトに表現する,ポイントベースコントゥール・ポース表現を提案する。 さらに,GaitContourと呼ばれるローカル・グローバル・アーキテクチャを提案し,この新しい表現を活用して2段階の被写体埋め込みを効率的に計算する。 第1段階は5つの異なる身体領域から特徴を抽出する局所変圧器からなる。 次に、第2段階が地域的特徴を集約し、グローバルな人間の歩行表現を推定する。 このような設計は、注意操作の複雑さを著しく低減し、効率と性能を同時に向上させる。 大規模な実験を通して、GaitContourは従来の点ベースの手法よりもはるかに優れた性能を示し、シルエットベースの手法よりもはるかに効率的である。 GaitContourは、重要なイントラクタを持つ挑戦的なデータセットに対して、シルエットベースのメソッドよりも優れています。

Gait recognition holds the promise to robustly identify subjects based on walking patterns instead of appearance information. In recent years, this field has been dominated by learning methods based on two principal input representations: dense silhouette masks or sparse pose keypoints. In this work, we propose a novel, point-based Contour-Pose representation, which compactly expresses both body shape and body parts information. We further propose a local-to-global architecture, called GaitContour, to leverage this novel representation and efficiently compute subject embedding in two stages. The first stage consists of a local transformer that extracts features from five different body regions. The second stage then aggregates the regional features to estimate a global human gait representation. Such a design significantly reduces the complexity of the attention operation and improves efficiency and performance simultaneously. Through large scale experiments, GaitContour is shown to perform significantly better than previous point-based methods, while also being significantly more efficient than silhouette-based methods. On challenging datasets with significant distractors, GaitContour can even outperform silhouette-based methods.
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# HumanGaussian: ガウススプラッティングによるテキスト駆動型3Dヒューマンジェネレーション

HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting ( http://arxiv.org/abs/2311.17061v2 )

ライセンス: Link先を確認
Xian Liu, Xiaohang Zhan, Jiaxiang Tang, Ying Shan, Gang Zeng, Dahua Lin, Xihui Liu, Ziwei Liu, (参考訳) テキストプロンプトからのリアルな3Dヒューマン生成は、望ましいが難しい課題である。 既存の方法は、スコア蒸留サンプリング(SDS)を通じてメッシュやニューラルフィールドのような3D表現を最適化する。 本稿では,高精細な形状とリアルな外観を持つ高品質な3D人間を創出する,効率的かつ効果的な枠組みであるHumanGaussianを提案する。 我々の重要な洞察は、3Dガウススプラッティングは周期的なガウスの収縮や成長を伴う効率的なレンダラーであり、そのような適応密度制御は本質的な人体構造によって自然に導くことができるということである。 具体的には 1) 人間の外観と幾何学を同時に最適化する構造認識SDSを提案する。 RGBと深さ空間の多モードスコア関数を利用してガウスの密度化と刈り取り過程を蒸留する。 さらに,SDSをよりノイズの多い生成スコアとよりクリーンな分類器スコアに分解することで,過飽和問題に対処し,Annealed Negative Prompt Guidanceを考案した。 さらに、プルーネのみの相におけるガウスサイズに基づいて浮体アーティファクトをさらに除去し、生成の滑らかさを高める。 大規模な実験は、我々のフレームワークの優れた効率性と競争性を示し、多様なシナリオ下で鮮明な3D人間をレンダリングする。 Project Page: https://alvinliu0.github.io/projects/HumanGaussian

Realistic 3D human generation from text prompts is a desirable yet challenging task. Existing methods optimize 3D representations like mesh or neural fields via score distillation sampling (SDS), which suffers from inadequate fine details or excessive training time. In this paper, we propose an efficient yet effective framework, HumanGaussian, that generates high-quality 3D humans with fine-grained geometry and realistic appearance. Our key insight is that 3D Gaussian Splatting is an efficient renderer with periodic Gaussian shrinkage or growing, where such adaptive density control can be naturally guided by intrinsic human structures. Specifically, 1) we first propose a Structure-Aware SDS that simultaneously optimizes human appearance and geometry. The multi-modal score function from both RGB and depth space is leveraged to distill the Gaussian densification and pruning process. 2) Moreover, we devise an Annealed Negative Prompt Guidance by decomposing SDS into a noisier generative score and a cleaner classifier score, which well addresses the over-saturation issue. The floating artifacts are further eliminated based on Gaussian size in a prune-only phase to enhance generation smoothness. Extensive experiments demonstrate the superior efficiency and competitive quality of our framework, rendering vivid 3D humans under diverse scenarios. Project Page: https://alvinliu0.github.io/projects/HumanGaussian
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# 人物再同定のための全体と構成要素に基づく意味表現の自己教師付き学習

Self-Supervised Learning of Whole and Component-Based Semantic Representations for Person Re-Identification ( http://arxiv.org/abs/2311.17074v4 )

ライセンス: Link先を確認
Siyuan Huang, Yifan Zhou, Ram Prabhakar, Xijun Liu, Yuxiang Guo, Hongrui Yi, Cheng Peng, Rama Chellappa, Chun Pong Lau, (参考訳) 個人再識別(ReID)は、さまざまな設定にまたがって個人を特定することに焦点を当て、困難な問題である。 しかし、以前のReIDメソッドは、Clothes-Changing ReID(CC-ReID)やビデオReIDのような単一のドメインやモダリティに集中していた。 現実世界のReIDは、服や入力タイプのような要因によって制約されない。 近年のアプローチでは、ReID性能を向上させるための事前学習による意味学の学習が重視されているが、粗い粒度、着衣点、事前定義された領域によって妨げられている。 これらの制約に対処するため,インタラクティブセグメンテーションモデルにインスパイアされた局所意味抽出(LSE)モジュールを提案する。 LSEモジュールは微細でバイオメトリックでフレキシブルなローカルセマンティクスをキャプチャし、ReIDの精度を高める。 さらに,LSEを利用したセマンティックReID(Semantic ReID)を導入し,様々なReIDドメインやモダリティをシームレスに移動するための効果的なセマンティックスを学習する。 9つのReIDデータセットにわたる大規模な評価は、着替え型ReID、ビデオReID、制約なしReID、短期ReIDなど、SemReIDの堅牢なパフォーマンスを示している。 SemReIDはドメイン固有の設計を使わずに優れた性能を発揮するため,ReIDにおける効果的なセマンティクスの重要性を強調した。

Person Re-Identification (ReID) is a challenging problem, focusing on identifying individuals across diverse settings. However, previous ReID methods primarily concentrated on a single domain or modality, such as Clothes-Changing ReID (CC-ReID) and video ReID. Real-world ReID is not constrained by factors like clothes or input types. Recent approaches emphasize on learning semantics through pre-training to enhance ReID performance but are hindered by coarse granularity, on-clothes focus and pre-defined areas. To address these limitations, we propose a Local Semantic Extraction (LSE) module inspired by Interactive Segmentation Models. The LSE module captures fine-grained, biometric, and flexible local semantics, enhancing ReID accuracy. Additionally, we introduce Semantic ReID (SemReID), a pre-training method that leverages LSE to learn effective semantics for seamless transfer across various ReID domains and modalities. Extensive evaluations across nine ReID datasets demonstrates SemReID's robust performance across multiple domains, including clothes-changing ReID, video ReID, unconstrained ReID, and short-term ReID. Our findings highlight the importance of effective semantics in ReID, as SemReID can achieve great performances without domain-specific designs.
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# DyRA:既存の検出器のためのポータブル動的分解能調整ネットワーク

DyRA: Portable Dynamic Resolution Adjustment Network for Existing Detectors ( http://arxiv.org/abs/2311.17098v3 )

ライセンス: Link先を確認
Daeun Seo, Hoeseok Yang, Hyungshin Kim, (参考訳) 物体検出における一定の精度を達成することは、物体の大きさの固有の変動性のために困難である。 この問題に対する効果的なアプローチの1つは、マルチレゾリューション戦略と呼ばれる入力分解能の最適化である。 従来の解決最適化のアプローチは、しばしば手動選択による事前定義された解決に基づいている。 しかし、既存のアーキテクチャのランタイム解像度最適化に関する研究は不十分である。 本稿では,既存の検出器に画像特異的なスケールファクタを提供する動的解像度調整ネットワークDyRAを紹介する。 このネットワークは、パレートスケールロス(ParetoScaleLoss)とバランスロス( BalanceLoss)と呼ばれる特別な設計の損失関数を利用する検出器と共同で訓練されている。 ParetoScaleLossはロバストネスの適応スケールファクタを決定するが、Ba balanceLossは検出器のローカライゼーション性能に応じて全体的なスケールファクタを最適化する。 損失関数は、スケールのための異なるサイズのオブジェクトの対照的な目的に対する精度低下を最小限に抑えるために考案された。 提案するネットワークは,RetinaNet, Faster-RCNN, FCOS, DINO, H-Deformable-DETRなど,様々なモデルの精度を向上させることができる。 コードはhttps://github.com/DaEunFullGrace/DyRA.gitで入手できる。

Achieving constant accuracy in object detection is challenging due to the inherent variability of object sizes. One effective approach to this problem involves optimizing input resolution, referred to as a multi-resolution strategy. Previous approaches to resolution optimization have often been based on pre-defined resolutions with manual selection. However, there is a lack of study on run-time resolution optimization for existing architectures. This paper introduces DyRA, a dynamic resolution adjustment network providing an image-specific scale factor for existing detectors. This network is co-trained with detectors utilizing specially designed loss functions, namely ParetoScaleLoss and BalanceLoss. ParetoScaleLoss determines an adaptive scale factor for robustness, while BalanceLoss optimizes overall scale factors according to the localization performance of the detector. The loss function is devised to minimize the accuracy drop across contrasting objectives of different-sized objects for scaling. Our proposed network can improve accuracy across various models, including RetinaNet, Faster-RCNN, FCOS, DINO, and H-Deformable-DETR. The code is available at https://github.com/DaEunFullGrace/DyRA.git.
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# MADに進むべきか? LLMのためのマルチエージェント議論戦略

Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs ( http://arxiv.org/abs/2311.17371v2 )

ライセンス: Link先を確認
Andries Smit, Paul Duckworth, Nathan Grinsztajn, Thomas D. Barrett, Arnu Pretorius, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な領域の問い合わせに応答する可能性を示している。 しかし、生成エージェントが正確で信頼性の高い回答を提供することは、現在も進行中の課題である。 この文脈において、マルチエージェント討論(MAD)はLLMの真正性を高めるための有望な戦略として現れている。 コスト、時間、正確性の間のトレードオフを探るため、さまざまな議論と戦略をベンチマークします。 重要なことに、マルチエージェントの議論システムは、現在の形式では、複数の推論経路を用いた自己整合性やアンサンブルといった他の提案された促進戦略を確実に上回っているわけではない。 しかし、ハイパーパラメータチューニングを行う場合、Multi-PersonaのようないくつかのMADシステムはより優れた性能を発揮する。 これはMADプロトコルが本質的に他のアプローチよりも悪いのではなく、異なるハイパーパラメータ設定に敏感であり、最適化が難しいことを示唆している。 これらの結果に基づいて、エージェント合意レベルの調整などの議論戦略の改善に関する洞察を提供し、パフォーマンスを著しく向上させ、評価した他のすべての非議論プロトコルを超えます。 コミュニティには、いくつかの最先端プロトコルと、人気のある研究データセットをベンチマークする評価スクリプトを、オープンソースリポジトリとして提供しています。

Recent advancements in large language models (LLMs) underscore their potential for responding to inquiries in various domains. However, ensuring that generative agents provide accurate and reliable answers remains an ongoing challenge. In this context, multi-agent debate (MAD) has emerged as a promising strategy for enhancing the truthfulness of LLMs. We benchmark a range of debating and prompting strategies to explore the trade-offs between cost, time, and accuracy. Importantly, we find that multi-agent debating systems, in their current form, do not reliably outperform other proposed prompting strategies, such as self-consistency and ensembling using multiple reasoning paths. However, when performing hyperparameter tuning, several MAD systems, such as Multi-Persona, perform better. This suggests that MAD protocols might not be inherently worse than other approaches, but that they are more sensitive to different hyperparameter settings and difficult to optimize. We build on these results to offer insights into improving debating strategies, such as adjusting agent agreement levels, which can significantly enhance performance and even surpass all other non-debate protocols we evaluated. We provide an open-source repository to the community with several state-of-the-art protocols together with evaluation scripts to benchmark across popular research datasets.
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# Receler: テキストと画像の拡散モデルの軽量エフェサーによる信頼性の高い概念消去

Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers ( http://arxiv.org/abs/2311.17717v2 )

ライセンス: Link先を確認
Chi-Pin Huang, Kai-Po Chang, Chung-Ting Tsai, Yung-Hsuan Lai, Fu-En Yang, Yu-Chiang Frank Wang, (参考訳) テキストから画像への拡散モデルにおける概念消去は、対象概念に関連する画像の生成から事前学習された拡散モデルを無効にすることを目的としている。 信頼性の高い概念消去を実現するためには、ロバスト性や局所性が望ましい。 前者は、パラフレーズまたは学習プロンプトに対してターゲット概念に関連する画像を生成するのを控え、後者はターゲットでない概念で画像を生成する能力を保っている。 本稿では,軽量エライザー (Receler) を用いた信頼性概念消去手法を提案する。 提案した概念局所正規化と対向的素早い学習方式により、上記の望ましい特性を満足しつつ、概念消去を行うための軽量な消去器を学習する。 様々な概念による総合的な実験は、以前の方法よりもレセラーの優位性を検証する。 私たちのコードは受理後利用可能になります。

Concept erasure in text-to-image diffusion models aims to disable pre-trained diffusion models from generating images related to a target concept. To perform reliable concept erasure, the properties of robustness and locality are desirable. The former refrains the model from producing images associated with the target concept for any paraphrased or learned prompts, while the latter preserves its ability in generating images with non-target concepts. In this paper, we propose Reliable Concept Erasing via Lightweight Erasers (Receler). It learns a lightweight Eraser to perform concept erasing while satisfying the above desirable properties by proposed concept-localized regularization and adversarial prompt learning schemes. Comprehensive experiments with various concepts verify the superiority of Receler over previous methods. Our code will be available upon acceptance.
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# SynFundus-1M:15種類のアノテーションを用いた高品質な100万規模の合成基礎画像

SynFundus-1M: A High-quality Million-scale Synthetic fundus images Dataset with Fifteen Types of Annotation ( http://arxiv.org/abs/2312.00377v4 )

ライセンス: Link先を確認
Fangxin Shang, Jie Fu, Yehui Yang, Haifeng Huang, Junwei Liu, Lei Ma, (参考訳) 高品質なアノテーションを備えた大規模な公開データセットは、データのプライバシー上の懸念とアノテーションのコストのために、インテリジェントな医療画像研究にはほとんど利用できない。 本稿では,良質な合成データセットであるSynFundus-1Mをリリースする。 さらに,4つの可読性ラベルを眼底画像のキー領域に意図的に割り当てる。 我々の知る限り、SynFundus-1Mは現在、最も洗練されたアノテーションを備えた最大のファンドデータセットです。 さまざまなシナリオから130万以上の個人認証イメージを活用して、SynFundus-Generatorという強力なDenoising Diffusion Probabilistic Modelをトレーニングしました。 リリースされたSynFundus-1Mは、事前に定義された条件下でSynFundus-Generatorによって生成される。 SynFundus-1Mの価値を示すために、以下の点から広範な実験が設計されている。 1) 画像の正当性: 合成画像と真基底画像とをランダムにブレンドし, 経験者アノテータが合成画像と真基底画像とを区別することがほとんどないことを見出した。 また, 疾患関連視覚特徴(eg病変)は, 合成画像において十分にシミュレートされている。 2) 畳み込みニューラルネットワーク (CNN) または視覚変換器 (ViT) アーキテクチャの網膜疾患診断モデルが,SynFundus-1M の恩恵を受けることを示すとともに,SynFundus-1M でトレーニングされたモデルでは,SynFundus-1M でトレーニングされたモデルが優れた性能を得るだけでなく,様々なダウンストリームタスクに対してより高速な収束を示す。 SynFundus-1Mはすでにオープンソースコミュニティで公開されている。

Large-scale public datasets with high-quality annotations are rarely available for intelligent medical imaging research, due to data privacy concerns and the cost of annotations. In this paper, we release SynFundus-1M, a high-quality synthetic dataset containing over one million fundus images in terms of \textbf{eleven disease types}. Furthermore, we deliberately assign four readability labels to the key regions of the fundus images. To the best of our knowledge, SynFundus-1M is currently the largest fundus dataset with the most sophisticated annotations. Leveraging over 1.3 million private authentic fundus images from various scenarios, we trained a powerful Denoising Diffusion Probabilistic Model, named SynFundus-Generator. The released SynFundus-1M are generated by SynFundus-Generator under predefined conditions. To demonstrate the value of SynFundus-1M, extensive experiments are designed in terms of the following aspect: 1) Authenticity of the images: we randomly blend the synthetic images with authentic fundus images, and find that experienced annotators can hardly distinguish the synthetic images from authentic ones. Moreover, we show that the disease-related vision features (e.g. lesions) are well simulated in the synthetic images. 2) Effectiveness for down-stream fine-tuning and pretraining: we demonstrate that retinal disease diagnosis models of either convolutional neural networks (CNN) or Vision Transformer (ViT) architectures can benefit from SynFundus-1M, and compared to the datasets commonly used for pretraining, models trained on SynFundus-1M not only achieve superior performance but also demonstrate faster convergence on various downstream tasks. SynFundus-1M is already public available for the open-source community.
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# 創造的人工知能は創造性を高めるが、新しいコンテンツの多様性を減らす

Generative artificial intelligence enhances creativity but reduces the diversity of novel content ( http://arxiv.org/abs/2312.00506v3 )

ライセンス: Link先を確認
Anil R. Doshi, Oliver P. Hauser, (参考訳) 創造性は人間にとって中核である。 生成人工知能(GenAI)は、新しいアイデアを提供することによって人間がより創造的になること、あるいはGenAIのアイデアを定着させることによって創造的になることを約束する。 我々は、GenAIプラットフォームから物語のアイデアを得ることができるオンライン実験において、創造的アウトプットの生成に対するGenAIの因果的影響について研究する。 GenAIのアイデアへのアクセスは、作家の創造性を高め、特に創造性に乏しい作家の間で、物語がより良く、より楽しいものとして評価される。 しかし、GenAI対応の物語は人間単独の物語よりも互いに似通っている。 この結果は、創造性を高めることに関心を持つ研究者、政策立案者、実践者にとって意味があるが、過度な信頼による下流の結果を示唆している。

Creativity is core to being human. Generative artificial intelligence (GenAI) holds promise for humans to be more creative by offering new ideas, or less creative by anchoring on GenAI ideas. We study the causal impact of GenAI on the production of a creative output in an online experimental study where some writers are could obtain ideas for a story from a GenAI platform. Access to GenAI ideas causes an increase in the writer's creativity with stories being evaluated as better written and more enjoyable, especially among less creative writers. However, GenAI-enabled stories are more similar to each other than stories by humans alone. Our results have implications for researchers, policy-makers and practitioners interested in bolstering creativity, but point to potential downstream consequences from over-reliance.
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# 農業予測の革新:グローバル作物収量予測の多変量回帰研究

Innovations in Agricultural Forecasting: A Multivariate Regression Study on Global Crop Yield Prediction ( http://arxiv.org/abs/2312.02254v2 )

ライセンス: Link先を確認
Ishaan Gupta, Samyutha Ayalasomayajula, Yashas Shashidhara, Anish Kataria, Shreyas Shashidhara, Krishita Kataria, Aditya Undurti, (参考訳) 国際的に作物収量の予測は農業研究において重要な目的である。 そこで本研究では,27歳以上の開発途上国37カ国における収量予測のための6つの回帰モデル(Linear, Tree, Gradient Descent, Gradient Boosting, K Nearest Neighbors, Random Forest)を実装した。 4つの主要な訓練パラメータ, 殺虫剤 (tonnes), 降雨剤 (mm), 温度 (Celsius), 収量 (hg/ha) が与えられた結果, 我々のランダムフォレスト回帰モデルでは0.94の判定係数 (r2) が, 誤差 (ME) は.03であった。 これらのモデルは、World Bank Climate Change Data Catalogとともに、国連データの食品農業機関(Food and Agricultural Organization)を使用してトレーニングされ、テストされた。 さらに、各パラメータを解析して、様々な要因が全体の収量にどのように影響するかを解明した。 私たちは、一般的に使われているディープラーニング(DL)と機械学習(ML)モデルと、最近収集されたデータを組み合わせて、我々の研究でユニークなアプローチを実装しました。 既存の奨学金は、特に国連のデータを用いて、農業研究の最も最適なモデルを理解することの恩恵を受けるだろう。

The prediction of crop yields internationally is a crucial objective in agricultural research. Thus, this study implements 6 regression models (Linear, Tree, Gradient Descent, Gradient Boosting, K Nearest Neighbors, and Random Forest) to predict crop yields in 37 developing countries over 27 years. Given 4 key training parameters, insecticides (tonnes), rainfall (mm), temperature (Celsius), and yield (hg/ha), it was found that our Random Forest Regression model achieved a determination coefficient (r2) of 0.94, with a margin of error (ME) of .03. The models were trained and tested using the Food and Agricultural Organization of the United Nations data, along with the World Bank Climate Change Data Catalog. Furthermore, each parameter was analyzed to understand how varying factors could impact overall yield. We used unconventional models, contrary to generally used Deep Learning (DL) and Machine Learning (ML) models, combined with recently collected data to implement a unique approach in our research. Existing scholarship would benefit from understanding the most optimal model for agricultural research, specifically using the United Nations data.
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# シンクロナイゼーションは必要なものすべて:非ラベル同期ビデオペアを用いた時間的アクションセグメンテーションのためのExocentric-to-Egocentric Transfer

Synchronization is All You Need: Exocentric-to-Egocentric Transfer for Temporal Action Segmentation with Unlabeled Synchronized Video Pairs ( http://arxiv.org/abs/2312.02638v2 )

ライセンス: Link先を確認
Camillo Quattrocchi, Antonino Furnari, Daniele Di Mauro, Mario Valerio Giuffrida, Giovanni Maria Farinella, (参考訳) 我々は、当初、外向型(固定型)カメラ用に設計された時間的アクションセグメンテーションシステムを、ウェアラブルカメラが映像データをキャプチャするエゴセントリックなシナリオに転送する問題を考える。 従来の教師付きアプローチでは、コストと時間を要するモデルに適応するために、新しいエゴセントリックなビデオのコレクションとラベリングが必要となる。 そこで本稿では,既存のラベル付きエキソセントリックビデオと,時間的アクションセグメンテーションアノテーションを収集する必要のない,非ラベル付き,同期型エキソセントリックビデオペアを新たに導入する手法を提案する。 提案手法を知識蒸留に基づく手法を用いて実装し,特徴量と時間行動セグメンテーションモデルの両方について検討する。 Assembly101とEgoExo4Dの実験は、従来の教師なし領域適応と時間的アライメントアプローチに対する提案手法の有効性を実証している。 我々の最良のモデルは、ラベル付きエゴセントリックなデータに基づいてトレーニングされた教師付きアプローチと同等に動作し、単一のエゴセントリックなラベルを見ることなく、アセンブリ101データセットの編集スコア(28.59対12.60)を、エゴセントリックなデータのみに基づいてトレーニングされたベースラインモデルと比較して+15.99改善した。 同様の設定では、EgoExo4Dベンチマークの編集スコアを+3.32に改善する。

We consider the problem of transferring a temporal action segmentation system initially designed for exocentric (fixed) cameras to an egocentric scenario, where wearable cameras capture video data. The conventional supervised approach requires the collection and labeling of a new set of egocentric videos to adapt the model, which is costly and time-consuming. Instead, we propose a novel methodology which performs the adaptation leveraging existing labeled exocentric videos and a new set of unlabeled, synchronized exocentric-egocentric video pairs, for which temporal action segmentation annotations do not need to be collected. We implement the proposed methodology with an approach based on knowledge distillation, which we investigate both at the feature and Temporal Action Segmentation model level. Experiments on Assembly101 and EgoExo4D demonstrate the effectiveness of the proposed method against classic unsupervised domain adaptation and temporal alignment approaches. Without bells and whistles, our best model performs on par with supervised approaches trained on labeled egocentric data, without ever seeing a single egocentric label, achieving a +15.99 improvement in the edit score (28.59 vs 12.60) on the Assembly101 dataset compared to a baseline model trained solely on exocentric data. In similar settings, our method also improves edit score by +3.32 on the challenging EgoExo4D benchmark.
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# Egocentric Hand-Object Interaction Detection に合成データは有用か?

Are Synthetic Data Useful for Egocentric Hand-Object Interaction Detection? ( http://arxiv.org/abs/2312.02672v2 )

ライセンス: Link先を確認
Rosario Leonardi, Antonino Furnari, Francesco Ragusa, Giovanni Maria Farinella, (参考訳) 本研究では,エゴセントリックな手・物体間相互作用検出における合成データの有効性について検討した。 また,3つのエゴセントリックデータセット(VISOR,EgoHOS,ENIGMA-51)の広範な実験と比較分析により,実際のラベル付きデータが不足あるいは利用できない場合に,HOI検出タスクの合成データを利用する方法が明らかになった。 具体的には、実際のラベル付きデータの10%しか利用せず、EPIC-KITCHENS VISORで+5.67%、EgoHOSで+8.24%、ENIGMA-51で+11.69%のトレーニングを受けたベースラインと比較して、全体的なAPの改善を実現している。 我々の分析は、新しいデータ生成パイプラインと、新たに導入されたHOI-Synthベンチマークによって支援され、手オブジェクト間相互作用の合成画像に手オブジェクト接触状態、バウンディングボックス、ピクセルワイドセグメンテーションマスクを自動ラベル付けする。 生成されたデータ、コード、およびデータ生成ツールを公開して、次のリンクで将来の研究をサポートする。

In this study, we investigate the effectiveness of synthetic data in enhancing egocentric hand-object interaction detection. Via extensive experiments and comparative analyses on three egocentric datasets, VISOR, EgoHOS, and ENIGMA-51, our findings reveal how to exploit synthetic data for the HOI detection task when real labeled data are scarce or unavailable. Specifically, by leveraging only 10% of real labeled data, we achieve improvements in Overall AP compared to baselines trained exclusively on real data of: +5.67% on EPIC-KITCHENS VISOR, +8.24% on EgoHOS, and +11.69% on ENIGMA-51. Our analysis is supported by a novel data generation pipeline and the newly introduced HOI-Synth benchmark which augments existing datasets with synthetic images of hand-object interactions automatically labeled with hand-object contact states, bounding boxes, and pixel-wise segmentation masks. We publicly release the generated data, code, and data generation tools to support future research at the following link: https://iplab.dmi.unict.it/HOI-Synth/.
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# RING-NeRF : 可逆性・高能率ニューラルネットワークのための誘導的ビアーゼの再考

RING-NeRF : Rethinking Inductive Biases for Versatile and Efficient Neural Fields ( http://arxiv.org/abs/2312.03357v2 )

ライセンス: Link先を確認
Doriand Petit, Steve Bourgeois, Dumitru Pavel, Vincent Gay-Bellile, Florian Chabot, Loic Barthe, (参考訳) ニューラルフィールドの最近の進歩は、しばしばモデルを複雑にするタスク固有の監督の開発に大きく依存している。 合成が難しいモジュールや特定のモジュールを開発する代わりに、一般的に見落とされた別のアプローチは、シーン表現(帰納的バイアスとも呼ばれる)に直接NeRFアーキテクチャにジェネリックな優先順位を注入することである。 この考え方に基づいて、シーンの連続的マルチスケール表現とデコーダの空間的およびスケール的領域上の潜在空間の不変性という2つの帰納バイアスを含むRING-NeRFアーキテクチャを提案する。 また、これらの帰納バイアスを生かした単一再構成プロセスの設計を行い、複数のタスク(アンチエイリアス化、ビュー再構成の少ない、シーン固有の初期化のないSDF再構成)に特化したアーキテクチャによる品質のオンパー性能を、より効率的で実験的に示す。 さらに、RING-NeRFはモデルの解像度を動的に向上し、適応的再構成への道を開くという特徴がある。

Recent advances in Neural Fields mostly rely on developing task-specific supervision which often complicates the models. Rather than developing hard-to-combine and specific modules, another approach generally overlooked is to directly inject generic priors on the scene representation (also called inductive biases) into the NeRF architecture. Based on this idea, we propose the RING-NeRF architecture which includes two inductive biases : a continuous multi-scale representation of the scene and an invariance of the decoder's latent space over spatial and scale domains. We also design a single reconstruction process that takes advantage of those inductive biases and experimentally demonstrates on-par performances in terms of quality with dedicated architecture on multiple tasks (anti-aliasing, few view reconstruction, SDF reconstruction without scene-specific initialization) while being more efficient. Moreover, RING-NeRF has the distinctive ability to dynamically increase the resolution of the model, opening the way to adaptive reconstruction.
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# 一つの質問しか学ばない: シングルステージマルチパーソン・マルチタスク人間中心認識のための統一されたヒューマンクエリを学習する

You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception ( http://arxiv.org/abs/2312.05525v2 )

ライセンス: Link先を確認
Sheng Jin, Shuhuai Li, Tong Li, Wentao Liu, Chen Qian, Ping Luo, (参考訳) 人間中心の知覚(ペデトリアン検出、セグメンテーション、ポーズ推定、属性解析など)は、コンピュータビジョンの長年の問題である。 本稿では,単一段階のマルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。 提案手法は,個人の複雑なインスタンスレベルの特徴をキャプチャし,複雑な多人数シナリオを解消する,ヒューマンクエリ(Human Query)と呼ばれる統一されたクエリ表現の学習に重点を置いている。 HCPタスクは個別によく研究されているが、総合的なベンチマークデータセットがないため、HCPタスクのシングルステージマルチタスク学習は文献で完全に活用されていない。 このギャップに対処するため,モデル開発と総合評価を可能にするCOCO-UniHumanベンチマークデータセットを提案する。 提案手法のマルチタスクHCPモデルとタスク固有HCPモデルとの競合性能を比較検討した。 さらに,HCPタスクに対するHuman Queryの適応性を評価し,その堅牢な一般化能力を実証した。 コードとデータは公開されます。

Human-centric perception (e.g. pedetrian detection, segmentation, pose estimation, and attribute analysis) is a long-standing problem for computer vision. This paper introduces a unified and versatile framework (HQNet) for single-stage multi-person multi-task human-centric perception (HCP). Our approach centers on learning a unified human query representation, denoted as Human Query, which captures intricate instance-level features for individual persons and disentangles complex multi-person scenarios. Although different HCP tasks have been well-studied individually, single-stage multi-task learning of HCP tasks has not been fully exploited in the literature due to the absence of a comprehensive benchmark dataset. To address this gap, we propose COCO-UniHuman benchmark dataset to enable model development and comprehensive evaluation. Experimental results demonstrate the proposed method's state-of-the-art performance among multi-task HCP models and its competitive performance compared to task-specific HCP models. Moreover, our experiments underscore Human Query's adaptability to new HCP tasks, thus demonstrating its robust generalization capability. Codes and data will be publicly accessible.
翻訳日:2024-03-16 02:02:44 公開日:2024-03-14
# 爪折り毛細管解析のための包括的データセットと自動パイプライン

A Comprehensive Dataset and Automated Pipeline for Nailfold Capillary Analysis ( http://arxiv.org/abs/2312.05930v2 )

ライセンス: Link先を確認
Linxi Zhao, Jiankai Tang, Dongyu Chen, Xiaohong Liu, Yong Zhou, Yuanchun Shi, Guangyu Wang, Yuntao Wang, (参考訳) ネイルフォールドカピラロスコープは、自動的にネイルフォールドキャピラリー分析システムの必要性を強調し、健康状態を評価するために広く用いられている。 本研究では,68名を対象に,包括的ネイルフォールド・キャピラリー・データセット321画像,219件のビデオ,臨床報告,専門家注記などを構築し,深層学習モデルの訓練に欠かせない資料を提供する。 このデータセットを活用して、専門家アノテーションを教師付きラベルとして3つのディープラーニングモデルを微調整し、それらを新しいエンドツーエンドのネイルフォールドキャピラリー分析パイプラインに統合しました。 このパイプラインは、爪折りキャピラリーの幅広いサイズ要因、形態的特徴、動的側面を自動的に検出し、測定する。 結果と臨床報告を比較した。 実験の結果, 自動パイプラインでは, 測定値の平均サブピクセルレベルの精度が89.9%, 形態異常が89.9%であった。 これらの結果は、定量的医学研究の進展と、医療における広汎なコンピューティングの実現の可能性を浮き彫りにしている。 私たちのデータとコードはhttps://github.com/THU-CS-PI-LAB/ANFC-Automated-Nailfold-Capillaryで公開されています。

Nailfold capillaroscopy is widely used in assessing health conditions, highlighting the pressing need for an automated nailfold capillary analysis system. In this study, we present a pioneering effort in constructing a comprehensive nailfold capillary dataset-321 images, 219 videos from 68 subjects, with clinic reports and expert annotations-that serves as a crucial resource for training deep-learning models. Leveraging this dataset, we finetuned three deep learning models with expert annotations as supervised labels and integrated them into a novel end-to-end nailfold capillary analysis pipeline. This pipeline excels in automatically detecting and measuring a wide range of size factors, morphological features, and dynamic aspects of nailfold capillaries. We compared our outcomes with clinical reports. Experiment results showed that our automated pipeline achieves an average of sub-pixel level precision in measurements and 89.9% accuracy in identifying morphological abnormalities. These results underscore its potential for advancing quantitative medical research and enabling pervasive computing in healthcare. Our data and code are available at https://github.com/THU-CS-PI-LAB/ANFC-Automated-Nailfold-Capillary.
翻訳日:2024-03-16 01:52:29 公開日:2024-03-14
# ディバイド・アンド・コンカー攻撃:テキスト・画像モデルの安全フィルタをバイパスするためにLLMのパワーを損なう

Divide-and-Conquer Attack: Harnessing the Power of LLM to Bypass Safety Filters of Text-to-Image Models ( http://arxiv.org/abs/2312.07130v3 )

ライセンス: Link先を確認
Yimo Deng, Huangxun Chen, (参考訳) テキスト・ツー・イメージ(TTI)モデルは、多くの革新的なサービスを提供しているが、非倫理的な画像を生成する可能性があるため、倫理的な懸念も提起している。 ほとんどの公共TTIサービスは、意図しない画像を防ぐために安全フィルタを使用している。 本研究では、DALL-E 3やMidjourneyを含む最先端TTIモデルの安全性フィルタを回避するために、Divide-and-Conquer Attackを導入する。 我々の攻撃は LLM をテキスト変換エージェントとして活用し、敵対的なプロンプトを生成する。 我々は、LLMを効果的に誘導するアタック・ヘルパーを設計し、個々の画像要素の複数の良心的な記述に分割し、非倫理的な画像を生成しながら安全フィルタをバイパスできるようにする。 なぜなら、潜在有害な意味は、全ての個々の要素が一緒に引かれるときにのみ明らかになるからである。 評価の結果,攻撃によって複数の強いクローズドボックス安全フィルタを回避できた。 最先端のTTIエンジンであるDALL-E 3の安全フィルタをバイパスするDACAの総合的な成功率は85%を超え、ミッドジャーニーV6をバイパスする成功率は75%以上である。 攻撃障壁の低下,解釈可能性の向上,防御への適応性の向上などにより,手技や反復的TTIモデルクエリよりも深刻なセキュリティ上の影響が指摘された。 私たちのプロトタイプは、https://github.com/researchcode001/Divide-and-Conquer-Attackで公開されています。

Text-to-image (TTI) models offer many innovative services but also raise ethical concerns due to their potential to generate unethical images. Most public TTI services employ safety filters to prevent unintended images. In this work, we introduce the Divide-and-Conquer Attack to circumvent the safety filters of state-of the-art TTI models, including DALL-E 3 and Midjourney. Our attack leverages LLMs as text transformation agents to create adversarial prompts. We design attack helper prompts that effectively guide LLMs to break down an unethical drawing intent into multiple benign descriptions of individual image elements, allowing them to bypass safety filters while still generating unethical images. Because the latent harmful meaning only becomes apparent when all individual elements are drawn together. Our evaluation demonstrates that our attack successfully circumvents multiple strong closed-box safety filters. The comprehensive success rate of DACA bypassing the safety filters of the state-of-the-art TTI engine DALL-E 3 is above 85%, while the success rate for bypassing Midjourney V6 exceeds 75%. Our findings have more severe security implications than methods of manual crafting or iterative TTI model querying due to lower attack barrier, enhanced interpretability , and better adaptation to defense. Our prototype is available at: https://github.com/researchcode001/Divide-and-Conquer-Attack
翻訳日:2024-03-16 01:52:29 公開日:2024-03-14
# オブジェクトカウントにおけるポイントアノテーション復元のためのシフトオートエンコーダ

Shifted Autoencoders for Point Annotation Restoration in Object Counting ( http://arxiv.org/abs/2312.07190v2 )

ライセンス: Link先を確認
Yuda Zou, Xin Xiao, Peilin Zhou, Zhichao Sun, Bo Du, Yongchao Xu, (参考訳) オブジェクトカウントは通常、2Dポイントアノテーションを使用します。 オブジェクトの形状の複雑さとアノテータの主観性は、アノテーションの不整合を招き、潜在的に紛らわしいモデルトレーニングに繋がる可能性がある。 この問題を緩和するために, 高性能ノイズ抵抗計数法が提案されている。 異なることに、カウントモデルをトレーニングする前に、初期点アノテーションを直接洗練することを目指している。 そこで我々は,アノテーションの一貫性を向上する Shifted Autoencoders (SAE) を提案する。 具体的には、SAEは初期点アノテーションにランダムなシフトを適用し、元の位置に復元するためにUNetを使用している。 MAE再構成と同様に、訓練されたSAEは一般的な位置の知識を捉え、特定の手動オフセットノイズを無視する。 これにより、初期ポイントアノテーションをより一般的で一貫性のある位置に復元することができる。 広範囲にわたる実験により、改良された一貫したアノテーションを使用して、高度な(ノイズ耐性を含む)オブジェクトカウントモデルを継続的に/顕著に向上させることが示される。 注目すべきは、提案されたSAEが9つのデータセットに新しいレコードを設定するのに役立つことだ。 コードと洗練されたポイントアノテーションを利用可能にします。

Object counting typically uses 2D point annotations. The complexity of object shapes and the subjectivity of annotators may lead to annotation inconsistency, potentially confusing counting model training. Some sophisticated noise-resistance counting methods have been proposed to alleviate this issue. Differently, we aim to directly refine the initial point annotations before training counting models. For that, we propose the Shifted Autoencoders (SAE), which enhances annotation consistency. Specifically, SAE applies random shifts to initial point annotations and employs a UNet to restore them to their original positions. Similar to MAE reconstruction, the trained SAE captures general position knowledge and ignores specific manual offset noise. This allows to restore the initial point annotations to more general and thus consistent positions. Extensive experiments show that using such refined consistent annotations to train some advanced (including noise-resistance) object counting models steadily/significantly boosts their performances. Remarkably, the proposed SAE helps to set new records on nine datasets. We will make codes and refined point annotations available.
翻訳日:2024-03-16 01:52:29 公開日:2024-03-14
# Osprey: ビジュアルインストラクションチューニングによるPixel理解

Osprey: Pixel Understanding with Visual Instruction Tuning ( http://arxiv.org/abs/2312.10032v3 )

ライセンス: Link先を確認
Yuqian Yuan, Wentong Li, Jian Liu, Dongqi Tang, Xinjie Luo, Chi Qin, Lei Zhang, Jianke Zhu, (参考訳) MLLM(Multimodal large language model)は近年,視覚的インストラクションチューニングにより,汎用的な視覚言語機能を実現している。 しかし、現在のMLLMは主に画像レベルの理解やボックスレベルの理解に重点を置いており、ピクセルレベルでの微細な視覚言語アライメントの実現には不足している。 さらに、マスクベースの命令データがないため、その進歩は制限される。 本稿では,大きめのマスク領域を言語指導に組み込むことでMLLMを拡張し,画素単位の視覚的理解を実現するためのマスクテキスト指導チューニング手法であるOspreyを提案する。 この目的を達成するため、まず724Kサンプルを用いてマスクベースの領域テキストデータセットを精巧にキュレートし、次いでLLMにピクセルレベルの表現を注入して視覚言語モデルを設計する。 具体的には、Ospreyは、畳み込みCLIPバックボーンを視覚エンコーダとして採用し、高解像度入力から正確な視覚マスク特徴を抽出するためにマスク対応視覚抽出器を使用している。 実験により,Ospreyの様々な領域理解タスクにおける優位性を示し,画素レベルの命令チューニングの新たな能力を示した。 特に、OspreyはSegment Anything Model(SAM)とシームレスに統合して、多粒度セマンティクスを得ることができる。 ソースコード、データセット、デモはhttps://github.com/CircleRadon/Osprey.comにある。

Multimodal large language models (MLLMs) have recently achieved impressive general-purpose vision-language capabilities through visual instruction tuning. However, current MLLMs primarily focus on image-level or box-level understanding, falling short in achieving fine-grained vision-language alignment at pixel level. Besides, the lack of mask-based instruction data limits their advancements. In this paper, we propose Osprey, a mask-text instruction tuning approach, to extend MLLMs by incorporating fine-grained mask regions into language instruction, aiming at achieving pixel-wise visual understanding. To achieve this goal, we first meticulously curate a mask-based region-text dataset with 724K samples, and then design a vision-language model by injecting pixel-level representation into LLM. Specifically, Osprey adopts a convolutional CLIP backbone as the vision encoder and employs a mask-aware visual extractor to extract precise visual mask features from high resolution input. Experimental results demonstrate Osprey's superiority in various region understanding tasks, showcasing its new capability for pixel-level instruction tuning. In particular, Osprey can be integrated with Segment Anything Model (SAM) seamlessly to obtain multi-granularity semantics. The source code, dataset and demo can be found at https://github.com/CircleRadon/Osprey.
翻訳日:2024-03-16 01:52:29 公開日:2024-03-14
# NM-FlowGAN:正規化フローと生成逆ネットワークに基づくハイブリッドアプローチによるsRGBノイズのモデル化

NM-FlowGAN: Modeling sRGB Noise with a Hybrid Approach based on Normalizing Flows and Generative Adversarial Networks ( http://arxiv.org/abs/2312.10112v2 )

ライセンス: Link先を確認
Young Joo Han, Ha-Jin Yu, (参考訳) 実sRGBノイズのモデリングと合成は、画像認識システムのトレーニングのためのデータセット構築など、さまざまな低レベルの視覚タスクに不可欠である。 実際のsRGBノイズの分布は非常に複雑で、様々な要因の影響を受けており、正確なモデリングは非常に困難である。 そこで, GAN(Generative Adversarial Network)や正規化フローなどのデータ駆動型生成モデルを用いた手法を提案する。 これらの研究は従来のノイズモデリング法と比較してsRGBノイズのより正確なモデリングを実現する。 しかし、各生成モデル固有の特性のため、性能に制限がある。 この問題に対処するために,GANと正規化フローの双方の長所を利用するハイブリッドアプローチであるNM-FlowGANを提案する。 我々は,正規化フローに基づく画素ワイドノイズモデリングネットワークと,GANに基づく空間相関モデルネットワークを同時に利用した。 我々のNM-FlowGANは、sRGBノイズ合成タスクにおいて、他のベースラインよりも優れています。 さらに,本モデルから合成画像ペアを学習したデノイングニューラルネットワークは,他のベースラインに比べて優れた性能を示した。 我々のコードは以下の通りである。

Modeling and synthesizing real sRGB noise is crucial for various low-level vision tasks, such as building datasets for training image denoising systems. The distribution of real sRGB noise is highly complex and affected by a multitude of factors, making its accurate modeling extremely challenging. Therefore, recent studies have proposed methods that employ data-driven generative models, such as generative adversarial networks (GAN) and Normalizing Flows. These studies achieve more accurate modeling of sRGB noise compared to traditional noise modeling methods. However, there are performance limitations due to the inherent characteristics of each generative model. To address this issue, we propose NM-FlowGAN, a hybrid approach that exploits the strengths of both GAN and Normalizing Flows. We simultaneously employ a pixel-wise noise modeling network based on Normalizing Flows, and spatial correlation modeling networks based on GAN. In our experiments, our NM-FlowGAN outperforms other baselines on the sRGB noise synthesis task. Moreover, the denoising neural network, trained with synthesized image pairs from our model, also shows superior performance compared to other baselines. Our code is available at: \url{https://github.com/YoungJooHan/NM-FlowGAN}.
翻訳日:2024-03-16 01:52:29 公開日:2024-03-14
# STRIDE: 単一ビデオによる時間連続Occlusion Robust 3D Poseの推定

STRIDE: Single-video based Temporally Continuous Occlusion Robust 3D Pose Estimation ( http://arxiv.org/abs/2312.16221v2 )

ライセンス: Link先を確認
Rohit Lal, Saketh Bachu, Yash Garg, Arindam Dutta, Calvin-Khang Ta, Dripta S. Raychaudhuri, Hannah Dela Cruz, M. Salman Asif, Amit K. Roy-Chowdhury, (参考訳) 3次元人間のポーズを正確に推定する能力は、アクション認識、歩行認識、バーチャル/拡張現実などの様々な分野において重要である。 しかし、この分野における永続的で重要な課題は、重度の閉塞状態下での人間のポーズの正確な予測である。 従来の画像に基づく推定器は、時間的文脈の欠如により重き閉塞に悩まされ、矛盾した予測をもたらす。 ビデオベースのモデルは時間データ処理の恩恵を受けるが、複数のフレームにまたがる長いオクルージョンに直面した場合には制限に直面する。 この課題は、これらのモデルがトレーニングデータセット以上の一般化に苦慮しているため、さまざまなオクルージョンがトレーニングデータで取得することが難しいためである。 これらの課題に対処するために,ビデオに先行する人間の動作に適合する新しいテストタイムトレーニング(TTT)手法であるSTRIDE(Single-video based TempoRally contInuous occlusion Robust 3D Pose Estimation)を提案する。 このアプローチは、モデルのトレーニング中に遭遇しなかったオクルージョンを特に扱う。 STRIDEを利用することで、ノイズの多い初期ポーズ推定値を、テスト期間中に正確な時間的一貫性のあるポーズに洗練し、従来手法の限界を効果的に克服することができる。 筆者らのフレームワークは,モデルに依存しない柔軟性を示し,既製の3Dポーズ推定手法を用いて,堅牢性と時間的整合性を向上させる。 我々は、Occluded Human3.6M、Human3.6M、OCMotionのような挑戦的なデータセットに関する包括的な実験を通じてSTRIDEの有効性を検証する。

The capability to accurately estimate 3D human poses is crucial for diverse fields such as action recognition, gait recognition, and virtual/augmented reality. However, a persistent and significant challenge within this field is the accurate prediction of human poses under conditions of severe occlusion. Traditional image-based estimators struggle with heavy occlusions due to a lack of temporal context, resulting in inconsistent predictions. While video-based models benefit from processing temporal data, they encounter limitations when faced with prolonged occlusions that extend over multiple frames. This challenge arises because these models struggle to generalize beyond their training datasets, and the variety of occlusions is hard to capture in the training data. Addressing these challenges, we propose STRIDE (Single-video based TempoRally contInuous occlusion Robust 3D Pose Estimation), a novel Test-Time Training (TTT) approach to fit a human motion prior for each video. This approach specifically handles occlusions that were not encountered during the model's training. By employing STRIDE, we can refine a sequence of noisy initial pose estimates into accurate, temporally coherent poses during test time, effectively overcoming the limitations of prior methods. Our framework demonstrates flexibility by being model-agnostic, allowing us to use any off-the-shelf 3D pose estimation method for improving robustness and temporal consistency. We validate STRIDE's efficacy through comprehensive experiments on challenging datasets like Occluded Human3.6M, Human3.6M, and OCMotion, where it not only outperforms existing single-image and video-based pose estimation models but also showcases superior handling of substantial occlusions, achieving fast, robust, accurate, and temporally consistent 3D pose estimates.
翻訳日:2024-03-16 01:52:29 公開日:2024-03-14
# SSRエンコーダ:主観駆動生成のための選択主観表現の符号化

SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation ( http://arxiv.org/abs/2312.16272v2 )

ライセンス: Link先を確認
Yuxuan Zhang, Yiren Song, Jiaming Liu, Rui Wang, Jinpeng Yu, Hao Tang, Huaxia Li, Xu Tang, Yao Hu, Han Pan, Zhongliang Jing, (参考訳) 近年、被写体駆動画像生成の進歩はゼロショット生成に繋がっているが、正確な選択と重要な被写体表現への焦点は依然として困難である。 そこで我々はSSR-Encoderを紹介した。SSR-Encoderは単一の参照画像や複数の参照画像から任意の対象を選択的にキャプチャするように設計された新しいアーキテクチャである。 テストタイムの微調整を必要とせずに、テキストやマスクなど、さまざまなクエリのモダリティに応答する。 SSR-Encoderは、クエリ入力をイメージパッチと整列するToken-to-Patch Alignerと、被写体の細かい特徴を抽出して保存するDetail-Preserving Subject Encoderとを組み合わせて、被写体埋め込みを生成する。 これらの埋め込みは、元のテキスト埋め込みと併用して、生成プロセスを条件付けする。 SSRエンコーダはモデルの一般化性と効率によって特徴付けられ、様々なカスタムモデルや制御モジュールに対応している。 トレーニング改善のための埋め込み一貫性規則化損失により強化され,多目的かつ高品質な画像生成におけるその有効性を実証し,その適用性を示した。 プロジェクトページ: https://ssr-encoder.github.io

Recent advancements in subject-driven image generation have led to zero-shot generation, yet precise selection and focus on crucial subject representations remain challenging. Addressing this, we introduce the SSR-Encoder, a novel architecture designed for selectively capturing any subject from single or multiple reference images. It responds to various query modalities including text and masks, without necessitating test-time fine-tuning. The SSR-Encoder combines a Token-to-Patch Aligner that aligns query inputs with image patches and a Detail-Preserving Subject Encoder for extracting and preserving fine features of the subjects, thereby generating subject embeddings. These embeddings, used in conjunction with original text embeddings, condition the generation process. Characterized by its model generalizability and efficiency, the SSR-Encoder adapts to a range of custom models and control modules. Enhanced by the Embedding Consistency Regularization Loss for improved training, our extensive experiments demonstrate its effectiveness in versatile and high-quality image generation, indicating its broad applicability. Project page: https://ssr-encoder.github.io
翻訳日:2024-03-16 01:52:29 公開日:2024-03-14
# LiDARによるデジタル標高モデルのための5つの粗さ記述子による粗さマップの比較

Comparing roughness maps generated by five roughness descriptors for LiDAR-derived digital elevation models ( http://arxiv.org/abs/2312.17407v2 )

ライセンス: Link先を確認
Lei Fan, Yang Zhao, (参考訳) テランの表面粗さは、しばしば抽象的に記述されるが、文献に見られる様々な記述子による量的特徴付けの課題を提起する。 本研究は, 一般的な5つの粗さ記述子を比較し, 空間変動の異なる3つの地形の地形表面粗さマップ間の相関関係について検討した。 さらに,空間スケールと補間法が相関に与える影響について検討した。 本研究では,光検出およびランキング技術を用いて得られた高密度点雲データを用いた。 本研究は,大域的パターンの類似点と局所的パターンの相違点に着目し,局所的粗さ値がその後の分析において重要な役割を担っている研究において,複数の記述子を組み込むことの重要性を強調した。 空間スケールは、より粗い地形への影響が小さいのに対して、補間法は異なる記述子から派生した粗さマップに最小限の影響を及ぼした。

Terrain surface roughness, often described abstractly, poses challenges in quantitative characterisation with various descriptors found in the literature. This study compares five commonly used roughness descriptors, exploring correlations among their quantified terrain surface roughness maps across three terrains with distinct spatial variations. Additionally, the study investigates the impacts of spatial scales and interpolation methods on these correlations. Dense point cloud data obtained through Light Detection and Ranging technique are used in this study. The findings highlight both global pattern similarities and local pattern distinctions in the derived roughness maps, emphasizing the significance of incorporating multiple descriptors in studies where local roughness values play a crucial role in subsequent analyses. The spatial scales were found to have a smaller impact on rougher terrain, while interpolation methods had minimal influence on roughness maps derived from different descriptors.
翻訳日:2024-03-16 01:52:29 公開日:2024-03-14
# 高シーディング効率と低g^(2)(0)SOI相関光子対源のための低損失・高安定・再使用可能なエッジカプラの実証

Demonstration of a low loss, highly stable and re-useable edge coupler for high heralding efficiency and low g^(2) (0) SOI correlated photon pair sources ( http://arxiv.org/abs/2312.17464v2 )

ライセンス: Link先を確認
Jinyi Du, George F. R. Chen, Hongwei Gao, James A. Grieve, Dawn T. H. Tan, Alexander Ling, (参考訳) シリコンオン絶縁体(SOI)フォトニックチップから光ファイバーに光を結合する安定低損失方式を報告した。 この技術は、オンチップのテーパー導波路とクリーブされた小型コア光ファイバを用いて実現されている。 オンチップテーパはモノリシックであり、パターン化されたクラッドを必要としないため、チップ製造プロセスが簡単になる。 光ファイバセグメントは、直径0.1dB以下のSMF−28繊維にスプライシングされたセンチメートルの小型コアファイバ(UHNA7)からなる。 この設計で全体の結合損失は-0.64dBである。 チップエッジとファイバ先端は、オンチップテーパやファイバを傷つけることなく結合することができる。 表面間の摩擦はアライメントを維持し、粘着剤を使わずに10日間の連続測定で+-0.1dB結合の変動が観測される。 この技術は、ファイバ内でラマンノイズを発生させる可能性を最小限に抑え、長いUHNAファイバやフレキシブルレンズファイバをベースとしたカップリング戦略に比べて優れた安定性を有する。 また, 相関光子対源にエッジカプラを適用し, 111万cps, 21.3%の一致率を示した。 また, 低ポンプ電力系統において, オート相関関数g^(2)(0)を0.0004以下に達成した。

We report a stable, low loss method for coupling light from silicon-on-insulator (SOI) photonic chips into optical fibers. The technique is realized using an on-chip tapered waveguide and a cleaved small core optical fiber. The on-chip taper is monolithic and does not require a patterned cladding, thus simplifying the chip fabrication process. The optical fiber segment is composed of a centimeter-long small core fiber (UHNA7) which is spliced to SMF-28 fiber with less than -0.1 dB loss. We observe an overall coupling loss of -0.64 dB with this design. The chip edge and fiber tip can be butt coupled without damaging the on-chip taper or fiber. Friction between the surfaces maintains alignment leading to an observation of +-0.1 dB coupling fluctuation during a ten-day continuous measurement without use of any adhesive. This technique minimizes the potential for generating Raman noise in the fiber, and has good stability compared to coupling strategies based on longer UHNA fibers or fragile lensed fibers. We also applied the edge coupler on a correlated photon pair source and observed a raw coincidence count rate of 1.21 million cps and raw heralding efficiency of 21.3%. We achieved an auto correlation function g^(2) (0) as low as 0.0004 at the low pump power regime.
翻訳日:2024-03-16 01:52:29 公開日:2024-03-14
# 単純群集検出のための単純錯体の量子ウォーク

Quantum walk on simplicial complexes for simplicial community detection ( http://arxiv.org/abs/2401.00699v2 )

ライセンス: Link先を確認
Euijun Song, (参考訳) 量子ウォークは量子情報処理における変換パラダイムとして登場し、様々なグラフ問題に適用できる。 本研究では、グラフ構造の高次一般化である単体錯体上の離散時間量子ウォークについて検討する。 単純複体(simplicial complex)は、単純化によって高次相互作用を符号化し、複雑なシステムのよりリッチな位相表現を提供する。 代数的トポロジーと離散時間量子ウォークを応用し、単純コミュニティと呼ばれる高次コミュニティ構造を検出する量子ウォークアルゴリズムを提案する。 我々はフーリエ硬貨を用いて、単純な複体において隣接する単体間の絡み合った翻訳状態を生成する。 我々の量子アルゴリズムのポテンシャルは、ザカリーの空手部ネットワークでテストされている。 この研究は、代数トポロジーと量子アルゴリズムの交点における複素系を理解することに寄与する。

Quantum walks have emerged as a transformative paradigm in quantum information processing and can be applied to various graph problems. This study explores discrete-time quantum walks on simplicial complexes, a higher-order generalization of graph structures. Simplicial complexes, encoding higher-order interactions through simplices, offer a richer topological representation of complex systems. Leveraging algebraic topology and discrete-time quantum walk, we present a quantum walk algorithm for detecting higher-order community structures called simplicial communities. We utilize the Fourier coin to produce entangled translation states among adjacent simplices in a simplicial complex. The potential of our quantum algorithm is tested on Zachary's karate club network. This study may contribute to understanding complex systems at the intersection of algebraic topology and quantum algorithms.
翻訳日:2024-03-16 01:52:29 公開日:2024-03-14
# 伝達学習と時空間特徴を用いた効率的なビットレートラダー構築

Efficient Bitrate Ladder Construction using Transfer Learning and Spatio-Temporal Features ( http://arxiv.org/abs/2401.03195v2 )

ライセンス: Link先を確認
Ali Falahati, Mohammad Karim Safavi, Ardavan Elahi, Farhad Pakdaman, Moncef Gabbouj, (参考訳) 効率的なビットレートで高品質なビデオを提供することは、ビデオ産業にとって大きな課題だ。 従来のビットレート・ラダーのワンサイズ・オール・スキームは非効率であり、幅広いエンコーディングを必要とするため、最高のコンテント・アウェアの判断に到達できない。 これを軽減するために,転送学習と時空間特性を用いたビットレートおよび複雑性の高いビットレートラグ予測手法を提案する。 筆者らは,(1) 著名な訓練済みDNNの特徴マップを用いて,限られたトレーニングデータを用いて,レート品質の行動を予測すること,(2) 最高品質のビットレートを予測し,最上位のラングに使用することにより,最高品質のラング効率を向上させることを提案する。 102の動画シーンでのテストでは、94.1%の複雑さと1.71%のBD-Rateコストでブルートフォースを減少させる。 さらに、トランスファーラーニングは4つのネットワークとアブレーション研究を通じて徹底的に研究された。

Providing high-quality video with efficient bitrate is a main challenge in video industry. The traditional one-size-fits-all scheme for bitrate ladders is inefficient and reaching the best content-aware decision computationally impractical due to extensive encodings required. To mitigate this, we propose a bitrate and complexity efficient bitrate ladder prediction method using transfer learning and spatio-temporal features. We propose: (1) using feature maps from well-known pre-trained DNNs to predict rate-quality behavior with limited training data; and (2) improving highest quality rung efficiency by predicting minimum bitrate for top quality and using it for the top rung. The method tested on 102 video scenes demonstrates 94.1% reduction in complexity versus brute-force at 1.71% BD-Rate expense. Additionally, transfer learning was thoroughly studied through four networks and ablation studies.
翻訳日:2024-03-16 01:52:29 公開日:2024-03-14
# 機能的細胞型クラスタリングのための最も差別的な刺激

Most discriminative stimuli for functional cell type clustering ( http://arxiv.org/abs/2401.05342v2 )

ライセンス: Link先を確認
Max F. Burg, Thomas Zenkel, Michaela Vystrčilová, Jonathan Oesterle, Larissa Höfling, Konstantin F. Willeke, Jan Lause, Sarah Müller, Paul G. Fahey, Zhiwei Ding, Kelli Restivo, Shashwat Sridhar, Tim Gollisch, Philipp Berens, Andreas S. Tolias, Thomas Euler, Matthias Bethge, Alexander S. Ecker, (参考訳) 細胞型を同定し、その機能的特性を理解することは、認識と認知の基礎となるメカニズムを解明するために重要である。 網膜では、機能型は慎重に選択された刺激によって識別することができるが、これは専門的なドメイン知識を必要とし、これまで知られていた細胞タイプへの手続きをバイアスする。 視覚野では、どのような機能型が存在するのか、どのように識別するかはまだ分かっていない。 したがって、網膜と視覚野の機能的細胞型を未偏見で同定するには、新しいアプローチが必要である。 そこで本研究では, 深部予測モデルを用いた最適化に基づくクラスタリング手法を提案し, MDS(Most Discriminative Stimuli)を用いてニューロンの機能的クラスタを求める。 提案手法は,期待最大化アルゴリズムに類似したクラスタ再割り当てと刺激最適化を交互に行う。 このアルゴリズムはマウス網膜、マーモセット網膜およびマカク視覚領域V4の機能的クラスターを復元する。 このことから,本手法は, 種, 視覚系の段階, 記録技術間での識別的刺激を効果的に発見できることが示唆された。 結果として生じる最も差別的な刺激は、複雑な予測モデルを訓練したり、大きな自然シーンのデータセットを示すことなく、機能的な細胞型を素早くかつ迅速に割り当てることに役立てることができる。 重要なことに、MDSは解釈可能であり、特定の種類のニューロンを明白に識別する特有の刺激パターンを可視化する。

Identifying cell types and understanding their functional properties is crucial for unraveling the mechanisms underlying perception and cognition. In the retina, functional types can be identified by carefully selected stimuli, but this requires expert domain knowledge and biases the procedure towards previously known cell types. In the visual cortex, it is still unknown what functional types exist and how to identify them. Thus, for unbiased identification of the functional cell types in retina and visual cortex, new approaches are needed. Here we propose an optimization-based clustering approach using deep predictive models to obtain functional clusters of neurons using Most Discriminative Stimuli (MDS). Our approach alternates between stimulus optimization with cluster reassignment akin to an expectation-maximization algorithm. The algorithm recovers functional clusters in mouse retina, marmoset retina and macaque visual area V4. This demonstrates that our approach can successfully find discriminative stimuli across species, stages of the visual system and recording techniques. The resulting most discriminative stimuli can be used to assign functional cell types fast and on the fly, without the need to train complex predictive models or show a large natural scene dataset, paving the way for experiments that were previously limited by experimental time. Crucially, MDS are interpretable: they visualize the distinctive stimulus patterns that most unambiguously identify a specific type of neuron.
翻訳日:2024-03-16 01:52:29 公開日:2024-03-14
# 未混合試験時間正規化統計:ラベル時間相関の燃焼

Un-Mixing Test-Time Normalization Statistics: Combatting Label Temporal Correlation ( http://arxiv.org/abs/2401.08328v2 )

ライセンス: Link先を確認
Devavrat Tomar, Guillaume Vray, Jean-Philippe Thiran, Behzad Bozorgtabar, (参考訳) 最近のテスト時間適応法は、バッチ正規化(BN)パラメータのニュアンス調整に大きく依存している。 しかし、1つの重要な仮定は見過ごされがちである: 独立で同一に分散されたテストバッチ(すなわち、未知のラベルに関して)。 この監視はBN統計を歪ませ、非I.D.シナリオ下でのモデルの信頼性を損なう。 そこで本研究では,Un-Mixing Test-Time Normalization Statistics (UnMix-TNS) と呼ばれる新しい手法を提案する。 テストバッチ内の各インスタンスの統計を、複数の異なる統計成分と混合することにより再分類し、i.d.シナリオを本質的にシミュレートする。 このメソッドの中核は、新しいテストバッチから最も類似したインスタンスを組み込むことで、これらの統計コンポーネントを継続的に更新するユニークなオンラインアンミックス手順に基づいている。 設計上、UnMix-TNSは広範囲の試験時間適応手法とBN層を備えた事前学習アーキテクチャをシームレスに統合する。 経験的評価は、UnMix-TNSのロバスト性を、単一から連続および混合領域シフト(特に時間的に相関したテストデータと非実世界のストリームの破損に優れる)の様々なシナリオで裏付ける。 この適応性は非常に小さなバッチサイズや単一インスタンスでも維持される。 この結果は,UnMix-TNSの安定性と性能を,様々なベンチマークで著しく向上させる能力を強調した。 私たちのコードはhttps://github.com/devavratTomar/unmixtns.comで公開されています。

Recent test-time adaptation methods heavily rely on nuanced adjustments of batch normalization (BN) parameters. However, one critical assumption often goes overlooked: that of independently and identically distributed (i.i.d.) test batches with respect to unknown labels. This oversight leads to skewed BN statistics and undermines the reliability of the model under non-i.i.d. scenarios. To tackle this challenge, this paper presents a novel method termed 'Un-Mixing Test-Time Normalization Statistics' (UnMix-TNS). Our method re-calibrates the statistics for each instance within a test batch by mixing it with multiple distinct statistics components, thus inherently simulating the i.i.d. scenario. The core of this method hinges on a distinctive online unmixing procedure that continuously updates these statistics components by incorporating the most similar instances from new test batches. Remarkably generic in its design, UnMix-TNS seamlessly integrates with a wide range of leading test-time adaptation methods and pre-trained architectures equipped with BN layers. Empirical evaluations corroborate the robustness of UnMix-TNS under varied scenarios-ranging from single to continual and mixed domain shifts, particularly excelling with temporally correlated test data and corrupted non-i.i.d. real-world streams. This adaptability is maintained even with very small batch sizes or single instances. Our results highlight UnMix-TNS's capacity to markedly enhance stability and performance across various benchmarks. Our code is publicly available at https://github.com/devavratTomar/unmixtns.
翻訳日:2024-03-16 01:42:38 公開日:2024-03-14
# 生成的抽象推論に向けて:ルール抽象化と選択によるRavenのプログレッシブマトリックスの補完

Towards Generative Abstract Reasoning: Completing Raven's Progressive Matrix via Rule Abstraction and Selection ( http://arxiv.org/abs/2401.09966v2 )

ライセンス: Link先を確認
Fan Shi, Bin Li, Xiangyang Xue, (参考訳) 抽象推論能力を持つエンドウィングマシンは、人工知能における長期的な研究課題である。 Ravenのプログレッシブマトリックス(RPM)は、マシンインテリジェンスにおける抽象的な視覚的推論を探索するために広く使われている。 RPMテストの参加者は、属性変更規則を推論し、組み合わせ、行列の任意の位置で欠落した画像を想像することによって、強力な推論能力を示すことができる。 しかし、既存の解法は現実的なRPMテストでそのような能力を示すことはほとんどできない。 本稿では,ルール AbstractIon and Selection (RAISE) を用いて,回答生成問題に対する潜時変数モデルを提案する。 RAISEはイメージ属性を潜在概念にエンコードし、潜在概念に作用する抽象的な原子規則を記述できる。 RAISEは回答を生成する際に、各潜在概念のグローバル知識から1つの原子ルールを選択し、RPMの基本ルールを構成する。 ボトムライトおよび任意の位置答え生成の実験において、RAISEは現実的なRPMデータセットのほとんどの構成において比較した解法よりも優れる。 奇抜なワンアウトタスクと2つのホールトアウト構成では、RAISEは取得した潜在概念とアトミックルールを利用して行列内のルール破りの画像を見つけ、ルールと属性の目に見えない組み合わせで問題に対処することができる。

Endowing machines with abstract reasoning ability has been a long-term research topic in artificial intelligence. Raven's Progressive Matrix (RPM) is widely used to probe abstract visual reasoning in machine intelligence, where models will analyze the underlying rules and select one image from candidates to complete the image matrix. Participators of RPM tests can show powerful reasoning ability by inferring and combining attribute-changing rules and imagining the missing images at arbitrary positions of a matrix. However, existing solvers can hardly manifest such an ability in realistic RPM tests. In this paper, we propose a deep latent variable model for answer generation problems through Rule AbstractIon and SElection (RAISE). RAISE can encode image attributes into latent concepts and abstract atomic rules that act on the latent concepts. When generating answers, RAISE selects one atomic rule out of the global knowledge set for each latent concept to constitute the underlying rule of an RPM. In the experiments of bottom-right and arbitrary-position answer generation, RAISE outperforms the compared solvers in most configurations of realistic RPM datasets. In the odd-one-out task and two held-out configurations, RAISE can leverage acquired latent concepts and atomic rules to find the rule-breaking image in a matrix and handle problems with unseen combinations of rules and attributes.
翻訳日:2024-03-16 01:42:38 公開日:2024-03-14
# LDReg: ローカル次元の正規化による自己監督型学習

LDReg: Local Dimensionality Regularized Self-Supervised Learning ( http://arxiv.org/abs/2401.10474v2 )

ライセンス: Link先を確認
Hanxun Huang, Ricardo J. G. B. Campello, Sarah Monazam Erfani, Xingjun Ma, Michael E. Houle, James Bailey, (参考訳) 自己教師付き学習(SSL)によって学習された表現は、学習された表現部分空間が極端に低次元であり、従って完全なデータ分布とモダリティを表現できないような次元崩壊の影響を受けやすい。 次元崩壊は「埋没」現象としても知られ、下流のタスクにおける劣化したパフォーマンスの主要な原因の1つである。 これまでの研究は、SSLのグローバルレベルでの次元的崩壊問題を調査してきた。 本稿では,世界規模で高次元空間にまたがる表現を実証するが,局所的に崩壊する。 これを解決するために、$\textit{local dimensionality regularization (LDReg)}$という手法を提案する。 我々の定式化はフィッシャー・ラオ計量の導出に基づいて、各データポイントに対して漸近的に小さな半径で局所的な距離分布を比較し、最適化する。 局所固有次元を増大させることにより、LDRegがSSLの表現品質を向上させる実験の幅を広げる。 また,LDRegは局所的および大域的に次元を規則化できることを示した。

Representations learned via self-supervised learning (SSL) can be susceptible to dimensional collapse, where the learned representation subspace is of extremely low dimensionality and thus fails to represent the full data distribution and modalities. Dimensional collapse also known as the "underfilling" phenomenon is one of the major causes of degraded performance on downstream tasks. Previous work has investigated the dimensional collapse problem of SSL at a global level. In this paper, we demonstrate that representations can span over high dimensional space globally, but collapse locally. To address this, we propose a method called $\textit{local dimensionality regularization (LDReg)}$. Our formulation is based on the derivation of the Fisher-Rao metric to compare and optimize local distance distributions at an asymptotically small radius for each data point. By increasing the local intrinsic dimensionality, we demonstrate through a range of experiments that LDReg improves the representation quality of SSL. The results also show that LDReg can regularize dimensionality at both local and global levels.
翻訳日:2024-03-16 01:42:38 公開日:2024-03-14
# 拡張局所エルゴトロピー

Extended local ergotropy ( http://arxiv.org/abs/2401.10996v2 )

ライセンス: Link先を確認
Riccardo Castellano, Donato Farina, Vittorio Giovannetti, Antonio Acin, (参考訳) 量子熱力学の基本的な問題は、非平衡系から抽出可能な作品を適切に定量化することである。 閉系では、最大量子ワーク抽出はエルゴトロピー関数の観点で定義されるが、環境と相互作用するオープン系ではこの問題は明らかではない。 局所エルゴトロピーの概念は提案されているが、時間内に非増加することが保証されていないなど、いくつかの問題がある。 ここでは,システム環境化合物のフリー進化を利用した拡張局所エルゴトロピーの概念を紹介する。 局所エルゴトロピーとの分散では、拡張された局所エルゴトロピーが増加し、時間の経過とともに増加せず、多くの場合、作業抽出の可能性を活性化する。 次に、局所的ユニタリと自由なシステム環境進化を交互に行う特定のスキームに集中する。 本稿では,Jaynes-Cummingsモデルに基づく実例を提案する。

A fundamental problem in quantum thermodynamics is to properly quantify the work extractable from out-of-equilibrium systems. While for closed systems, maximum quantum work extraction is defined in terms of the ergotropy functional, this question is unclear in open systems interacting with an environment. The concept of local ergotropy has been proposed, but it presents several problems, such as it is not guaranteed to be non-increasing in time. Here we introduce the concept of extended local ergotropy by exploiting the free evolution of the system-environment compound. At variance with the local ergotropy, the extended local ergotropy is greater, is non-increasing in time, and activates the potential of work extraction in many cases. We then concentrate on specific schemes in which we alternate repeated local unitaries and free system-environment evolution. We provide examples based on the Jaynes-Cummings model, presenting practical protocols and analytic results that serve as proof of principle for the aforementioned advantages.
翻訳日:2024-03-16 01:42:38 公開日:2024-03-14
# 強化学習とデモによる安全で汎用的なエンドツーエンド自動運転システム

Safe and Generalized end-to-end Autonomous Driving System with Reinforcement Learning and Demonstrations ( http://arxiv.org/abs/2401.11792v5 )

ライセンス: Link先を確認
Zuojin Tang, Xiaoyu Chen, YongQiang Li, Jianyu Chen, (参考訳) インテリジェントな運転システムは、システムのセキュリティと信頼性を確保しつつ、現在の環境と車両状態に基づいて適切な運転戦略を動的に定式化することができるべきである。 しかし、強化学習と模倣学習に基づく既存の手法は、安全性の低下、一般化の低さ、非効率サンプリングに悩まされている。 さらに、将来の運転軌跡を正確に予測することは不可能であり、将来の運転軌跡の正確な予測は最適な判断を行うための前提条件である。 本稿では,これらの問題を解決するために,複雑かつ多様なシナリオを対象とした安全で汎用的なエンドツーエンド自動運転システム(SGADS)を提案する。 我々のSGADSは、変動推論と正規化フローを組み込んでおり、インテリジェントな車両が将来の走行軌跡を正確に予測することができる。 さらに,頑健な安全制約の定式化を提案する。 さらに,強化学習と実演を組み合わせることで,エージェントの探索過程を増強する。 実験の結果,SGADSは安全性能を著しく向上し,強力な一般化を示し,複雑な都市シナリオにおける知的車両の訓練効率を既存手法と比較して向上させることができることがわかった。

An intelligent driving system should be capable of dynamically formulating appropriate driving strategies based on the current environment and vehicle status, while ensuring the security and reliability of the system. However, existing methods based on reinforcement learning and imitation learning suffer from low safety, poor generalization, and inefficient sampling. Additionally, they cannot accurately predict future driving trajectories, and the accurate prediction of future driving trajectories is a precondition for making optimal decisions. To solve these problems, in this paper, we introduce a Safe and Generalized end-to-end Autonomous Driving System (SGADS) for complex and various scenarios. Our SGADS incorporates variational inference with normalizing flows, enabling the intelligent vehicle to accurately predict future driving trajectories. Moreover, we propose the formulation of robust safety constraints. Furthermore, we combine reinforcement learning with demonstrations to augment search process of the agent. The experimental results demonstrate that our SGADS can significantly improve safety performance, exhibit strong generalization, and enhance the training efficiency of intelligent vehicles in complex urban scenarios compared to existing methods.
翻訳日:2024-03-16 01:42:38 公開日:2024-03-14
# 拡散誘導LDMを用いたテンプレートフリー単眼3次元デジタル化

Template-Free Single-View 3D Human Digitalization with Diffusion-Guided LRM ( http://arxiv.org/abs/2401.12175v2 )

ライセンス: Link先を確認
Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung-Levy, Jimei Yang, (参考訳) 1枚の画像から3次元の人間を復元する手法が広く研究されている。 しかし、既存のアプローチは、細かな幾何学や外観の詳細を捉えたり、隠蔽された部分を可視的な詳細で幻覚化したり、目に見えないデータセットやその内部のデータセットにまたがる一般化を達成したりするのに不足することが多い。 本稿では,拡散誘導フィードフォワードモデルであるHuman-LRMを提案する。 現状の復元モデル(LRM)と生成モデル(Stable Diffusion)の力を生かして,従来のテンプレートを使わずに人体を捕捉し,リッチでリアルなディテールで閉塞部を効果的に強化することができる。 提案手法はまず,拡張幾何デコーダを用いた単一ビューLEMモデルを用いて,三面体NeRF表現を得る。 三面体NeRFからの新たなビューレンダリングは、強い幾何学と色を先行して提供し、そこから拡散モデルを用いて、隠蔽された部分のフォトリアリスティックな詳細を生成する。 生成された複数のビューにより、高品質な幾何学と外観で再構築が可能となり、既存のすべての再構築方法と比較して全体的なパフォーマンスが向上する。

Reconstructing 3D humans from a single image has been extensively investigated. However, existing approaches often fall short on capturing fine geometry and appearance details, hallucinating occluded parts with plausible details, and achieving generalization across unseen and in-the-wild datasets. We present Human-LRM, a diffusion-guided feed-forward model that predicts the implicit field of a human from a single image. Leveraging the power of the state-of-the-art reconstruction model (i.e., LRM) and generative model (i.e Stable Diffusion), our method is able to capture human without any template prior, e.g., SMPL, and effectively enhance occluded parts with rich and realistic details. Our approach first uses a single-view LRM model with an enhanced geometry decoder to get the triplane NeRF representation. The novel view renderings from the triplane NeRF provide strong geometry and color prior, from which we generate photo-realistic details for the occluded parts using a diffusion model. The generated multiple views then enable reconstruction with high-quality geometry and appearance, leading to superior overall performance comparing to all existing human reconstruction methods.
翻訳日:2024-03-16 01:42:38 公開日:2024-03-14
# SNAP:次の活動予測のためのセマンティックストーリー

SNAP: Semantic Stories for Next Activity Prediction ( http://arxiv.org/abs/2401.15621v2 )

ライセンス: Link先を確認
Alon Oved, Segev Shlomov, Sergey Zeltyn, Nir Mashkif, Avi Yaeli, (参考訳) 進行中のプロセスにおける次のアクティビティを予測することは、ビジネスプロセス管理(BPM)ドメインにおける最も一般的な分類タスクの1つです。 企業はリソース割り当てを最適化し、運用効率を向上し、リスク軽減と戦略的意思決定を支援することができる。 これは、BPMとAIの急速に進化する合流点において、競争力のあるエッジを提供します。 既存の最先端AIモデルによるビジネスプロセス予測は、プロセスイベントログ内で利用可能なセマンティック情報を完全に活用するものではない。 現在の高度なAI-BPMシステムは意味的にリッチなテキストデータを提供するため、新しい適切なモデルの必要性が高まっている。 このギャップに対処するために,プロセス履歴イベントログから意味的文脈的ストーリを構築し,それを次のアクティビティ予測に利用することにより,言語基盤モデルを活用する新しいSNAP手法を提案する。 我々は,SNAPアルゴリズムを6つのベンチマークデータセット上で9つの最先端モデルと比較し,SNAPが有意な性能を示した。

Predicting the next activity in an ongoing process is one of the most common classification tasks in the business process management (BPM) domain. It allows businesses to optimize resource allocation, enhance operational efficiency, and aids in risk mitigation and strategic decision-making. This provides a competitive edge in the rapidly evolving confluence of BPM and AI. Existing state-of-the-art AI models for business process prediction do not fully capitalize on available semantic information within process event logs. As current advanced AI-BPM systems provide semantically-richer textual data, the need for novel adequate models grows. To address this gap, we propose the novel SNAP method that leverages language foundation models by constructing semantic contextual stories from the process historical event logs and using them for the next activity prediction. We compared the SNAP algorithm with nine state-of-the-art models on six benchmark datasets and show that SNAP significantly outperforms them, especially for datasets with high levels of semantic content.
翻訳日:2024-03-16 01:42:38 公開日:2024-03-14
# エモアバター(Emo-Avatar) - テクスチャレンダリングによるモノクラービデオスタイルのアバター

Emo-Avatar: Efficient Monocular Video Style Avatar through Texture Rendering ( http://arxiv.org/abs/2402.00827v2 )

ライセンス: Link先を確認
Pinxin Liu, Luchuan Song, Daoan Zhang, Hang Hua, Yunlong Tang, Huaijin Tu, Jiebo Luo, Chenliang Xu, (参考訳) アートビデオのポートレート生成は、コンピュータグラフィックスとビジョンの分野で重要かつ追求された課題である。 NeRFやStyleGANを統合する様々な手法が開発されているが、これらの手法はいくつかの課題に直面している。 多くの場合、大きなデータセットに大きく依存し、広範囲のカスタマイズプロセスを必要とし、画像の品質を低下させる。 以上の問題に対処するため,我々は,ダイナミックでドライビング可能なポートレートビデオを生成する上で,StyleGANの能力を向上する遅延ニューラルレンダリングにより,効率的なモノトニックビデオスタイルアバター(Emo-Avatar)を提案する。 我々は2段階の遅延型ニューラルレンダリングパイプラインを提案した。 第1段階では、数発のPTI初期化を利用して、ビデオからサンプリングされたいくつかの極端なポーズを通してStyleGANジェネレータを初期化し、ターゲットのポートレートからアライメントされた顔の一貫性のある表現をキャプチャする。 第2段階では,動作認識型テクスチャの動的流れによって変形したUVマップから高頻度テクスチャサンプリングを行うためのラプラシアンピラミッドを提案する。 Emo-Avatarは、スタイルのカスタマイズ時間を、既存の方法と比較して数時間からわずか5分に短縮する。 さらに、Emo-Avatarは、編集に単一の参照イメージしか必要とせず、セマンティック不変CLIPガイダンスによる地域対応のコントラスト学習を採用し、一貫性のある高解像度出力とアイデンティティ保護を実現している。 Emo-Avatarは定量評価と定性評価の両方を通じて、訓練効率、レンダリング品質、自己および横断的再現性の観点から、既存の手法よりも優れたパフォーマンスを示している。

Artistic video portrait generation is a significant and sought-after task in the fields of computer graphics and vision. While various methods have been developed that integrate NeRFs or StyleGANs with instructional editing models for creating and editing drivable portraits, these approaches face several challenges. They often rely heavily on large datasets, require extensive customization processes, and frequently result in reduced image quality. To address the above problems, we propose the Efficient Monotonic Video Style Avatar (Emo-Avatar) through deferred neural rendering that enhances StyleGAN's capacity for producing dynamic, drivable portrait videos. We proposed a two-stage deferred neural rendering pipeline. In the first stage, we utilize few-shot PTI initialization to initialize the StyleGAN generator through several extreme poses sampled from the video to capture the consistent representation of aligned faces from the target portrait. In the second stage, we propose a Laplacian pyramid for high-frequency texture sampling from UV maps deformed by dynamic flow of expression for motion-aware texture prior integration to provide torso features to enhance StyleGAN's ability to generate complete and upper body for portrait video rendering. Emo-Avatar reduces style customization time from hours to merely 5 minutes compared with existing methods. In addition, Emo-Avatar requires only a single reference image for editing and employs region-aware contrastive learning with semantic invariant CLIP guidance, ensuring consistent high-resolution output and identity preservation. Through both quantitative and qualitative assessments, Emo-Avatar demonstrates superior performance over existing methods in terms of training efficiency, rendering quality and editability in self- and cross-reenactment.
翻訳日:2024-03-16 01:42:38 公開日:2024-03-14
# 球面と球面上の微分可能および加速ウェーブレット変換

Differentiable and accelerated wavelet transforms on the sphere and ball ( http://arxiv.org/abs/2402.01282v2 )

ライセンス: Link先を確認
Matthew A. Price, Alicja Polanska, Jessica Whitney, Jason D. McEwen, (参考訳) 方向性ウェーブレット辞書(Directional wavelet dictionary)は、スケール、位置、方向をまたいだ情報を効率的にキャプチャし、セグメント化する階層的な表現である。 このような表現は物理的信号に特定の親和性を示し、しばしば高度に異方性を持ち、局所化されたマルチスケール構造を示す。 多くの物理的に重要な信号は、宇宙論における天空のような球面領域上で観測される。 計算調和解析の最近の進歩を生かして, 2 次元球面 $\mathbb{S}^2$ と 3 次元球面 $\mathbb{B}^3 = \mathbb{R}^+ \times \mathbb{S}^2$ (球面を半径半直線で拡大することによって形成される空間) に高分散かつ自動微分可能な方向ウェーブレット変換を新たに設計する。 我々は,64ビットマシンの精度を維持しながら,球面上の信号に対して最大300ドル,21800ドルの加速度を観測した。 これらのアルゴリズムは、既存の球面ウェーブレット変換を劇的に加速させるだけでなく、自動微分によって得られる勾配情報によって、これまでこれらの空間では不可能だった多くのデータ駆動解析技術が解き放たれる。 S2WAVとS2BALLは、当社のトランスフォーメーション用のオープンソースJAXライブラリで、自動微分可能で、ハードウェアアクセラレータのクラスタ(例えばGPUやTPU)上で容易にデプロイできます。

Directional wavelet dictionaries are hierarchical representations which efficiently capture and segment information across scale, location and orientation. Such representations demonstrate a particular affinity to physical signals, which often exhibit highly anisotropic, localised multiscale structure. Many physically important signals are observed over spherical domains, such as the celestial sky in cosmology. Leveraging recent advances in computational harmonic analysis, we design new highly distributable and automatically differentiable directional wavelet transforms on the $2$-dimensional sphere $\mathbb{S}^2$ and $3$-dimensional ball $\mathbb{B}^3 = \mathbb{R}^+ \times \mathbb{S}^2$ (the space formed by augmenting the sphere with the radial half-line). We observe up to a $300$-fold and $21800$-fold acceleration for signals on the sphere and ball, respectively, compared to existing software, whilst maintaining 64-bit machine precision. Not only do these algorithms dramatically accelerate existing spherical wavelet transforms, the gradient information afforded by automatic differentiation unlocks many data-driven analysis techniques previously not possible for these spaces. We publicly release both S2WAV and S2BALL, open-sourced JAX libraries for our transforms that are automatically differentiable and readily deployable both on and over clusters of hardware accelerators (e.g. GPUs & TPUs).
翻訳日:2024-03-16 01:42:38 公開日:2024-03-14
# SoCIALITE-LLAMA : 社会科学的課題の指導訓練モデル

SOCIALITE-LLAMA: An Instruction-Tuned Model for Social Scientific Tasks ( http://arxiv.org/abs/2402.01980v2 )

ライセンス: Link先を確認
Gourab Dey, Adithya V Ganesan, Yash Kumar Lal, Manal Shah, Shreyashee Sinha, Matthew Matero, Salvatore Giorgi, Vivek Kulkarni, H. Andrew Schwartz, (参考訳) 感情やユーモア検出などの社会科学のNLPタスクは、テキストから暗黙のプラグマティクスとともに、しばしば限られた訓練データとともに意味を捉えるために必要である。 インストラクションチューニングは、コモンセンス推論、読書理解、コンピュータプログラミングなど、大規模言語モデル(LLM)の多くの機能を改善することが示されている。 しかし,暗黙的な実践がしばしば必要とされる社会領域における指導指導の効果については,ほとんど分かっていない。 我々は,ソーシャルサイエンスにおけるNLPタスクの指導チューニングの利用について検討し,オープンソースで学習可能なLlamaであるSocialite-Llamaを紹介した。 20種類の社会科学タスクにおいて、Socialite-LlamaはLlamaのパフォーマンスを向上し、最先端のマルチタスクモデルの性能を向上する。 さらに、Socialite-Llamaは、Llamaと比較して、関連する6つの社会的タスクのうち5つの改善につながっている。 私たちのコード、モデル、データセットを含むすべてのリソースは、bit.ly/socialitellamaを通じて見つけることができます。

Social science NLP tasks, such as emotion or humor detection, are required to capture the semantics along with the implicit pragmatics from text, often with limited amounts of training data. Instruction tuning has been shown to improve the many capabilities of large language models (LLMs) such as commonsense reasoning, reading comprehension, and computer programming. However, little is known about the effectiveness of instruction tuning on the social domain where implicit pragmatic cues are often needed to be captured. We explore the use of instruction tuning for social science NLP tasks and introduce Socialite-Llama -- an open-source, instruction-tuned Llama. On a suite of 20 social science tasks, Socialite-Llama improves upon the performance of Llama as well as matches or improves upon the performance of a state-of-the-art, multi-task finetuned model on a majority of them. Further, Socialite-Llama also leads to improvement on 5 out of 6 related social tasks as compared to Llama, suggesting instruction tuning can lead to generalized social understanding. All resources including our code, model and dataset can be found through bit.ly/socialitellama.
翻訳日:2024-03-16 01:42:38 公開日:2024-03-14
# HEAM : Processing-In-Memory を用いたHash Embedding Acceleration

HEAM : Hashed Embedding Acceleration using Processing-In-Memory ( http://arxiv.org/abs/2402.04032v3 )

ライセンス: Link先を確認
Youngsuk Kim, Hyuk-Jae Lee, Chae Eun Rhee, (参考訳) 今日のデータセンターでは、特に埋め込み操作を行う場合、パーソナライズされたレコメンデーションシステムは、大きなメモリ容量と高い帯域幅の必要性といった課題に直面している。 従来のアプローチでは、DIMMベースのニアメモリ処理技術や、メモリバウンド問題に対処し、メモリ帯域幅を拡大する3DスタックDRAMが導入されていた。 しかし、パーソナライズされたレコメンデーションシステムの規模が大きくなると、これらのソリューションは不足する。 レコメンデーションモデルは数十テラバイトを超えるサイズに成長し、従来の単一ノードの推論サーバで効率的に動作させることが困難になっている。 組込みテーブルの容量を削減するために様々なアルゴリズムが提案されているが、メモリアクセスの増加やメモリ資源の非効率利用につながることが多い。 本稿では,3次元スタックDRAMとDIMMを統合したヘテロジニアスメモリアーキテクチャであるHEAMについて紹介する。 アーキテクチャは、従来のDIMM、ベースダイレベルのProcessing-In-Memory(PIM)を備えた3次元スタックDRAM、ルックアップテーブルを備えたバンクグループレベルのPIMで構成される3層メモリ階層で構成されている。 このセットアップは、時間的局所性や埋め込みテーブル容量など、構成的な埋め込みのユニークな側面に対応するように設計されている。 この設計は銀行へのアクセスを効果的に減らし、アクセス効率を改善し、全体のスループットを向上し、ベースラインに比べて6.3倍のスピードアップと58.9%の省エネを実現している。

In today's data centers, personalized recommendation systems face challenges such as the need for large memory capacity and high bandwidth, especially when performing embedding operations. Previous approaches have relied on DIMM-based near-memory processing techniques or introduced 3D-stacked DRAM to address memory-bound issues and expand memory bandwidth. However, these solutions fall short when dealing with the expanding size of personalized recommendation systems. Recommendation models have grown to sizes exceeding tens of terabytes, making them challenging to run efficiently on traditional single-node inference servers. Although various algorithmic methods have been proposed to reduce embedding table capacity, they often result in increased memory access or inefficient utilization of memory resources. This paper introduces HEAM, a heterogeneous memory architecture that integrates 3D-stacked DRAM with DIMM to accelerate recommendation systems in which compositional embedding is utilized-a technique aimed at reducing the size of embedding tables. The architecture is organized into a three-tier memory hierarchy consisting of conventional DIMM, 3D-stacked DRAM with a base die-level Processing-In-Memory (PIM), and a bank group-level PIM incorporating lookup tables. This setup is specifically designed to accommodate the unique aspects of compositional embedding, such as temporal locality and embedding table capacity. This design effectively reduces bank access, improves access efficiency, and enhances overall throughput, resulting in a 6.3 times speedup and 58.9% energy savings compared to the baseline.
翻訳日:2024-03-16 01:42:38 公開日:2024-03-14
# Fithfulness vs. Plausibility:大規模言語モデルからの説明の信頼性について

Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models ( http://arxiv.org/abs/2402.04614v3 )

ライセンス: Link先を確認
Chirag Agarwal, Sree Harsha Tanneru, Himabindu Lakkaraju, (参考訳) 大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。 最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。 自己説明は、会話的かつもっともらしい性質のために広く採用されている。 しかし、彼らの忠実さをほとんど理解していない。 本研究では, LLM によるSEs の忠実度と妥当性の両立を論じる。 これらの説明は、LLMの推論プロセスと必ずしも一致せず、その忠実さに対する懸念を提起する。 ユーザフレンドリーなインターフェースの需要に起因した説明の妥当性向上に対する現在の傾向は、彼らの忠実さを損なう可能性があることを強調する。 我々は、高い意思決定に使用されるLCMにおいて、説明の忠実さが重要であると断言する。 さらに,実世界の様々なアプリケーションにおいて,信頼度・楽観性要件の体系的評価の必要性を強調し,それらの要求を満たす説明を確実にする。 可否性を改善するためのいくつかのアプローチがあるが、忠実性を改善することはオープンな課題である。 我々はコミュニティに自己説明の忠実性を高める新しい手法を開発し、多種多様なハイテイク環境におけるLCMの透過的な展開を可能にするよう呼びかける。

Large Language Models (LLMs) are deployed as powerful tools for several natural language processing (NLP) applications. Recent works show that modern LLMs can generate self-explanations (SEs), which elicit their intermediate reasoning steps for explaining their behavior. Self-explanations have seen widespread adoption owing to their conversational and plausible nature. However, there is little to no understanding of their faithfulness. In this work, we discuss the dichotomy between faithfulness and plausibility in SEs generated by LLMs. We argue that while LLMs are adept at generating plausible explanations -- seemingly logical and coherent to human users -- these explanations do not necessarily align with the reasoning processes of the LLMs, raising concerns about their faithfulness. We highlight that the current trend towards increasing the plausibility of explanations, primarily driven by the demand for user-friendly interfaces, may come at the cost of diminishing their faithfulness. We assert that the faithfulness of explanations is critical in LLMs employed for high-stakes decision-making. Moreover, we emphasize the need for a systematic characterization of faithfulness-plausibility requirements of different real-world applications and ensure explanations meet those needs. While there are several approaches to improving plausibility, improving faithfulness is an open challenge. We call upon the community to develop novel methods to enhance the faithfulness of self explanations thereby enabling transparent deployment of LLMs in diverse high-stakes settings.
翻訳日:2024-03-16 01:42:38 公開日:2024-03-14
# Mamba-ND:多次元データのための選択状態空間モデリング

Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data ( http://arxiv.org/abs/2402.05892v3 )

ライセンス: Link先を確認
Shufan Li, Harkanwar Singh, Aditya Grover, (参考訳) 近年、トランスフォーマーはテキストや画像やビデオなどの多次元データを用いたシーケンスモデリングのためのデファクトアーキテクチャとなっている。 しかし、Transformerにおける自己アテンション層の使用は、シーケンス長の4次スケールの計算とメモリの複雑さを禁止している。 状態空間モデルに基づく最近のアーキテクチャであるMambaは、シーケンス長と線形にスケーリングしながら、テキストシーケンスをモデル化するための同等のパフォーマンスを実現することが示されている。 本研究では,マンバアーキテクチャを任意の多次元データに拡張した汎用設計であるマンバ-NDを提案する。 我々の設計では、行長の順序に従って異なる次元の入力データを抽出する。 我々は,2方向LSTMやS4NDといった先行的多次元拡張に基づいて,Mamba-NDを他の代替品と体系的に比較する。 実験により,Mamba-NDは,ImageNet-1K分類,HMDB-51行動認識,ERA5天気予報など,多次元のベンチマークにおいて,最先端技術との競合性を実証した。

In recent years, Transformers have become the de-facto architecture for sequence modeling on text and a variety of multi-dimensional data, such as images and video. However, the use of self-attention layers in a Transformer incurs prohibitive compute and memory complexity that scales quadratically w.r.t. the sequence length. A recent architecture, Mamba, based on state space models has been shown to achieve comparable performance for modeling text sequences, while scaling linearly with the sequence length. In this work, we present Mamba-ND, a generalized design extending the Mamba architecture to arbitrary multi-dimensional data. Our design alternatively unravels the input data across different dimensions following row-major orderings. We provide a systematic comparison of Mamba-ND with several other alternatives, based on prior multi-dimensional extensions such as Bi-directional LSTMs and S4ND. Empirically, we show that Mamba-ND demonstrates performance competitive with the state-of-the-art on a variety of multi-dimensional benchmarks, including ImageNet-1K classification, HMDB-51 action recognition, and ERA5 weather forecasting.
翻訳日:2024-03-16 01:42:38 公開日:2024-03-14
# ac-Stark格子変調により達成された原子気体中の長期集団Rydberg励起

Long-lived collective Rydberg excitations in atomic gas achieved via ac-Stark lattice modulation ( http://arxiv.org/abs/2402.06513v2 )

ライセンス: Link先を確認
Stanisław Kurzyna, Bartosz Niewelt, Mateusz Mazelanik, Wojciech Wasilewski, Michał Parniak, (参考訳) 集合Rydberg励起は、量子情報処理や量子コンピューティングから超感度電気測定まで、有望な応用を提供する。 しかし、彼らの短い寿命は現実のシナリオにおいて大きな障害となる。 寿命を延ばす最先端の方法は、主に基底状態の量子記憶のために実装され、異なる原子遷移を効果的に扱うために再設計が必要だった。 本稿では,リングバーグ励起寿命を延長するプロトコルを提案する。このプロトコルは原理的にスピン波を凍結し,熱劣化の影響を完全にキャンセルすることができる。 このプロトコルは、2つのレーザービームを原子媒体に干渉させることでスピン波の非共鳴ac-Stark格子変調を用いる。 我々の実装は、励起寿命を桁違いに拡張できることを示し、Rydberg励起のより複雑なプロトコルへの道を開いた。

Collective Rydberg excitations provide promising applications ranging from quantum information processing, and quantum computing to ultra-sensitive electrometry. However, their short lifetime is an immense obstacle in real-life scenarios. The state-of-the-art methods of prolonging the lifetime were mainly implemented for ground-state quantum memories and would require a redesign to effectively work on different atomic transitions. We propose a protocol for extending the Rydberg excitation lifetime, which in principle can freeze the spin-wave and completely cancel the effects of thermal dephasing. The protocol employs off-resonant ac-Stark lattice modulation of spin waves by interfering two laser beams on the atomic medium. Our implementation showed that the excitation lifetime can be extended by an order of magnitude, paving the way towards more complex protocols for collective Rydberg excitations.
翻訳日:2024-03-16 01:32:47 公開日:2024-03-14
# FedImpro: フェデレートラーニングにおけるクライアントアップデートの測定と改善

FedImpro: Measuring and Improving Client Update in Federated Learning ( http://arxiv.org/abs/2402.07011v2 )

ライセンス: Link先を確認
Zhenheng Tang, Yonggang Zhang, Shaohuai Shi, Xinmei Tian, Tongliang Liu, Bo Han, Xiaowen Chu, (参考訳) フェデレートラーニング(FL)モデルは、クライアント間でデータの分散が異なる異種データによって引き起こされるクライアントのドリフトを経験することが多い。 この問題に対処するため、高度な研究は主に、より一貫性のあるクライアントモデルを達成するために、既存の勾配を操作することに焦点を当てている。 本稿では、クライアントのドリフトに対する別の視点を示し、改善されたローカルモデルを生成することにより、クライアントのドリフトを緩和することを目的とする。 まず、局所学習の一般化貢献を分析し、この一般化貢献は、異なるクライアントのデータ分布間の条件付きワッサーシュタイン距離によって境界づけられていると結論付ける。 そこで我々は,FedImproを提案する。 具体的には、FedImproはモデルを高レベルかつ低レベルなコンポーネントに分離し、再建された特徴分布について高レベルな部分を訓練する。 このアプローチは一般化の寄与を高め、FLの勾配の相同性を減少させる。 実験結果から,FedImproはFLがデータ不均一性を防御し,モデルの一般化性能を向上させることができることがわかった。

Federated Learning (FL) models often experience client drift caused by heterogeneous data, where the distribution of data differs across clients. To address this issue, advanced research primarily focuses on manipulating the existing gradients to achieve more consistent client models. In this paper, we present an alternative perspective on client drift and aim to mitigate it by generating improved local models. First, we analyze the generalization contribution of local training and conclude that this generalization contribution is bounded by the conditional Wasserstein distance between the data distribution of different clients. Then, we propose FedImpro, to construct similar conditional distributions for local training. Specifically, FedImpro decouples the model into high-level and low-level components, and trains the high-level portion on reconstructed feature distributions. This approach enhances the generalization contribution and reduces the dissimilarity of gradients in FL. Experimental results show that FedImpro can help FL defend against data heterogeneity and enhance the generalization performance of the model.
翻訳日:2024-03-16 01:32:47 公開日:2024-03-14
# VisLing Instruct: 自律的命令最適化を用いた多モード言語モデルにおけるゼロショット学習の向上

VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language Models with Autonomous Instruction Optimization ( http://arxiv.org/abs/2402.07398v2 )

ライセンス: Link先を確認
Dongsheng Zhu, Xunzhu Tang, Weidong Han, Jinghui Lu, Yukun Zhao, Guoliang Xing, Junfeng Wang, Dawei Yin, (参考訳) 本稿では,ゼロショット学習におけるマルチモーダル言語モデル(MMLM)の新たなアプローチであるVisLingInstructを提案する。 現在のMMLMは、マルチモーダルタスクにおいて印象的なゼロショット能力を示すが、その性能は命令の品質に大きく依存する。 VisLingInstructは、インコンテクスト学習を通じて命令文を自律的に評価し、最適化し、MMLMにおける視覚知覚と言語表現の相乗効果を改善することで、この問題に対処する。 この指導の進展とともに,MMLMの視覚特徴抽出モジュールを最適化し,テキスト操作に対する応答性を高めた。 FlanT5 と Vicuna を基にした MMLM に関する総合的な実験により,VisLingInstruct は視覚的マルチモーダルタスクにおけるゼロショット性能を大幅に改善することを示した。 特に、TextVQAとHatefulMemesデータセットの先行技術よりも13.1%と9%の精度向上を実現している。

This paper presents VisLingInstruct, a novel approach to advancing Multi-Modal Language Models (MMLMs) in zero-shot learning. Current MMLMs show impressive zero-shot abilities in multi-modal tasks, but their performance depends heavily on the quality of instructions. VisLingInstruct tackles this by autonomously evaluating and optimizing instructional texts through In-Context Learning, improving the synergy between visual perception and linguistic expression in MMLMs. Alongside this instructional advancement, we have also optimized the visual feature extraction modules in MMLMs, further augmenting their responsiveness to textual cues. Our comprehensive experiments on MMLMs, based on FlanT5 and Vicuna, show that VisLingInstruct significantly improves zero-shot performance in visual multi-modal tasks. Notably, it achieves a 13.1% and 9% increase in accuracy over the prior state-of-the-art on the TextVQA and HatefulMemes datasets.
翻訳日:2024-03-16 01:32:47 公開日:2024-03-14
# G-Retriever: テキストグラフ理解と質問応答のための検索拡張生成

G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering ( http://arxiv.org/abs/2402.07630v2 )

ライセンス: Link先を確認
Xiaoxin He, Yijun Tian, Yifei Sun, Nitesh V. Chawla, Thomas Laurent, Yann LeCun, Xavier Bresson, Bryan Hooi, (参考訳) テキスト属性を持つグラフが与えられると、ユーザは 'chat with their graph': すなわち、会話インターフェイスを使ってグラフについて質問することができる。 ユーザの質問に応えて,本手法はテキスト応答を提供し,グラフの関連部分をハイライトする。 既存の研究は、大規模言語モデル(LLM)とグラフニューラルネットワーク(GNN)を様々な方法で統合しているが、それらは主に、従来のグラフタスク(ノード、エッジ、グラフ分類など)、あるいは、小さなグラフや合成グラフ上の単純なグラフクエリに答えることに焦点を当てている。 対照的に、シーングラフ理解、常識推論、知識グラフ推論を含む複数のアプリケーションに適用可能な、現実のテキストグラフを対象とした柔軟な問合せフレームワークを開発する。 この目標に向けて、私たちはまず、さまざまなタスクから収集されたデータを用いたグラフ質問回答(GraphQA)ベンチマークを開発します。 そこで我々は,GNN,LLM,Retrieval-Augmented Generation (RAG) の強みを統合したG-Retrieverアプローチを提案する。 幻覚に抵抗し、LLMのコンテキストウィンドウサイズを大幅に超えるテキストグラフを可能にするため、G-Retrieverは、このタスクを入賞スタイナーツリー最適化問題として定式化し、グラフ上のRAGを実行する。 実験により,本手法は複数の領域からのテキストグラフタスクのベースラインを上回り,より大きなグラフサイズでスケールし,幻覚に抵抗することを示す。 (私たちのコードとデータセットは、https://github.com/XiaoxinHe/G-Retriever.comで入手できる)。

Given a graph with textual attributes, we enable users to `chat with their graph': that is, to ask questions about the graph using a conversational interface. In response to a user's questions, our method provides textual replies and highlights the relevant parts of the graph. While existing works integrate large language models (LLMs) and graph neural networks (GNNs) in various ways, they mostly focus on either conventional graph tasks (such as node, edge, and graph classification), or on answering simple graph queries on small or synthetic graphs. In contrast, we develop a flexible question-answering framework targeting real-world textual graphs, applicable to multiple applications including scene graph understanding, common sense reasoning, and knowledge graph reasoning. Toward this goal, we first develop our Graph Question Answering (GraphQA) benchmark with data collected from different tasks. Then, we propose our G-Retriever approach, which integrates the strengths of GNNs, LLMs, and Retrieval-Augmented Generation (RAG), and can be fine-tuned to enhance graph understanding via soft prompting. To resist hallucination and to allow for textual graphs that greatly exceed the LLM's context window size, G-Retriever performs RAG over a graph by formulating this task as a Prize-Collecting Steiner Tree optimization problem. Empirical evaluations show that our method outperforms baselines on textual graph tasks from multiple domains, scales well with larger graph sizes, and resists hallucination. (Our codes and datasets are available at: https://github.com/XiaoxinHe/G-Retriever.)
翻訳日:2024-03-16 01:32:47 公開日:2024-03-14
# World Model on Million-Length Video and Language with Blockwise RingAttention

World Model on Million-Length Video And Language With Blockwise RingAttention ( http://arxiv.org/abs/2402.08268v2 )

ライセンス: Link先を確認
Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel, (参考訳) 現在の言語モデルは、言葉で簡単に説明できない世界の理解の側面に乏しく、複雑で長期的なタスクに苦しむ。 ビデオシーケンスは、言語と静的な画像に欠落する貴重な時間情報を提供するため、言語との共同モデリングには魅力的である。 このようなモデルは、人間のテキスト知識と物理的世界の両方の理解を深め、人間を支援するためのより広範なAI能力を可能にする。 しかし、ビデオや言語シーケンスの数百万のトークンから学ぶことは、メモリの制約、計算の複雑さ、限られたデータセットによる問題を引き起こす。 これらの課題に対処するために、多様なビデオや書籍の大規模なデータセットをキュレートし、Blockwise RingAttention技術を用いて長いシーケンスで学習し、コンテキストサイズを4Kから100Mトークンに徐々に増加させます。 本稿では,以下の貢献を行う。 (a)最大コンテキストサイズニューラルネットワーク: 長いビデオおよび言語シーケンス上で、最大規模のコンテクストサイズトランスフォーマーの1つをトレーニングし、困難な検索タスクと長いビデオ理解において、新しいベンチマークを設定します。 (b)異なるシーケンス長さを混合するためのマスク付きシーケンスパッキング、言語とビジョンのバランスをとるための損失重み付け、長いシーケンスチャットのためのモデル生成QAデータセットなど、視覚言語訓練の課題を克服するためのソリューション。 (c)RingAttention、Blockwise Transformers、マスク付きシーケンスパッキング、および数百万長のマルチモーダルシーケンスのトレーニングのための重要な機能を備えた高度に最適化された実装。 (d)長文文書(LWM-Text,LWM-Text-Chat)とビデオ(LWM,LWM-Chat)を100万以上のトークンで処理できる7Bパラメータモデルのファミリーをオープンソースとして公開した。 この研究は、人間の知識とマルチモーダル世界の両方、そしてより広範な能力を理解するために、長いビデオと言語の巨大なデータセットをトレーニングする方法を開拓する。

Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop a understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the Blockwise RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, Blockwise Transformers, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.
翻訳日:2024-03-16 01:32:47 公開日:2024-03-14
# モデル編集による蝶効果:大言語モデルの崩壊をトリガーできる編集は少ない

The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse ( http://arxiv.org/abs/2402.09656v3 )

ライセンス: Link先を確認
Wanli Yang, Fei Sun, Xinyu Ma, Xun Liu, Dawei Yin, Xueqi Cheng, (参考訳) モデル編集は、Large Language Models (LLMs) における知識の改訂において有望であるが、LLMの本質的な能力への影響はしばしば見過ごされている。 一つの編集でもモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。 しかし、このような崩壊を防ぐために各編集後のLCMのベンチマークは、致命的であり、資源集約である。 これを軽減するために、下流タスクのパフォーマンスと強い相関を示す広範囲な実験によって検証された、サロゲート計量としてのパープレキシティ(perplexity)の使用を提案する。 さらに,従来の単一編集研究の難題に焦点をあて,様々な編集手法やLLMをまたいだ実世界のシナリオの実践的設定であるシーケンシャル編集について,詳細な研究を行う。 その結果, ほぼすべての編集手法が, ごくわずかの編集後, モデル崩壊を招いたことが示唆された。 さらなる研究を容易にするため,我々はGPT-3.5を用いて,これらのハードケースに基づいた新しいデータセットであるHardEditを開発した。 このデータセットは、信頼性のあるモデル編集の研究の先駆的な基盤と、編集によるモデル崩壊の基礎となるメカニズムを確立することを目的としている。 この作業が、モデル編集プラクティスに固有の潜在的なリスクに、コミュニティの注意を引き付けることを願っています。

Although model editing has shown promise in revising knowledge in Large Language Models (LLMs), its impact on the inherent capabilities of LLMs is often overlooked. In this work, we reveal a critical phenomenon: even a single edit can trigger model collapse, manifesting as significant performance degradation in various benchmark tasks. However, benchmarking LLMs after each edit, while necessary to prevent such collapses, is impractically time-consuming and resource-intensive. To mitigate this, we propose using perplexity as a surrogate metric, validated by extensive experiments demonstrating its strong correlation with downstream tasks performance. We further conduct an in-depth study on sequential editing, a practical setting for real-world scenarios, across various editing methods and LLMs, focusing on hard cases from our previous single edit studies. The results indicate that nearly all examined editing methods result in model collapse after only few edits. To facilitate further research, we have utilized GPT-3.5 to develop a new dataset, HardEdit, based on those hard cases. This dataset aims to establish the foundation for pioneering research in reliable model editing and the mechanisms underlying editing-induced model collapse. We hope this work can draw the community's attention to the potential risks inherent in model editing practices.
翻訳日:2024-03-16 01:32:47 公開日:2024-03-14
# 量子コンピュータにおける対称性検出トポロジカル物質のダイナミクス

Dynamics of Symmetry-Protected Topological Matter on a Quantum Computer ( http://arxiv.org/abs/2402.12661v2 )

ライセンス: Link先を確認
Miguel Mercado, Kyle Chen, Parth Darekar, Aiichiro Nakano, Rosa Di Felice, Stephan Haas, (参考訳) トポロジカルエッジモードの制御は、外部ノイズに対して弾力的に量子情報を符号化するのに望ましい。 しかしながら、量子ハードウェアへの実装は、現在の回路深度とノイズの制限により、時間ステップの数で増加するため、長年の問題のままである。 回路深度が時間に依存しない最近開発された定数深度量子回路を利用して、雑音のある中間スケール量子(NISQ)プロセッサ上のトポロジカル絶縁体におけるバルクおよび表面モードの長期動的シミュレーションを成功させ、局所化されたトポロジカルモードのロバストなシグネチャを示す。 さらに、NISQハードウェアで容易にシミュレートできる一次元トポロジカルハミルトニアンのクラスを同定する。 本研究は,現在の量子プロセッサ上での相互作用多体系の安定な長期実装への道筋を提供する。

Control of topological edge modes is desirable for encoding quantum information resiliently against external noise. Their implementation on quantum hardware, however, remains a long-standing problem due to current limitations of circuit depth and noise, which grows with the number of time steps. By utilizing recently developed constant-depth quantum circuits in which the circuit depth is independent of time, we demonstrate successful long-time dynamics simulation of bulk and surface modes in topological insulators on noisy intermediate-scale quantum (NISQ) processors, which exhibits robust signatures of localized topological modes. We further identify a class of one-dimensional topological Hamiltonians that can be readily simulated with NISQ hardware. Our results provide a pathway towards stable long-time implementation of interacting many-body systems on present day quantum processors.
翻訳日:2024-03-16 01:32:47 公開日:2024-03-14
# PAC-FNO:低品質画像認識のための並列構造化全成分フーリエニューラル演算子

PAC-FNO: Parallel-Structured All-Component Fourier Neural Operators for Recognizing Low-Quality Images ( http://arxiv.org/abs/2402.12721v4 )

ライセンス: Link先を確認
Jinsung Jeon, Hyundong Jin, Jonghyun Choi, Sanghyun Hong, Dongeun Lee, Kookjin Lee, Noseong Park, (参考訳) 画像認識モデルを開発する標準的なプラクティスは、特定の画像解像度でモデルをトレーニングし、デプロイすることです。 しかし、現実の推論では、モデルが解像度のトレーニングセットと異なるイメージに遭遇したり、天候の変化、ノイズタイプ、圧縮アーティファクトといった自然な変化に直面する場合が多い。 従来のソリューションでは、解像度や入力のバリエーションの異なる複数のモデルを訓練するが、これらの手法は計算コストが高く、実際にはスケールしない。 この目的のために,並列構造および全成分フーリエニューラル演算子 (PAC-FNO) を用いた新しいニューラルネットワークモデルを提案する。 従来のフィードフォワードニューラルネットワークとは異なり、PAC-FNOは周波数領域で動作し、単一のモデル内で様々な解像度の画像を処理することができる。 また、元の下流モデルに最小限の修正を加えてPAC-FNOを訓練するための2段階のアルゴリズムを提案する。 さらに、提案したPAC-FNOは既存の画像認識モデルで動作する準備ができている。 7つの画像認識ベンチマークを用いた大規模評価手法により,提案したPAC-FNOは,様々な解像度の画像上での既存のベースラインモデルの性能を77.1%向上し,推論時の画像の様々な種類の自然変化を改善できることを示す。

A standard practice in developing image recognition models is to train a model on a specific image resolution and then deploy it. However, in real-world inference, models often encounter images different from the training sets in resolution and/or subject to natural variations such as weather changes, noise types and compression artifacts. While traditional solutions involve training multiple models for different resolutions or input variations, these methods are computationally expensive and thus do not scale in practice. To this end, we propose a novel neural network model, parallel-structured and all-component Fourier neural operator (PAC-FNO), that addresses the problem. Unlike conventional feed-forward neural networks, PAC-FNO operates in the frequency domain, allowing it to handle images of varying resolutions within a single model. We also propose a two-stage algorithm for training PAC-FNO with a minimal modification to the original, downstream model. Moreover, the proposed PAC-FNO is ready to work with existing image recognition models. Extensively evaluating methods with seven image recognition benchmarks, we show that the proposed PAC-FNO improves the performance of existing baseline models on images with various resolutions by up to 77.1% and various types of natural variations in the images at inference.
翻訳日:2024-03-16 01:32:47 公開日:2024-03-14
# Me LLaMA:医療応用のための基礎的な大規模言語モデル

Me LLaMA: Foundation Large Language Models for Medical Applications ( http://arxiv.org/abs/2402.12749v3 )

ライセンス: Link先を確認
Qianqian Xie, Qingyu Chen, Aokun Chen, Cheng Peng, Yan Hu, Fongci Lin, Xueqing Peng, Jimin Huang, Jeffrey Zhang, Vipina Keloth, Xingyu Zhou, Huan He, Lucila Ohno-Machado, Yonghui Wu, Hua Xu, Jiang Bian, (参考訳) ChatGPTやLLaMAといった最近の大規模言語モデル(LLM)は多くのAIアプリケーションで大きな可能性を示している。 しかし、医療タスクにおけるそれらのパフォーマンスは最適以下であり、広範なドメイン固有のデータセットのトレーニングによって改善することができる。 本研究では,Me LLaMA 13/70B,Me LLaMA 13/70B-chat,Me LLaMA 13/70B-chatなどの基礎モデルを含む医療用LLMファミリーについて紹介する。 トレーニングと評価のためのドメイン固有のデータスイートには、129Bトークンによる大規模で連続的な事前トレーニングデータセット、214kサンプルによる命令チューニングデータセット、12データセットによる6つのタスクにわたる新しい医療評価ベンチマーク(MIBE)が含まれている。 MIBEを用いた広範囲な評価により,Me LLaMAモデルは,ゼロショット,少数ショット,教師あり学習能力において,既存のオープンソース医療用LLMよりも総合的に優れた性能を発揮することが示された。 ゼロショットのパフォーマンスは、8つのデータセットのうち7つにまたがるChatGPTに匹敵する。 さらに, 破滅的な忘れ込み問題を検討した結果, Me LLaMAモデルは, 他のオープンソース医療用LLMよりも優れており, この問題の軽減に寄与していることがわかった。 Me LLaMAは、バイオメディカルデータと臨床データの両方を使用する、最大のオープンソース医療財団の1つである。 他のオープンソース医療用LLMと比較して、一般的なタスクと医療タスクの両方で優れたパフォーマンスを示しており、医療AIアプリケーションにとって魅力的な選択である。 モデル、データセット、評価スクリプトをhttps://github.com/BIDS-Xu-Lab/Me-LLaMAでリリースします。

Recent large language models (LLMs) such as ChatGPT and LLaMA have shown great promise in many AI applications. However, their performance on medical tasks is suboptimal and can be improved by training on extensive domain-specific datasets. This study introduces Me LLaMA, a medical LLM family that includes foundation models - Me LLaMA 13/70B, along with their chat-enhanced versions - Me LLaMA 13/70B-chat, developed through continual pre-training and instruction tuning of LLaMA2 using large medical datasets. Our domain-specific data suite for training and evaluation includes a large-scale, continual pre-training dataset with 129B tokens, an instruction tuning dataset with 214k samples, and a new medical evaluation benchmark (MIBE) across six tasks with 12 datasets. Our extensive evaluation using the MIBE shows that Me LLaMA models achieve overall better performance than existing open-source medical LLMs in zero-shot, few-shot and supervised learning abilities. Their zero-shot performance is comparable with ChatGPT across 7 out of 8 datasets, with a slight variance of within 3%, and yet falls short when compared to GPT-4. In addition, we investigated the catastrophic forgetting problem, and our results show that Me LLaMA models outperform other open-source medical LLMs in mitigating this issue. Me LLaMA is one of the largest open-source medical foundation LLMs that use both biomedical and clinical data. It exhibits superior performance across both general and medical tasks compared to other open-source medical LLMs, rendering it an attractive choice for medical AI applications. We release our models, datasets, and evaluation scripts at: https://github.com/BIDS-Xu-Lab/Me-LLaMA.
翻訳日:2024-03-16 01:32:47 公開日:2024-03-14
# Science Checkerのリロード: 透明性と論理的推論のための双方向パラダイム

Science Checker Reloaded: A Bidirectional Paradigm for Transparency and Logical Reasoning ( http://arxiv.org/abs/2402.13897v2 )

ライセンス: Link先を確認
Loïc Rakotoson, Sylvain Massip, Fréjus A. A. Laleye, (参考訳) 情報検索は急速に発展している分野である。 しかし、スパース検索における意味的ばらつきや語彙のギャップ、低い精度、意味探索における解釈可能性の欠如、あるいは生成モデルにおける幻覚や時代遅れの情報など、科学的、産業的な膨大な情報に依然として大きな制限が課されている。 本稿では,長い文書のハードルに対処するための2ブロック手法を提案する。 第1ブロックは、クエリ拡張によるスパース検索における言語理解を強化し、関連する文書を検索する。 第2ブロックは、長い文書に広がる情報のみを用いて、複雑な質問に対して包括的で情報的な回答を提供することで、結果をより深くし、双方向のエンゲージメントを可能にする。 パイプラインの様々な段階で、システム推論の理解を容易にするために中間結果がユーザに提示される。 この双方向アプローチは、科学情報検索の分野における透明性、論理的思考、そして包括的理解の観点から、大きな進歩をもたらすと信じている。

Information retrieval is a rapidly evolving field. However it still faces significant limitations in the scientific and industrial vast amounts of information, such as semantic divergence and vocabulary gaps in sparse retrieval, low precision and lack of interpretability in semantic search, or hallucination and outdated information in generative models. In this paper, we introduce a two-block approach to tackle these hurdles for long documents. The first block enhances language understanding in sparse retrieval by query expansion to retrieve relevant documents. The second block deepens the result by providing comprehensive and informative answers to the complex question using only the information spread in the long document, enabling bidirectional engagement. At various stages of the pipeline, intermediate results are presented to users to facilitate understanding of the system's reasoning. We believe this bidirectional approach brings significant advancements in terms of transparency, logical thinking, and comprehensive understanding in the field of scientific information retrieval.
翻訳日:2024-03-16 01:32:47 公開日:2024-03-14
# CURSOR: CUR分解によるスケーラブル混合次ハイパーグラフマッチング

CURSOR: Scalable Mixed-Order Hypergraph Matching with CUR Decomposition ( http://arxiv.org/abs/2402.16594v2 )

ライセンス: Link先を確認
Qixuan Zheng, Ming Zhang, Hong Yan, (参考訳) 高い精度を達成するために、ハイパーグラフマッチングアルゴリズムは計算資源の指数関数的な増加を必要とする。 最近のkd-tree-based Near Near Near neighbor (ANN) 法は、互換性テンソルの空間性にもかかわらず、大規模グラフマッチングには網羅的な計算が必要である。 本研究は, CURテンソル分解を利用して, 高速なハイパーグラフマッチングのための第2および第3次ハイパーグラフマッチングフレームワーク(CURSOR)を導入する。 CURベースの2次グラフマッチングアルゴリズムを用いて粗マッチングを行い、その後、ファイバーCURベースのテンソル生成法であるCURSORのコアは、初期2次マッチング結果を利用して、互換性テンソルのエントリを直接計算する。 これは時間の複雑さとテンソル密度を著しく減少させる。 スパーステンソルに適した確率緩和ラベリング(PRL)ベースのマッチングアルゴリズムを開発した。 大規模合成データセットと広く評価されたベンチマークセットの実験結果は、既存の手法よりもCURSORの方が優れていることを示す。 CURSORのテンソル生成法は,既存のハイパーグラフマッチング法とシームレスに統合することにより,性能の向上と計算コストの低減を実現している。

To achieve greater accuracy, hypergraph matching algorithms require exponential increases in computational resources. Recent kd-tree-based approximate nearest neighbor (ANN) methods, despite the sparsity of their compatibility tensor, still require exhaustive calculations for large-scale graph matching. This work utilizes CUR tensor decomposition and introduces a novel cascaded second and third-order hypergraph matching framework (CURSOR) for efficient hypergraph matching. A CUR-based second-order graph matching algorithm is used to provide a rough match, and then the core of CURSOR, a fiber-CUR-based tensor generation method, directly calculates entries of the compatibility tensor by leveraging the initial second-order match result. This significantly decreases the time complexity and tensor density. A probability relaxation labeling (PRL)-based matching algorithm, specifically suitable for sparse tensors, is developed. Experiment results on large-scale synthetic datasets and widely-adopted benchmark sets demonstrate the superiority of CURSOR over existing methods. The tensor generation method in CURSOR can be integrated seamlessly into existing hypergraph matching methods to improve their performance and lower their computational costs.
翻訳日:2024-03-16 01:32:47 公開日:2024-03-14
# QUCE: 生成的対実的説明のための経路ベース不確実性の最小化と定量化

QUCE: The Minimisation and Quantification of Path-Based Uncertainty for Generative Counterfactual Explanations ( http://arxiv.org/abs/2402.17516v2 )

ライセンス: Link先を確認
Jamie Duell, Hsuan Fu, Monika Seisenberger, Xiuyi Fan, (参考訳) Deep Neural Networks(DNN)は、機械学習(ML)ドメインにおける最も顕著なアプローチのひとつとして際立っている。 DNNの有効性は、最近の計算能力の増加と共に急上昇し、これらのアプローチはビッグデータにおける予測的課題に対処するために、かなりの複雑さにスケールすることができる。 しかし、DNNモデルの複雑さが増すにつれて、解釈可能性も低下する。 この課題に対応するために、Adversarial Gradient Integration (AGI)のような説明可能なモデルは、DNNが提供するパスベースの勾配を利用して意思決定を解明する。 しかし,分布外経路トラバーサル中に勾配が不規則を示す場合,経路に基づく説明器の性能は損なわれる可能性がある。 本稿では,経路の不確実性を最小限に抑えることで,流通経路を緩和する手法であるQuantified Uncertainty Counterfactual Explanations (QUCE)を紹介する。 QUCEは、説明を提示する際の不確実性を定量化するだけでなく、より特定の反実例を生成する。 本稿では,QUCE法の性能を,経路に基づく説明法と生成対実例の両方の競合手法と比較することによって示す。 QUCEメソッドのコードリポジトリは、https://github.com/jamie-duell/QUCEで入手できる。

Deep Neural Networks (DNNs) stand out as one of the most prominent approaches within the Machine Learning (ML) domain. The efficacy of DNNs has surged alongside recent increases in computational capacity, allowing these approaches to scale to significant complexities for addressing predictive challenges in big data. However, as the complexity of DNN models rises, interpretability diminishes. In response to this challenge, explainable models such as Adversarial Gradient Integration (AGI) leverage path-based gradients provided by DNNs to elucidate their decisions. Yet the performance of path-based explainers can be compromised when gradients exhibit irregularities during out-of-distribution path traversal. In this context, we introduce Quantified Uncertainty Counterfactual Explanations (QUCE), a method designed to mitigate out-of-distribution traversal by minimizing path uncertainty. QUCE not only quantifies uncertainty when presenting explanations but also generates more certain counterfactual examples. We showcase the performance of the QUCE method by comparing it with competing methods for both path-based explanations and generative counterfactual examples. The code repository for the QUCE method is available at: https://github.com/jamie-duell/QUCE.
翻訳日:2024-03-16 01:32:47 公開日:2024-03-14
# AIアカウンタビリティインフラストラクチャを目指す - AI監査ツールのギャップと機会

Towards AI Accountability Infrastructure: Gaps and Opportunities in AI Audit Tooling ( http://arxiv.org/abs/2402.17861v2 )

ライセンス: Link先を確認
Victor Ojewale, Ryan Steed, Briana Vecchione, Abeba Birhane, Inioluwa Deborah Raji, (参考訳) 監査は、デプロイされた人工知能(AI)システムのリスクと限界を特定するための重要なメカニズムである。 しかし、AI監査の効果的な実行は、依然として信じられないほど難しい。 その結果、実践者は様々な道具を使って努力を支えている。 35人のAI監査実践者とのインタビューと390のツールのランドスケープ分析に基づいて、利用可能なAI監査ツールの現在のエコシステムをマップします。 実践者が標準を設定し、AIシステムを評価するのを支援するために設計されたツールはたくさんあるが、これらのツールは、実際にAI監査のアカウンタビリティの目標をサポートするに足りなかったことが多い。 したがって、私たちは、発見から擁護まで、評価以外の将来のツール開発分野を強調し、AI監査ツールを使用する上で実践者が直面した課題を概説する。 我々は、多くのAI監査実践者に対するニーズの全範囲を適切にサポートするリソースが不足していると結論付け、現場は単に評価のためのツールを超えて、AI説明責任のためのより包括的なインフラへと移行することを推奨する。

Audits are critical mechanisms for identifying the risks and limitations of deployed artificial intelligence (AI) systems. However, the effective execution of AI audits remains incredibly difficult. As a result, practitioners make use of various tools to support their efforts. Drawing on interviews with 35 AI audit practitioners and a landscape analysis of 390 tools, we map the current ecosystem of available AI audit tools. While there are many tools designed to assist practitioners with setting standards and evaluating AI systems, these tools often fell short of supporting the accountability goals of AI auditing in practice. We thus highlight areas for future tool development beyond evaluation -- from harms discovery to advocacy -- and outline challenges practitioners faced in their efforts to use AI audit tools. We conclude that resources are lacking to adequately support the full scope of needs for many AI audit practitioners and recommend that the field move beyond tools for just evaluation, towards more comprehensive infrastructure for AI accountability.
翻訳日:2024-03-16 01:32:47 公開日:2024-03-14
# MMSR:シンボリック回帰はマルチモーダルタスクである

MMSR: Symbolic Regression is a Multimodal Task ( http://arxiv.org/abs/2402.18603v4 )

ライセンス: Link先を確認
Yanjie Li, Jingyi Liu, Weijun Li, Lina Yu, Min Wu, Wenqiang Li, Meilan Hao, Su Wei, Yusong Deng, (参考訳) 数学的公式は、何千年もの間自然の法則を探索する際の人間の知恵の結晶化である。 複雑な自然法則を簡潔な数学的公式で記述することは、科学者の絶え間なく追求し、人工知能にとって大きな挑戦である。 この場は記号回帰と呼ばれる。 記号回帰は、もともと組合せ最適化問題として定式化され、GPと強化学習アルゴリズムがそれを解決するために用いられた。 しかし、GPはハイパーパラメータに敏感であり、これらの2種類のアルゴリズムは非効率である。 この問題を解決するために、研究者はデータから表現へのマッピングを翻訳問題として扱う。 そして、対応する大規模事前訓練モデルを導入する。 しかし、データと表現の骨格は2言語ほど明確な単語対応を持っていない。 その代わり、それらはより2つのモダリティ(例、画像、テキスト)に似ています。 そこで本稿では,MMSRを提案する。 SR問題は、純粋なマルチモーダル問題として解決され、また、後のモーダル特徴融合を促進するために、モーダルアライメントのためのトレーニングプロセスにもコントラスト学習が導入される。 モーダル・フィーチャー・フュージョン(英語版)をより良く推進するために、コントラッシブ・ラーニング・ロス(英語版)やその他の損失を同時に訓練する戦略を採用しており、これは1ステップのトレーニングだけで、まずコントラクティブ・ラーニング・ロス(英語版)を訓練し、次に他の損失を訓練する。 私たちの実験は、一緒にトレーニングを行うことで、機能抽出モジュールと機能融合モジュールがよりうまく動作できることを証明しています。 実験の結果,複数の大規模事前学習ベースラインと比較して,MMSRはSRBenchを含む複数の主流データセットにおいて最も高度な結果が得られることがわかった。

Mathematical formulas are the crystallization of human wisdom in exploring the laws of nature for thousands of years. Describing the complex laws of nature with a concise mathematical formula is a constant pursuit of scientists and a great challenge for artificial intelligence. This field is called symbolic regression. Symbolic regression was originally formulated as a combinatorial optimization problem, and GP and reinforcement learning algorithms were used to solve it. However, GP is sensitive to hyperparameters, and these two types of algorithms are inefficient. To solve this problem, researchers treat the mapping from data to expressions as a translation problem. And the corresponding large-scale pre-trained model is introduced. However, the data and expression skeletons do not have very clear word correspondences as the two languages do. Instead, they are more like two modalities (e.g., image and text). Therefore, in this paper, we proposed MMSR. The SR problem is solved as a pure multimodal problem, and contrastive learning is also introduced in the training process for modal alignment to facilitate later modal feature fusion. It is worth noting that in order to better promote the modal feature fusion, we adopt the strategy of training contrastive learning loss and other losses at the same time, which only needs one-step training, instead of training contrastive learning loss first and then training other losses. Because our experiments prove training together can make the feature extraction module and feature fusion module running-in better. Experimental results show that compared with multiple large-scale pre-training baselines, MMSR achieves the most advanced results on multiple mainstream datasets including SRBench.
翻訳日:2024-03-16 01:22:49 公開日:2024-03-14
# Smooth Tchebycheff Scalarizationによる多目的最適化

Smooth Tchebycheff Scalarization for Multi-Objective Optimization ( http://arxiv.org/abs/2402.19078v2 )

ライセンス: Link先を確認
Xi Lin, Xiaoyuan Zhang, Zhiyuan Yang, Fei Liu, Zhenkun Wang, Qingfu Zhang, (参考訳) 多目的最適化問題は、目的が相反することが多く、単一のソリューションでは最適化できない、多くの実世界のアプリケーションで見られる。 過去数十年間、与えられた問題の目的の間に異なる最適なトレードオフを表すパレート解を見つけるための多くの方法が提案されてきた。 しかし、これらの既存手法は高い計算複雑性を持つか、あるいは一般的な微分可能な多目的最適化問題を解くための理論的性質が十分でない可能性がある。 本研究では,スムーズな最適化手法を活用することで,勾配に基づく多目的最適化のためのスムーズなTchebycheffスキャラライズ手法を提案する。 他の方法に比べて計算の複雑さが著しく低いのを楽しみながら、有効なトレードオフ選好を持つ全てのパレート解を見つけるための理論的性質が優れている。 実世界の様々な応用問題に対する実験結果は,提案手法の有効性を十分に証明している。

Multi-objective optimization problems can be found in many real-world applications, where the objectives often conflict each other and cannot be optimized by a single solution. In the past few decades, numerous methods have been proposed to find Pareto solutions that represent different optimal trade-offs among the objectives for a given problem. However, these existing methods could have high computational complexity or may not have good theoretical properties for solving a general differentiable multi-objective optimization problem. In this work, by leveraging the smooth optimization technique, we propose a novel and lightweight smooth Tchebycheff scalarization approach for gradient-based multi-objective optimization. It has good theoretical properties for finding all Pareto solutions with valid trade-off preferences, while enjoying significantly lower computational complexity compared to other methods. Experimental results on various real-world application problems fully demonstrate the effectiveness of our proposed method.
翻訳日:2024-03-16 01:22:49 公開日:2024-03-14
# 最大スライスワッサーシュタイン距離に対するシャープ境界

Sharp bounds for max-sliced Wasserstein distances ( http://arxiv.org/abs/2403.00666v2 )

ライセンス: Link先を確認
March T. Boedihardjo, (参考訳) 我々は本質的に、分離可能なヒルベルト空間上の確率測度と$n$サンプルからの経験的分布の間の予想最大スライクな1-ワッサーシュタイン距離に対する上界と下界をマッチングする。 この結果のバナッハ空間バージョンを証明することにより、ユークリッド空間上の対称確率測度 $\mu$ と、共分散行列のノルムと $\mu$ のサポートの直径に関して、予想される最大2-ワッサーシュタイン距離に対して、対数係数まで鋭い上限を得ることができる。

We obtain essentially matching upper and lower bounds for the expected max-sliced 1-Wasserstein distance between a probability measure on a separable Hilbert space and its empirical distribution from $n$ samples. By proving a Banach space version of this result, we also obtain an upper bound, that is sharp up to a log factor, for the expected max-sliced 2-Wasserstein distance between a symmetric probability measure $\mu$ on a Euclidean space and its symmetrized empirical distribution in terms of the norm of the covariance matrix of $\mu$ and the diameter of the support of $\mu$.
翻訳日:2024-03-16 01:22:49 公開日:2024-03-14
# ソーシャルネットワークデータを用いた地域インフレーション分析

Regional inflation analysis using social network data ( http://arxiv.org/abs/2403.00774v2 )

ライセンス: Link先を確認
Vasilii Chsherbakov, Ilia Karpov, (参考訳) インフレは、どの国や地域の人口にも大きな影響を与える最も重要なマクロ経済指標の1つである。 インフレは様々な要因の影響を受けており、そのうちの1つはインフレ予想である。 多くの中央銀行はインフレ目標体制の中で金融政策を実施しながら、この要因を考慮に入れている。 現在、多くの人々がインターネット、特にソーシャルネットワークのアクティブユーザーとなっている。 主に興味のある問題のみを検索し、読み、議論する仮説がある。 価格のダイナミクスがユーザーの議論の焦点になっていると仮定することは理にかなっている。 したがって、こうした議論はインフレ予想に関するより迅速な情報の代替源とみなすことができる。 この研究は、Vkontakteのソーシャルネットワークからの非構造化データに基づいて、(オムスク地域の例)上向きと下向きのインフレ傾向を分析する。 2010年1月から2022年5月までの間に850万件以上の投稿が集められた。 著者らはこの問題を解決するためにBERTニューラルネットワークを使用した。 これらのモデルは、ベンチマーク(例えば、ロジスティック回帰、決定木分類器など)よりも優れた結果を示した。 異なる文脈において、プロインフレーション型と非インフレーション型を定義でき、SHAPメソッドでそれらの視覚化を行うことができる。 この分析は、地域レベルでのインフレプロセスに関する追加の運用情報を提供する。 同時に、作業の限界は、ロシア全地域で同様のモデルの初期訓練の時間と電力コストである。

Inflation is one of the most important macroeconomic indicators that have a great impact on the population of any country and region. Inflation is influenced by range of factors, one of which is inflation expectations. Many central banks take this factor into consideration while implementing monetary policy within the inflation targeting regime. Nowadays, a lot of people are active users of the Internet, especially social networks. There is a hypothesis that people search, read, and discuss mainly only those issues that are of particular interest to them. It is logical to assume that the dynamics of prices may also be in the focus of user discussions. So, such discussions could be regarded as an alternative source of more rapid information about inflation expectations. This study is based on unstructured data from Vkontakte social network to analyze upward and downward inflationary trends (on the example of the Omsk region). The sample of more than 8.5 million posts was collected between January 2010 and May 2022. The authors used BERT neural networks to solve the problem. These models demonstrated better results than the benchmarks (e.g., logistic regression, decision tree classifier, etc.). It makes possible to define pro-inflationary and disinflationary types of keywords in different contexts and get their visualization with SHAP method. This analysis provides additional operational information about inflationary processes at the regional level The proposed approach can be scaled for other regions. At the same time the limitation of the work is the time and power costs for the initial training of similar models for all regions of Russia.
翻訳日:2024-03-16 01:22:49 公開日:2024-03-14
# 大規模言語モデルを用いた自然言語記述アルゴリズムの実行

Executing Natural Language-Described Algorithms with Large Language Models: An Investigation ( http://arxiv.org/abs/2403.00795v2 )

ライセンス: Link先を確認
Xin Zheng, Qiming Zhu, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, (参考訳) 自然言語で記述されたコンピュータプログラムの実行は、長い間コンピュータ科学の追求であった。 大規模言語モデル(LLM)が示す自然言語理解能力の向上が出現し、この目標への道筋が照らされた。 本稿では,自然言語で概説したアルゴリズムを理解・実行するための現在のLLMの能力について検討する。 我々は,多くの代表的アルゴリズムを含むよく知られた教科書であるIntroduction to Algorithmをベースとしたアルゴリズムテストセットを構築した。 LLMのコード実行能力を体系的に評価するために、30のアルゴリズムを選択し、合計300のランダムサンプリングインスタンスを生成し、人気のあるLLMがこれらのアルゴリズムを理解し実行できるかを評価した。 この結果から,LLM,特にGPT-4は,重数値計算を伴わない限り,自然言語で記述されたプログラムを効果的に実行できることが判明した。 我々は,LLMのコード実行能力の評価に寄与し,LLMの計算能力に関するさらなる調査と応用を奨励すると考えている。

Executing computer programs described in natural language has long been a pursuit of computer science. With the advent of enhanced natural language understanding capabilities exhibited by large language models (LLMs), the path toward this goal has been illuminated. In this paper, we seek to examine the capacity of present-day LLMs to comprehend and execute algorithms outlined in natural language. We established an algorithm test set sourced from Introduction to Algorithm, a well-known textbook that contains many representative widely-used algorithms. To systematically assess LLMs' code execution abilities, we selected 30 algorithms, generated 300 random-sampled instances in total, and evaluated whether popular LLMs can understand and execute these algorithms. Our findings reveal that LLMs, notably GPT-4, can effectively execute programs described in natural language, as long as no heavy numeric computation is involved. We believe our findings contribute to evaluating LLMs' code execution abilities and would encourage further investigation and application for the computation power of LLMs.
翻訳日:2024-03-16 01:22:49 公開日:2024-03-14
# 高精度レコメンデーションのためのエンドツーエンドグラフ系列表現学習

End-to-end Graph-Sequential Representation Learning for Accurate Recommendations ( http://arxiv.org/abs/2403.00895v2 )

ライセンス: Link先を確認
Vladimir Baikalov, Evgeny Frolov, (参考訳) 近年のレコメンデータシステムは,シーケンスベースおよびグラフベースアプローチの開発に重点を置いている。 両方のアプローチは、行動データ内の複雑な関係をモデル化するのに有用であることが証明され、優れたスケーラビリティを維持しながら、パーソナライズされたランク付けと次の項目のレコメンデーションタスクにおいて有望な結果をもたらした。 しかし、彼らはデータから非常に異なる信号を捉えている。 前者のアプローチは、最近のアイテムと順序づけられたインタラクションを通じてユーザを直接表現するが、後者は、インタラクショングラフをまたいだ間接的な依存関係をキャプチャすることを目的としている。 本稿では,これら2つのパラダイムの相乗効果を利用した新しい多表現学習フレームワークを提案する。 いくつかのデータセットに対する実験的な評価から,提案フレームワークによる逐次的およびグラフ的コンポーネントの相互学習が推奨性能を大幅に向上させることが示された。

Recent recommender system advancements have focused on developing sequence-based and graph-based approaches. Both approaches proved useful in modeling intricate relationships within behavioral data, leading to promising outcomes in personalized ranking and next-item recommendation tasks while maintaining good scalability. However, they capture very different signals from data. While the former approach represents users directly through ordered interactions with recent items, the latter aims to capture indirect dependencies across the interactions graph. This paper presents a novel multi-representational learning framework exploiting these two paradigms' synergies. Our empirical evaluation on several datasets demonstrates that mutual training of sequential and graph components with the proposed framework significantly improves recommendations performance.
翻訳日:2024-03-16 01:22:49 公開日:2024-03-14
# VBART - トルコの映画。

VBART: The Turkish LLM ( http://arxiv.org/abs/2403.01308v2 )

ライセンス: Link先を確認
Meliksah Turker, Mehmet Erdi Ari, Aydin Han, (参考訳) 本稿では,大規模なコーパスをゼロから事前訓練した最初のトルコ語列列列列大言語モデルであるVBARTについて述べる。 VBARTは、BARTモデルとmBARTモデルを基にしたコンパクトなLLMであり、LargeとXLargeの2つのサイズがある。 微調整されたVBARTモデルは、抽象的なテキスト要約、タイトル生成、テキストパラフレーズ化、質問応答、質問生成タスクにおいて、従来の最先端結果を上回る。 将来のテキスト生成タスクとデータセットの微調整を可能にし、トルコ自然言語処理(NLP)研究の新しい道のりを刻む。 我々の研究は、トルコ語のための事前学習 LLM が、最大3倍の多言語モデルに優れ、既存の結果を改善し、トレーニングと推論のための効率的なモデルを提供することを示す。 さらに, 単言語トークン化器は多言語トークン化器よりも最大11倍効率が高いことを示す。 最後に,既存の学習済みLLMを拡大する手法を導入し,Chinchilla Scaling Lawとシークエンス・ツー・シークエンス・マスキング言語モデルとの関連性に疑問を呈する。 135GBの精巧な調整されたモデル、トークンライザ、クリーンなvngrs-webコーパスは、Huggingface.co/vngrs-aiで公開されています。

We present VBART, the first Turkish sequence-to-sequence Large Language Models (LLMs) pre-trained on a large corpus from scratch. VBART are compact LLMs based on good ideas leveraged from BART and mBART models and come in two sizes, Large and XLarge. Fine-tuned VBART models surpass the prior state-of-the-art results in abstractive text summarization, title generation, text paraphrasing, question answering and question generation tasks. They allow fine-tuning for future text generation tasks and datasets, carving a new path for Turkish Natural Language Processing (NLP) research. Our work shows that having a pre-trained LLM for Turkish outperforms up to 3x multilingual models, improving existing results and providing efficient models for training and inference. Moreover, we show that our monolingual tokenizer is up to 11x more efficient than multilingual tokenizers. Last but not least, we introduce a method to enlarge an existing pre-trained LLM and question the relevancy of Chinchilla Scaling Law to sequence-to-sequence masked language models. Our fine-tuned models, tokenizer and cleaned vngrs-web-corpus of 135 GB are publicly available at huggingface.co/vngrs-ai.
翻訳日:2024-03-16 01:22:49 公開日:2024-03-14
# Diffusion-TS:一般時系列生成のための解釈可能な拡散

Diffusion-TS: Interpretable Diffusion for General Time Series Generation ( http://arxiv.org/abs/2403.01742v2 )

ライセンス: Link先を確認
Xinyu Yuan, Yan Qiao, (参考訳) 拡散確率モデル(DDPM)が生成モデルの主要なパラダイムになりつつある。 最近、オーディオ合成、時系列計算、予測のブレークスルーを見せている。 本稿では,Diffusion-TSを提案する。Diffusion-TSは,畳み込み時間表現を持つエンコーダデコーダ変換器を用いて,高画質の多変量時系列サンプルを生成する新しい拡散型フレームワークであり,分解技術はDiffusion-TSを用いて時系列の意味を捉え,変換器はノイズモデル入力から詳細な逐次情報をマイニングする。 既存の拡散に基づくアプローチとは違って、各拡散ステップのノイズの代わりにサンプルを直接再構成するようにモデルを訓練し、フーリエに基づく損失項を組み合わせる。 拡散-TSは解釈性と現実性の両方を満たす時系列を生成することが期待されている。 さらに,Diffusion-TSはモデル変更を伴わずに,予測や計算などの条件付きタスクに容易に拡張できることを示した。 これはまた、不規則な設定下でのDiffusion-TSのパフォーマンスをさらに調査する動機にもなります。 最後に、定性的かつ定量的な実験を通じて、Diffusion-TSは時系列の様々な現実的な解析において最先端の結果を達成することを示す。

Denoising diffusion probabilistic models (DDPMs) are becoming the leading paradigm for generative models. It has recently shown breakthroughs in audio synthesis, time series imputation and forecasting. In this paper, we propose Diffusion-TS, a novel diffusion-based framework that generates multivariate time series samples of high quality by using an encoder-decoder transformer with disentangled temporal representations, in which the decomposition technique guides Diffusion-TS to capture the semantic meaning of time series while transformers mine detailed sequential information from the noisy model input. Different from existing diffusion-based approaches, we train the model to directly reconstruct the sample instead of the noise in each diffusion step, combining a Fourier-based loss term. Diffusion-TS is expected to generate time series satisfying both interpretablity and realness. In addition, it is shown that the proposed Diffusion-TS can be easily extended to conditional generation tasks, such as forecasting and imputation, without any model changes. This also motivates us to further explore the performance of Diffusion-TS under irregular settings. Finally, through qualitative and quantitative experiments, results show that Diffusion-TS achieves the state-of-the-art results on various realistic analyses of time series.
翻訳日:2024-03-16 01:22:49 公開日:2024-03-14
# AllSpark: 半スーパービジョンセマンティックセマンティックセグメンテーションのためのトランスフォーマーでラベル付けされていないラベル付き機能

AllSpark: Reborn Labeled Features from Unlabeled in Transformer for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2403.01818v3 )

ライセンス: Link先を確認
Haonan Wang, Qixiang Zhang, Yi Li, Xiaomeng Li, (参考訳) 半教師付きセマンティックセマンティックセグメンテーション(SSSS)は、ラベル付きデータと大量のラベル付きデータを利用する、時間を要するピクセルレベルの手動ラベリングの負担を軽減するために提案されている。 現在の最先端の手法は、ラベル付きデータを土台真理で訓練し、ラベルなしデータを擬似ラベルで訓練する。 しかし、2つのトレーニングフローは分離されており、ラベル付きデータがトレーニングプロセスを支配し、結果として低品質の擬似ラベルと結果として準最適結果が得られる。 この問題を緩和するために、AllSparkを紹介します。これは、ラベル付けされていない機能からチャンネルワイドのクロスアテンションメカニズムで、ラベル付けされた機能を再起動します。 さらにセマンティックメモリとChannel Semantic Grouping戦略を導入し、ラベル付けされていない機能が適切にラベル付けされた機能を表現できるようにします。 AllSparkは、フレームワークレベルではなく、SSSSのアーキテクチャレベル設計に新たな光を当てた。 また、一般的なトランスフォーマーベースのセグメンテーションモデルにシームレスに統合できるフレキシブルなボトルネックモジュールと見なすこともできる。 提案されたAllSparkは、Pascal、Cityscapes、COCOベンチマークのすべての評価プロトコルで、ベル・アンド・ウィストルなしで既存のメソッドより優れている。 コードとモデルの重み付けは、https://github.com/xmed-lab/AllSpark.comで入手できる。

Semi-supervised semantic segmentation (SSSS) has been proposed to alleviate the burden of time-consuming pixel-level manual labeling, which leverages limited labeled data along with larger amounts of unlabeled data. Current state-of-the-art methods train the labeled data with ground truths and unlabeled data with pseudo labels. However, the two training flows are separate, which allows labeled data to dominate the training process, resulting in low-quality pseudo labels and, consequently, sub-optimal results. To alleviate this issue, we present AllSpark, which reborns the labeled features from unlabeled ones with the channel-wise cross-attention mechanism. We further introduce a Semantic Memory along with a Channel Semantic Grouping strategy to ensure that unlabeled features adequately represent labeled features. The AllSpark shed new light on the architecture level designs of SSSS rather than framework level, which avoids increasingly complicated training pipeline designs. It can also be regarded as a flexible bottleneck module that can be seamlessly integrated into a general transformer-based segmentation model. The proposed AllSpark outperforms existing methods across all evaluation protocols on Pascal, Cityscapes and COCO benchmarks without bells-and-whistles. Code and model weights are available at: https://github.com/xmed-lab/AllSpark.
翻訳日:2024-03-16 01:22:49 公開日:2024-03-14
# TTA-Nav:視覚的破壊下でのポイントゴールナビゲーションのためのテスト時適応再構成

TTA-Nav: Test-time Adaptive Reconstruction for Point-Goal Navigation under Visual Corruptions ( http://arxiv.org/abs/2403.01977v2 )

ライセンス: Link先を確認
Maytus Piriyajitakonkij, Mingfei Sun, Mengmi Zhang, Wei Pan, (参考訳) 視覚的な汚職下でのロボットナビゲーションは、恐ろしい挑戦だ。 そこで本研究では,TTA-Nav (Test-time Adaptation, TTA) 方式を提案する。 我々の"plug-and-play"メソッドは、トップダウンデコーダを事前訓練されたナビゲーションモデルに組み込む。 まず、事前訓練されたナビゲーションモデルが劣化した画像を取得し、特徴を抽出する。 次に、トップダウンデコーダは、事前訓練されたモデルによって抽出された高レベルな特徴を考慮し、再構成を生成する。 そして、劣化した画像の復元を事前訓練されたモデルにフィードバックする。 最後に、事前訓練されたモデルは、出力アクションに再び転送される。 クリーンなイメージのみにトレーニングされているにもかかわらず、トップダウンデコーダは、勾配ベースの適応を必要とせずに、破損したイメージからよりクリーンなイメージを再構築することができる。 トップダウンデコーダを備えた事前学習ナビゲーションモデルは、ベンチマークのほとんどすべての視覚的破損に対して、ナビゲーション性能を大幅に向上させる。 本手法は,最も深刻な汚職に対して,最先端の46%から94%のポイントゴールナビゲーションを成功率で改善する。 これは、ロボット視覚ナビゲーションの幅広い応用の可能性を示している。 プロジェクトページ: https://sites.google.com/view/tta-nav

Robot navigation under visual corruption presents a formidable challenge. To address this, we propose a Test-time Adaptation (TTA) method, named as TTA-Nav, for point-goal navigation under visual corruptions. Our "plug-and-play" method incorporates a top-down decoder to a pre-trained navigation model. Firstly, the pre-trained navigation model gets a corrupted image and extracts features. Secondly, the top-down decoder produces the reconstruction given the high-level features extracted by the pre-trained model. Then, it feeds the reconstruction of a corrupted image back to the pre-trained model. Finally, the pre-trained model does forward pass again to output action. Despite being trained solely on clean images, the top-down decoder can reconstruct cleaner images from corrupted ones without the need for gradient-based adaptation. The pre-trained navigation model with our top-down decoder significantly enhances navigation performance across almost all visual corruptions in our benchmarks. Our method improves the success rate of point-goal navigation from the state-of-the-art result of 46% to 94% on the most severe corruption. This suggests its potential for broader application in robotic visual navigation. Project page: https://sites.google.com/view/tta-nav
翻訳日:2024-03-16 01:22:49 公開日:2024-03-14
# リップされた再生核ヒルベルト空間における固有の可観測性を持つクープマン作用素

Koopman operators with intrinsic observables in rigged reproducing kernel Hilbert spaces ( http://arxiv.org/abs/2403.02524v2 )

ライセンス: Link先を確認
Isao Ishikawa, Yuka Hashimoto, Masahiro Ikeda, Yoshinobu Kawahara, (参考訳) 本稿では、再生カーネルヒルベルト空間(RKHS)とそのスペクトル上で定義されるクープマン作用素を推定するための新しいアプローチを提案する。 本稿では, ジェット動モード分解(JetDMD)と呼ばれる, RKHSの固有構造とジェットと呼ばれる幾何学的概念を利用して, クープマン作用素の推定を強化する手法を提案する。 この手法は従来の拡張動的モード分解(EDMD)を精度よく洗練し、特に固有値の数値的な推定を行う。 本稿では,JetDMDの特殊正定値カーネルに対する明示的エラー境界と収束率による優位性を証明し,その性能の確かな理論的基礎を提供する。 また、ヒルベルト空間の枠組内でのクープマン作用素のスペクトル解析も検討し、拡張クープマン作用素の概念を提案する。 この概念は、推定されたクープマン固有函数をより深く理解し、元の函数空間の外側でそれらをキャプチャする。 剛ヒルベルト空間の理論を通じて、クープマン作用素の推定スペクトルと固有関数を解析するための原理的方法論を提供し、リップされたRKHS内での固有分解を可能にする。 また, 動的系の時間的サンプル化軌道データから, 動的系を確固とした理論的保証で再構築する手法を提案する。 本稿では, ファンデルポル発振器, ダッフィング発振器, H\'enon マップ, ローレンツ発振器を用いて数値シミュレーションを行い, 固有値の明確な数値計算と力学系の正確な予測を行った。

This paper presents a novel approach for estimating the Koopman operator defined on a reproducing kernel Hilbert space (RKHS) and its spectra. We propose an estimation method, what we call Jet Dynamic Mode Decomposition (JetDMD), leveraging the intrinsic structure of RKHS and the geometric notion known as jets to enhance the estimation of the Koopman operator. This method refines the traditional Extended Dynamic Mode Decomposition (EDMD) in accuracy, especially in the numerical estimation of eigenvalues. This paper proves JetDMD's superiority through explicit error bounds and convergence rate for special positive definite kernels, offering a solid theoretical foundation for its performance. We also delve into the spectral analysis of the Koopman operator, proposing the notion of extended Koopman operator within a framework of rigged Hilbert space. This notion leads to a deeper understanding of estimated Koopman eigenfunctions and capturing them outside the original function space. Through the theory of rigged Hilbert space, our study provides a principled methodology to analyze the estimated spectrum and eigenfunctions of Koopman operators, and enables eigendecomposition within a rigged RKHS. We also propose a new effective method for reconstructing the dynamical system from temporally-sampled trajectory data of the dynamical system with solid theoretical guarantee. We conduct several numerical simulations using the van der Pol oscillator, the Duffing oscillator, the H\'enon map, and the Lorenz attractor, and illustrate the performance of JetDMD with clear numerical computations of eigenvalues and accurate predictions of the dynamical systems.
翻訳日:2024-03-16 01:22:49 公開日:2024-03-14
# 絡み合った物体の学習とクラス認識による連続的セグメンテーション

Continual Segmentation with Disentangled Objectness Learning and Class Recognition ( http://arxiv.org/abs/2403.03477v2 )

ライセンス: Link先を確認
Yizheng Gong, Siyue Yu, Xiaoyang Wang, Jimin Xiao, (参考訳) ほとんどの連続的なセグメンテーション手法は、ピクセル単位の分類タスクとしてこの問題に取り組む。 しかし、このようなパラダイムは非常に困難であり、オブジェクトが強い転送能力を持ち、抵抗を忘れてしまうため、内蔵されたオブジェクト性を持つクエリベースのセグメンタは、画素単位のセグメンタに比べて本質的に有利である。 そこで本研究では,連続的セグメンテーションを2段階に分けてCoMasTReを提案する。 CoMasTReは、2段階のセグメンタ学習クラスに依存しないマスクの提案を第1段階で使用し、認識は第2段階に留まる。 連続学習では、目的性を高めるため、単純だが効果的な蒸留法が採用される。 古いクラスの忘れを緩和するために,セグメンテーションに適した多ラベルクラスの蒸留戦略を設計する。 PASCAL VOCとADE20Kに対するCoMasTReの有効性を検討した。 大規模な実験により,本手法は両データセットにおいて画素ごと,クエリー毎の手法より優れていた。 コードはhttps://github.com/jordangong/CoMasTReで入手できる。

Most continual segmentation methods tackle the problem as a per-pixel classification task. However, such a paradigm is very challenging, and we find query-based segmenters with built-in objectness have inherent advantages compared with per-pixel ones, as objectness has strong transfer ability and forgetting resistance. Based on these findings, we propose CoMasTRe by disentangling continual segmentation into two stages: forgetting-resistant continual objectness learning and well-researched continual classification. CoMasTRe uses a two-stage segmenter learning class-agnostic mask proposals at the first stage and leaving recognition to the second stage. During continual learning, a simple but effective distillation is adopted to strengthen objectness. To further mitigate the forgetting of old classes, we design a multi-label class distillation strategy suited for segmentation. We assess the effectiveness of CoMasTRe on PASCAL VOC and ADE20K. Extensive experiments show that our method outperforms per-pixel and query-based methods on both datasets. Code will be available at https://github.com/jordangong/CoMasTRe.
翻訳日:2024-03-16 01:22:49 公開日:2024-03-14
# ドイツ人も幻覚症だ! 失明データを用いたニュース要約における不整合検出

German also Hallucinates! Inconsistency Detection in News Summaries with the Absinth Dataset ( http://arxiv.org/abs/2403.03750v2 )

ライセンス: Link先を確認
Laura Mascarell, Ribin Chalumattu, Annette Rios, (参考訳) 大規模言語モデル(LLM)の出現は、幅広い自然言語処理タスクにおいて顕著な進歩をもたらした。 しかし、これらの大規模モデルは出力の幻覚的な情報に悩まされているため、生成した要約がソース文書の内容と一致していることを保証する必要があるため、自動テキスト要約において大きな問題となる。 従来の研究では、生成した要約の忠実さを評価するために、出力(すなわち不整合検出)における幻覚を検出するという課題に対処している。 しかし、これらの研究は主に英語に焦点を当てており、最近の多言語アプローチにはドイツ語のデータがない。 この研究は、ドイツのニュース要約における幻覚検出のための手動注釈付きデータセットであるabsinthを提示し、微調整と文脈内学習の両方において、このタスクにおける新しいオープンソースLLMの機能を探究する。 我々は,ドイツ語における幻覚検出のさらなる研究を促進するために,アブシンスデータセットをオープンソース化し,公開する。

The advent of Large Language Models (LLMs) has led to remarkable progress on a wide range of natural language processing tasks. Despite the advances, these large-sized models still suffer from hallucinating information in their output, which poses a major issue in automatic text summarization, as we must guarantee that the generated summary is consistent with the content of the source document. Previous research addresses the challenging task of detecting hallucinations in the output (i.e. inconsistency detection) in order to evaluate the faithfulness of the generated summaries. However, these works primarily focus on English and recent multilingual approaches lack German data. This work presents absinth, a manually annotated dataset for hallucination detection in German news summarization and explores the capabilities of novel open-source LLMs on this task in both fine-tuning and in-context learning settings. We open-source and release the absinth dataset to foster further research on hallucination detection in German.
翻訳日:2024-03-16 01:11:34 公開日:2024-03-14
# テキスト・画像生成のための識別的探索とチューニング

Discriminative Probing and Tuning for Text-to-Image Generation ( http://arxiv.org/abs/2403.04321v2 )

ライセンス: Link先を確認
Leigang Qu, Wenjie Wang, Yongqi Li, Hanwang Zhang, Liqiang Nie, Tat-Seng Chua, (参考訳) テキスト・ツー・イメージ・ジェネレーション(T2I)の進歩にもかかわらず、従来の手法では、生成された画像間の関係の混乱のような、テキスト・イメージの誤調整問題に直面することが多い。 既存のソリューションには、クロスアテンション操作による構成理解の改善や、レイアウト計画の改善のための大規模言語モデルの統合が含まれる。 しかし、T2Iモデル固有のアライメント能力はまだ不十分である。 生成モデルと識別モデルの関係をレビューすることにより、T2Iモデルの識別能力は、生成中のテキスト画像のアライメント能力を反映する可能性があると仮定する。 本稿では,T2Iモデルの識別能力を向上し,より正確なテキストと画像のアライメントを実現することを提唱する。 本稿では,T2Iモデル上に構築された識別アダプターを用いて,2つの代表課題における識別能力を探索し,テキスト画像のアライメントを改善するために識別微調整を利用する。 識別アダプタのボーナスとして、自己補正機構は、識別勾配を利用して、推論中に生成された画像をテキストプロンプトに整合させる。 分布内および分布外の両方のシナリオを含む3つのベンチマークデータセットの総合的な評価は,本手法の優れた世代性能を実証する。 一方,2つの識別課題における最先端の識別性能を,他の生成モデルと比較して達成する。

Despite advancements in text-to-image generation (T2I), prior methods often face text-image misalignment problems such as relation confusion in generated images. Existing solutions involve cross-attention manipulation for better compositional understanding or integrating large language models for improved layout planning. However, the inherent alignment capabilities of T2I models are still inadequate. By reviewing the link between generative and discriminative modeling, we posit that T2I models' discriminative abilities may reflect their text-image alignment proficiency during generation. In this light, we advocate bolstering the discriminative abilities of T2I models to achieve more precise text-to-image alignment for generation. We present a discriminative adapter built on T2I models to probe their discriminative abilities on two representative tasks and leverage discriminative fine-tuning to improve their text-image alignment. As a bonus of the discriminative adapter, a self-correction mechanism can leverage discriminative gradients to better align generated images to text prompts during inference. Comprehensive evaluations across three benchmark datasets, including both in-distribution and out-of-distribution scenarios, demonstrate our method's superior generation performance. Meanwhile, it achieves state-of-the-art discriminative performance on the two discriminative tasks compared to other generative models.
翻訳日:2024-03-16 01:11:34 公開日:2024-03-14
# グラフからワードバッグ: ドメイン知識の導入から電荷予測の混乱

From Graph to Word Bag: Introducing Domain Knowledge to Confusing Charge Prediction ( http://arxiv.org/abs/2403.04369v2 )

ライセンス: Link先を確認
Ang Li, Qiangchao Chen, Yiquan Wu, Ming Cai, Xiang Zhou, Fei Wu, Kun Kuang, (参考訳) 電荷予測の混乱は、事実記述に基づく紛らわしい電荷の予測を含む、法的AIにおける困難なタスクである。 既存のチャージ予測手法は優れたパフォーマンスを示しているが、SnatchやRoberyといった紛らわしいチャージを扱う場合、大きな課題に直面している。 法的領域では、構成要素は紛らわしい電荷を区別する上で重要な役割を果たす。 構成要素は、刑事罰の基礎となる基本的な行動であり、罪状間で微妙に区別される。 本稿では,FWGB(From Graph to Word Bag)アプローチについて紹介する。この手法は,構成要素に関するドメイン知識を導入し,審査員の推論プロセスとよく似た,紛らわしい課金の判断をモデルに導く。 具体的には、まず、各電荷に対するキーワードの選択を支援するために、構成要素を含む法的な知識グラフを構築し、ワードバッグを形成する。 その後、コンテキスト内の各電荷の差分情報に対するモデルの注意を導くために、注意機構を拡張し、単語バッグ内の単語を通して注意を誘導する新たな損失関数を導入する。 現実の司法文書から紛らわしい料金データセットを構築する。 実験により本手法の有効性,特に不均衡ラベル分布における例外的性能の維持が示された。

Confusing charge prediction is a challenging task in legal AI, which involves predicting confusing charges based on fact descriptions. While existing charge prediction methods have shown impressive performance, they face significant challenges when dealing with confusing charges, such as Snatch and Robbery. In the legal domain, constituent elements play a pivotal role in distinguishing confusing charges. Constituent elements are fundamental behaviors underlying criminal punishment and have subtle distinctions among charges. In this paper, we introduce a novel From Graph to Word Bag (FWGB) approach, which introduces domain knowledge regarding constituent elements to guide the model in making judgments on confusing charges, much like a judge's reasoning process. Specifically, we first construct a legal knowledge graph containing constituent elements to help select keywords for each charge, forming a word bag. Subsequently, to guide the model's attention towards the differentiating information for each charge within the context, we expand the attention mechanism and introduce a new loss function with attention supervision through words in the word bag. We construct the confusing charges dataset from real-world judicial documents. Experiments demonstrate the effectiveness of our method, especially in maintaining exceptional performance in imbalanced label distributions.
翻訳日:2024-03-16 01:11:34 公開日:2024-03-14
# BjTT: 交通予測のための大規模マルチモーダルデータセット

BjTT: A Large-scale Multimodal Dataset for Traffic Prediction ( http://arxiv.org/abs/2403.05029v2 )

ライセンス: Link先を確認
Chengyang Zhang, Yong Zhang, Qitan Shao, Jiangtao Feng, Bo Li, Yisheng Lv, Xinglin Piao, Baocai Yin, (参考訳) 交通予測は、インテリジェントトランスポーテーションシステム(ITS)の最も重要な基盤の1つである。 従来の交通予測手法は、交通トレンドを予測し、2つの主要な課題に直面するために、過去の交通データのみに依存する。 1)異常事象に対する感受性。 2)長期予測における性能の制限。 そこで本研究では,交通システムを記述するテキストと生成モデルを組み合わせることで,トラヒック生成を実現し,そのタスクをTTG(Text-to-Traffic Generation)と呼ぶ。 TTGタスクの鍵となる課題は、交通状況を生成するために、テキストを道路ネットワークの空間構造と交通データを関連付ける方法である。 そこで本研究では,テキスト・トラフィック生成のための最初の拡散モデルChatTrafficを提案する。 合成データと実データとの整合性を保証するため,グラフ畳み込みネットワーク(GCN)を用いて拡散モデルを拡張し,交通データの空間的相関を抽出する。 さらに,TTGタスクのためのテキスト-グラフペアを含む大規模データセットを構築した。 私たちは、リリースしたデータセットに対して、質的に、定量的にモデルをベンチマークしました。 実験の結果,ChatTrafficはテキストから現実的な交通状況を生成することができることがわかった。 私たちのコードとデータセットはhttps://github.com/ChyaZhang/ChatTraffic.comで公開されています。

Traffic prediction is one of the most significant foundations in Intelligent Transportation Systems (ITS). Traditional traffic prediction methods rely only on historical traffic data to predict traffic trends and face two main challenges. 1) insensitivity to unusual events. 2) limited performance in long-term prediction. In this work, we explore how generative models combined with text describing the traffic system can be applied for traffic generation, and name the task Text-to-Traffic Generation (TTG). The key challenge of the TTG task is how to associate text with the spatial structure of the road network and traffic data for generating traffic situations. To this end, we propose ChatTraffic, the first diffusion model for text-to-traffic generation. To guarantee the consistency between synthetic and real data, we augment a diffusion model with the Graph Convolutional Network (GCN) to extract spatial correlations of traffic data. In addition, we construct a large dataset containing text-traffic pairs for the TTG task. We benchmarked our model qualitatively and quantitatively on the released dataset. The experimental results indicate that ChatTraffic can generate realistic traffic situations from the text. Our code and dataset are available at https://github.com/ChyaZhang/ChatTraffic.
翻訳日:2024-03-16 01:11:34 公開日:2024-03-14
# ルール駆動型ニュースキャプション

Rule-driven News Captioning ( http://arxiv.org/abs/2403.05101v3 )

ライセンス: Link先を確認
Ning Xu, Tingting Zhang, Hongshuo Tian, An-An Liu, (参考訳) ニュースキャプションタスクは、そのニュース記事で画像のための名前付きエンティティや具体的なイベントを記述することによって、文を生成することを目的としている。 既存の手法は、入力されたニュースコンテンツと出力予測との相関に主に焦点をあてる大規模な事前学習モデルに頼ることで、目覚ましい結果を得た。 しかし、ニュースキャプションは、イベントに関連する個人やアクションを正確に記述するなど、ニュースレポートの基本的なルールに固執する必要がある。 本稿では,指定されたルール信号に従って画像記述を生成可能なルール駆動型ニュースキャプション手法を提案する。 具体的には、まず、記述のためのニュース対応セマンティックルールを設計する。 このルールには、画像(eg , "performing")に描かれた主要なアクションと、アクションに関与する名前付きエンティティ(eg , "Agent" および "Place")によって演じられる役割が含まれている。 次に,複数のエンコーダ層にニュース対応セマンティックルールを組み込むプレフィックスチューニング戦略により,このセマンティックルールを大規模事前学習モデルであるBARTに注入する。 最後に、BARTを効果的に誘導し、指定された規則に従うニュース文を生成する。 広く使われている2つのデータセット(GoodNewsとNYTimes800k)に対する大規模な実験は、我々の方法の有効性を実証している。

News captioning task aims to generate sentences by describing named entities or concrete events for an image with its news article. Existing methods have achieved remarkable results by relying on the large-scale pre-trained models, which primarily focus on the correlations between the input news content and the output predictions. However, the news captioning requires adhering to some fundamental rules of news reporting, such as accurately describing the individuals and actions associated with the event. In this paper, we propose the rule-driven news captioning method, which can generate image descriptions following designated rule signal. Specifically, we first design the news-aware semantic rule for the descriptions. This rule incorporates the primary action depicted in the image (e.g., "performing") and the roles played by named entities involved in the action (e.g., "Agent" and "Place"). Second, we inject this semantic rule into the large-scale pre-trained model, BART, with the prefix-tuning strategy, where multiple encoder layers are embedded with news-aware semantic rule. Finally, we can effectively guide BART to generate news sentences that comply with the designated rule. Extensive experiments on two widely used datasets (i.e., GoodNews and NYTimes800k) demonstrate the effectiveness of our method.
翻訳日:2024-03-16 01:11:34 公開日:2024-03-14
# MMoE:マルチモーダル情報とドメイン認識混合によるロバストスポイラー検出

MMoE: Robust Spoiler Detection with Multi-modal Information and Domain-aware Mixture-of-Experts ( http://arxiv.org/abs/2403.05265v2 )

ライセンス: Link先を確認
Zinan Zeng, Sen Ye, Zijian Cai, Heng Wang, Yuhan Liu, Haokai Zhang, Minnan Luo, (参考訳) オンライン映画レビューサイトは、映画に関する情報や議論に有用である。 しかし、大規模なスポイラーレビューは映画視聴経験から逸脱し、スポイラー検出が重要な課題となった。 これまでの方法は、プラットフォーム内の情報の異質性を無視して、単にレビューのテキストコンテンツにフォーカスするものだった。 例えば、レビューのメタデータと対応するユーザの情報も役に立ちます。 さらに、映画レビューのスポイラー言語はジャンル特化されがちであり、既存の手法ではドメインの一般化が課題となっている。 この目的のために、マルチモーダルネットワークであるMMoEを提案する。マルチモーダルネットワークは、複数のモーダルからの情報を利用してロバストなスポイラー検出を容易にし、Mixture-of-Expertsを用いてドメインの一般化を強化する。 MMoEはまず、ユーザ移動ネットワークからグラフ、テキスト、メタ機能、レビューのテキストコンテンツ、レビューのメタデータを抽出する。 ジャンル別スポイラーの処理にはMixture-of-Expertsアーキテクチャを用い、3つのモードで情報処理を行い、堅牢性を向上する。 最後に、専門家の融合層を使用して、異なる視点から機能を統合し、融合した埋め込みに基づいて予測を行う。 実験により、MMoEは2つの広く使用されているスポイラー検出データセットに対して、精度とF1スコアの点で、従来のSOTA手法を2.56%、8.41%上回る、最先端のパフォーマンスを達成した。 さらなる実験では、MMoEの強靭性と一般化の優位性も示されている。

Online movie review websites are valuable for information and discussion about movies. However, the massive spoiler reviews detract from the movie-watching experience, making spoiler detection an important task. Previous methods simply focus on reviews' text content, ignoring the heterogeneity of information in the platform. For instance, the metadata and the corresponding user's information of a review could be helpful. Besides, the spoiler language of movie reviews tends to be genre-specific, thus posing a domain generalization challenge for existing methods. To this end, we propose MMoE, a multi-modal network that utilizes information from multiple modalities to facilitate robust spoiler detection and adopts Mixture-of-Experts to enhance domain generalization. MMoE first extracts graph, text, and meta feature from the user-movie network, the review's textual content, and the review's metadata respectively. To handle genre-specific spoilers, we then adopt Mixture-of-Experts architecture to process information in three modalities to promote robustness. Finally, we use an expert fusion layer to integrate the features from different perspectives and make predictions based on the fused embedding. Experiments demonstrate that MMoE achieves state-of-the-art performance on two widely-used spoiler detection datasets, surpassing previous SOTA methods by 2.56% and 8.41% in terms of accuracy and F1-score. Further experiments also demonstrate MMoE's superiority in robustness and generalization.
翻訳日:2024-03-16 01:11:34 公開日:2024-03-14
# DiffSF:シーンフロー推定のための拡散モデル

DiffSF: Diffusion Models for Scene Flow Estimation ( http://arxiv.org/abs/2403.05327v2 )

ライセンス: Link先を確認
Yushan Zhang, Bastian Wandt, Maria Magnusson, Michael Felsberg, (参考訳) シーンフロー推定は、特に自動運転車やロボットのような自律型エージェントにとって、様々な現実世界のアプリケーションにとって重要な要素である。 最近のシーンフロー推定手法は妥当な精度を達成するが、現実のシステムへの適用性は信頼性の指標から恩恵を受ける。 精度の向上と不確実性の推定を兼ね備えたDiffSFを提案する。 拡散過程において、ガウス雑音を付加することにより、地上の真理シーンフローベクトル場を徐々に摂動させる。 逆処理では、ランダムサンプリングされたガウスノイズから始まり、ソースとターゲットポイントクラウドに条件付けすることでシーンフローベクトル場予測を復元する。 拡散過程は,従来の手法と比較して予測の堅牢性を大幅に向上させ,その結果,標準的なシーンフロー推定ベンチマークにおける最先端の性能が向上したことを示す。 さらに,初期状態の異なる複数回をサンプリングすることにより,複数の仮説を予測し,出力の不確かさを計測し,不正確な予測の大部分を検出する。 コードはhttps://github.com/ZhangYushan3/DiffSFで公開されている。

Scene flow estimation is an essential ingredient for a variety of real-world applications, especially for autonomous agents, such as self-driving cars and robots. While recent scene flow estimation approaches achieve a reasonable accuracy, their applicability to real-world systems additionally benefits from a reliability measure. Aiming at improving accuracy while additionally providing an estimate for uncertainty, we propose DiffSF that combines transformer-based scene flow estimation with denoising diffusion models. In the diffusion process, the ground truth scene flow vector field is gradually perturbed by adding Gaussian noise. In the reverse process, starting from randomly sampled Gaussian noise, the scene flow vector field prediction is recovered by conditioning on a source and a target point cloud. We show that the diffusion process greatly increases the robustness of predictions compared to prior approaches resulting in state-of-the-art performance on standard scene flow estimation benchmarks. Moreover, by sampling multiple times with different initial states, the denoising process predicts multiple hypotheses, which enables measuring the output uncertainty, allowing our approach to detect a majority of the inaccurate predictions. The code is available at https://github.com/ZhangYushan3/DiffSF.
翻訳日:2024-03-16 01:11:34 公開日:2024-03-14
# クロストーク抑制のためのマルチキュービット動的デカップリング

Multi-qubit Dynamical Decoupling for Enhanced Crosstalk Suppression ( http://arxiv.org/abs/2403.05391v2 )

ライセンス: Link先を確認
Siyuan Niu, Aida Todri-Sanial, Nicholas T. Bronn, (参考訳) 動的デカップリング(DD)は、オープン量子系における量子ビットのコヒーレンスを高めることを目的とした、最も単純なエラー抑制手法の1つである。 さらにDDは、2種類の相互作用から現れる短期量子ハードウェアにおける1つの大きなエラー源であるコヒーレント・クロストークの低減効果を示した。 静的なクロストークは超伝導体や半導体量子ビットを含む様々なハードウェアプラットフォームに存在する。 さらに、駆動されたクロストークは、他のキュービット上の駆動ゲートからの漏れにより、望ましくない駆動項として発生することがある。 本稿では,マルチキュービットシステム向けに,デコヒーレンスエラーと両タイプのコヒーレントなクロストークを抑える新しいDDプロトコルについて検討する。 2組のキュービットが同時に自由進化する「イル・アイドル」実験と、一方のペアが他方のペアのフリー進化の間連続的に駆動される「駆動・アイドル」実験である。 これらの実験は、IBMの量子超伝導プロセッサ上で行われ、両方のコヒーレントなクロストークを抑える上で、ステージングされたDDプロトコルの重大な影響を実証する。 X2 シークエンスの適用による最先端手法の標準 DD シークエンスと比較すると,この2 つのクロストークタイプに対処する上で,ステージングされた DD プロトコルは回路の忠実度をそれぞれ19.7% と 8.5% に向上させる。

Dynamical decoupling (DD) is one of the simplest error suppression methods, aiming to enhance the coherence of qubits in open quantum systems. Moreover, DD has demonstrated effectiveness in reducing coherent crosstalk, one major error source in near-term quantum hardware, which manifests from two types of interactions. Static crosstalk exists in various hardware platforms, including superconductor and semiconductor qubits, by virtue of always-on qubit-qubit coupling. Additionally, driven crosstalk may occur as an unwanted drive term due to leakage from driven gates on other qubits. Here we explore a novel staggered DD protocol tailored for multi-qubit systems that suppresses the decoherence error and both types of coherent crosstalk. We develop two experimental setups - an "idle-idle" experiment in which two pairs of qubits undergo free evolution simultaneously and a "driven-idle" experiment in which one pair is continuously driven during the free evolution of the other pair. These experiments are performed on an IBM Quantum superconducting processor and demonstrate the significant impact of the staggered DD protocol in suppressing both types of coherent crosstalk. When compared to the standard DD sequences from state-of-the-art methodologies with the application of X2 sequences, our staggered DD protocol enhances circuit fidelity by 19.7% and 8.5%, respectively, in addressing these two crosstalk types.
翻訳日:2024-03-16 01:11:34 公開日:2024-03-14
# コンピュータ・ラボラトリー家具のエルゴノミクス設計:大学生の人体計測データを利用したミスマッチ解析

Ergonomic Design of Computer Laboratory Furniture: Mismatch Analysis Utilizing Anthropometric Data of University Students ( http://arxiv.org/abs/2403.05589v2 )

ライセンス: Link先を確認
Anik Kumar Saha, Md Abrar Jahin, Md. Rafiquzzaman, M. F. Mridha, (参考訳) 多くの研究では、人間工学的に設計された家具が生産性と幸福をいかに改善するかが示されている。 コンピュータは学生の学問的生活の一部になっているので、今後さらに成長していくだろう。 本稿では,コンピュータ実験用エルゴノミクスを改善するために,大学生に適した人文計測に基づく家具寸法を提案する。 380人の被験者のデータを収集し,11の人文計測値と11の家具寸法を関連づけて分析した。 調整不能な椅子と調整不能なテーブルを備えた調整不能な椅子の2種類の家具について検討した。 ミスマッチ計算では, 家具寸法と人体計測値との間に有意な差が認められた。 また,5%の有意度を有する一方方向ANOVA試験においても,提案した家具寸法と既存家具寸法との有意差が認められた。 提案した寸法は, 既設の家具と比較して, 男女ともに適合性が高く, ミスマッチ率も低かった。 座席高さを調整可能な家具セットの寸法は, 調整不能家具セットと比較してわずかに改善した。 このことから,提案した次元は快適度を向上し,筋骨格障害のリスクを低減することが示唆された。 実世界のコンピュータ実験室環境におけるこれらの課題の実装と長期的影響に関するさらなる研究が推奨されている。

Many studies have shown how ergonomically designed furniture improves productivity and well-being. As computers have become a part of students' academic lives, they will grow further in the future. We propose anthropometric-based furniture dimensions suitable for university students to improve computer laboratory ergonomics. We collected data from 380 participants and analyzed 11 anthropometric measurements, correlating them to 11 furniture dimensions. Two types of furniture were studied: a non-adjustable chair with a non-adjustable table and an adjustable chair with a non-adjustable table. The mismatch calculation showed a significant difference between furniture dimensions and anthropometric measurements. The one-way ANOVA test with a significance level of 5% also showed a significant difference between proposed and existing furniture dimensions. The proposed dimensions were found to be more compatible and reduced mismatch percentages for both males and females compared to existing furniture. The proposed dimensions of the furniture set with adjustable seat height showed slightly improved results compared to the non-adjustable furniture set. This suggests that the proposed dimensions can improve comfort levels and reduce the risk of musculoskeletal disorders among students. Further studies on the implementation and long-term effects of these proposed dimensions in real-world computer laboratory settings are recommended.
翻訳日:2024-03-16 01:11:34 公開日:2024-03-14
# 複雑な宇宙機作業のためのシールド型深部強化学習

Shielded Deep Reinforcement Learning for Complex Spacecraft Tasking ( http://arxiv.org/abs/2403.05693v3 )

ライセンス: Link先を確認
Robert Reed, Hanspeter Schaub, Morteza Lahijanian, (参考訳) シールド型深部強化学習(SDRL)による自律型宇宙船制御は、急速に成長している研究領域となっている。 しかしながら、シールドの構築とタスクの定義は非公式であり、その結果、RLエージェントの安全性と曖昧な目標に関する保証のないポリシーが生まれている。 本稿では,まず,宇宙船の作業や安全要件を形式化するための形式言語であるLTL(Linear Temporal Logic)について検討する。 次に、SDRLフレームワークにおける効果的なトレーニングのために、コセーフなLTL仕様から報酬関数を自動構築する方法を定義する。 また、宇宙船用安全LTL仕様からシールドを構築する方法についても検討し、確率的保証を提供する3つの設計を提案する。 いくつかの実験を通して、これらのシールドが異なるポリシーや報酬構造の柔軟性とどのように相互作用するかを示す。

Autonomous spacecraft control via Shielded Deep Reinforcement Learning (SDRL) has become a rapidly growing research area. However, the construction of shields and the definition of tasking remains informal, resulting in policies with no guarantees on safety and ambiguous goals for the RL agent. In this paper, we first explore the use of formal languages, namely Linear Temporal Logic (LTL), to formalize spacecraft tasks and safety requirements. We then define a manner in which to construct a reward function from a co-safe LTL specification automatically for effective training in SDRL framework. We also investigate methods for constructing a shield from a safe LTL specification for spacecraft applications and propose three designs that provide probabilistic guarantees. We show how these shields interact with different policies and the flexibility of the reward structure through several experiments.
翻訳日:2024-03-16 01:11:34 公開日:2024-03-14
# ヒルベルト空間における極小分布時間差アルゴリズムと自由マン不等式

Near Minimax-Optimal Distributional Temporal Difference Algorithms and The Freedman Inequality in Hilbert Spaces ( http://arxiv.org/abs/2403.05811v2 )

ライセンス: Link先を確認
Yang Peng, Liangyu Zhang, Zhihua Zhang, (参考訳) 分散強化学習(DRL)は様々な領域で実証的な成功を収めている。 DRL の分野における中核的なタスクの1つは、あるポリシーに対する戻り分布 $\eta^\pi$ を推定する分散ポリシー評価である。 従来のRL文献における時間差分法の拡張である分布時間差分法(TD)アルゴリズムが提案されている。 表の例では、 \citet{rowland2018analysis} と \citet{rowland2023analysis} は、分布的TDの2つの例、すなわち、カテゴリー的時間差アルゴリズム (CTD) と量子的時間差アルゴリズム (QTD) の漸近収束をそれぞれ証明した。 本稿では、さらに一歩進んで、分布性TDの有限サンプル性能を解析する。 理論解析を容易にするために,非パラメトリック分布型TDアルゴリズム(NTD)を提案する。 $\gamma$-discounted infinite-horizon tabular Markov decision processでは、NTD に対して$\tilde{O}\left(\frac{1}{\varepsilon^{2p}(1-\gamma)^{2p+1}}\right)$ iterations to achieve a $\varepsilon$-optimal estimator with high probability, when the estimation error is measured by the $p-Wasserstein distance。 このサンプル複雑性境界は、ワッサーシュタイン距離が1ドルである場合、最小最大(対数因子まで)である。 これを達成するために、ヒルベルト空間における新しいフリードマンの不等式(英語版)(Freedman's inequality)を確立する。 さらに我々はCTDを再検討し,同じ非漸近収束境界が$p$-Wasserstein距離の場合,CTDに対して成り立つことを示した。

Distributional reinforcement learning (DRL) has achieved empirical success in various domains. One of the core tasks in the field of DRL is distributional policy evaluation, which involves estimating the return distribution $\eta^\pi$ for a given policy $\pi$. The distributional temporal difference (TD) algorithm has been accordingly proposed, which is an extension of the temporal difference algorithm in the classic RL literature. In the tabular case, \citet{rowland2018analysis} and \citet{rowland2023analysis} proved the asymptotic convergence of two instances of distributional TD, namely categorical temporal difference algorithm (CTD) and quantile temporal difference algorithm (QTD), respectively. In this paper, we go a step further and analyze the finite-sample performance of distributional TD. To facilitate theoretical analysis, we propose a non-parametric distributional TD algorithm (NTD). For a $\gamma$-discounted infinite-horizon tabular Markov decision process, we show that for NTD we need $\tilde{O}\left(\frac{1}{\varepsilon^{2p}(1-\gamma)^{2p+1}}\right)$ iterations to achieve an $\varepsilon$-optimal estimator with high probability, when the estimation error is measured by the $p$-Wasserstein distance. This sample complexity bound is minimax optimal (up to logarithmic factors) in the case of the $1$-Wasserstein distance. To achieve this, we establish a novel Freedman's inequality in Hilbert spaces, which would be of independent interest. In addition, we revisit CTD, showing that the same non-asymptotic convergence bounds hold for CTD in the case of the $p$-Wasserstein distance.
翻訳日:2024-03-16 01:11:34 公開日:2024-03-14
# 連続学習における幅の最小化について

On the Diminishing Returns of Width for Continual Learning ( http://arxiv.org/abs/2403.06398v2 )

ライセンス: Link先を確認
Etash Guha, Vihan Lakshman, (参考訳) ディープニューラルネットワークは様々な設定で画期的な性能を示してきたが、これらのモデルは、新しいタスクをシーケンスでトレーニングすると、しばしば 'emph{catastrophic forgetting' に悩まされる。 いくつかの研究は、ニューラルネットワークの幅の増大が破滅的な忘れ込みの減少につながることを実証しているが、幅と連続学習の正確な関係を特徴づけていないことを実証している。 本研究では,連続学習理論を解析するための最初のフレームワークの一つを設計し,フィードフォワードネットワーク(FFN)において,幅が直接的に関連することを証明した。 具体的には, ネットワーク幅の増大と, ネットワーク幅の増大が収率の低下を実証する。 我々は、我々の理論が予測したように、減少するリターンがはっきりと観察される以前の研究で探索されていない幅で、我々の主張を実証的に検証する。

While deep neural networks have demonstrated groundbreaking performance in various settings, these models often suffer from \emph{catastrophic forgetting} when trained on new tasks in sequence. Several works have empirically demonstrated that increasing the width of a neural network leads to a decrease in catastrophic forgetting but have yet to characterize the exact relationship between width and continual learning. We design one of the first frameworks to analyze Continual Learning Theory and prove that width is directly related to forgetting in Feed-Forward Networks (FFN). Specifically, we demonstrate that increasing network widths to reduce forgetting yields diminishing returns. We empirically verify our claims at widths hitherto unexplored in prior studies where the diminishing returns are clearly observed as predicted by our theory.
翻訳日:2024-03-16 01:11:34 公開日:2024-03-14
# 半教師付きセマンティックセマンティックセグメンテーションのための非チャーテッド-密度重み付き特徴摂動に向けて

Towards the Uncharted: Density-Descending Feature Perturbation for Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2403.06462v2 )

ライセンス: Link先を確認
Xiaoyang Wang, Huihui Bai, Limin Yu, Yao Zhao, Jimin Xiao, (参考訳) 半教師付きセマンティックセグメンテーションにより、ラベル付きトレーニングを補完するためにラベル付きデータから効果的な監督をマイニングすることができる。 近年の研究では、画像レベルと特徴レベルの両方で摂動不変のトレーニングを探索する、一貫性の正則化技術を中心に研究されている。 本研究では,DDFP(Dedentity-Descending Feature Perturbation)と呼ばれる特徴レベルの一貫性学習フレームワークを提案する。 半教師付き学習における低密度分離仮定にインスパイアされた私たちの重要な洞察は、特徴密度は、より低い密度の領域であるセグメンテーション分類器が探索する最も有望な方向の光を放つことができるということである。 摂動注入による低密度領域への確実な予測を伴う特徴のシフトを提案する。 摂動特徴は元の特徴の予測によって教師されるので、分類器はより密度の低い領域を探索し、決定境界を効果的に規則化する。 我々の手法の中心は特徴密度の推定である。 そこで本研究では, 正規化フローに基づく軽量密度推定器を導入し, 特徴密度分布のオンライン化を効果的に行う。 密度推定器から勾配を抽出することにより、各特徴に対するより密度の低い領域への方向を決定することができる。 提案したDDFPは機能レベルの摂動に関する他の設計よりも優れており、Pascal VOCとCityscapesの両方のデータセットに対して、様々なパーティションプロトコル下での最先端のパフォーマンスを示している。 プロジェクトはhttps://github.com/Gavinwxy/DDFP.comで入手できる。

Semi-supervised semantic segmentation allows model to mine effective supervision from unlabeled data to complement label-guided training. Recent research has primarily focused on consistency regularization techniques, exploring perturbation-invariant training at both the image and feature levels. In this work, we proposed a novel feature-level consistency learning framework named Density-Descending Feature Perturbation (DDFP). Inspired by the low-density separation assumption in semi-supervised learning, our key insight is that feature density can shed a light on the most promising direction for the segmentation classifier to explore, which is the regions with lower density. We propose to shift features with confident predictions towards lower-density regions by perturbation injection. The perturbed features are then supervised by the predictions on the original features, thereby compelling the classifier to explore less dense regions to effectively regularize the decision boundary. Central to our method is the estimation of feature density. To this end, we introduce a lightweight density estimator based on normalizing flow, allowing for efficient capture of the feature density distribution in an online manner. By extracting gradients from the density estimator, we can determine the direction towards less dense regions for each feature. The proposed DDFP outperforms other designs on feature-level perturbations and shows state of the art performances on both Pascal VOC and Cityscapes dataset under various partition protocols. The project is available at https://github.com/Gavinwxy/DDFP.
翻訳日:2024-03-16 01:11:34 公開日:2024-03-14
# 長期視覚認識のための確率論的コントラスト学習

Probabilistic Contrastive Learning for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2403.06726v2 )

ライセンス: Link先を確認
Chaoqun Du, Yulin Wang, Shiji Song, Gao Huang, (参考訳) 長い尾の分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。 このような不均衡問題は、主にバランスの取れたトレーニングセット用に設計された標準教師付き学習アルゴリズムの性能を著しく損なう。 近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。 しかし、教師付きコントラスト学習のパフォーマンスは、すべてのカテゴリをカバーするコントラストペアを構築するのに十分な大量のトレーニングデータを必要とするという、固有の課題に悩まされている。 この障害を克服するために,特徴空間の各クラスからのサンプルデータ分布を推定する確率的コントラスト学習アルゴリズム(ProCo)を提案し,それに応じてコントラストペアをサンプリングする。 実際、特に不均衡なデータのために、小さなバッチで機能を使ってすべてのクラスの分布を推定することは不可能です。 我々のキーとなる考え方は、対照的な学習における正規化された特徴が単位空間上のvon Mises-Fisher(vMF)分布の混合に従うという合理的で単純な仮定を導入することである。 まず、分布パラメータを第1サンプルモーメントのみを用いて推定し、異なるバッチ間でオンライン的に効率的に計算することができる。 第二に、推定分布に基づいて、vMF分布は無限個のコントラスト対をサンプリングし、予測されるコントラスト損失の閉形式を導出し、効率的な最適化を行う。 私たちのコードはhttps://github.com/LeapLabTHU/ProCoで利用可能です。

Long-tailed distributions frequently emerge in real-world data, where a large number of minority categories contain a limited number of samples. Such imbalance issue considerably impairs the performance of standard supervised learning algorithms, which are mainly designed for balanced training sets. Recent investigations have revealed that supervised contrastive learning exhibits promising potential in alleviating the data imbalance. However, the performance of supervised contrastive learning is plagued by an inherent challenge: it necessitates sufficiently large batches of training data to construct contrastive pairs that cover all categories, yet this requirement is difficult to meet in the context of class-imbalanced data. To overcome this obstacle, we propose a novel probabilistic contrastive (ProCo) learning algorithm that estimates the data distribution of the samples from each class in the feature space, and samples contrastive pairs accordingly. In fact, estimating the distributions of all classes using features in a small batch, particularly for imbalanced data, is not feasible. Our key idea is to introduce a reasonable and simple assumption that the normalized features in contrastive learning follow a mixture of von Mises-Fisher (vMF) distributions on unit space, which brings two-fold benefits. First, the distribution parameters can be estimated using only the first sample moment, which can be efficiently computed in an online manner across different batches. Second, based on the estimated distribution, the vMF distribution allows us to sample an infinite number of contrastive pairs and derive a closed form of the expected contrastive loss for efficient optimization. Our code is available at https://github.com/LeapLabTHU/ProCo.
翻訳日:2024-03-16 01:01:27 公開日:2024-03-14
# 連続学習のための意味的残差プロンプト

Semantic Residual Prompts for Continual Learning ( http://arxiv.org/abs/2403.06870v2 )

ライセンス: Link先を確認
Martin Menabue, Emanuele Frascaroli, Matteo Boschini, Enver Sangineto, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara, (参考訳) Prompt-tuning method for Continual Learning (CL)は、大きな事前訓練されたモデルを凍結し、プロンプトと呼ばれるパラメータベクトルに焦点を合わせる。 これらの手法の多くは、これらのベクトルをキーと値のペアのプールに整理し、入力イメージをクエリとして使用してプロンプト(値)を検索する。 しかし、タスクの進行中にキーが学習されるため、選択の促進戦略自体が破滅的な忘れ込みの対象となるため、既存のアプローチでは見過ごされがちである。 例えば、新しいタスクに対応するために導入されたプロンプトは、以前学習されたプロンプトと干渉する可能性がある。 選択戦略をより安定させるために,基本モデル (CLIP) に2段階適応機構内のプロンプトを選択するよう依頼する。 具体的には、第1レベルはCLIPテキストエンコーダの標準的なテキストプロンプトを活用し、安定したクラスのプロトタイプに繋がる。 第2レベルは、これらのプロトタイプとクエリイメージをキーとして使用して、第2プールをインデックスする。 抽出されたプロンプトは、事前訓練されたViTに適応し、可塑性を与える。 そこで本研究では,CLIP のセマンティクスを ViT 層に転送する機構を新たに提案する。 確立されたCLベンチマークの広範な解析により,本手法は最先端のCLアプローチとゼロショットCLIPテストの両方で有意に優れていた。 特に、衛星画像と医療データセットの実験で示されたように、バックボーンモデルの事前学習知識に相当な領域ギャップがあるデータセットにおいても、我々の発見は真実である。

Prompt-tuning methods for Continual Learning (CL) freeze a large pre-trained model and focus training on a few parameter vectors termed prompts. Most of these methods organize these vectors in a pool of key-value pairs, and use the input image as query to retrieve the prompts (values). However, as keys are learned while tasks progress, the prompting selection strategy is itself subject to catastrophic forgetting, an issue often overlooked by existing approaches. For instance, prompts introduced to accommodate new tasks might end up interfering with previously learned prompts. To make the selection strategy more stable, we ask a foundational model (CLIP) to select our prompt within a two-level adaptation mechanism. Specifically, the first level leverages standard textual prompts for the CLIP textual encoder, leading to stable class prototypes. The second level, instead, uses these prototypes along with the query image as keys to index a second pool. The retrieved prompts serve to adapt a pre-trained ViT, granting plasticity. In doing so, we also propose a novel residual mechanism to transfer CLIP semantics to the ViT layers. Through extensive analysis on established CL benchmarks, we show that our method significantly outperforms both state-of-the-art CL approaches and the zero-shot CLIP test. Notably, our findings hold true even for datasets with a substantial domain gap w.r.t. the pre-training knowledge of the backbone model, as showcased by experiments on satellite imagery and medical datasets.
翻訳日:2024-03-16 01:01:27 公開日:2024-03-14
# 古典よりも良いのか?量子機械学習モデルをベンチマークする微妙な技術

Better than classical? The subtle art of benchmarking quantum machine learning models ( http://arxiv.org/abs/2403.07059v2 )

ライセンス: Link先を確認
Joseph Bowles, Shahnawaz Ahmed, Maria Schuld, (参考訳) 古典的なシミュレーションによるベンチマークモデルは、ノイズフリーハードウェアが利用可能になる前に量子機械学習におけるアイデアを判断する主要な方法の1つである。 しかし、実験的な設計の成果に対する大きな影響、現在の到達範囲内の小さなスケール、そして量子技術の商業化に影響された物語は、堅牢な洞察を得ることを困難にしている。 より良い意思決定を容易にするために、PennyLaneソフトウェアフレームワークに基づいたオープンソースパッケージを開発し、160個の個別データセットを作成するために使用される6つのバイナリ分類タスクに対して、12の一般的な量子機械学習モデルを体系的にテストする大規模な研究を実施する。 全体として、古典的な機械学習モデルは量子分類器よりも優れています。 さらに、量子モデルから絡み合いを取り除くことは、しばしば良いあるいは良いパフォーマンスをもたらすので、ここで考慮される小さな学習タスクにとって「量子性」が重要な要素ではないことを示唆している。 私たちのベンチマークは、単純なリーダーボード比較以上の調査も解き、結果から続く量子モデル設計に関する5つの重要な疑問を特定します。

Benchmarking models via classical simulations is one of the main ways to judge ideas in quantum machine learning before noise-free hardware is available. However, the huge impact of the experimental design on the results, the small scales within reach today, as well as narratives influenced by the commercialisation of quantum technologies make it difficult to gain robust insights. To facilitate better decision-making we develop an open-source package based on the PennyLane software framework and use it to conduct a large-scale study that systematically tests 12 popular quantum machine learning models on 6 binary classification tasks used to create 160 individual datasets. We find that overall, out-of-the-box classical machine learning models outperform the quantum classifiers. Moreover, removing entanglement from a quantum model often results in as good or better performance, suggesting that "quantumness" may not be the crucial ingredient for the small learning tasks considered here. Our benchmarks also unlock investigations beyond simplistic leaderboard comparisons, and we identify five important questions for quantum model design that follow from our results.
翻訳日:2024-03-16 01:01:27 公開日:2024-03-14
# 真実を意識した文脈選択:非現実的な文脈で誤解される大規模言語モデルの幻覚を緩和する

Truth-Aware Context Selection: Mitigating the Hallucinations of Large Language Models Being Misled by Untruthful Contexts ( http://arxiv.org/abs/2403.07556v2 )

ライセンス: Link先を確認
Tian Yu, Shaolei Zhang, Yang Feng, (参考訳) 大規模言語モデル(LLM)は、印象的なテキスト生成能力を示しているが、ユーザや知識増強ツールが提供する非現実的なコンテキストによって容易に誤解され、幻覚を生じさせる。 そこで本稿では,LLMが非現実的な情報によって誤解されるのを防止し,知識強化を活かすために,非現実的なコンテキストを入力から保護する軽量な方法であるTruth-Aware Context Selection (TACS)を提案する。 TACSは、LLM内のパラメータ化された知識を活用して、入力コンテキスト上で真理検出を行うことから始まる。 その後、各位置の真偽に基づいて対応する注目マスクを構築し、真偽のコンテキストを選択し、非真実のコンテキストを破棄する。 さらに,新たな評価基準である外乱適応率を導入し,LLMが真理情報を受け入れ,非真理情報に抵抗する能力をさらに研究する。 実験結果から,TACSは文脈における情報フィルタリングを効果的に行うことができ,誤解を招く情報を表示するとLLMの応答の全体的な品質が大幅に向上することが示された。

Although large language models (LLMs) have demonstrated impressive text generation capabilities, they are easily misled by the untruthful context provided by users or knowledge augmentation tools, thereby producing hallucinations. To alleviate the LLMs from being misled by untruthful information and take advantage of knowledge augmentation, we propose Truth-Aware Context Selection (TACS), a lightweight method to shield untruthful context from the inputs. TACS begins by performing truth detection on the input context, leveraging the parameterized knowledge within the LLM. Subsequently, it constructs a corresponding attention mask based on the truthfulness of each position, selecting the truthful context and discarding the untruthful context. Additionally, we introduce a new evaluation metric, Disturbance Adaption Rate, to further study the LLMs' ability to accept truthful information and resist untruthful information. Experimental results show that TACS can effectively filter information in context and significantly improve the overall quality of LLMs' responses when presented with misleading information.
翻訳日:2024-03-16 01:01:27 公開日:2024-03-14
# セマンティック・シーン・コンプリートのためのネットワークの可能性

Unleashing Network Potentials for Semantic Scene Completion ( http://arxiv.org/abs/2403.07560v2 )

ライセンス: Link先を確認
Fengyun Wang, Qianru Sun, Dong Zhang, Jinhui Tang, (参考訳) セマンティックシーン補完 (SSC) は, 単一視点のRGB-D画像から, 完全な3次元ボクセル占有率とセマンティクスを予測することを目的としている。 しかし,本研究では,単一モダリティからの非効率な特徴学習と,限られたデータセットへの過度な適合という2つの限界を明らかにした。 これらの問題に対処するために,新たなSSCフレームワーク - Adversarial Modality Modulation Network (AMMNet) を提案する。 提案した AMMNet では,モーダル間の勾配流の相互依存を可能にするクロスモーダル変調と,動的勾配競争を利用した対向学習方式の2つのコアモジュールを導入している。 具体的には、クロスモーダル変調は、各単一のモダリティから表現ポテンシャルをより励起するために、特徴を適応的に再カリブレートする。 敵対的トレーニングでは、幾何学的完全性と意味的正当性の両方から生成者の視覚的忠実性に対する認識を強化するためのカスタマイズされたガイダンスを備えた、進化する勾配のミニマックスゲームが採用されている。 AMMNetは最先端のSSC手法よりも大きなマージンで優れており、SSC手法の有効性と一般化を向上するための有望な方向性を提供する。

Semantic scene completion (SSC) aims to predict complete 3D voxel occupancy and semantics from a single-view RGB-D image, and recent SSC methods commonly adopt multi-modal inputs. However, our investigation reveals two limitations: ineffective feature learning from single modalities and overfitting to limited datasets. To address these issues, this paper proposes a novel SSC framework - Adversarial Modality Modulation Network (AMMNet) - with a fresh perspective of optimizing gradient updates. The proposed AMMNet introduces two core modules: a cross-modal modulation enabling the interdependence of gradient flows between modalities, and a customized adversarial training scheme leveraging dynamic gradient competition. Specifically, the cross-modal modulation adaptively re-calibrates the features to better excite representation potentials from each single modality. The adversarial training employs a minimax game of evolving gradients, with customized guidance to strengthen the generator's perception of visual fidelity from both geometric completeness and semantic correctness. Extensive experimental results demonstrate that AMMNet outperforms state-of-the-art SSC methods by a large margin, providing a promising direction for improving the effectiveness and generalization of SSC methods.
翻訳日:2024-03-16 01:01:27 公開日:2024-03-14
# ORPO:参照モデルなしでのモノリシックな選好最適化

ORPO: Monolithic Preference Optimization without Reference Model ( http://arxiv.org/abs/2403.07691v2 )

ライセンス: Link先を確認
Jiwoo Hong, Noah Lee, James Thorne, (参考訳) 言語モデルに対する最近の選好アライメントアルゴリズムは有望な結果を示しているが、教師付き微調整(SFT)は、良好な収束を達成するために必須である。 本稿では、嗜好調整におけるSFTの重要な役割について検討し、好ましくない生成スタイルに対する軽微なペナルティが嗜好整合SFTに十分であることを強調した。 この基礎の上に構築され、単純で革新的な参照モデルのないモノリシックオッズ比最適化アルゴリズムORPOを導入し、追加の選好アライメントフェーズの必要性を排除した。 実験的および理論的には、オッズ比は、SFTにおいて125Mから7Bまでの多様なサイズで好ましくないスタイルと好ましくないスタイルを対比する上で、妥当な選択であることを示す。 具体的には、Phi-2 (2.7B)、Llama-2 (7B)、Mistral (7B)とORPOをUltraFeedbackだけで組み合わせると、7Bと13B以上のパラメータを持つ最先端の言語モデルのパフォーマンスを上回り、$\text{AlpacaEval}_{2.0}$ (Figure 1)で最大12.20%、IFEvalで66.19%、MT-Benchで7.32である。 私たちはMistral-ORPO-$\alpha$(7B)とMistral-ORPO-$\beta$(7B)のコードとモデルチェックポイントをリリースします。

While recent preference alignment algorithms for language models have demonstrated promising results, supervised fine-tuning (SFT) remains imperative for achieving successful convergence. In this paper, we study the crucial role of SFT within the context of preference alignment, emphasizing that a minor penalty for the disfavored generation style is sufficient for preference-aligned SFT. Building on this foundation, we introduce a straightforward and innovative reference model-free monolithic odds ratio preference optimization algorithm, ORPO, eliminating the necessity for an additional preference alignment phase. We demonstrate, both empirically and theoretically, that the odds ratio is a sensible choice for contrasting favored and disfavored styles during SFT across the diverse sizes from 125M to 7B. Specifically, fine-tuning Phi-2 (2.7B), Llama-2 (7B), and Mistral (7B) with ORPO on the UltraFeedback alone surpasses the performance of state-of-the-art language models with more than 7B and 13B parameters: achieving up to 12.20% on $\text{AlpacaEval}_{2.0}$ (Figure 1), 66.19% on IFEval (instruction-level loose, Table 6), and 7.32 in MT-Bench (Figure 12). We release code and model checkpoints for Mistral-ORPO-$\alpha$ (7B) and Mistral-ORPO-$\beta$ (7B).
翻訳日:2024-03-16 01:01:27 公開日:2024-03-14
# コントラストリワードを用いた人間フィードバックからの強化学習の改善

Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards ( http://arxiv.org/abs/2403.07708v2 )

ライセンス: Link先を確認
Wei Shen, Xiaoying Zhang, Yuanshun Yao, Rui Zheng, Hongyi Guo, Yang Liu, (参考訳) 人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。 しかし、既存のRLHFは正確で情報的な報酬モデルに大きく依存している。 本研究では,報酬にペナルティ項を導入することにより,報酬モデルの有効性を向上する。 %コントラスト報酬 当社のアプローチでは,(1)ベースライン計算を行うプロンプトに対する応答を得るオフラインサンプリングステップ,(2)ベースライン応答を用いて計算し,PPO(Proximal Policy Optimization)ステップで使用するコントラスト報酬の2つのステップが関係している。 対照的な報酬は, LLMが報酬の不確実性をペナルティ化し, 堅牢性を向上し, ベースラインの改善を促進し, タスクの難易度に応じて校正し, PPOのばらつきを低減できることを示す。 我々は,経験的に比較的な報酬が,GPTとヒトの両方で評価され,RLHFを大幅に改善することを示す。

Reinforcement learning from human feedback (RLHF) is the mainstream paradigm used to align large language models (LLMs) with human preferences. Yet existing RLHF heavily relies on accurate and informative reward models, which are vulnerable and sensitive to noise from various sources, e.g. human labeling errors, making the pipeline fragile. In this work, we improve the effectiveness of the reward model by introducing a penalty term on the reward, named as \textit{contrastive rewards}. %Contrastive rewards Our approach involves two steps: (1) an offline sampling step to obtain responses to prompts that serve as baseline calculation and (2) a contrastive reward calculated using the baseline responses and used in the Proximal Policy Optimization (PPO) step. We show that contrastive rewards enable the LLM to penalize reward uncertainty, improve robustness, encourage improvement over baselines, calibrate according to task difficulty, and reduce variance in PPO. We show empirically contrastive rewards can improve RLHF substantially, evaluated by both GPTs and humans, and our method consistently outperforms strong baselines.
翻訳日:2024-03-16 01:01:27 公開日:2024-03-14
# 競争から協力へ:現代組織における多エージェントシステムと言語モデルの革命的役割

Transforming Competition into Collaboration: The Revolutionary Role of Multi-Agent Systems and Language Models in Modern Organizations ( http://arxiv.org/abs/2403.07769v2 )

ライセンス: Link先を確認
Carlos Jose Xavier Cruz, (参考訳) 本稿では,多エージェントシステム理論(SMA)と大規模言語モデル(LLM)を併用した計算エンティティの動的影響について考察する。これは,複雑なヒューマンインタラクションをシミュレートする能力によって特徴付けられる。 これまでの調査では、特に人工知能の自律的アプローチにおいて、特に新しい課題や論理的推論や問題解決などの実践的なタスクを扱う場合、制限があることが示されている。 また、思想の連鎖の刺激などの伝統的な技法は、明確な人的指導を必要とすると考えられている。 提案手法では,大規模言語モデル(LLM)から開発されたエージェントを用いて,エージェント間の議論的アプローチを用いて,シナリオ(ロールプレイ)ビジネスで提案されるユースケースに基づいて知識の生成を刺激する戦略により,行動要素を考慮した個別のプロトタイピングを行う。 我々は,多エージェントシステム理論(SMA)と大規模言語モデル(LLM)に基づく革新的利用に基づいて,組織戦略に有用なエージェントを開発する可能性を示す。

This article explores the dynamic influence of computational entities based on multi-agent systems theory (SMA) combined with large language models (LLM), which are characterized by their ability to simulate complex human interactions, as a possibility to revolutionize human user interaction from the use of specialized artificial agents to support everything from operational organizational processes to strategic decision making based on applied knowledge and human orchestration. Previous investigations reveal that there are limitations, particularly in the autonomous approach of artificial agents, especially when dealing with new challenges and pragmatic tasks such as inducing logical reasoning and problem solving. It is also considered that traditional techniques, such as the stimulation of chains of thoughts, require explicit human guidance. In our approach we employ agents developed from large language models (LLM), each with distinct prototyping that considers behavioral elements, driven by strategies that stimulate the generation of knowledge based on the use case proposed in the scenario (role-play) business, using a discussion approach between agents (guided conversation). We demonstrate the potential of developing agents useful for organizational strategies, based on multi-agent system theories (SMA) and innovative uses based on large language models (LLM based), offering a differentiated and adaptable experiment to different applications, complexities, domains, and capabilities from LLM.
翻訳日:2024-03-16 01:01:27 公開日:2024-03-14
# コードによる大規模言語モデルの安全性向上への挑戦

Exploring Safety Generalization Challenges of Large Language Models via Code ( http://arxiv.org/abs/2403.07865v2 )

ライセンス: Link先を確認
Qibing Ren, Chang Gao, Jing Shao, Junchi Yan, Xin Tan, Yu Qiao, Wai Lam, Lizhuang Ma, (参考訳) LLM(Large Language Models)の急速な進歩は、自然言語処理において顕著な能力をもたらしたが、その潜在的な誤用に対する懸念も持ち上がった。 教師付き微調整や人間からのフィードバックからの強化学習といった戦略は安全性を高めてきたが、これらの手法は主に自然言語に焦点を絞っており、他の領域に一般化しない可能性がある。 本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。 GPT-4、Claude-2、Llama-2シリーズを含む最先端のLLMに関する包括的な研究は、これらのモデルのコード入力に対する一般的な安全性の脆弱性を明らかにしている。 さらに、CodeAttackと自然言語の分布ギャップが大きくなれば、データ構造による自然言語入力の符号化や、あまり普及していないプログラミング言語の使用など、より安全性の低い一般化がもたらされることが判明した。 これらの知見は、コードドメインにおける新たな安全性リスクと、LLMのコード機能に合わせたより堅牢な安全性アライメントアルゴリズムの必要性を浮き彫りにしている。

The rapid advancement of Large Language Models (LLMs) has brought about remarkable capabilities in natural language processing but also raised concerns about their potential misuse. While strategies like supervised fine-tuning and reinforcement learning from human feedback have enhanced their safety, these methods primarily focus on natural languages, which may not generalize to other domains. This paper introduces CodeAttack, a framework that transforms natural language inputs into code inputs, presenting a novel environment for testing the safety generalization of LLMs. Our comprehensive studies on state-of-the-art LLMs including GPT-4, Claude-2, and Llama-2 series reveal a common safety vulnerability of these models against code input: CodeAttack consistently bypasses the safety guardrails of all models more than 80% of the time. Furthermore, we find that a larger distribution gap between CodeAttack and natural language leads to weaker safety generalization, such as encoding natural language input with data structures or using less popular programming languages. These findings highlight new safety risks in the code domain and the need for more robust safety alignment algorithms to match the code capabilities of LLMs.
翻訳日:2024-03-16 01:01:27 公開日:2024-03-14
# 自律的交通ネットワーク設計のためのニューラル進化アルゴリズム

A Neural-Evolutionary Algorithm for Autonomous Transit Network Design ( http://arxiv.org/abs/2403.07917v2 )

ライセンス: Link先を確認
Andrew Holliday, Gregory Dudek, (参考訳) 公共交通機関のネットワークを計画することは困難な最適化問題であるが、自律バスの利点を実現するためには不可欠である。 本稿では,自動運転バスの経路網を計画する新しいアルゴリズムを提案する。 まず、経路ネットワーク構築のポリシーとしてグラフニューラルネットモデルをトレーニングし、その後、進化的アルゴリズムにおいていくつかの突然変異演算子の1つとして使用する。 我々はこのアルゴリズムをトランジットネットワーク設計のための標準的なベンチマークセットで評価し、学習ポリシーを最大20%向上させ、リアルなベンチマークインスタンス上では最大53%の進化的アルゴリズムアプローチを立案した。

Planning a public transit network is a challenging optimization problem, but essential in order to realize the benefits of autonomous buses. We propose a novel algorithm for planning networks of routes for autonomous buses. We first train a graph neural net model as a policy for constructing route networks, and then use the policy as one of several mutation operators in a evolutionary algorithm. We evaluate this algorithm on a standard set of benchmarks for transit network design, and find that it outperforms the learned policy alone by up to 20% and a plain evolutionary algorithm approach by up to 53% on realistic benchmark instances.
翻訳日:2024-03-16 01:01:27 公開日:2024-03-14
# KnowCoder: ユニバーサル情報抽出のための構造化知識をLLMに符号化する

KnowCoder: Coding Structured Knowledge into LLMs for Universal Information Extraction ( http://arxiv.org/abs/2403.07969v2 )

ライセンス: Link先を確認
Zixuan Li, Yutao Zeng, Yuxin Zuo, Weicheng Ren, Wenxuan Liu, Miao Su, Yucan Guo, Yantao Liu, Xiang Li, Zhilei Hu, Long Bai, Wei Li, Yidan Liu, Pan Yang, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng, (参考訳) 本稿では,Large Language Model (LLM) を用いて,コード生成によるユニバーサル情報抽出(UIE)を行う。 KnowCoderは、LLMが容易に理解できるような統合スキーマ表現や、LLMにスキーマに従うことを奨励し、構造化知識を正確に抽出する効果的な学習フレームワークを開発することを目的としている。 これを実現するために、KnowCoderは、異なるスキーマをPythonクラスに一様に変換するコードスタイルのスキーマ表現手法を導入し、UIEのタスク間の制約のような複雑なスキーマ情報をLLMフレンドリーな方法でキャプチャできる。 さらに私たちは、UIEにとって最大の知識である$\textbf{30,000}$の知識を網羅するコードスタイルのスキーマライブラリを構築しています。 LLMの学習プロセスを容易にするために、KnowCoderは、コード事前学習によるスキーマ理解能力と、命令チューニングによるスキーマ追従能力を向上させる2段階の学習フレームワークを含んでいる。 1.5ドル前後で事前トレーニングを行った後、KnowCoderはすでに優れた一般化能力を獲得し、数ショット設定でLLaMA2と比較して$\textbf{49.8%}$ F1で相対的に改善されている。 命令チューニングの後、KnowCoderはさらに、目に見えないスキーマに対して強力な一般化能力を示し、ゼロショット設定と低いリソース設定の下で、それぞれソータベースラインと比較して、$\textbf{12.5%}$と$\textbf{21.9%}$を達成する。 さらに、我々の統合スキーマ表現に基づいて、さまざまな人間アノテーション付きデータセットを同時に使用してKnowCoderを洗練させ、教師付き設定の下で$\textbf{7.5%}$まで大幅に改善する。

In this paper, we propose KnowCoder, a Large Language Model (LLM) to conduct Universal Information Extraction (UIE) via code generation. KnowCoder aims to develop a kind of unified schema representation that LLMs can easily understand and an effective learning framework that encourages LLMs to follow schemas and extract structured knowledge accurately. To achieve these, KnowCoder introduces a code-style schema representation method to uniformly transform different schemas into Python classes, with which complex schema information, such as constraints among tasks in UIE, can be captured in an LLM-friendly manner. We further construct a code-style schema library covering over $\textbf{30,000}$ types of knowledge, which is the largest one for UIE, to the best of our knowledge. To ease the learning process of LLMs, KnowCoder contains a two-phase learning framework that enhances its schema understanding ability via code pretraining and its schema following ability via instruction tuning. After code pretraining on around $1.5$B automatically constructed data, KnowCoder already attains remarkable generalization ability and achieves relative improvements by $\textbf{49.8%}$ F1, compared to LLaMA2, under the few-shot setting. After instruction tuning, KnowCoder further exhibits strong generalization ability on unseen schemas and achieves up to $\textbf{12.5%}$ and $\textbf{21.9%}$, compared to sota baselines, under the zero-shot setting and the low resource setting, respectively. Additionally, based on our unified schema representations, various human-annotated datasets can simultaneously be utilized to refine KnowCoder, which achieves significant improvements up to $\textbf{7.5%}$ under the supervised setting.
翻訳日:2024-03-16 01:01:27 公開日:2024-03-14
# 文脈的明瞭性:文脈逆データを用いた変圧器モデルによる文生成

Contextual Clarity: Generating Sentences with Transformer Models using Context-Reverso Data ( http://arxiv.org/abs/2403.08103v2 )

ライセンス: Link先を確認
Ruslan Musaev, (参考訳) 情報豊富化の時代においては,ユーザに対してコンテキスト的に関連性があり,簡潔な情報を提供する能力が不可欠である。 キーワード・イン・コンテキスト(英: Keyword in Context, KIC)は、検索エンジン、パーソナルアシスタント、コンテンツ要約などのアプリケーションにおいて重要な役割を果たすタスクである。 本稿では,T5トランスフォーマーモデルを用いて,文脈逆変換APIから得られたデータを活用することによって,与えられたキーワードに対して不明瞭で簡潔な文文コンテキストを生成する手法を提案する。 コードはhttps://github.com/Rusamus/word2context/tree/main で公開されている。

In the age of information abundance, the ability to provide users with contextually relevant and concise information is crucial. Keyword in Context (KIC) generation is a task that plays a vital role in and generation applications, such as search engines, personal assistants, and content summarization. In this paper, we present a novel approach to generating unambiguous and brief sentence-contexts for given keywords using the T5 transformer model, leveraging data obtained from the Context-Reverso API. The code is available at https://github.com/Rusamus/word2context/tree/main .
翻訳日:2024-03-16 01:01:27 公開日:2024-03-14
# スパースニューラルネットワークアーキテクチャ探索のベースラインとしてのランダム探索

Random Search as a Baseline for Sparse Neural Network Architecture Search ( http://arxiv.org/abs/2403.08265v2 )

ライセンス: Link先を確認
Rezsa Farahani, (参考訳) スパースニューラルネットワークは、高パラメータ効率を保ちながら、密度の高いニューラルネットワークと同じような、あるいはより良い一般化性能を示している。 これは、高性能なスパースネットワークを学習したり、検索したりするための多くの研究の動機となった。 タスクパフォーマンスや効率向上の報告は印象的なものだが、標準ベースラインは、メソッド間の可視性と信頼性の低い再現性を欠いている。 本研究では,適切なスパース構成を見つけるためのベースラインアルゴリズムとしてランダム検索を提案し,その性能について検討する。 オーバパラメータ化されたネットワークのノード空間にランダム探索を適用し、ロスランドスケープにおいてより有利な位置に位置するより優れた初期化スパースサブネットワークを見つけることを目的としている。 検出されたスパースネットワークと各種のスパースレベルにおけるトレーニング後の性能を記録し、その完全接続された親ネットワークと同一のスパースレベルにおけるランダムスパース構成を比較した。 まず,ネットワークの疎度が低い場合でも,性能が著しく保たれることを示す。 第二に、このスパースアーキテクチャ探索タスクでは、ランダムサーチによって発見された初期化スパースネットワークは、ランダムサーチよりもパフォーマンスが良く、より効率的に収束しない。 したがって、ランダム検索は、スパーシティサーチ手法の合理的な中性ベースラインとみなすことができる。

Sparse neural networks have shown similar or better generalization performance than their dense counterparts while having higher parameter efficiency. This has motivated a number of works to learn or search for high performing sparse networks. While reports of task performance or efficiency gains are impressive, standard baselines are lacking leading to poor comparability and unreliable reproducibility across methods. In this work, we propose Random Search as a baseline algorithm for finding good sparse configurations and study its performance. We apply Random Search on the node space of an overparameterized network with the goal of finding better initialized sparse sub-networks that are positioned more advantageously in the loss landscape. We record the post-training performances of the found sparse networks and at various levels of sparsity, and compare against both their fully connected parent networks and random sparse configurations at the same sparsity levels. First, we demonstrate performance at different levels of sparsity and highlight that a significant level of performance can still be preserved even when the network is highly sparse. Second, we observe that for this sparse architecture search task, initialized sparse networks found by Random Search neither perform better nor converge more efficiently than their random counterparts. Thus we conclude that Random Search may be viewed as a reasonable neutral baseline for sparsity search methods.
翻訳日:2024-03-16 01:01:27 公開日:2024-03-14
# HRLAIF:AIフィードバックによるオープンドメイン強化学習におけるヘルプフルネスとハームレスネスの改善

HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback ( http://arxiv.org/abs/2403.08309v2 )

ライセンス: Link先を確認
Ang Li, Qiugen Xiao, Peng Cao, Jian Tang, Yi Yuan, Zijie Zhao, Xiaoyuan Chen, Liang Zhang, Xiangyang Li, Kaitong Yang, Weidong Guo, Yukang Gan, Xu Yu, Daniell Wang, Ying Shan, (参考訳) Reinforcement Learning from AI Feedback (RLAIF)は、Reinforcement Learning from Human Feedback (RLHF)よりも短いアノテーションサイクルと低コストの利点がある。 RLAIFトレーニングにおけるオープンドメインプロンプトに対するフィードバックとしてChatGPTを用いて、モデル応答に対するヒト評価者の選好勝利率の増加を観察するが、評価者の満足度は低下する。 分析によると、満足度率の低下は主に、いくつかの反応が役に立たないことによるものであり、特に正しさと真さの点で、基礎的RLAIFの実践的な制限を強調している。 本稿では,AIフィードバックからのハイブリッド強化学習(HRLAIF)を提案する。 この方法は、応答に対するAIアノテーションの精度を高め、モデルのトレーニングプロセスにおける有用性をより堅牢にする。 さらに、AIをRed Teamingに採用し、モデルの無害性をさらに改善している。 人的評価の結果,HRLAIF は RLAIF を継承し,低コストで成果の人為的嗜好を高めるとともに,回答の満足度を向上させることが示唆された。 強化学習(RL)以前の政策モデルと比較すると、満足度率が2.08\%上昇し、基礎RLAIF後の満足度が4.58\%低下する問題に効果的に対処する。

Reinforcement Learning from AI Feedback (RLAIF) has the advantages of shorter annotation cycles and lower costs over Reinforcement Learning from Human Feedback (RLHF), making it highly efficient during the rapid strategy iteration periods of large language model (LLM) training. Using ChatGPT as a labeler to provide feedback on open-domain prompts in RLAIF training, we observe an increase in human evaluators' preference win ratio for model responses, but a decrease in evaluators' satisfaction rate. Analysis suggests that the decrease in satisfaction rate is mainly due to some responses becoming less helpful, particularly in terms of correctness and truthfulness, highlighting practical limitations of basic RLAIF. In this paper, we propose Hybrid Reinforcement Learning from AI Feedback (HRLAIF). This method enhances the accuracy of AI annotations for responses, making the model's helpfulness more robust in training process. Additionally, it employs AI for Red Teaming, further improving the model's harmlessness. Human evaluation results show that HRLAIF inherits the ability of RLAIF to enhance human preference for outcomes at a low cost while also improving the satisfaction rate of responses. Compared to the policy model before Reinforcement Learning (RL), it achieves an increase of 2.08\% in satisfaction rate, effectively addressing the issue of a decrease of 4.58\% in satisfaction rate after basic RLAIF.
翻訳日:2024-03-16 00:51:27 公開日:2024-03-14
# 状態認識型患者シミュレータを用いた大規模言語モデルの対話的自動評価

Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator ( http://arxiv.org/abs/2403.08495v2 )

ライセンス: Link先を確認
Yusheng Liao, Yutong Meng, Yuhao Wang, Hongcheng Liu, Yanfeng Wang, Yu Wang, (参考訳) 大規模言語モデル(LLM)は、人間の相互作用において顕著な熟練性を示しているが、医療分野におけるそれらの応用はいまだ不十分である。 これまでの研究は主に、現実的なシナリオとは程遠い検査による医学的知識のパフォーマンスに焦点を当てており、臨床上のLCMの能力を評価するのに不足している。 医療におけるLarge Language Models(LLMs)の適用性を高めるために,従来のLSM評価と臨床実践の曖昧な要求とのギャップをターゲットとした,AIE(Automated Interactive Evaluation)フレームワークとSAPS(State-Aware patient Simulator)を導入する。 静的な医療知識評価に依存する従来の方法とは異なり、AIEとSAPSは多ターンの医師-患者シミュレーションを通じてLCMを評価するための動的で現実的なプラットフォームを提供する。 このアプローチは、実際の臨床シナリオに密接な近似を提供し、複雑な患者の相互作用に応答して、LCMの挙動を詳細に分析することを可能にする。 我々は,AIEフレームワークの有効性を実証し,ヒトの評価と良好に一致し,医療用LLM検査に革命をもたらす可能性を示した。

Large Language Models (LLMs) have demonstrated remarkable proficiency in human interactions, yet their application within the medical field remains insufficiently explored. Previous works mainly focus on the performance of medical knowledge with examinations, which is far from the realistic scenarios, falling short in assessing the abilities of LLMs on clinical tasks. In the quest to enhance the application of Large Language Models (LLMs) in healthcare, this paper introduces the Automated Interactive Evaluation (AIE) framework and the State-Aware Patient Simulator (SAPS), targeting the gap between traditional LLM evaluations and the nuanced demands of clinical practice. Unlike prior methods that rely on static medical knowledge assessments, AIE and SAPS provide a dynamic, realistic platform for assessing LLMs through multi-turn doctor-patient simulations. This approach offers a closer approximation to real clinical scenarios and allows for a detailed analysis of LLM behaviors in response to complex patient interactions. Our extensive experimental validation demonstrates the effectiveness of the AIE framework, with outcomes that align well with human evaluations, underscoring its potential to revolutionize medical LLM testing for improved healthcare delivery.
翻訳日:2024-03-16 00:51:27 公開日:2024-03-14
# ガウス画像:1000 FPS画像表現と2次元ガウススプラッティングによる圧縮

GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting ( http://arxiv.org/abs/2403.08551v2 )

ライセンス: Link先を確認
Xinjie Zhang, Xingtong Ge, Tongda Xu, Dailan He, Yan Wang, Hongwei Qin, Guo Lu, Jing Geng, Jun Zhang, (参考訳) Inlicit Neural representations (INR)は画像表現と圧縮で大成功を収め、十分なGPUリソースが利用できると仮定して、10-1000 FPSで高画質で高速なレンダリング速度を提供する。 しかし、この要件は、メモリが限られているローエンドデバイスでの使用を妨げることが多い。 そこで本研究では,ガウス画像と2次元ガウス画像による画像表現と圧縮の画期的なパラダイムを提案する。 まず、画像を表すために2D Gaussianを導入し、各 Gaussian は位置、共分散、色を含む8つのパラメータを持つ。 その後、累積和に基づく新しいレンダリングアルゴリズムを公表する。 注目すべきは、最低3$\times$GPUメモリ使用量と5$\times$高速適合時間を持つ手法は、表現性能においてINRs(例えば、WIRE、I-NGP)と競合するだけでなく、パラメータサイズに関係なく1500-2000 FPSの高速レンダリング速度を提供する。 さらに,既存のベクトル量子化手法を統合して画像コーデックを構築する。 実験の結果,コーデックはCOINやCOIN++などの圧縮ベースのINRに匹敵する速度歪み性能を示し,約1000FPSの復号速度を実現している。 さらに、予備的な概念実証では、コーデックが部分ビットバック符号を使用する場合、COINとCOIN++を上回る性能を示している。

Implicit neural representations (INRs) recently achieved great success in image representation and compression, offering high visual quality and fast rendering speeds with 10-1000 FPS, assuming sufficient GPU resources are available. However, this requirement often hinders their use on low-end devices with limited memory. In response, we propose a groundbreaking paradigm of image representation and compression by 2D Gaussian Splatting, named GaussianImage. We first introduce 2D Gaussian to represent the image, where each Gaussian has 8 parameters including position, covariance and color. Subsequently, we unveil a novel rendering algorithm based on accumulated summation. Remarkably, our method with a minimum of 3$\times$ lower GPU memory usage and 5$\times$ faster fitting time not only rivals INRs (e.g., WIRE, I-NGP) in representation performance, but also delivers a faster rendering speed of 1500-2000 FPS regardless of parameter size. Furthermore, we integrate existing vector quantization technique to build an image codec. Experimental results demonstrate that our codec attains rate-distortion performance comparable to compression-based INRs such as COIN and COIN++, while facilitating decoding speeds of approximately 1000 FPS. Additionally, preliminary proof of concept shows that our codec surpasses COIN and COIN++ in performance when using partial bits-back coding.
翻訳日:2024-03-16 00:51:27 公開日:2024-03-14
# リハーサルなし連続学習のための一貫性プロンプト

Consistent Prompting for Rehearsal-Free Continual Learning ( http://arxiv.org/abs/2403.08568v2 )

ライセンス: Link先を確認
Zhanxin Gao, Jun Cen, Xiaobin Chang, (参考訳) 継続的な学習は、古い知識を忘れずに、モデルが絶えず変化する環境やデータストリームに自律的に適応することを可能にする。 Promptベースのアプローチは、タスク固有のプロンプトと分類器を効率的に学習するために、凍結した事前訓練モデル上に構築されている。 既存のプロンプトベースの手法は、トレーニングとテストの間に不整合であり、その効果を制限している。 2種類の矛盾が明らかになる。 テスト予測はすべての分類器から作成され、トレーニングは全体的アライメントなしで現在のタスク分類器にのみフォーカスする。 プロンプトの不整合は、テスト中に選択されたプロンプトが、トレーニング中にこのタスクに関連するプロンプトと一致しないことを示している。 本稿では,より整合性のあるトレーニングとテストのための新しいプロンプトベース手法であるConsistent Prompting(CPrompt)を提案する。 具体的には、既存のすべての分類器が迅速な訓練に晒され、結果として分類器の一貫性が学習される。 さらに,予測ロバスト性を高め,選択精度を高めるために,即時一貫性学習を提案する。 我々のConsistent Promptingは、そのプロンプトベースのものを超え、複数の連続学習ベンチマークで最先端のパフォーマンスを達成する。 詳細な分析は、より一貫性のあるトレーニングとテストによって改善がもたらされることを示している。

Continual learning empowers models to adapt autonomously to the ever-changing environment or data streams without forgetting old knowledge. Prompt-based approaches are built on frozen pre-trained models to learn the task-specific prompts and classifiers efficiently. Existing prompt-based methods are inconsistent between training and testing, limiting their effectiveness. Two types of inconsistency are revealed. Test predictions are made from all classifiers while training only focuses on the current task classifier without holistic alignment, leading to Classifier inconsistency. Prompt inconsistency indicates that the prompt selected during testing may not correspond to the one associated with this task during training. In this paper, we propose a novel prompt-based method, Consistent Prompting (CPrompt), for more aligned training and testing. Specifically, all existing classifiers are exposed to prompt training, resulting in classifier consistency learning. In addition, prompt consistency learning is proposed to enhance prediction robustness and boost prompt selection accuracy. Our Consistent Prompting surpasses its prompt-based counterparts and achieves state-of-the-art performance on multiple continual learning benchmarks. Detailed analysis shows that improvements come from more consistent training and testing.
翻訳日:2024-03-16 00:51:27 公開日:2024-03-14
# ディープベイズニューラルネットワーク後部における局所適応型およびスケーラブル拡散に基づくサンプリング手法の収束性について

On the Convergence of Locally Adaptive and Scalable Diffusion-Based Sampling Methods for Deep Bayesian Neural Network Posteriors ( http://arxiv.org/abs/2403.08609v2 )

ライセンス: Link先を確認
Tim Rensmeyer, Oliver Niggemann, (参考訳) ディープニューラルネットワークの堅牢な不確実性定量化を実現することは、ニューラルネットワークの予測の信頼性を評価する必要がある医療画像のような多くのディープラーニングの現実的な応用において重要な要件である。 ベイズニューラルネットワークは、ディープニューラルネットワークにおける不確実性をモデル化するための有望なアプローチである。 残念なことに、ニューラルネットワークの後部分布からサンプルを生成することは大きな課題である。 その方向への大きな進歩の1つは、現代のニューラルネットワークオプティマイザに似た適応的なステップサイズを、計算要求を大幅に増加させることなくモンテカルロマルコフ連鎖サンプリングアルゴリズムに組み込むことである。 過去数年間、いくつかの論文がサンプリングアルゴリズムを導入し、それらがこの性質を達成したと主張している。 しかし、それらは本当に正しい分布に収束するだろうか? 本稿では,これらの手法が,ステップサイズやバッチサイズが小さくても,サンプリングした分布にかなりの偏りがあることを実証する。

Achieving robust uncertainty quantification for deep neural networks represents an important requirement in many real-world applications of deep learning such as medical imaging where it is necessary to assess the reliability of a neural network's prediction. Bayesian neural networks are a promising approach for modeling uncertainties in deep neural networks. Unfortunately, generating samples from the posterior distribution of neural networks is a major challenge. One significant advance in that direction would be the incorporation of adaptive step sizes, similar to modern neural network optimizers, into Monte Carlo Markov chain sampling algorithms without significantly increasing computational demand. Over the past years, several papers have introduced sampling algorithms with claims that they achieve this property. However, do they indeed converge to the correct distribution? In this paper, we demonstrate that these methods can have a substantial bias in the distribution they sample, even in the limit of vanishing step sizes and at full batch size.
翻訳日:2024-03-16 00:51:27 公開日:2024-03-14
# 人工臨床記録のためのゼロショット・ファウショット生成法

Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records ( http://arxiv.org/abs/2403.08664v2 )

ライセンス: Link先を確認
Erlend Frayling, Jake Lever, Graham McDonald, (参考訳) 臨床研究のために歴史的患者データにアクセスするという課題は、プライバシ規制に固執する一方で、医学において大きな障害となっている。 この問題を回避するための革新的なアプローチは、個々のプライバシを損なうことなく、実際の患者データをミラーする合成医療記録を利用することである。 これらの合成データセットの作成、特にLarge Language Models(LLMs)のトレーニングに実際の患者データを使用しない場合、モデルのトレーニングにセンシティブな患者情報にアクセスするという新しいソリューションも課題である。 本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。 筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。 この研究は、チェーン・オブ・シント・アプローチを活用する新しいプロンプト技術を導入し、より正確で文脈的に関連する医療物語を事前の微調整なしに生成する能力を高める。 このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。

The challenge of accessing historical patient data for clinical research, while adhering to privacy regulations, is a significant obstacle in medical science. An innovative approach to circumvent this issue involves utilising synthetic medical records that mirror real patient data without compromising individual privacy. The creation of these synthetic datasets, particularly without using actual patient data to train Large Language Models (LLMs), presents a novel solution as gaining access to sensitive patient information to train models is also a challenge. This study assesses the capability of the Llama 2 LLM to create synthetic medical records that accurately reflect real patient information, employing zero-shot and few-shot prompting strategies for comparison against fine-tuned methodologies that do require sensitive patient data during training. We focus on generating synthetic narratives for the History of Present Illness section, utilising data from the MIMIC-IV dataset for comparison. In this work introduce a novel prompting technique that leverages a chain-of-thought approach, enhancing the model's ability to generate more accurate and contextually relevant medical narratives without prior fine-tuning. Our findings suggest that this chain-of-thought prompted approach allows the zero-shot model to achieve results on par with those of fine-tuned models, based on Rouge metrics evaluation.
翻訳日:2024-03-16 00:51:27 公開日:2024-03-14
# SOTOPIA-$π$:社会知能言語エージェントの対話型学習

SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents ( http://arxiv.org/abs/2403.08715v2 )

ライセンス: Link先を確認
Ruiyi Wang, Haofei Yu, Wenxin Zhang, Zhengyang Qi, Maarten Sap, Graham Neubig, Yonatan Bisk, Hao Zhu, (参考訳) 人間は模倣と社会的相互作用の両方を通して社会的スキルを学ぶ。 この社会的学習プロセスは、言語エージェントの構築に関する既存の研究によって、ほとんど解明されていない。 そこで本稿では,対話型学習手法であるSOTOPIA-$\pi$を提案する。 この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。 本稿では,言語エージェントの安全性を向上し,MMLUベンチマーク上での一般QA能力を維持しつつ、7B LLMが専門家モデル(GPT-4ベースエージェント)の社会的目標達成能力に到達することを実証する。 また、この学習パラダイムは、LLMに基づく社会知能評価の難しさを明らかにしている: LLMに基づく評価者は、社会交流に特化した訓練された言語エージェントの能力を過大評価する。

Humans learn social skills through both imitation and social interaction. This social learning process is largely understudied by existing research on building language agents. Motivated by this gap, we propose an interactive learning method, SOTOPIA-$\pi$, improving the social intelligence of language agents. This method leverages behavior cloning and self-reinforcement training on filtered social interaction data according to large language model (LLM) ratings. We show that our training method allows a 7B LLM to reach the social goal completion ability of an expert model (GPT-4-based agent), while improving the safety of language agents and maintaining general QA ability on the MMLU benchmark. We also find that this training paradigm uncovers some difficulties in LLM-based evaluation of social intelligence: LLM-based evaluators overestimate the abilities of the language agents trained specifically for social interaction.
翻訳日:2024-03-16 00:51:27 公開日:2024-03-14
# GaussCtrl: テキスト駆動型3Dガウス分割編集

GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing ( http://arxiv.org/abs/2403.08733v2 )

ライセンス: Link先を確認
Jing Wu, Jia-Wang Bian, Xinghui Li, Guangrun Wang, Ian Reid, Philip Torr, Victor Adrian Prisacariu, (参考訳) 本稿では,3Dガウススティング(3DGS)によって再構成された3Dシーンをテキスト駆動で編集するGussCtrlを提案する。 まず3DGSを用いて画像の集合をレンダリングし、入力プロンプトに基づいて事前学習した2D拡散モデル(ControlNet)を用いて編集し、3Dモデルを最適化する。 これにより、以前のように3Dモデルを更新しながら、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集することが可能になる。 これにより、より高速な編集が可能となり、視覚的品質も向上する。 これは2つの条件によって達成される。 (a)自然に一貫した深度マップを活用することにより、多視点画像間の幾何的整合性を実現する深度条件付き編集。 (b)注目に基づく遅延コードアライメントは、画像の潜在表現間の自己および横断的な注目を通して、複数の参照ビューに編集を条件付けることにより、編集画像の外観を統一する。 実験により,従来の最先端手法よりも高速な編集と視覚効果が得られた。

We propose GaussCtrl, a text-driven method to edit a 3D scene reconstructed by the 3D Gaussian Splatting (3DGS). Our method first renders a collection of images by using the 3DGS and edits them by using a pre-trained 2D diffusion model (ControlNet) based on the input prompt, which is then used to optimise the 3D model. Our key contribution is multi-view consistent editing, which enables editing all images together instead of iteratively editing one image while updating the 3D model as in previous works. It leads to faster editing as well as higher visual quality. This is achieved by the two terms: (a) depth-conditioned editing that enforces geometric consistency across multi-view images by leveraging naturally consistent depth maps. (b) attention-based latent code alignment that unifies the appearance of edited images by conditioning their editing to several reference views through self and cross-view attention between images' latent representations. Experiments demonstrate that our method achieves faster editing and better visual results than previous state-of-the-art methods.
翻訳日:2024-03-16 00:51:27 公開日:2024-03-14
# 熱拡散による効率的な組合せ最適化

Efficient Combinatorial Optimization via Heat Diffusion ( http://arxiv.org/abs/2403.08757v2 )

ライセンス: Link先を確認
Hengyuan Ma, Wenlian Lu, Jianfeng Feng, (参考訳) 組合せ最適化問題は、その離散的な性質のため本質的に困難であるが、既存の手法の最大の制限は、各イテレーションにおいて解空間のごく一部しかアクセスできないことである。 この課題を克服するため,解答者の探索範囲を拡大する従来の取り組みから切り離して,熱拡散による解答者への情報伝達を積極的に行うことに注力した。 目標関数を最適に保ちながら変換することにより、熱拡散は、遠隔地からソルバへの情報流を容易にし、より効率的なナビゲーションを提供する。 熱拡散を利用して、一般的な組合せ最適化問題を解くための枠組みを提案する。 提案手法は、最も困難で広く遭遇する組合せ最適化の範囲で優れた性能を示す。 生成人工知能に熱力学を応用した最近の進歩を振り返って, 組合せ最適化の進歩におけるその大きな可能性を明らかにした。

Combinatorial optimization problems are widespread but inherently challenging due to their discrete nature.The primary limitation of existing methods is that they can only access a small fraction of the solution space at each iteration, resulting in limited efficiency for searching the global optimal. To overcome this challenge, diverging from conventional efforts of expanding the solver's search scope, we focus on enabling information to actively propagate to the solver through heat diffusion. By transforming the target function while preserving its optima, heat diffusion facilitates information flow from distant regions to the solver, providing more efficient navigation. Utilizing heat diffusion, we propose a framework for solving general combinatorial optimization problems. The proposed methodology demonstrates superior performance across a range of the most challenging and widely encountered combinatorial optimizations. Echoing recent advancements in harnessing thermodynamics for generative artificial intelligence, our study further reveals its significant potential in advancing combinatorial optimization.
翻訳日:2024-03-16 00:51:27 公開日:2024-03-14
# 偏光半導体によるカシミール反発

Casimir repulsion with biased semiconductors ( http://arxiv.org/abs/2403.09007v1 )

ライセンス: Link先を確認
Benjamin Spreng, Calum Shelden, Tao Gong, Jeremy N. Munday, (参考訳) 量子と熱のゆらぎは、MEMSとNEMSデバイスで一般的に見られる密接な分離された表面の間を作用するカシミール効果を含む、量子光学における現象の多元性の基本である。 特に、これらの力の工学と利用は、熱平衡から外れたシステムである。 近年、非平衡カシミール力を研究するために外部バイアスを持つ半導体が提案されている。 ここでは, 強い反発力を示す中等バイアスの半導体を含むシステムについて検討し, バイアス電圧, 半導体バンドギャップエネルギ, および実験的にアクセス可能な構成の分離の影響について検討する。 半導体から放出されるモードは、準ミクロン距離における魅力的な平衡カシミール力の寄与を克服する近い表面で反発力を発揮する。 2つの平行平面の幾何学において、これらのモードはファブリー・ペロト干渉を受け、分離の関数として振動力の挙動をもたらす。 近接力近似を用いて、金球に作用する反発力は、典型的なカシミール力実験の精度にかなり近いと予測する。 我々の研究は、ナノテクノロジーのセンシングとアクチュエーターへの応用により、ナノとマイクロメートルのスケールで力を制御する新たな可能性を開く。

Quantum and thermal fluctuations are fundamental to a plethora of phenomena within quantum optics, including the Casimir effect that acts between closely separated surfaces typically found in MEMS and NEMS devices. Particularly promising for engineering and harnessing these forces are systems out of thermal equilibrium. Recently, semiconductors with external bias have been proposed to study the nonequilibrium Casimir force. Here, we explore systems involving moderately biased semiconductors that exhibit strong repulsive Casimir forces, and we determine the effects of bias voltage, semiconductor bandgap energy, and separation for experimentally accessible configurations. Modes emitted from the semiconductors exert a repulsive force on a near surface that overcomes the attractive equilibrium Casimir force contribution at submicron distances. For the geometry of two parallel planes, those modes undergo Fabry-P\'erot interference resulting in an oscillatory force behavior as a function of separation. Utilizing the proximity-force approximation, we predict that the repulsive force exerted on a gold sphere is well within the accuracy of typical Casimir force experiments. Our work opens up new possibilities of controlling forces at the nano- and micrometer scale with applications in sensing and actuation in nanotechnology.
翻訳日:2024-03-15 22:17:16 公開日:2024-03-14
# 依存性管理のための群衆の活用 - Dependabot互換性スコアに関する実証的研究

Leveraging the Crowd for Dependency Management: An Empirical Study on the Dependabot Compatibility Score ( http://arxiv.org/abs/2403.09012v1 )

ライセンス: Link先を確認
Benjamin Rombaut, Filipe R. Cogo, Ahmed E. Hassan, (参考訳) 人気のある依存性管理ツールであるDependabotには、互換性スコア機能が含まれており、"群衆"からの知識を活用することで、クライアントパッケージが依存性更新を受け入れるリスクを評価するのに役立つ。 依存関係の更新ごとに、Dependabotはこの互換性スコアを、同じプロバイダパッケージを依存性として使用する他のクライアントパッケージによって実行される更新の成功率として計算する。 本稿では,クライアントパッケージが依存性の更新を受ける際のリスクを評価する上で,互換性スコアの有効性について検討する。 Dependabotが開いた579,206のプルリクエストを分析し、Dependabotが計算した618,045の互換性スコアを更新します。 群衆からのデータ不足のため,依存関係更新の83%については,互換性スコアを計算できないことがわかった。 しかし、計算可能なスコアの大部分は、信頼性間隔が小さく、低品質のデータに基づいており、クライアントパッケージには、更新のリスクと互換性スコアの信頼性を評価するための追加のアングルが必要であることを示唆している。 これらの制限を克服するために、群衆からのインプットを増幅するメトリクスを提案し、それらのメトリクスがクライアントパッケージによる更新成功の受け入れを予測する能力を示す。 また、クライアントパッケージからの履歴更新メトリクスを使用して、よりパーソナライズされた互換性スコアを提供することも示しています。 以上の結果から,信頼度を調整するための信頼区間を含む依存性管理ボットを群集に活用する場合には,信頼度を調整し,候補更新を行うテストの品質を考慮すべきである,と論じる。

Dependabot, a popular dependency management tool, includes a compatibility score feature that helps client packages assess the risk of accepting a dependency update by leveraging knowledge from "the crowd". For each dependency update, Dependabot calculates this compatibility score as the proportion of successful updates performed by other client packages that use the same provider package as a dependency. In this paper, we study the efficacy of the compatibility score to help client packages assess the risks involved with accepting a dependency update. We analyze 579,206 pull requests opened by Dependabot to update a dependency, along with 618,045 compatibility score records calculated by Dependabot. We find that a compatibility score cannot be calculated for 83% of the dependency updates due to the lack of data from the crowd. Yet, the vast majority of the scores that can be calculated have a small confidence interval and are based on low-quality data, suggesting that client packages should have additional angles to evaluate the risk of an update and the trustworthiness of the compatibility score. To overcome these limitations, we propose metrics that amplify the input from the crowd and demonstrate the ability of those metrics to predict the acceptance of a successful update by client packages. We also demonstrate that historical update metrics from client packages can be used to provide a more personalized compatibility score. Based on our findings, we argue that, when leveraging the crowd, dependency management bots should include a confidence interval to help calibrate the trust clients can place in the compatibility score, and consider the quality of tests that exercise candidate updates.
翻訳日:2024-03-15 22:17:16 公開日:2024-03-14
# AraTrust: アラビア語におけるLLMの信頼性評価

AraTrust: An Evaluation of Trustworthiness for LLMs in Arabic ( http://arxiv.org/abs/2403.09017v1 )

ライセンス: Link先を確認
Emad A. Alghamdi, Reem I. Masoud, Deema Alnuhait, Afnan Y. Alomairi, Ahmed Ashraf, Mohamed Zaytoon, (参考訳) 人工知能(AI)システムの急速な進歩と広く受け入れられていることは、AIに関連する能力と潜在的なリスクの両方を理解することの要求を強調している。 AI研究におけるアラビア語の言語的複雑さ、文化的豊かさ、表現不足などを考えると、大きな言語モデル(LLM)のパフォーマンスとアラビア関連のタスクの安全性に重点を置く必要がある。 開発に多少の進展があったにもかかわらず、総合的な信頼性評価ベンチマークが欠如しており、アラビア語で誘導されたLLMの安全性を正確に評価し改善する上で大きな課題となっている。 本稿では,アラビア語におけるLLMの総合的信頼性ベンチマークであるAraTrust 1を紹介する。 AraTrustは、真理、倫理、安全、身体的健康、メンタルヘルス、不公平、違法な活動、プライバシー、不快な言語に関連する様々な次元に対処する516の人間による多重選択質問で構成されている。 AraTrustを導入することで、アラビア人の安全で信頼性の高いLLMを作成するための協力的な取り組みを促進することを目指している。 我々は、その信頼性を評価するために、ベンチマークに対してLLMのセットを評価した。 GPT-4はアラビア語で最も信頼できる言語であった。

The swift progress and widespread acceptance of artificial intelligence (AI) systems highlight a pressing requirement to comprehend both the capabilities and potential risks associated with AI. Given the linguistic complexity, cultural richness, and underrepresented status of Arabic in AI research, there is a pressing need to focus on Large Language Models (LLMs) performance and safety for Arabic related tasks. Despite some progress in their development, there is a lack of comprehensive trustworthiness evaluation benchmarks which presents a major challenge in accurately assessing and improving the safety of LLMs when prompted in Arabic. In this paper, we introduce AraTrust 1, the first comprehensive trustworthiness benchmark for LLMs in Arabic. AraTrust comprises 516 human-written multiple-choice questions addressing diverse dimensions related to truthfulness, ethics, safety, physical health, mental health, unfairness, illegal activities, privacy, and offensive language. By introducing AraTrust, we aim to promote collaborative efforts to create safer and more trustworthy LLMs for Arabic users. We evaluated a set of LLMs against our benchmark to assess its trustworthiness. GPT-4 showed to be the most trustworthy regarding Arabic language.
翻訳日:2024-03-15 22:17:16 公開日:2024-03-14
# QUBOを用いた最適リアルタイム交通制御のための量子アニーリング手法

Quantum Annealing Approach for the Optimal Real-time Traffic Control using QUBO ( http://arxiv.org/abs/2403.09023v1 )

ライセンス: Link先を確認
Amit Singh, Chun-Yu Lin, Chung-I Huang, Fang-Pang Lin, (参考訳) 交通渋滞は都市部で大きな問題の1つであり、特に交通負荷が道路の容量を超えると、ガソリン消費量や二酸化炭素排出量が増加し、道路利用者の遅延やストレスが発生する。 アジアでは、スクーターの道路共有により交通状況はさらに悪化する可能性がある。 渋滞を緩和するために交通の流れを制御する方法が交通研究の中心的な問題の一つとなっている。 本研究では,車両とスクーターの混合交通流との交点における信号制御を最適化するために,量子アニール方式を用いる。 トラフィックフローは連続的かつ新興的な現象であるため,Isingモデルと自然な等価性を持つ2次非拘束二元最適化(QUBO)をトラフィック最適化に用い,量子アニール,量子コンピュータ,デジタルアニール上で効率よく解ける。 本稿では,まずQUBOの交通最適化を単純な交差点で人工的に生成した交通に応用し,その上で実車とスクーターレーン,スクーターとカーレーンの混在を模擬したリアルタイム交通データを用いた。 我々はC-QUBOとQUBOの2種類の交通信号制御システムを導入した。 我々の厳密なQUBO最適化は、C-QUBOとQUBOが一般的に使われている固定サイクル法より優れており、一部のケースではQUBOがC-QUBOより優れていることを示している。 その結果,QUBOの最適化により,不均衡な交通量に対する交通渋滞が著しく軽減されることが判明した。 さらに,信号の時間変化が交通渋滞を著しく減少させることがわかった。

Traffic congestion is one of the major issues in urban areas, particularly when traffic loads exceed the roads capacity, resulting in higher petrol consumption and carbon emissions as well as delays and stress for road users. In Asia, the traffic situation can be further deteriorated by road sharing of scooters. How to control the traffic flow to mitigate the congestion has been one of the central issues in transportation research. In this study, we employ a quantum annealing approach to optimize the traffic signals control at a real-life intersection with mixed traffic flows of vehicles and scooters. Considering traffic flow is a continuous and emerging phenomenon, we used quadratic unconstrained binary optimization (QUBO) formalism for traffic optimization, which has a natural equivalence to the Ising model and can be solved efficiently on the quantum annealers, quantum computers or digital annealers. In this article, we first applied the QUBO traffic optimization to artificially generated traffic for a simple intersection, and then we used real-time traffic data to simulate a real Dongda-Keyuan intersection with dedicated cars and scooter lanes, as well as mixed scooter and car lanes. We introduced two types of traffic light control systems for traffic optimization C-QUBO and QUBO. Our rigorous QUBO optimizations show that C-QUBO and QUBO outperform the commonly used fixed cycle method, with QUBO outperforming C-QUBO in some instances. It has been found that QUBO optimization significantly relieves traffic congestion for the unbalanced traffic volume. Furthermore, we found that dynamic changes in traffic light signal duration greatly reduce traffic congestion.
翻訳日:2024-03-15 22:17:16 公開日:2024-03-14
# 半パラメトリックトークンシーケンスの共同スーパービジョン

Semiparametric Token-Sequence Co-Supervision ( http://arxiv.org/abs/2403.09024v1 )

ライセンス: Link先を確認
Hyunji Lee, Doyoung Kim, Jihoon Jun, Sejune Joo, Joel Jang, Kyoung-Woon On, Minjoon Seo, (参考訳) 本研究では,半パラメトリックトークンシーケンス協調訓練法を提案する。 非パラメトリックなトークン埋め込み空間上で計算される従来の次のトークン予測損失と、非パラメトリックなシーケンス埋め込み空間上で計算される次のシーケンス予測損失との監督を同時に活用して言語モデルを訓練する。 非パラメトリックシーケンス埋め込み空間は、入力テキストを単一の代表埋め込みに凝縮するタスクを課される独立した言語モデルによって構成される。 我々の実験は、両監督者を通して訓練されたモデルが、独立して訓練されたモデルを一貫して上回っていることを示した。 分析は、このコスーパービジョンがモデル全体にわたってより広範な一般化能力を促進することを示唆している。 特に、事前学習段階に確立されたパラメトリックトークン空間のロバスト性は、他の言語モデルによって確立された新しい空間である非パラメトリックシーケンス埋め込み空間の安定性を効果的に向上させる傾向にある。

In this work, we introduce a semiparametric token-sequence co-supervision training method. It trains a language model by simultaneously leveraging supervision from the traditional next token prediction loss which is calculated over the parametric token embedding space and the next sequence prediction loss which is calculated over the nonparametric sequence embedding space. The nonparametric sequence embedding space is constructed by a separate language model tasked to condense an input text into a single representative embedding. Our experiments demonstrate that a model trained via both supervisions consistently surpasses models trained via each supervision independently. Analysis suggests that this co-supervision encourages a broader generalization capability across the model. Especially, the robustness of parametric token space which is established during the pretraining step tends to effectively enhance the stability of nonparametric sequence embedding space, a new space established by another language model.
翻訳日:2024-03-15 22:17:16 公開日:2024-03-14
# VDNA-PR:ロバストな逐次視覚位置認識のための汎用データセット表現

VDNA-PR: Using General Dataset Representations for Robust Sequential Visual Place Recognition ( http://arxiv.org/abs/2403.09025v1 )

ライセンス: Link先を確認
Benjamin Ramtoula, Daniele De Martini, Matthew Gadd, Paul Newman, (参考訳) 本稿では,実世界の移動ロボットのローカライゼーションを実現するために重要な,ロバストなビジュアルプレース認識(VPR)記述子を生成するために,汎用的なデータセット表現手法を適用する。 VPR上での2つの並列処理は、汎用的なオフザシェルフ特徴表現がドメインシフトに堅牢性をもたらすことを示し、他方では、画像列から融合した情報が性能を向上させることを示している。 画像データセット間の領域ギャップを測定するための最近の研究で、画像のデータセットを表現するために、視覚的ニューロン活性化分布(VDNA)表現を提案した。 この表現は自然に画像列を処理でき、汎用モデルから派生した汎用的および粒度の特徴表現を提供する。 さらに、この表現は、特定のニューラルネットワーク層に制限されない画像のリスト上でニューロンの活性化値を追跡することにより、高レベルおよび低レベルの概念へのアクセスを可能にする。 この研究は、タスク固有の記述子を生成するために非常に軽量でシンプルなエンコーダを学習することで、VPRにVDNAをどのように使用できるかを示す。 実験の結果,我々の表現は,屋内環境や空中画像などのトレーニングデータ分布から,現在の領域シフトに対する解よりも堅牢性が高いことがわかった。

This paper adapts a general dataset representation technique to produce robust Visual Place Recognition (VPR) descriptors, crucial to enable real-world mobile robot localisation. Two parallel lines of work on VPR have shown, on one side, that general-purpose off-the-shelf feature representations can provide robustness to domain shifts, and, on the other, that fused information from sequences of images improves performance. In our recent work on measuring domain gaps between image datasets, we proposed a Visual Distribution of Neuron Activations (VDNA) representation to represent datasets of images. This representation can naturally handle image sequences and provides a general and granular feature representation derived from a general-purpose model. Moreover, our representation is based on tracking neuron activation values over the list of images to represent and is not limited to a particular neural network layer, therefore having access to high- and low-level concepts. This work shows how VDNAs can be used for VPR by learning a very lightweight and simple encoder to generate task-specific descriptors. Our experiments show that our representation can allow for better robustness than current solutions to serious domain shifts away from the training data distribution, such as to indoor environments and aerial imagery.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# VisionGPT:汎用マルチモーダルフレームワークを用いた視覚言語理解エージェント

VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework ( http://arxiv.org/abs/2403.09027v1 )

ライセンス: Link先を確認
Chris Kelly, Luhui Hu, Bang Yang, Yu Tian, Deshun Yang, Cindy Yang, Zaoshan Huang, Zihao Li, Jiayin Hu, Yuexian Zou, (参考訳) 大規模言語モデル(LLM)とビジョンファウンデーションモデルの出現により、これらのオープンソースまたはAPIが利用可能なモデルのインテリジェンスとキャパシティを組み合わせることで、オープンワールドの視覚的知覚を実現する方法がオープンな疑問である。 本稿では、ビジョンGPTを導入し、最先端基盤モデルの統合と自動化を行い、視覚言語理解と視覚指向AIの開発を容易にする。 VisionGPTは,1) LLM(例えばLLaMA-2)を,ユーザの要求を適切な基盤モデルを呼び出すための詳細なアクション提案に分解する要点として利用すること,2)基礎モデルからのマルチソース出力を自動で統合し,ユーザに対する包括的な応答を生成すること,3)テキスト条件の画像理解/生成/編集,視覚的質問応答など,幅広いアプリケーションに適用可能であること,の3つの主要な特徴を生かした,汎用マルチモーダルフレームワークを基盤としている。 本稿では、VisionGPTのアーキテクチャと能力について概説し、効率、汎用性、一般化、性能の向上を通じてコンピュータビジョンの分野に革命をもたらす可能性を示す。 私たちのコードとモデルは公開されます。 キーワード:VisionGPT、オープンワールド視覚知覚、視覚言語理解、大規模言語モデル、基礎モデル

With the emergence of large language models (LLMs) and vision foundation models, how to combine the intelligence and capacity of these open-sourced or API-available models to achieve open-world visual perception remains an open question. In this paper, we introduce VisionGPT to consolidate and automate the integration of state-of-the-art foundation models, thereby facilitating vision-language understanding and the development of vision-oriented AI. VisionGPT builds upon a generalized multimodal framework that distinguishes itself through three key features: (1) utilizing LLMs (e.g., LLaMA-2) as the pivot to break down users' requests into detailed action proposals to call suitable foundation models; (2) integrating multi-source outputs from foundation models automatically and generating comprehensive responses for users; (3) adaptable to a wide range of applications such as text-conditioned image understanding/generation/editing and visual question answering. This paper outlines the architecture and capabilities of VisionGPT, demonstrating its potential to revolutionize the field of computer vision through enhanced efficiency, versatility, and generalization, and performance. Our code and models will be made publicly available. Keywords: VisionGPT, Open-world visual perception, Vision-language understanding, Large language model, and Foundation model
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# ChartInstruct: チャート理解と推論のためのインストラクションチューニング

ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning ( http://arxiv.org/abs/2403.09028v1 )

ライセンス: Link先を確認
Ahmed Masry, Mehrad Shahmohammadi, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty, (参考訳) チャートはデータの視覚的表現を提供し、情報を分析し、クエリに対処し、他人に洞察を伝えるために広く使用される。 近年,質問回答や要約など,チャート関連のダウンストリームタスクが出現している。 これらの課題を解決するための一般的な戦略は、視覚タスク言語で訓練された様々なモデルを微調整することである。 しかし、そのようなタスク固有モデルは、実際の適用性を制限して、幅広いチャート関連タスクを解くことができない。 これらの課題を克服するために、71Kチャートで生成された191K命令からなる、新しいチャート固有の視覚言語命令追従データセットであるChartInstructを紹介した。 そこで本研究では,(1)チャート理解のためのビジョンエンコーダをLLMに接続するエンドツーエンドモデル,(2)グラフデータテーブルを抽出してLLMに入力する2段階のアプローチを用いたパイプラインモデルを提案する。 4つの下流タスクの実験において、まずモデルの有効性を示す。 さらなる評価により,提案手法は様々な実世界のチャート理解と推論シナリオをサポートし,モデルの範囲と適用性を新たなタスクに拡張することを示す。

Charts provide visual representations of data and are widely used for analyzing information, addressing queries, and conveying insights to others. Various chart-related downstream tasks have emerged recently, such as question-answering and summarization. A common strategy to solve these tasks is to fine-tune various models originally trained on vision tasks language. However, such task-specific models are not capable of solving a wide range of chart-related tasks, constraining their real-world applicability. To overcome these challenges, we introduce ChartInstruct: a novel chart-specific vision-language Instruction-following dataset comprising 191K instructions generated with 71K charts. We then present two distinct systems for instruction tuning on such datasets: (1) an end-to-end model that connects a vision encoder for chart understanding with a LLM; and (2) a pipeline model that employs a two-step approach to extract chart data tables and input them into the LLM. In experiments on four downstream tasks, we first show the effectiveness of our model--achieving a new set of state-of-the-art results. Further evaluation shows that our instruction-tuning approach supports a wide array of real-world chart comprehension and reasoning scenarios, thereby expanding the scope and applicability of our models to new kinds of tasks.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# WebSight DatasetでWeb ScreenshotsをHTMLコードに変換する

Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset ( http://arxiv.org/abs/2403.09029v1 )

ライセンス: Link先を確認
Hugo Laurençon, Léo Tronchon, Victor Sanh, (参考訳) Web開発で視覚言語モデル(VLM)を使用することで、効率性を高め、ノーコードソリューションをブロックする有望な戦略が提示される。 様々なタスクに対するVLMの進歩にもかかわらず、スクリーンショットを対応するHTMLに変換するという具体的な課題は最小限に検討されている。 これは主に、適切な高品質なデータセットが存在しないためであると仮定する。 この研究は、200万組のHTMLコードとそれに対応するスクリーンショットからなる合成データセットであるWebSightを紹介する。 我々は、データセットに基礎的なVLMを微調整し、Webページのスクリーンショットを機能的なHTMLコードに変換する習熟度を示す。 この分野での研究を加速するため、私たちはWebSightをオープンソースにしました。

Using vision-language models (VLMs) in web development presents a promising strategy to increase efficiency and unblock no-code solutions: by providing a screenshot or a sketch of a UI, a VLM could generate the code to reproduce it, for instance in a language like HTML. Despite the advancements in VLMs for various tasks, the specific challenge of converting a screenshot into a corresponding HTML has been minimally explored. We posit that this is mainly due to the absence of a suitable, high-quality dataset. This work introduces WebSight, a synthetic dataset consisting of 2 million pairs of HTML codes and their corresponding screenshots. We fine-tune a foundational VLM on our dataset and show proficiency in converting webpage screenshots to functional HTML code. To accelerate the research in this area, we open-source WebSight.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# 音響信号からの風車軸受故障診断へのAIによるアプローチ

An AI-Driven Approach to Wind Turbine Bearing Fault Diagnosis from Acoustic Signals ( http://arxiv.org/abs/2403.09030v1 )

ライセンス: Link先を確認
Zhao Wang, Xiaomeng Li, Na Li, Longlong Shu, (参考訳) 本研究の目的は,風力タービン発電機の軸受欠陥を音響信号から分類する深層学習モデルを構築することである。 畳み込みLSTMモデルは、トレーニングと検証の両方のために、5つの事前定義された故障タイプからのオーディオデータを用いて、うまく構築され、訓練された。 データセットを作成するために、生音声信号データを収集し、フレームで処理し、時間と周波数領域情報をキャプチャした。 このモデルでは, トレーニングサンプルの精度に優れ, 検証中に優れた一般化能力を示し, 一般化能力の有能性を示した。 テストサンプルでは、全体的な精度は99.5%を超え、偽陽性率は1%以下であった。 本研究は,風力タービン発電機の軸受欠陥の診断と維持に不可欠な支援を提供し,風力発電の信頼性と効率を高める可能性を示した。

This study aimed to develop a deep learning model for the classification of bearing faults in wind turbine generators from acoustic signals. A convolutional LSTM model was successfully constructed and trained by using audio data from five predefined fault types for both training and validation. To create the dataset, raw audio signal data was collected and processed in frames to capture time and frequency domain information. The model exhibited outstanding accuracy on training samples and demonstrated excellent generalization ability during validation, indicating its proficiency of generalization capability. On the test samples, the model achieved remarkable classification performance, with an overall accuracy exceeding 99.5%, and a false positive rate of less than 1% for normal status. The findings of this study provide essential support for the diagnosis and maintenance of bearing faults in wind turbine generators, with the potential to enhance the reliability and efficiency of wind power generation.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# CodeUltraFeedback:LLM-as-a-Judgeデータセット

CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences ( http://arxiv.org/abs/2403.09032v1 )

ライセンス: Link先を確認
Martin Weyssow, Aton Kamanda, Houari Sahraoui, (参考訳) 大規模言語モデル(LLM)とユーザ定義のコーディング嗜好の整合性を評価することは、複雑なテキストLLMの出力を評価することを必要とする困難な取り組みである。 自動メトリクスと静的解析ツールに頼ることで、既存のベンチマークはユーザインストラクションとLLM出力のニュアンスを評価することができず、LLMの優先順位調整のための大規模データセットとベンチマークの必要性を強調している。 本稿では,LLMをAIフィードバックによるコーディングの好みに合わせて調整・調整するための,1万の複雑な命令の嗜好データセットであるCodeUltraFeedbackを紹介する。 我々は14種類のLCMのプールを用いて命令に対する応答を生成し、GPT-3.5を用いたLCM-as-a-Judgeアプローチを用いて5つのコーディング嗜好にアノテートし、数値とテキストの両方のフィードバックを生成する。 また、これらのコーディング嗜好とLLMアライメントを評価するためのベンチマークであるCODAL-Benchを提案する。 この結果から, CodeLlama-7B-Instructは, CodeUltraFeedbackのAIフィードバックデータを用いてAIフィードバック(RLAIF)から強化学習を行い, CODAL-Bench上で34B LLMを上回った。 さらに、DPO対応のCodeLlamaモデルにより、不整合ベースモデルと比較してHumanEval+の機能的正しさが向上することを示す。 したがって、コードに対するLLMの嗜好調整のギャップを埋め、モデルアライメントのさらなる進歩とコードインテリジェンスのためのRLAIFのステージを設定します。 私たちのコードとデータはhttps://github.com/martin-wey/CodeUltraFeedback.comで公開されています。

Evaluating the alignment of large language models (LLMs) with user-defined coding preferences is a challenging endeavour that requires assessing intricate textual LLMs' outputs. By relying on automated metrics and static analysis tools, existing benchmarks fail to assess nuances in user instructions and LLM outputs, highlighting the need for large-scale datasets and benchmarks for LLM preference alignment. In this paper, we introduce CodeUltraFeedback, a preference dataset of 10,000 complex instructions to tune and align LLMs to coding preferences through AI feedback. We generate responses to the instructions using a pool of 14 diverse LLMs, which we then annotate according to their alignment with five coding preferences using the LLM-as-a-Judge approach with GPT-3.5, producing both numerical and textual feedback. We also present CODAL-Bench, a benchmark for assessing LLM alignment with these coding preferences. Our results show that CodeLlama-7B-Instruct, aligned through reinforcement learning from AI feedback (RLAIF) with direct preference optimization (DPO) using CodeUltraFeedback's AI feedback data, outperforms 34B LLMs on CODAL-Bench, validating the utility of CodeUltraFeedback for preference tuning. Furthermore, we show our DPO-aligned CodeLlama model improves functional correctness on HumanEval+ compared to the unaligned base model. Therefore, our contributions bridge the gap in preference tuning of LLMs for code and set the stage for further advancements in model alignment and RLAIF for code intelligence. Our code and data are available at https://github.com/martin-wey/CodeUltraFeedback.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# パウリのチャネル学習に適応性は役に立たない

Adaptivity is not helpful for Pauli channel learning ( http://arxiv.org/abs/2403.09033v1 )

ライセンス: Link先を確認
Xuan Du Trinh, Nengkun Yu, (参考訳) このノートは、適応戦略が、絡み合った入力でPauliチャネルを学習し、テストするための追加の利点を提供していないことを示している。 まず、一般ノルム$l_p$に対して、絡み合った入力を持つパウリチャネルを学習する際の厳密なクエリ複雑性を確立する。 特に、$l_{1}$, $l_2$, $l_\infty$ノルムの複雑さは、文献の絡み合いを用いた以前の結果と比較して改善または整合する。 Pauliチャネルが$l_p$のホワイトノイズソースであるかどうかをテストするためのクエリの複雑さも解決します。 さらに,誤差分布のエントロピーと非ゼロ確率のカウントを特徴とするPauliチャネルのノイズレベルを推定するクエリの複雑さが$\Theta(4^n/n)$であることを示す。 さらに、$\Theta(4^n/n)$クエリは、2つのパウリチャネル間のダイヤモンドノルムを推定するのに十分である。

This note shows that adaptive strategies do not offer additional advantages for learning and testing Pauli channels with entangled input. First, the tight query complexity of learning Pauli channels with entangled input is established for the general norm $l_p$. In particular, the complexities for the $l_{1}$, $l_2$ and $l_\infty$ norms are improved or matched compared to previous results using entanglement in the literature. We also settle the query complexity to test if Pauli channels are white noise sources across $l_p$. Additionally, we demonstrate that the query complexity of estimating the noise level of a Pauli channel, characterized by the entropy of its error distribution and the count of non-zero probabilities, is $\Theta(4^n/n)$. Further, $\Theta(4^n/n)$ queries are sufficient to estimate the diamond norm between two Pauli channels.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# rFaceNet: アイデンティティに特有な顔輪郭を通した生理学的信号抽出のためのエンド・ツー・エンドネットワーク

rFaceNet: An End-to-End Network for Enhanced Physiological Signal Extraction through Identity-Specific Facial Contours ( http://arxiv.org/abs/2403.09034v1 )

ライセンス: Link先を確認
Dali Zhu, Wenli Zhang, Hualin Zeng, Xiaohao Liu, Long Yang, Jiaqi Zheng, (参考訳) リモート光胸腺撮影(rPPG)技術は、ビデオフレームの微妙なピクセル変化から血液体積パルス(BVP)信号を抽出する。 本研究では,顔の輪郭に焦点をあてて顔BVP信号の抽出を促進する高度なrPPG法であるrFaceNetを紹介する。 rFaceNetは、ID固有の顔輪郭情報を統合し、冗長データを排除している。 時間的に正規化されたフレーム入力から時間圧縮ユニット(TCU)を介して顔の輪郭を効率よく抽出し、クロスタスク特徴結合器(CTFC)を用いて、関連する顔領域に焦点をあてる。 精巧なトレーニングを通じて,rFaceNetによって抽出された顔の生理的信号の品質と解釈性は,従来の方法に比べて大幅に向上した。 さらに,本手法は各種心拍推定ベンチマークにおいてSOTA法よりも優れた性能を示す。

Remote photoplethysmography (rPPG) technique extracts blood volume pulse (BVP) signals from subtle pixel changes in video frames. This study introduces rFaceNet, an advanced rPPG method that enhances the extraction of facial BVP signals with a focus on facial contours. rFaceNet integrates identity-specific facial contour information and eliminates redundant data. It efficiently extracts facial contours from temporally normalized frame inputs through a Temporal Compressor Unit (TCU) and steers the model focus to relevant facial regions by using the Cross-Task Feature Combiner (CTFC). Through elaborate training, the quality and interpretability of facial physiological signals extracted by rFaceNet are greatly improved compared to previous methods. Moreover, our novel approach demonstrates superior performance than SOTA methods in various heart rate estimation benchmarks.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# DiTMoS:マイクロコントローラにおけるディバースティニーモデル選択

DiTMoS: Delving into Diverse Tiny-Model Selection on Microcontrollers ( http://arxiv.org/abs/2403.09035v1 )

ライセンス: Link先を確認
Xiao Ma, Shengfeng He, Hezhe Qiao, Dong Ma, (参考訳) マイクロコントローラ上での効率的で正確なディープニューラルネットワーク(DNN)推論は、オンチップリソースの制約のため、簡単ではない。 現在の手法は主にモデル精度を犠牲にして、より大きなモデルを圧縮することに焦点を当てている。 本稿では,小型/弱モデルを直接構築し,精度を向上することにより,逆の視点から問題を再考する。 そこで我々は,新しいDNNトレーニングおよび推論フレームワークであるDiTMoSを紹介した。 DiTMoSは重要な洞察に基づいており、弱いモデルの合成は高い多様性を示し、それらの結合は精度の上限を大幅に高めることができる。 上位境界に近づくために、DiTMoSは、分類器の多様性を高めるための多様なトレーニングデータ分割、相乗的相互作用を確保するための逆選択器分類器訓練、分類器の容量を改善するための異種特徴集約を含む3つの戦略を導入する。 さらに,機能集約によって生じる余分なメモリオーバーヘッドを軽減するため,ネットワークスライシング手法を提案する。 我々は,Nucleo STM32F767ZIボード上にDiTMoSをデプロイし,人間の活動認識,キーワードスポッティング,感情認識の3つの時系列データセットに基づいて評価する。 実験の結果、以下のことが判明した。 (a)DiTMoSは、最高のベースラインに比べて最大13.4%の精度向上を達成する。 (b)ネットワークスライシングにより,機能集約によるメモリオーバーヘッドがほぼ完全に解消され,レイテンシの限界が増大する。

Enabling efficient and accurate deep neural network (DNN) inference on microcontrollers is non-trivial due to the constrained on-chip resources. Current methodologies primarily focus on compressing larger models yet at the expense of model accuracy. In this paper, we rethink the problem from the inverse perspective by constructing small/weak models directly and improving their accuracy. Thus, we introduce DiTMoS, a novel DNN training and inference framework with a selector-classifiers architecture, where the selector routes each input sample to the appropriate classifier for classification. DiTMoS is grounded on a key insight: a composition of weak models can exhibit high diversity and the union of them can significantly boost the accuracy upper bound. To approach the upper bound, DiTMoS introduces three strategies including diverse training data splitting to increase the classifiers' diversity, adversarial selector-classifiers training to ensure synergistic interactions thereby maximizing their complementarity, and heterogeneous feature aggregation to improve the capacity of classifiers. We further propose a network slicing technique to alleviate the extra memory overhead incurred by feature aggregation. We deploy DiTMoS on the Neucleo STM32F767ZI board and evaluate it based on three time-series datasets for human activity recognition, keywords spotting, and emotion recognition, respectively. The experiment results manifest that: (a) DiTMoS achieves up to 13.4% accuracy improvement compared to the best baseline; (b) network slicing almost completely eliminates the memory overhead incurred by feature aggregation with a marginal increase of latency.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# ロングテール分類器の勾配対応ロジット調整損失

Gradient-Aware Logit Adjustment Loss for Long-tailed Classifier ( http://arxiv.org/abs/2403.09036v1 )

ライセンス: Link先を確認
Fan Zhang, Wei Qin, Weijieying Ren, Lei Wang, Zetong Chen, Richang Hong, (参考訳) 実世界の環境では、データは長い尾の分布に従い、ヘッドクラスはテールクラスよりもはるかに多くのトレーニングサンプルを含む。 その結果、そのようなデータに基づいてトレーニングされたモデルは、ヘッドクラスに偏りがちである。 このバイアスの媒質は不均衡勾配であり、正と負の勾配のスケールの比だけでなく、異なる負のクラスからの非均衡勾配も含む。 そこで我々は,最適化プロセスのバランスをとるために,累積勾配に基づいてロジットを調整したGALA(Gradient-Aware Logit Adjustment)損失を提案する。 さらに,長鎖問題に対する解法のほとんどは,結局のところまだヘッドクラスに偏っていることが判明し,ヘッドクラスに対する基礎をさらに緩和するために,単純かつポストホックな予測再バランス戦略を提案する。 この2つの設計の有効性を評価するために、複数の一般的な長尾認識ベンチマークデータセットに対して大規模な実験を行った。 提案手法は, CIFAR100-LT, Places-LT, iNaturalistにおいて, 48.5\%, 41.4\%, 73.3\%のTop-1精度を達成し, 最先端GCLをそれぞれ3.62\%, 0.76\%, 1.2\%で上回った。 コードはhttps://github.com/lt-project-repository/lt-projectで入手できる。

In the real-world setting, data often follows a long-tailed distribution, where head classes contain significantly more training samples than tail classes. Consequently, models trained on such data tend to be biased toward head classes. The medium of this bias is imbalanced gradients, which include not only the ratio of scale between positive and negative gradients but also imbalanced gradients from different negative classes. Therefore, we propose the Gradient-Aware Logit Adjustment (GALA) loss, which adjusts the logits based on accumulated gradients to balance the optimization process. Additionally, We find that most of the solutions to long-tailed problems are still biased towards head classes in the end, and we propose a simple and post hoc prediction re-balancing strategy to further mitigate the basis toward head class. Extensive experiments are conducted on multiple popular long-tailed recognition benchmark datasets to evaluate the effectiveness of these two designs. Our approach achieves top-1 accuracy of 48.5\%, 41.4\%, and 73.3\% on CIFAR100-LT, Places-LT, and iNaturalist, outperforming the state-of-the-art method GCL by a significant margin of 3.62\%, 0.76\% and 1.2\%, respectively. Code is available at https://github.com/lt-project-repository/lt-project.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# 第一に知る:大規模視覚言語モデルにおける隠れた知識のToken分布

The First to Know: How Token Distributions Reveal Hidden Knowledge in Large Vision-Language Models? ( http://arxiv.org/abs/2403.09037v1 )

ライセンス: Link先を確認
Qinyu Zhao, Ming Xu, Kartik Gupta, Akshay Asthana, Liang Zheng, Stephen Gould, (参考訳) 人間の指示を解釈し、反応するように設計された大型視覚言語モデル(LVLM)は、時には不適切な指示のために幻覚または有害な内容を生成する。 本研究では線形プローブを用いてLVLMの出力層における隠れた知識を隠蔽する。 本研究では,第1のトークンのロジット分布には,解決不可能な視覚的質問の認識,マルチモーダルなジェイルブレイク攻撃に対する防御,詐欺的質問の識別など,指示に対する応答を判断する十分な情報が含まれていることを実証する。 このような隠れた知識は、応答生成中に後続のトークンのロジットで徐々に失われる。 次に、第1トークン生成時の単純な復号化戦略を説明し、生成したコンテンツを効果的に改善する。 実験では、いくつかの興味深い洞察を得た。 まず、CLIPモデルには、これらのタスクを解決する強力なシグナルが含まれており、既存のデータセットの潜在的なバイアスを示しています。 第2に,算数解の不確かさの予測,幻覚の緩和,画像分類などの3つの追加課題に対する最初のロジット分布の利用により,性能改善を観察する。 最後に、同じトレーニングデータを用いて、LVLMを微調整するだけでモデルの性能が向上するが、これらのタスクの線形探索には劣る。

Large vision-language models (LVLMs), designed to interpret and respond to human instructions, occasionally generate hallucinated or harmful content due to inappropriate instructions. This study uses linear probing to shed light on the hidden knowledge at the output layer of LVLMs. We demonstrate that the logit distributions of the first tokens contain sufficient information to determine whether to respond to the instructions, including recognizing unanswerable visual questions, defending against multi-modal jailbreaking attack, and identifying deceptive questions. Such hidden knowledge is gradually lost in logits of subsequent tokens during response generation. Then, we illustrate a simple decoding strategy at the generation of the first token, effectively improving the generated content. In experiments, we find a few interesting insights: First, the CLIP model already contains a strong signal for solving these tasks, indicating potential bias in the existing datasets. Second, we observe performance improvement by utilizing the first logit distributions on three additional tasks, including indicting uncertainty in math solving, mitigating hallucination, and image classification. Last, with the same training data, simply finetuning LVLMs improve models' performance but is still inferior to linear probing on these tasks.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# 動的グラフにおける異常検出のための時空間記憶強調グラフオートエンコーダ

Spatial-temporal Memories Enhanced Graph Autoencoder for Anomaly Detection in Dynamic Graphs ( http://arxiv.org/abs/2403.09039v1 )

ライセンス: Link先を確認
Jie Liu, Xuequn Shang, Xiaolin Han, Wentao Zhang, Hongzhi Yin, (参考訳) 動的グラフにおける異常検出は、グラフ構造と属性の時間的進化によって大きな課題となる。 この問題に対処する従来のアプローチは、典型的には教師なしの学習フレームワークを使用し、トレーニング中に排他的正規データで正規性パターンをキャプチャし、テスト中の偏差を異常として識別する。 しかし、これらの手法は、通常のパターンを直接特定することなく、一般的な表現のプロキシタスクにのみ依存するか、空間的および時間的正規性パターンの区別を怠り、異常検出の効率が低下するなど、重大な欠点に直面している。 これらの課題に対処するために,新しい空間的記憶強調グラフオートエンコーダ(STRIPE)を導入する。 当初、STRIPEは、空間的特徴と時間的特徴をそれぞれ抽出するために、グラフニューラルネットワーク(GNN)とゲート時間的畳み込み層を採用している。 次に、STRIPEは、通常のパターンのプロトタイプをキャプチャして保存し、空間的および時間的正規性のユニークさを保存する、別々の空間的および時間的メモリネットワークを組み込む。 その後、相互注意機構を通じて、これらのストアドパターンを検索し、エンコードされたグラフ埋め込みと統合する。 最後に、統合された機能はデコーダに入力され、異常検出のプロキシタスクとして機能するグラフストリームを再構築する。 この包括的アプローチは、再構成エラーを最小限に抑えるだけでなく、最も近いメモリプロトタイプに対する埋め込みのコンパクトさと特異性を強調してモデルを洗練する。 広範なテストを通じて、STRIPEは動的グラフの異なる空間的・時間的ダイナミクスを効果的に活用し、AUC値の平均15.39%の改善を達成して、異常を識別する優れた能力を示した。

Anomaly detection in dynamic graphs presents a significant challenge due to the temporal evolution of graph structures and attributes. The conventional approaches that tackle this problem typically employ an unsupervised learning framework, capturing normality patterns with exclusive normal data during training and identifying deviations as anomalies during testing. However, these methods face critical drawbacks: they either only depend on proxy tasks for general representation without directly pinpointing normal patterns, or they neglect to differentiate between spatial and temporal normality patterns, leading to diminished efficacy in anomaly detection. To address these challenges, we introduce a novel Spatial-Temporal memories-enhanced graph autoencoder (STRIPE). Initially, STRIPE employs Graph Neural Networks (GNNs) and gated temporal convolution layers to extract spatial features and temporal features, respectively. Then STRIPE incorporates separate spatial and temporal memory networks, which capture and store prototypes of normal patterns, thereby preserving the uniqueness of spatial and temporal normality. After that, through a mutual attention mechanism, these stored patterns are then retrieved and integrated with encoded graph embeddings. Finally, the integrated features are fed into the decoder to reconstruct the graph streams which serve as the proxy task for anomaly detection. This comprehensive approach not only minimizes reconstruction errors but also refines the model by emphasizing the compactness and distinctiveness of the embeddings in relation to the nearest memory prototypes. Through extensive testing, STRIPE has demonstrated a superior capability to discern anomalies by effectively leveraging the distinct spatial and temporal dynamics of dynamic graphs, significantly outperforming existing methodologies, with an average improvement of 15.39% on AUC values.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# RAGGED:検索拡張システムのインフォームドデザインに向けて

RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems ( http://arxiv.org/abs/2403.09040v1 )

ライセンス: Link先を確認
Jennifer Hsia, Afreen Shaikh, Zhiruo Wang, Graham Neubig, (参考訳) Retrieval-augmented Generation (RAG)は、文書ベースの質問応答(DBQA)のようなタスクに追加のコンテキストを提供することで、言語モデル(LM)に大きな恩恵をもたらす。 その可能性にもかかわらず、RAGのパワーはその構成に大きく依存している。 そこで本研究では,RAGシステムの解析と最適化を行うRAGGEDフレームワークを提案する。 代表的DBQAタスクのセットにおいて、エンコーダデコーダとデコーダオンリーアーキテクチャにおける2つの古典的スパースと高密度検索器、および4つのトップパフォーマンスLMについて検討する。 RAGGEDを通して、異なるモデルがRAG設定にかなり適合していることが判明した。 エンコーダ-デコーダモデルは、より多くのドキュメントで単調に改善されるが、デコーダのみのモデルは、多くの場合、より長いコンテキストウィンドウを持つにもかかわらず、事実上5つのドキュメントしか使用できない。 RAGGEDは、LMの文脈利用習慣に関するさらなる洞察を提供する。そこでは、エンコーダ-デコーダモデルの方が文脈に依存しており、従って、検索品質に敏感であるのに対して、デコーダのみのモデルはトレーニング中に記憶された知識に依存する傾向にある。

Retrieval-augmented generation (RAG) greatly benefits language models (LMs) by providing additional context for tasks such as document-based question answering (DBQA). Despite its potential, the power of RAG is highly dependent on its configuration, raising the question: What is the optimal RAG configuration? To answer this, we introduce the RAGGED framework to analyze and optimize RAG systems. On a set of representative DBQA tasks, we study two classic sparse and dense retrievers, and four top-performing LMs in encoder-decoder and decoder-only architectures. Through RAGGED, we uncover that different models suit substantially varied RAG setups. While encoder-decoder models monotonically improve with more documents, we find decoder-only models can only effectively use < 5 documents, despite often having a longer context window. RAGGED offers further insights into LMs' context utilization habits, where we find that encoder-decoder models rely more on contexts and are thus more sensitive to retrieval quality, while decoder-only models tend to rely on knowledge memorized during training.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# 不均一データ領域を用いたフェデレーション型プロトタイプ学習におけるクロスドメイン表現変数のモデル化

Taming Cross-Domain Representation Variance in Federated Prototype Learning with Heterogeneous Data Domains ( http://arxiv.org/abs/2403.09048v1 )

ライセンス: Link先を確認
Lei Wang, Jieming Bian, Letian Zhang, Chen Chen, Jie Xu, (参考訳) フェデレートラーニング(FL)は、プライベートデータを共有することなく、協調的な機械学習トレーニングを可能にする。 ほとんどのFLメソッドは、クライアント間で同じデータドメインを前提としていますが、現実のシナリオは、しばしば異種データドメインを伴います。 Federated Prototype Learning (FedPL)は、モデル一般化を強化するために、平均特徴ベクトルをプロトタイプとして使用することでこの問題に対処する。 しかし、既存のFedPLメソッドは各クライアントに対して同じ数のプロトタイプを作成し、ドメイン間のパフォーマンスギャップとデータ分散の異なるクライアントの相違をもたらす。 クロスドメインな特徴表現の分散を緩和するため、FedPLVMを導入し、分散を意識した2段階のプロトタイプをクラスタリングし、新しい$\alpha$-sparsityのプロトタイプロスを採用する。 デュアルレベルのプロトタイプクラスタリング戦略では、プライベートデータ機能に基づいたローカルクラスタ化プロトタイプを生成し、グローバルなプロトタイプクラスタリングを実行して、通信の複雑さを低減し、ローカルデータのプライバシを保存する。 $\alpha$-sparsityのプロトタイプの損失は、未表現のドメインからのサンプルを整列させ、クラス内の類似性を高め、クラス間の類似性を減少させる。 Digit-5、Office-10、DomainNetデータセットの評価は、既存のアプローチよりもメソッドの方が優れていることを示している。

Federated learning (FL) allows collaborative machine learning training without sharing private data. While most FL methods assume identical data domains across clients, real-world scenarios often involve heterogeneous data domains. Federated Prototype Learning (FedPL) addresses this issue, using mean feature vectors as prototypes to enhance model generalization. However, existing FedPL methods create the same number of prototypes for each client, leading to cross-domain performance gaps and disparities for clients with varied data distributions. To mitigate cross-domain feature representation variance, we introduce FedPLVM, which establishes variance-aware dual-level prototypes clustering and employs a novel $\alpha$-sparsity prototype loss. The dual-level prototypes clustering strategy creates local clustered prototypes based on private data features, then performs global prototypes clustering to reduce communication complexity and preserve local data privacy. The $\alpha$-sparsity prototype loss aligns samples from underrepresented domains, enhancing intra-class similarity and reducing inter-class similarity. Evaluations on Digit-5, Office-10, and DomainNet datasets demonstrate our method's superiority over existing approaches.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# CLOAF:コリシオン・アウェア・ヒューマン・フロー

CLOAF: CoLlisiOn-Aware Human Flow ( http://arxiv.org/abs/2403.09050v1 )

ライセンス: Link先を確認
Andrey Davydov, Martin Engilberge, Mathieu Salzmann, Pascal Fua, (参考訳) 身体の3次元形状を推定し、身体の自己断面積を含む収率を推定するための最良の電流アルゴリズムさえも。 本稿では, 通常の微分方程式の微分特性を利用して, 体形制約を課しながら, 自己切断を除去する CLOAF を提案する。 この課題に対処する従来のアプローチとは異なり、再建の正確さを損なうことなく、自己切断を完全に排除できることが示される。 異なるため、CLOAFはポーズの微調整と形状推定のベースラインを使用でき、全体的なパフォーマンスを改善し、予測における自己断面積を排除できる。 さらに,ユーザによって誘導される任意の運動場に対して,我々のCLOAF戦略をどのように適用できるかを示す。 CLOAFはまた、前もって衝突や体型喪失を心配することなく、動きを編集して環境と対話することを可能にする。

Even the best current algorithms for estimating body 3D shape and pose yield results that include body self-intersections. In this paper, we present CLOAF, which exploits the diffeomorphic nature of Ordinary Differential Equations to eliminate such self-intersections while still imposing body shape constraints. We show that, unlike earlier approaches to addressing this issue, ours completely eliminates the self-intersections without compromising the accuracy of the reconstructions. Being differentiable, CLOAF can be used to fine-tune pose and shape estimation baselines to improve their overall performance and eliminate self-intersections in their predictions. Furthermore, we demonstrate how our CLOAF strategy can be applied to practically any motion field induced by the user. CLOAF also makes it possible to edit motion to interact with the environment without worrying about potential collision or loss of body-shape prior.
翻訳日:2024-03-15 22:07:16 公開日:2024-03-14
# モデル蒸留の理論に向けて

Towards a theory of model distillation ( http://arxiv.org/abs/2403.09053v1 )

ライセンス: Link先を確認
Enric Boix-Adsera, (参考訳) 蒸留は、複雑な機械学習モデルを元の[BCNM06,HVD15]を近似する単純なモデルに置き換える作業である。 多くの実用的応用にもかかわらず、モデルが蒸留できる範囲と、蒸留に必要な実行時間とデータ量に関する基本的な問題は、ほとんど未解決のままである。 これらの問題を研究するために、PAC蒸留をPAC学習に類似した方法で定義する蒸留の一般理論を開始する[Val84]。 この理論の応用として、(1)ニューラルネットワークの訓練された重みに蓄積された知識を抽出する新しいアルゴリズムを提案し、(2)ニューラルネットワークを「線形表現仮説」を用いて可能な限り簡潔で明確な決定木表現に効率的に抽出する方法を示し、(2)蒸留がスクラッチから学習するよりもはるかに安価であることを証明し、その複雑さを特徴付ける。

Distillation is the task of replacing a complicated machine learning model with a simpler model that approximates the original [BCNM06,HVD15]. Despite many practical applications, basic questions about the extent to which models can be distilled, and the runtime and amount of data needed to distill, remain largely open. To study these questions, we initiate a general theory of distillation, defining PAC-distillation in an analogous way to PAC-learning [Val84]. As applications of this theory: (1) we propose new algorithms to extract the knowledge stored in the trained weights of neural networks -- we show how to efficiently distill neural networks into succinct, explicit decision tree representations when possible by using the ``linear representation hypothesis''; and (2) we prove that distillation can be much cheaper than learning from scratch, and make progress on characterizing its complexity.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# Keyformer: 効率的な生成推論のためのキートークン選択によるKVキャッシュ削減

Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference ( http://arxiv.org/abs/2403.09054v1 )

ライセンス: Link先を確認
Muhammad Adnan, Akhil Arunkumar, Gaurav Jain, Prashant J. Nair, Ilya Soloveychik, Purushotham Kamath, (参考訳) トランスフォーマーは、LLM(Large Language Models)の基盤となるアーキテクチャとして登場した。 生成言語モデルでは、推論プロセスはプロンプト処理とトークン生成の2つの主要なフェーズを含む。 計算ワークロードの大部分を構成するトークン生成は、主にベクトル行列の乗算とキーバリュー(KV)キャッシュとの相互作用を必要とする。 この位相は、メモリシステムからコンピュータユニットへの重みとKVキャッシュ値の転送のオーバーヘッドにより、メモリ帯域幅に制約される。 このメモリボトルネックは、長いコンテキストと広範なテキスト生成を必要とするアプリケーションでは特に顕著になり、これらはLLMにとってますます重要になっている。 本稿では、KVキャッシュサイズとメモリ帯域幅利用に伴う課題を軽減するために、革新的な推論時間アプローチである"Keyformer"を紹介する。 キーフォーマーは、生成推論における注意重みの約90%が「キー」トークンと呼ばれるトークンの特定のサブセットに焦点を当てているという観察を活用している。 Keyformerは、新しいスコア関数を使用してこれらの重要なトークンを識別することで、KVキャッシュ内のキートークンのみを保持する。 このアプローチは、モデル精度を損なうことなく、KVキャッシュサイズとメモリ帯域幅使用量の両方を効果的に削減する。 我々は,3つの基本モデル(GPT-J,Cerebras-GPT,MPT)にまたがってKeyformerの性能を評価する。 我々の評価は様々なタスクを包含しており、特に拡張コンテキストを含む要約や会話タスクに重点を置いている。 KVキャッシュの削減により、推論遅延を2.1倍削減し、モデルの精度を維持しながらトークン生成スループットを2.4倍改善する。

Transformers have emerged as the underpinning architecture for Large Language Models (LLMs). In generative language models, the inference process involves two primary phases: prompt processing and token generation. Token generation, which constitutes the majority of the computational workload, primarily entails vector-matrix multiplications and interactions with the Key-Value (KV) Cache. This phase is constrained by memory bandwidth due to the overhead of transferring weights and KV cache values from the memory system to the computing units. This memory bottleneck becomes particularly pronounced in applications that require long-context and extensive text generation, both of which are increasingly crucial for LLMs. This paper introduces "Keyformer", an innovative inference-time approach, to mitigate the challenges associated with KV cache size and memory bandwidth utilization. Keyformer leverages the observation that approximately 90% of the attention weight in generative inference focuses on a specific subset of tokens, referred to as "key" tokens. Keyformer retains only the key tokens in the KV cache by identifying these crucial tokens using a novel score function. This approach effectively reduces both the KV cache size and memory bandwidth usage without compromising model accuracy. We evaluate Keyformer's performance across three foundational models: GPT-J, Cerebras-GPT, and MPT, which employ various positional embedding algorithms. Our assessment encompasses a variety of tasks, with a particular emphasis on summarization and conversation tasks involving extended contexts. Keyformer's reduction of KV cache reduces inference latency by 2.1x and improves token generation throughput by 2.4x, while preserving the model's accuracy.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# StreamMultiDiffusion: 領域ベースセマンティック制御によるリアルタイム対話型生成

StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control ( http://arxiv.org/abs/2403.09055v1 )

ライセンス: Link先を確認
Jaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee, (参考訳) テキストと画像の合成における拡散モデルの成功は、画像生成と編集のための次世代エンドユーザーアプリケーションに有望な候補を与えている。 従来の研究は、推論時間を削減するか、地域ベースのテキストプロンプトのような、よりきめ細かい新しい制御を可能にすることで、拡散モデルのユーザビリティ向上に重点を置いてきた。 しかし、経験的に、作品の両枝を統合することは自明であり、拡散モデルのポテンシャルを制限している。 この不整合性を解決するために,最初のリアルタイム領域ベースのテキスト画像生成フレームワークであるStreamMultiDiffusionを提案する。 高速な推論手法を安定化し,新たに提案したマルチプロンプトストリームバッチアーキテクチャにモデルを再構成することにより,既存のソリューションよりも10ドル高速なパノラマ生成を実現し,単一RTX 2080 Ti GPU上での領域ベーステキスト-画像合成における1.57 FPSの生成速度を実現した。 提案手法は,複数の手書き領域から高品質な画像がリアルタイムで生成され,所定の意味意味(例えば,ワシ,少女)を符号化する,インタラクティブな画像生成のための新しいパラダイムであるセマンティックパレット(セマンティックパレット)を開放する。 私たちのコードとデモアプリケーションはhttps://github.com/ironjr/StreamMultiDiffusion.comで公開されています。

The enormous success of diffusion models in text-to-image synthesis has made them promising candidates for the next generation of end-user applications for image generation and editing. Previous works have focused on improving the usability of diffusion models by reducing the inference time or increasing user interactivity by allowing new, fine-grained controls such as region-based text prompts. However, we empirically find that integrating both branches of works is nontrivial, limiting the potential of diffusion models. To solve this incompatibility, we present StreamMultiDiffusion, the first real-time region-based text-to-image generation framework. By stabilizing fast inference techniques and restructuring the model into a newly proposed multi-prompt stream batch architecture, we achieve $\times 10$ faster panorama generation than existing solutions, and the generation speed of 1.57 FPS in region-based text-to-image synthesis on a single RTX 2080 Ti GPU. Our solution opens up a new paradigm for interactive image generation named semantic palette, where high-quality images are generated in real-time from given multiple hand-drawn regions, encoding prescribed semantic meanings (e.g., eagle, girl). Our code and demo application are available at https://github.com/ironjr/StreamMultiDiffusion.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# 産業集積ラインにおける手動作認識のための基礎モデル自動データ拡張戦略と骨格点の活用

Leveraging Foundation Model Automatic Data Augmentation Strategies and Skeletal Points for Hands Action Recognition in Industrial Assembly Lines ( http://arxiv.org/abs/2403.09056v1 )

ライセンス: Link先を確認
Liang Wu, X. -G. Ma, (参考訳) 現代の産業組立ラインでは、労働者を置き換えたり監督したりするために多くのインテリジェントなアルゴリズムが開発されている。 しかし、実際のアセンブリラインにアルゴリズムをデプロイする際に、トレーニングデータセットとリアルタイムパフォーマンスの両方にボトルネックがあることがわかりました。 そこで我々は,高効率で高品質で大規模なデータセット拡張を実現するために,強力な一般化能力を持つ大規模モデルを活用した産業用データセットの拡大に向けた有望な戦略を開発し,不十分かつ低品質な産業用データセットの問題を解決する。 また,この戦略を映像行動認識にも適用した。 我々は,手動認識問題を手動軌道分類問題に変換する手法を提案し,産業用アルゴリズムのリアルタイム性能問題を解いた。 実際の組立ラインの「ワイヤ挿入時の手の動き」シナリオでは、手動作認識の精度は98.8\%に達した。 提案手法の有効性と優位性を実証するため, 詳細な実験解析を行い, ミデアの実際の組立ラインに全工程を配置した。

On modern industrial assembly lines, many intelligent algorithms have been developed to replace or supervise workers. However, we found that there were bottlenecks in both training datasets and real-time performance when deploying algorithms on actual assembly line. Therefore, we developed a promising strategy for expanding industrial datasets, which utilized large models with strong generalization abilities to achieve efficient, high-quality, and large-scale dataset expansion, solving the problem of insufficient and low-quality industrial datasets. We also applied this strategy to video action recognition. We proposed a method of converting hand action recognition problems into hand skeletal trajectory classification problems, which solved the real-time performance problem of industrial algorithms. In the "hand movements during wire insertion" scenarios on the actual assembly line, the accuracy of hand action recognition reached 98.8\%. We conducted detailed experimental analysis to demonstrate the effectiveness and superiority of the method, and deployed the entire process on Midea's actual assembly line.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# 医用ノート自動作成のためのLCMの継続的事前訓練手法

A Continued Pretrained LLM Approach for Automatic Medical Note Generation ( http://arxiv.org/abs/2403.09057v1 )

ライセンス: Link先を確認
Dong Yuan, Eti Rastogi, Gautam Naik, Jai Chintagunta, Sree Prasanna Rajagopal, Fen Zhao, Sagar Goyal, Jeff Ward, (参考訳) LLMはNLPタスクに革命を起こしています。 しかし、GPT-4のような最も強力なLCMは、ほとんどのドメイン固有のシナリオではコストがかかりすぎる。 Llama2 をベースとした13B Llama2 ベース LLM は,医療会話用に構築され,自動切削で測定される。 我々のモデルはPubMedQAで76.6%の精度でGPT-4より優れており、医療会話をSOAPノートに要約する際の性能と一致している。 特に,本モデルでは,正しい医療概念の獲得においてGPT-4を超越し,高い正確性と完全性でヒトの書式を上回ります。

LLMs are revolutionizing NLP tasks. However, the most powerful LLM, like GPT-4, is too costly for most domain-specific scenarios. We present the first continuously trained 13B Llama2-based LLM that is purpose-built for medical conversations and measured on automated scribing. Our results show that our model outperforms GPT-4 in PubMedQA with 76.6\% accuracy and matches its performance in summarizing medical conversations into SOAP notes. Notably, our model exceeds GPT-4 in capturing a higher number of correct medical concepts and outperforms human scribes with higher correctness and completeness.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# LAMP: マップ上の言語モデル

LAMP: A Language Model on the Map ( http://arxiv.org/abs/2403.09059v1 )

ライセンス: Link先を確認
Pasquale Balsebre, Weiming Huang, Gao Cong, (参考訳) 大規模言語モデル(LLM)は、私たちの生活においてますます重要な役割を担い、幅広いタスクに補助を提供しています。 地理空間領域では、LLMは、都の特定などの一般的な質問に答える能力を示したが、それでも、食料品店やレストランなど、人々の日常生活の本質的な側面である特定の場所に関するきめ細かい質問に答えることに関して、その実用性は妨げられている。 これは、都市部がLLMに体系的に組み込まれていないためであり、その理解と記憶が目的である。 本研究は, 学習済みモデルを都市固有のデータに基づいて微調整し, 幻覚を最小化しつつ, 正確なレコメンデーションの提供を可能にする新しい枠組みを提案する。 モデルやLAMP、トレーニングに使用するデータを共有しています。 我々は,空間オブジェクトを正しく検索する能力について実験を行い,GPT-4のようなオープン・クローズド・ソース言語モデルと比較する。 最後に、日々の計画に関するケーススタディを通じて、その新興能力を探求する。

Large Language Models (LLMs) are poised to play an increasingly important role in our lives, providing assistance across a wide array of tasks. In the geospatial domain, LLMs have demonstrated the ability to answer generic questions, such as identifying a country's capital; nonetheless, their utility is hindered when it comes to answering fine-grained questions about specific places, such as grocery stores or restaurants, which constitute essential aspects of people's everyday lives. This is mainly because the places in our cities haven't been systematically fed into LLMs, so as to understand and memorize them. This study introduces a novel framework for fine-tuning a pre-trained model on city-specific data, to enable it to provide accurate recommendations, while minimizing hallucinations. We share our model, LAMP, and the data used to train it. We conduct experiments to analyze its ability to correctly retrieving spatial objects, and compare it to well-known open- and closed- source language models, such as GPT-4. Finally, we explore its emerging capabilities through a case study on day planning.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# TBI画像/テキスト(TBI-IT):外傷性脳損傷研究のための総合的テキストと画像データセット

TBI Image/Text (TBI-IT): Comprehensive Text and Image Datasets for Traumatic Brain Injury Research ( http://arxiv.org/abs/2403.09062v1 )

ライセンス: Link先を確認
Jie Li, Jiaying Wen, Tongxin Yang, Fenglin Cai, Miao Wei, Zhiwei Zhang, Li Jiang, (参考訳) 本稿では,TBI-IT(Traumatic Brain Injury)の医療分野における新たなデータセットについて紹介する。 このデータセットは、TBIの診断と治療における人工知能の精度を高めるように設計されている。 このデータセットは、標準のテキストと画像データの基礎の上に構築され、EMRに特定のアノテーションを組み込んで、テキスト情報から重要な内容を取り出し、画像データのアノテーション内容は脳中線、血腫、左脳室、右脳室、骨折の5種類に分類される。 TBI-ITは、画像セグメンテーションタスクと名前付きエンティティ認識における特徴学習のための基礎的なデータセットである。

In this paper, we introduce a new dataset in the medical field of Traumatic Brain Injury (TBI), called TBI-IT, which includes both electronic medical records (EMRs) and head CT images. This dataset is designed to enhance the accuracy of artificial intelligence in the diagnosis and treatment of TBI. This dataset, built upon the foundation of standard text and image data, incorporates specific annotations within the EMRs, extracting key content from the text information, and categorizes the annotation content of imaging data into five types: brain midline, hematoma, left cerebral ventricle, right cerebral ventricle and fracture. TBI-IT aims to be a foundational dataset for feature learning in image segmentation tasks and named entity recognition.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# 3次元メッシュ回収のための分布・深さ対応変圧器

Distribution and Depth-Aware Transformers for 3D Human Mesh Recovery ( http://arxiv.org/abs/2403.09063v1 )

ライセンス: Link先を確認
Jerrin Bright, Bavesh Balaji, Harish Prakash, Yuhao Chen, David A Clausi, John Zelek, (参考訳) in-the-wildデータを用いた高精度ヒューマンメッシュリカバリ(HMR)は、深刻な課題であり、しばしば深さの曖昧さと精度の低下によって妨げられる。 既存の作業では、先行データやマルチビューやポイントクラウド情報といったマルチモーダルデータを利用するが、それらの手法は、1つの画像に本質的に存在する貴重なシーン深度情報を見落としていることが多い。 さらに,オフ・オブ・ディストリビューション(OOD)データに対するロバストなHMRの実現は,ポーズ,形状,深さに固有の変化があるため,極めて困難である。 その結果、人間の形態をモデル化する上で、基礎となる分布を理解することは重要なサブプロブレムとなる。 不明瞭でロバストな人体モデリングの必要性から,分布と深度を考慮した人体メッシュリカバリ(D2A-HMR)を導入し,分布間の相違を最小化し,事前の深度情報を活用したシーンディープスを組み込んだエンド・ツー・エンド・トランスフォーマーアーキテクチャを提案する。 提案手法は,特定のシナリオにおけるOODデータ処理における優れた性能を示すとともに,制御されたデータセット上での最先端HMR法に対して一貫して競合する結果が得られることを示す。

Precise Human Mesh Recovery (HMR) with in-the-wild data is a formidable challenge and is often hindered by depth ambiguities and reduced precision. Existing works resort to either pose priors or multi-modal data such as multi-view or point cloud information, though their methods often overlook the valuable scene-depth information inherently present in a single image. Moreover, achieving robust HMR for out-of-distribution (OOD) data is exceedingly challenging due to inherent variations in pose, shape and depth. Consequently, understanding the underlying distribution becomes a vital subproblem in modeling human forms. Motivated by the need for unambiguous and robust human modeling, we introduce Distribution and depth-aware human mesh recovery (D2A-HMR), an end-to-end transformer architecture meticulously designed to minimize the disparity between distributions and incorporate scene-depth leveraging prior depth information. Our approach demonstrates superior performance in handling OOD data in certain scenarios while consistently achieving competitive results against state-of-the-art HMR methods on controlled datasets.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# セマンティックセグメンテーションが周波数エイリアスに遭遇する

When Semantic Segmentation Meets Frequency Aliasing ( http://arxiv.org/abs/2403.09065v1 )

ライセンス: Link先を確認
Linwei Chen, Lin Gu, Ying Fu, (参考訳) 近年のセマンティックセグメンテーションの進歩にもかかわらず、どのピクセルがセグメンテーションが難しいのかは明らかにされていない。 既存の研究では、イメージを簡単で硬い領域に分けるだけで、後者がオブジェクトの境界と関連していることを実証的に観察する。 本稿では,ハードピクセルの誤りを包括的に解析し,これらを3つのタイプに分類する。 その結果, ダウンサンプリング中のフーリエ領域の周波数成分の重なりによる歪みが, ハードピクセルとエイリアシングの定量的な関連性を示した。 エイリアスの原因となる周波数を同定するために,同値サンプリングレートを用いて,エイリアスに対する閾値を示すナイキスト周波数を算出する。 次に,エイリアス化の度合いを定量化する指標としてエイリアス化スコアを導入する。 提案したエイリアススコアと正に相関するが、3種類のハードピクセルは異なるパターンを示す。 本稿では,Nyquist周波数よりも高い周波数を正確に除去・調整することにより,エイリアス劣化を軽減するために,DAF(de-aliasing filter)とFreqMix( frequency mix)の2つの新しいモジュールを提案する。 DAFはダウンサンプリング前にエイリアスを行う周波数を正確に除去し、FreqMixはエンコーダブロック内の高周波成分を動的に選択する。 実験結果はセマンティックセグメンテーションと低照度インスタンスセグメンテーションタスクにおいて一貫した改善を示す。 コードは以下の通り。 \url{https://github.com/Linwei-Chen/Seg-Aliasing}。

Despite recent advancements in semantic segmentation, where and what pixels are hard to segment remains largely unexplored. Existing research only separates an image into easy and hard regions and empirically observes the latter are associated with object boundaries. In this paper, we conduct a comprehensive analysis of hard pixel errors, categorizing them into three types: false responses, merging mistakes, and displacements. Our findings reveal a quantitative association between hard pixels and aliasing, which is distortion caused by the overlapping of frequency components in the Fourier domain during downsampling. To identify the frequencies responsible for aliasing, we propose using the equivalent sampling rate to calculate the Nyquist frequency, which marks the threshold for aliasing. Then, we introduce the aliasing score as a metric to quantify the extent of aliasing. While positively correlated with the proposed aliasing score, three types of hard pixels exhibit different patterns. Here, we propose two novel de-aliasing filter (DAF) and frequency mixing (FreqMix) modules to alleviate aliasing degradation by accurately removing or adjusting frequencies higher than the Nyquist frequency. The DAF precisely removes the frequencies responsible for aliasing before downsampling, while the FreqMix dynamically selects high-frequency components within the encoder block. Experimental results demonstrate consistent improvements in semantic segmentation and low-light instance segmentation tasks. The code is available at: \url{https://github.com/Linwei-Chen/Seg-Aliasing}.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# 連続学習におけるハイパーパラメータ:リアリティチェック

Hyperparameters in Continual Learning: a Reality Check ( http://arxiv.org/abs/2403.09066v1 )

ライセンス: Link先を確認
Sungmin Cha, Kyunghyun Cho, (参考訳) CLプロセスにおける安定性と可塑性のトレードオフを効果的に緩和する目的で,連続学習のための様々なアルゴリズムが設計されている。 この目的を達成するために、各アルゴリズムに適切なハイパーパラメータをチューニングすることが不可欠である。 評価プロトコルとして,ベンチマークデータセットで構築したCLシナリオ上で,多様なハイパーパラメータ値を用いたCLアルゴリズムのトレーニングが一般的である。 その後、最適パラメータ値が得られた最高の性能は、CLアルゴリズムを評価するための基準となる。 本稿では,この評価プロトコルは実用的でなく,CLアルゴリズムのCL能力を効果的に評価することができないことを主張する。 機械学習におけるモデル評価の基本原理に回帰して,ハイパーパラメータチューニングと評価フェーズを含む評価プロトコルを提案する。 これらのフェーズは異なるデータセットで構成されるが、同じCLシナリオを共有する。 ハイパーパラメータチューニングフェーズでは、各アルゴリズムは最適なハイパーパラメータ値を見つけるために異なるハイパーパラメータ値で反復的に訓練される。 その後、評価フェーズでは、各アルゴリズムのトレーニングに最適なハイパーパラメータ値が直接適用され、評価フェーズにおけるその性能が評価の基準となる。 CIFAR-100 と ImageNet-100 の実験を通じて,既存の評価手法が各アルゴリズムのCL能力を適切に評価できないだけでなく,最近提案された最先端のアルゴリズムが,従来のアルゴリズムと比較して性能が劣っていることを観察した。

Various algorithms for continual learning (CL) have been designed with the goal of effectively alleviating the trade-off between stability and plasticity during the CL process. To achieve this goal, tuning appropriate hyperparameters for each algorithm is essential. As an evaluation protocol, it has been common practice to train a CL algorithm using diverse hyperparameter values on a CL scenario constructed with a benchmark dataset. Subsequently, the best performance attained with the optimal hyperparameter value serves as the criterion for evaluating the CL algorithm. In this paper, we contend that this evaluation protocol is not only impractical but also incapable of effectively assessing the CL capability of a CL algorithm. Returning to the fundamental principles of model evaluation in machine learning, we propose an evaluation protocol that involves Hyperparameter Tuning and Evaluation phases. Those phases consist of different datasets but share the same CL scenario. In the Hyperparameter Tuning phase, each algorithm is iteratively trained with different hyperparameter values to find the optimal hyperparameter values. Subsequently, in the Evaluation phase, the optimal hyperparameter values is directly applied for training each algorithm, and their performance in the Evaluation phase serves as the criterion for evaluating them. Through experiments on CIFAR-100 and ImageNet-100 based on the proposed protocol in class-incremental learning, we not only observed that the existing evaluation method fail to properly assess the CL capability of each algorithm but also observe that some recently proposed state-of-the-art algorithms, which reported superior performance, actually exhibit inferior performance compared to the previous algorithm.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# 社会的行動生成のための動的相互作用モデリング

Dyadic Interaction Modeling for Social Behavior Generation ( http://arxiv.org/abs/2403.09069v1 )

ライセンス: Link先を確認
Minh Tran, Di Chang, Maksim Siniukov, Mohammad Soleymani, (参考訳) 人間と人間のコミュニケーションは、リスナーと話者が同時に対話して会話のダイナミクスを維持する、繊細なダンスのようなものです。 したがって、リスナー非言語行動を生成する効果的なモデルには、ダイアドの文脈と相互作用を理解する必要がある。 本稿では,ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。 既存の作業では、リスナーは話者の声や顔の動きに対する反射的な振る舞いを持つ反応剤であると考えられている。 我々のフレームワークの核心はDyadic Interaction Modeling (DIM) である。これは、Dyadicコンテキストをキャプチャする表現を学ぶために、マスキングと対照的な学習を通じて、話者とリスナーの動作を共同でモデル化する訓練前のアプローチである。 非決定論的行動の生成を可能にするため、VQ-VAEを介してリスナーと話者の動作を個別の潜在表現に符号化する。 事前訓練されたモデルは、モーション生成のためにさらに微調整される。 広範にわたる実験は, 聴取者の動作生成における枠組みの優位性を実証し, 生成した動きの多様性とリアリズムを定量的に把握し, 新たな最先端技術を確立した。 定性的な結果は、多様で現実的な表現、目まき、頭部ジェスチャーの生成における提案手法の優れた能力を示している。

Human-human communication is like a delicate dance where listeners and speakers concurrently interact to maintain conversational dynamics. Hence, an effective model for generating listener nonverbal behaviors requires understanding the dyadic context and interaction. In this paper, we present an effective framework for creating 3D facial motions in dyadic interactions. Existing work consider a listener as a reactive agent with reflexive behaviors to the speaker's voice and facial motions. The heart of our framework is Dyadic Interaction Modeling (DIM), a pre-training approach that jointly models speakers' and listeners' motions through masking and contrastive learning to learn representations that capture the dyadic context. To enable the generation of non-deterministic behaviors, we encode both listener and speaker motions into discrete latent representations, through VQ-VAE. The pre-trained model is further fine-tuned for motion generation. Extensive experiments demonstrate the superiority of our framework in generating listener motions, establishing a new state-of-the-art according to the quantitative measures capturing the diversity and realism of generated motions. Qualitative results demonstrate the superior capabilities of the proposed approach in generating diverse and realistic expressions, eye blinks and head gestures.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# UniCode: マルチモーダルな大規模言語モデルのための統一コードブックを学ぶ

UniCode: Learning a Unified Codebook for Multimodal Large Language Models ( http://arxiv.org/abs/2403.09072v1 )

ライセンス: Link先を確認
Sipeng Zheng, Bohan Zhou, Yicheng Feng, Ye Wang, Zongqing Lu, (参考訳) 本稿では,マルチモーダル大規模言語モデル(MLLM)の領域内で,視覚的,テキスト的,潜在的に他の種類の信号を効率的にトークン化するための統一コードブックを学習する,新しいアプローチである \textbf{UniCode} を提案する。 MLLMはテキストのみのコードブックに依存しており、マルチモーダルコンテキストで画像やテキストを生成する能力を制限する。 そこで,本稿では,言語駆動型反復学習パラダイムと,<image decompression''というコンテキスト内事前学習タスクを併用して,圧縮された視覚データを解釈し,高品質な画像を生成するためのモデルを提案する。 さらに、UniCodeは、視覚信号をよりコンパクトなトークン表現に圧縮するために、様々な積み重ね量子化アプローチに適応できる。 トレーニング中にパラメータが大幅に少なく、データが少ないにもかかわらず、Unicodeは視覚的再構成と生成の有望な能力を示している。 また、VQAベンチマークでリードするMLLMに匹敵するパフォーマンスも達成している。

In this paper, we propose \textbf{UniCode}, a novel approach within the domain of multimodal large language models (MLLMs) that learns a unified codebook to efficiently tokenize visual, text, and potentially other types of signals. This innovation addresses a critical limitation in existing MLLMs: their reliance on a text-only codebook, which restricts MLLM's ability to generate images and texts in a multimodal context. Towards this end, we propose a language-driven iterative training paradigm, coupled with an in-context pre-training task we term ``image decompression'', enabling our model to interpret compressed visual data and generate high-quality images.The unified codebook empowers our model to extend visual instruction tuning to non-linguistic generation tasks. Moreover, UniCode is adaptable to diverse stacked quantization approaches in order to compress visual signals into a more compact token representation. Despite using significantly fewer parameters and less data during training, Unicode demonstrates promising capabilities in visual reconstruction and generation. It also achieves performances comparable to leading MLLMs across a spectrum of VQA benchmarks.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# 大規模言語モデルは並列多言語学習者である

Large Language Models are Parallel Multilingual Learners ( http://arxiv.org/abs/2403.09073v1 )

ライセンス: Link先を確認
Yongyu Mu, Peinan Feng, Zhiquan Cao, Yuzhang Wu, Bei Li, Chenglong Wang, Tong Xiao, Kai Song, Tongran Liu, Chunliang Zhang, Jingbo Zhu, (参考訳) 本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。複数の言語に入力を変換することで,並列入力を複数言語(PiM)からLLMに提供し,その理解能力を大幅に向上させる。 この能力をテストするために,8つの典型的なデータセット,7言語,8つの最先端多言語LPMを含む広範囲な実験を設計した。 実験の結果,(1) より多くの言語を組み込むことで,PiM が従来のICLをさらに上回り,(2) ベースライン性能に劣る翻訳と組み合わせることも有効であることがわかった。 さらに, LLMの活性化ニューロンを調べることで, 直感的ではあるが興味深い現象が発見された。 PiMは単言語入力よりも多くのニューロンを活性化し、多様な言語から学んだ知識を活用するという一般的な考えとは対照的に、PiMは実際にはニューロンを阻害し、特に多くの言語が加えられたときにより正確なニューロン活性化を促進する。 この現象はシナプス・プルーニングに関する神経科学的な洞察と一致し、あまり使われていない神経の接続を除去し、残りの部分を強化し、脳の知性を増強する。

In this study, we reveal an in-context learning (ICL) capability of multilingual large language models (LLMs): by translating the input to several languages, we provide Parallel Input in Multiple Languages (PiM) to LLMs, which significantly enhances their comprehension abilities. To test this capability, we design extensive experiments encompassing 8 typical datasets, 7 languages and 8 state-of-the-art multilingual LLMs. Experimental results show that (1) incorporating more languages help PiM surpass the conventional ICL further; (2) even combining with the translations that are inferior to baseline performance can also help. Moreover, by examining the activated neurons in LLMs, we discover a counterintuitive but interesting phenomenon. Contrary to the common thought that PiM would activate more neurons than monolingual input to leverage knowledge learned from diverse languages, PiM actually inhibits neurons and promotes more precise neuron activation especially when more languages are added. This phenomenon aligns with the neuroscience insight about synaptic pruning, which removes less used neural connections, strengthens remainders, and then enhances brain intelligence.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# 非可換位相空間におけるクライン=ゴルドン理論

Klein-Gordon theory in noncommutative phase space ( http://arxiv.org/abs/2403.09075v1 )

ライセンス: Link先を確認
Shi-Dong Liang, (参考訳) 位置とモータ作用素の3次元非可換関係を4次元のものと拡張する。 ボップシフト法を用いて、これらの非可換代数のハイゼンベルク表現を与え、プランク定数、プランク長および宇宙定数に関連する非可換パラメータを与える。 電磁ゲージポテンシャルのアナログとして、非可換効果は、プランク定数と宇宙定数に依存する有効ゲージ場として解釈することができる。 これらの非可換関係に基づき、正準形式やハミルトン形式を含む非可換位相空間におけるクライン=ゴルドン方程式とその対応する電流連続性方程式と、それらのKG方程式以外の新しい性質を与える。 我々は、KG方程式の対称性と非可換位相空間における自由粒子の速度や力などの可観測性を分析する。 KG方程式の摂動解を与える。

We extend the three-dimensional noncommutative relations of the positions and momenta operators to those in the four dimension. Using the Bopp shift technique, we give the Heisenberg representation of these noncommutative algebras and endow the noncommutative parameters associated with the Planck constant, Planck length and cosmological constant. As an analog with the electromagnetic gauge potential, the noncommutative effect can be interpreted as an effective gauge field, which depends on the Plank constant and cosmological constant. Based on these noncommutative relations, we give the Klein-Gordon (KG) equation and its corresponding current continuity equation in the noncommutative phase space including the canonical and Hamiltonian forms and their novel properties beyond the conventional KG equation. We analyze the symmetries of the KG equations and some observables such as velocity and force of free particles in the noncommutative phase space. We give the perturbation solution of the KG equation.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# 情報抽出:発展途上国におけるハイパーローカル金融データの分野への応用

Information Extraction: An application to the domain of hyper-local financial data on developing countries ( http://arxiv.org/abs/2403.09077v1 )

ライセンス: Link先を確認
Abuzar Royesh, Olamide Oladeji, (参考訳) 開発途上国の企業活動に関する財務データが開発研究や経済分析に必要であるにもかかわらず、そのようなデータは存在しない。 本稿では,この問題に対処する2つの自然言語処理技術(NLP)を開発し,評価する。 まず、発展途上国の財務文書データのドメインに特有のカスタムデータセットをキュレートし、情報抽出のための複数のアプローチを探索する。 次に,変換器をベースとしたT5モデルを用いてテキストからテキストへのアプローチを探索し,NERと関係抽出を同時に行うことを目的とする。 このモデルでは、エンティティとその関係に対応するカスタムテキスト構造出力データを学習でき、精度は92.44\%、精度は68.25\%、リコールは54.20\%となる。 次に、シーケンシャルなNERと関係の引き渡しによるアプローチについて検討する。 NERでは、SpaCyを用いた事前学習モデルと微調整モデルを実行し、SpaCyのDependency Parser出力といくつかのヒューリスティックスを用いて独自の関係抽出モデルを構築し、エンティティ関係を決定する。 精度は84.72 %、精度は6.06 %、リコールは5.57 %である。

Despite the need for financial data on company activities in developing countries for development research and economic analysis, such data does not exist. In this project, we develop and evaluate two Natural Language Processing (NLP) based techniques to address this issue. First, we curate a custom dataset specific to the domain of financial text data on developing countries and explore multiple approaches for information extraction. We then explore a text-to-text approach with the transformer-based T5 model with the goal of undertaking simultaneous NER and relation extraction. We find that this model is able to learn the custom text structure output data corresponding to the entities and their relations, resulting in an accuracy of 92.44\%, a precision of 68.25\% and a recall of 54.20\% from our best T5 model on the combined task. Secondly, we explore an approach with sequential NER and relation extration. For the NER, we run pre-trained and fine-tuned models using SpaCy, and we develop a custom relation extraction model using SpaCy's Dependency Parser output and some heuristics to determine entity relationships \cite{spacy}. We obtain an accuracy of 84.72\%, a precision of 6.06\% and a recall of 5.57\% on this sequential task.
翻訳日:2024-03-15 21:57:10 公開日:2024-03-14
# 磁気ノイズのモンテカルロスピンシミュレーション -ピボットの探索-

Monte Carlo Spin Simulations of Magnetic Noise -- The Search for Pivoting ( http://arxiv.org/abs/2403.09078v1 )

ライセンス: Link先を確認
D. L. Mickelsen, Ruqian Wu, Clare C. Yu, (参考訳) 超伝導量子干渉デバイス(SQUID)は量子ビット(量子ビット)として大きな可能性を秘めているが、フラックスノイズによって妨げられ続けている。 SQUIDのフラックスノイズパワースペクトルは1/f^\alpha$となり、$\alpha$は温度依存性ノイズ指数である。 実験では、0.5 \lesssim \alpha \lesssim 1$である。 さらに、SQUID毎に異なる温度でのノイズパワースペクトルと周波数が共通点で回転または交差していることが実験により明らかになった。 SQUIDS表面の磁気モーメントがフラックスノイズを生じるという実験的な証拠によって、結果をよりよく理解し、動機付けるために、2次元格子上の様々なスピン系のモンテカルロシミュレーションの結果を示す。 スピングラスだけが低温で$\alpha \sim 1$を生成することがわかった。 その結果,高周波数での雑音パワースペクトルのエイリアス化は,膝近傍の周波数がわずかに低い場合のスペクトル偏光につながることが判明した。 ピボット周波数は, 位置選択法と磁化の頻度に依存することを示す。 シミュレーションで発生するスペクトルの偏光はエイリアスによるもので、実験のスペクトルの偏光を説明できない。

Superconducting quantum interference devices (SQUIDs) show great promise as quantum bits (qubits) but continue to be hindered by flux noise. The flux noise power spectra of SQUIDs go as $1/f^\alpha$, where $\alpha$ is the temperature-dependent noise exponent. Experiments find $0.5 \lesssim \alpha \lesssim 1$. Furthermore, experiments find that the noise power spectra versus frequency at different temperatures pivot about or cross at a common point for each SQUID. To try to better understand the results and motivated by experimental evidence that magnetic moments on the surface of SQUIDS produce flux noise, we present the results of our Monte Carlo simulations of various spin systems on 2D lattices. We find that only spin glasses produce $\alpha \sim 1$ at low temperature. We find that aliasing of the noise power spectra at high frequencies can lead to spectral pivoting if it is in proximity to a knee at a slightly lower frequency. We show that the pivot frequency depends on the method of site selection and how often the magnetization is recorded. The spectral pivoting that occurs in our simulations is due to aliasing and does not explain the spectral pivoting of experiments.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# PreSight:都市規模のNeRFプリミティブによる自動運転車の認識向上

PreSight: Enhancing Autonomous Vehicle Perception with City-Scale NeRF Priors ( http://arxiv.org/abs/2403.09079v1 )

ライセンス: Link先を確認
Tianyuan Yuan, Yucheng Mao, Jiawei Yang, Yicheng Liu, Yue Wang, Hang Zhao, (参考訳) 自動運転車は周囲をナビゲートし解釈するために認識システムに大きく依存している。 最近のシステムでは大きな進歩があったが、排他的、極端な照明、不慣れな都市部といった条件下では課題が続いている。 これらのシステムとは異なり、人間は環境を知覚する瞬間的な観察にのみ依存するわけではない。 新しい都市をナビゲートする際、人間は徐々に、その後の訪問中にリアルタイムの知覚を補うための予備的なメンタルマップを開発していく。 このような人間的アプローチに触発されて,過去の移動を利用して静的な事前記憶を構築し,その後のナビゲーションにおけるオンライン認識を高める,新しいフレームワークであるPre-Sightを導入する。 提案手法では, 都市規模のニューラルレージアンスフィールドを, 過去の旅行データで最適化し, ニューラル先行データを生成する。 これらの先行は意味論と幾何学的詳細に富み、手動のアノテーションなしで導出され、様々な最先端の知覚モデルをシームレスに拡張し、最小限の計算コストで有効性を向上させることができる。 nuScenesデータセットの実験結果は、様々なオンライン知覚モデルとの高い互換性を示す。 具体的には、HDマップの構築と占有予測タスクの大幅な改善を示し、自動運転システムの新しい認識フレームワークとしての可能性を強調している。 私たちのコードはhttps://github.com/yuantianyuan01/PreSight.com/でリリースされます。

Autonomous vehicles rely extensively on perception systems to navigate and interpret their surroundings. Despite significant advancements in these systems recently, challenges persist under conditions like occlusion, extreme lighting, or in unfamiliar urban areas. Unlike these systems, humans do not solely depend on immediate observations to perceive the environment. In navigating new cities, humans gradually develop a preliminary mental map to supplement real-time perception during subsequent visits. Inspired by this human approach, we introduce a novel framework, Pre-Sight, that leverages past traversals to construct static prior memories, enhancing online perception in later navigations. Our method involves optimizing a city-scale neural radiance field with data from previous journeys to generate neural priors. These priors, rich in semantic and geometric details, are derived without manual annotations and can seamlessly augment various state-of-the-art perception models, improving their efficacy with minimal additional computational cost. Experimental results on the nuScenes dataset demonstrate the framework's high compatibility with diverse online perception models. Specifically, it shows remarkable improvements in HD-map construction and occupancy prediction tasks, highlighting its potential as a new perception framework for autonomous driving systems. Our code will be released at https://github.com/yuantianyuan01/PreSight.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# 意味のある学習: ジェネリック・ファクト・ガイダンスによる大規模言語モデルにおける抽象推論の促進

Meaningful Learning: Advancing Abstract Reasoning in Large Language Models via Generic Fact Guidance ( http://arxiv.org/abs/2403.09085v1 )

ライセンス: Link先を確認
Kai Xiong, Xiao Ding, Ting Liu, Bing Qin, Dongliang Xu, Qing Yang, Hongtao Liu, Yixin Cao, (参考訳) 大規模言語モデル(LLM)は、様々な推論シナリオにまたがって優れたパフォーマンスと強力な説明可能性を開発し、人間のような知性を模倣する大きな一歩を踏み出した。 それにもかかわらず、一般的な事実に支えられた単純な質問をタスクすると、LLMは一貫性のある正確な答えを与えず、抽象的推論能力の欠如を示している。 このことが、LSMが真に推論しているのか、単に記憶しているだけなのか、という激しい議論を巻き起こした。 そこで我々は,既存のLLMの抽象的推論能力を定量化し,探索するための予備研究を設計した。 以上の結果から,一般的な推論性能と抽象推論性能との間にはかなりの相違があることが判明した。 この問題を解消するために、我々は抽象推論データセット(AbsR)と有意義な学習パラダイムを併用してLLMに推論目的の一般的な事実の活用法を教える。 提案手法は, LLMの一般的な推論性能を高めるだけでなく, 単純な記憶や模倣を超えて, より微妙な理解や汎用的な事実の応用へと, 抽象的推論能力の向上にも寄与している。

Large language models (LLMs) have developed impressive performance and strong explainability across various reasoning scenarios, marking a significant stride towards mimicking human-like intelligence. Despite this, when tasked with simple questions supported by a generic fact, LLMs often fail to provide consistent and precise answers, indicating a deficiency in abstract reasoning abilities. This has sparked a vigorous debate about whether LLMs are genuinely reasoning or merely memorizing. In light of this, we design a preliminary study to quantify and delve into the abstract reasoning abilities of existing LLMs. Our findings reveal a substantial discrepancy between their general reasoning and abstract reasoning performances. To relieve this problem, we tailor an abstract reasoning dataset (AbsR) together with a meaningful learning paradigm to teach LLMs how to leverage generic facts for reasoning purposes. The results show that our approach not only boosts the general reasoning performance of LLMs but also makes considerable strides towards their capacity for abstract reasoning, moving beyond simple memorization or imitation to a more nuanced understanding and application of generic facts.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# 統合学習におけるストラグラークライアントからの学習

Learning from straggler clients in federated learning ( http://arxiv.org/abs/2403.09086v1 )

ライセンス: Link先を確認
Andrew Hard, Antonious M. Girgis, Ehsan Amid, Sean Augenstein, Lara McConnaughey, Rajiv Mathews, Rohan Anil, (参考訳) 既存のフェデレーション学習アルゴリズムは,モデル更新を大幅な遅延で返却するクライアントデバイスから,どの程度の速度で学習できるのだろうか? 計画された数分、数時間、あるいは数日後に報告するクライアントから、効果的に学ぶことが可能か? 実世界のアプリケーションでガイドされるクライアント遅延のモンテカルロシミュレーションを開発することで、これらの質問に答える。 我々は、FedAvgやFedAdamのような同期最適化アルゴリズムと非同期FedBuffアルゴリズムを研究し、これらの既存のアプローチが、非常に遅延したクライアントから学ぶのに苦労していることを観察する。 この状況を改善するため, 蒸留正則化やモデル重量の指数移動平均などの改良を行った。 最後に, 蒸留および平均化に基づく2つの新しいアルゴリズム, FARe-DUSTとFeAST-on-MSGを紹介する。 EMNIST、CIFAR-100、StackOverflowベンチマークのフェデレーション学習タスクによる実験では、新しいアルゴリズムはストラグラークライアントの精度において既存のアルゴリズムよりも優れており、トレーニング時間とトータル精度のトレードオフも良好である。

How well do existing federated learning algorithms learn from client devices that return model updates with a significant time delay? Is it even possible to learn effectively from clients that report back minutes, hours, or days after being scheduled? We answer these questions by developing Monte Carlo simulations of client latency that are guided by real-world applications. We study synchronous optimization algorithms like FedAvg and FedAdam as well as the asynchronous FedBuff algorithm, and observe that all these existing approaches struggle to learn from severely delayed clients. To improve upon this situation, we experiment with modifications, including distillation regularization and exponential moving averages of model weights. Finally, we introduce two new algorithms, FARe-DUST and FeAST-on-MSG, based on distillation and averaging, respectively. Experiments with the EMNIST, CIFAR-100, and StackOverflow benchmark federated learning tasks demonstrate that our new algorithms outperform existing ones in terms of accuracy for straggler clients, while also providing better trade-offs between training time and total accuracy.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# 散逸勾配Descent Ascent Method: Min-max Optimizationのための制御理論に基づくアルゴリズム

Dissipative Gradient Descent Ascent Method: A Control Theory Inspired Algorithm for Min-max Optimization ( http://arxiv.org/abs/2403.09090v1 )

ライセンス: Link先を確認
Tianqi Zheng, Nicolas Loizou, Pengcheng You, Enrique Mallada, (参考訳) min-max最適化問題に対するグラディエントDescent Ascent (GDA) 法は、一般にバイリニア設定において不安定となる振動挙動を生じさせる。 この問題に対処するため,これらの振動を抑えるため,GDA更新に散逸項を導入する。 The proposed Dissipative GDA (DGDA) method can be seen as a standard GDA on a state-augmented and regularized saddle function that can not introduce additional convexity/concavity。 理論的には、DGDAの線形収束と、強く凸凸な凹凸の設定を示し、DGDAをGDA、EG、Optimistic GDAなどの他の手法と比較することにより、その性能を評価する。 以上の結果から, DGDAはこれらの手法を超越し, 収束率に優れていたことが示唆された。 DGDAのサドル点問題の解法における有効性を示す2つの数値例で,本主張を支持した。

Gradient Descent Ascent (GDA) methods for min-max optimization problems typically produce oscillatory behavior that can lead to instability, e.g., in bilinear settings. To address this problem, we introduce a dissipation term into the GDA updates to dampen these oscillations. The proposed Dissipative GDA (DGDA) method can be seen as performing standard GDA on a state-augmented and regularized saddle function that does not strictly introduce additional convexity/concavity. We theoretically show the linear convergence of DGDA in the bilinear and strongly convex-strongly concave settings and assess its performance by comparing DGDA with other methods such as GDA, Extra-Gradient (EG), and Optimistic GDA. Our findings demonstrate that DGDA surpasses these methods, achieving superior convergence rates. We support our claims with two numerical examples that showcase DGDA's effectiveness in solving saddle point problems.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# MCFEND:中国のフェイクニュース検出のためのマルチソースベンチマークデータセット

MCFEND: A Multi-source Benchmark Dataset for Chinese Fake News Detection ( http://arxiv.org/abs/2403.09092v1 )

ライセンス: Link先を確認
Yupeng Li, Haorui He, Jin Bai, Dacheng Wen, (参考訳) 様々なオンラインソースにおけるフェイクニュースの普及は、大衆に大きな影響を与えている。 既存の中国の偽ニュース検出データセットは、Weiboからのみ提供されたニュースに限られている。 しかし、複数の情報源から発せられる偽ニュースは、その内容や社会的文脈など、様々な面で多様性を示す。 純粋に1つのニュースソースで訓練された方法は、現実のシナリオにはほとんど適用できない。 実験により,中国の大規模な偽ニュース検出データセットWeibo-21から学習した最先端手法のF1スコアが,テストデータがマルチソースニュースデータに変換された場合,0.943から0.470に大幅に低下し,マルチソースフェイクニュースの3分の1以上を識別できなかったことを示す。 この制限に対処するため,我々は,ソーシャルプラットフォームやメッセージングアプリ,従来のオンラインニュースメディアなど,さまざまなソースから収集したニュースで構成されたMCFENDという,中国の偽ニュース検出のための,最初のマルチソースベンチマークデータセットを構築した。 このニュースは、世界中の14の権威あるファクトチェック機関によって事実チェックされている。 さらに, 提案したデータセットに対して, クロスソース, マルチソース, 未確認ソース方式で, 既存中国の偽ニュース検出手法を徹底的に評価した。 MCFENDは、ベンチマークデータセットとして、中国の偽ニュース検出アプローチを現実世界のシナリオで前進させることを目的としている。

The prevalence of fake news across various online sources has had a significant influence on the public. Existing Chinese fake news detection datasets are limited to news sourced solely from Weibo. However, fake news originating from multiple sources exhibits diversity in various aspects, including its content and social context. Methods trained on purely one single news source can hardly be applicable to real-world scenarios. Our pilot experiment demonstrates that the F1 score of the state-of-the-art method that learns from a large Chinese fake news detection dataset, Weibo-21, drops significantly from 0.943 to 0.470 when the test data is changed to multi-source news data, failing to identify more than one-third of the multi-source fake news. To address this limitation, we constructed the first multi-source benchmark dataset for Chinese fake news detection, termed MCFEND, which is composed of news we collected from diverse sources such as social platforms, messaging apps, and traditional online news outlets. Notably, such news has been fact-checked by 14 authoritative fact-checking agencies worldwide. In addition, various existing Chinese fake news detection methods are thoroughly evaluated on our proposed dataset in cross-source, multi-source, and unseen source ways. MCFEND, as a benchmark dataset, aims to advance Chinese fake news detection approaches in real-world scenarios.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# Desigen: コントロール可能なデザインテンプレート生成のためのパイプライン

Desigen: A Pipeline for Controllable Design Template Generation ( http://arxiv.org/abs/2403.09093v1 )

ライセンス: Link先を確認
Haohan Weng, Danqing Huang, Yu Qiao, Zheng Hu, Chin-Yew Lin, Tong Zhang, C. L. Philip Chen, (参考訳) テンプレートはデザイン(バナー、スライドなど)を実装するための良い出発点として機能しますが、デザイナが手作業で作成するには多大な努力が必要です。 本稿では,背景画像を生成する自動テンプレート生成パイプラインであるDesigenと,背景上の調和したレイアウト要素を提案する。 自然画像とは異なり、背景画像はレイアウト要素をオーバーレイするのに十分な非塩分空間を保持する必要がある。 空間制御の強化を図り,既存の拡散モデルと空間制御の強化を両立させるため,背景生成過程において所望の領域におけるサリエンシ分布を制限し,注意重みを低減させる2つの簡易かつ効果的な手法を提案する。 その後,トランスフォーマーをベースとした自動回帰生成器でレイアウトを合成する。 より調和した構成を実現するため,複数ラウンドで合成した背景とレイアウトを調整するための反復推論手法を提案する。 アプローチを検証するために,40k以上の広告バナーを備えた設計データセットを構築した。 大規模な実験により、提案したパイプラインは人間の設計に匹敵する高品質なテンプレートを生成することが示された。 単ページデザイン以上のこととして,一組のテーマ一貫性スライドを出力するプレゼンテーション生成の応用について述べる。 データとコードはhttps://whaohan.github.io/desigen.comで入手できる。

Templates serve as a good starting point to implement a design (e.g., banner, slide) but it takes great effort from designers to manually create. In this paper, we present Desigen, an automatic template creation pipeline which generates background images as well as harmonious layout elements over the background. Different from natural images, a background image should preserve enough non-salient space for the overlaying layout elements. To equip existing advanced diffusion-based models with stronger spatial control, we propose two simple but effective techniques to constrain the saliency distribution and reduce the attention weight in desired regions during the background generation process. Then conditioned on the background, we synthesize the layout with a Transformer-based autoregressive generator. To achieve a more harmonious composition, we propose an iterative inference strategy to adjust the synthesized background and layout in multiple rounds. We constructed a design dataset with more than 40k advertisement banners to verify our approach. Extensive experiments demonstrate that the proposed pipeline generates high-quality templates comparable to human designers. More than a single-page design, we further show an application of presentation generation that outputs a set of theme-consistent slides. The data and code are available at https://whaohan.github.io/desigen.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# 超電導プロセッサにおけるヒルベルト空間フラグメンテーションの探索

Exploring Hilbert-Space Fragmentation on a Superconducting Processor ( http://arxiv.org/abs/2403.09095v1 )

ライセンス: Link先を確認
Yong-Yi Wang, Yun-Hao Shi, Zheng-Hang Sun, Chi-Tong Chen, Zheng-An Wang, Kui Zhao, Hao-Tian Liu, Wei-Guo Ma, Ziting Wang, Hao Li, Jia-Chi Zhang, Yu Liu, Cheng-Lin Deng, Tian-Ming Li, Yang He, Zheng-He Liu, Zhen-Yu Peng, Xiaohui Song, Guangming Xue, Haifeng Yu, Kaixuan Huang, Zhongcheng Xiang, Dongning Zheng, Kai Xu, Heng Fan, (参考訳) 分離された相互作用量子系は一般的に熱化されるが、多体局在化や量子傷など、エルゴディディディティの分解にはいくつかの反例がある。 最近では、スターク多体局在と呼ばれる線形ポテンシャルを持つ系でエルゴディディディティ破壊が観測されている。 この現象はヒルベルト空間の断片化と密接に関連しており、初期条件に対する力学の強い依存が特徴である。 ここでは、最大24キュービットのはしご型超伝導プロセッサを用いて、初期状態依存のダイナミクスを実験的に検討し、量子ビット周波数と初期状態の正確な制御を可能にする。 線形ポテンシャルを持つ系では、同じ量子数とエネルギーを持つ初期状態に対して異なる非平衡ダイナミクスを観測するが、異なる領域壁数を持つ。 システムのサイズが大きくなるにつれて、この区別はますます顕著になる。 この結果は、スタークシステムの断片化に関する説得力のある実験的な証拠を提供し、エルゴディディティの弱さに対する理解を深めるものである。

Isolated interacting quantum systems generally thermalize, yet there are several counterexamples for the breakdown of ergodicity, such as many-body localization and quantum scars. Recently, ergodicity breaking has been observed in systems subjected to linear potentials, termed Stark many-body localization. This phenomenon is closely associated with Hilbert-space fragmentation, characterized by a strong dependence of dynamics on initial conditions. Here, we experimentally explore initial-state dependent dynamics using a ladder-type superconducting processor with up to 24 qubits, which enables precise control of the qubit frequency and initial state preparation. In systems with linear potentials, we observe distinct non-equilibrium dynamics for initial states with the same quantum numbers and energy, but with varying domain wall numbers. This distinction becomes increasingly pronounced as the system size grows, in contrast with disordered interacting systems. Our results provide convincing experimental evidence of the fragmentation in Stark systems, enriching our understanding of the weak breakdown of ergodicity.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# 自動露光補正によるハイパースペクトル画像超解像のための深部展開網

Deep unfolding Network for Hyperspectral Image Super-Resolution with Automatic Exposure Correction ( http://arxiv.org/abs/2403.09096v1 )

ライセンス: Link先を確認
Yuan Fang, Yipeng Liu, Jie Chen, Zhen Long, Ao Li, Chong-Yung Chi, Ce Zhu, (参考訳) 近年,高分解能マルチスペクトル像(HR-MSI)と低分解能ハイパースペクトル像(LR-HSI)の融合が,HSI超解像(HSI-SR)の有効な方法として認識されている。 しかし、HSIとMSIの両方は、夜間や照明の不十分なシナリオのような極端な条件下で取得され、露光レベルが異なる可能性があるため、得られたHSISRを著しく低下させる可能性がある。 MSIとHSIのそれぞれの低照度強化(LLIE)を併用したほとんどの既存手法とは対照的に,LLIEとHSI-SRの相関が考慮されているため,高画質なHSI-SR(テクスチャと特徴)を効果的に生成できる深部展開型HSIスーパーリゾリューション(UHSR-AEC)が提案されている。 提案したUHSR-AECの全体的な性能を示すために、いくつかのベンチマークピア法との比較を含む大規模な実験が提供されている。

In recent years, the fusion of high spatial resolution multispectral image (HR-MSI) and low spatial resolution hyperspectral image (LR-HSI) has been recognized as an effective method for HSI super-resolution (HSI-SR). However, both HSI and MSI may be acquired under extreme conditions such as night or poorly illuminating scenarios, which may cause different exposure levels, thereby seriously downgrading the yielded HSISR. In contrast to most existing methods based on respective low-light enhancements (LLIE) of MSI and HSI followed by their fusion, a deep Unfolding HSI Super-Resolution with Automatic Exposure Correction (UHSR-AEC) is proposed, that can effectively generate a high-quality fused HSI-SR (in texture and features) even under very imbalanced exposures, thanks to the correlation between LLIE and HSI-SR taken into account. Extensive experiments are provided to demonstrate the state-of-the-art overall performance of the proposed UHSR-AEC, including comparison with some benchmark peer methods.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# AI on AI - AIパブリケーションのエキスパートアノテーションとしてのGPTの有用性を探る

AI on AI: Exploring the Utility of GPT as an Expert Annotator of AI Publications ( http://arxiv.org/abs/2403.09097v1 )

ライセンス: Link先を確認
Autumn Toney-Wails, Christian Schoeberl, James Dunham, (参考訳) 研究のダイナミックな分野にある科学出版物を特定するには、しばしば主観的な専門家による高価な注釈が必要である。 広く受け入れられている分類基準や分野分類学のようなリソースは、新たなトピックや技術にまたがる人工知能(AI)のような領域では利用できない。 既存の専門家ラベルからAI研究の機能的定義を推論し、専門家データアノテーションのタスク上で最先端のチャットボットモデルを評価することで、これらの課題に対処する。 arXivのパブリッシュデータベースを基盤として、GPTチャットボットモデルの迅速なエンジニアリングを実験して、AIラベルを94%の精度で割り当てる、代替の自動化された専門家アノテーションパイプラインを特定します。 比較のために、科学出版物で事前訓練されたトランスフォーマー言語モデルであるSPECTERを微調整し、AI出版物の分類において96%の精度(GPTよりわずか2%高い)を達成する。 その結果,効果的なプロンプトエンジニアリングでは,対象分野の専門知識が必要な場合でも,チャットボットを信頼性の高いデータアノテータとして使用することが可能であることが示唆された。 下流分類タスクにおけるチャットボットアノテートデータセットの有用性を評価するために,GPTラベルデータに基づく新しい分類器を訓練し,その性能をarXiv訓練モデルと比較する。 GPTラベルデータに基づいて訓練された分類器は、arXiv学習モデルよりも9ポイント優れ、精度は82%である。

Identifying scientific publications that are within a dynamic field of research often requires costly annotation by subject-matter experts. Resources like widely-accepted classification criteria or field taxonomies are unavailable for a domain like artificial intelligence (AI), which spans emerging topics and technologies. We address these challenges by inferring a functional definition of AI research from existing expert labels, and then evaluating state-of-the-art chatbot models on the task of expert data annotation. Using the arXiv publication database as ground-truth, we experiment with prompt engineering for GPT chatbot models to identify an alternative, automated expert annotation pipeline that assigns AI labels with 94% accuracy. For comparison, we fine-tune SPECTER, a transformer language model pre-trained on scientific publications, that achieves 96% accuracy (only 2% higher than GPT) on classifying AI publications. Our results indicate that with effective prompt engineering, chatbots can be used as reliable data annotators even where subject-area expertise is required. To evaluate the utility of chatbot-annotated datasets on downstream classification tasks, we train a new classifier on GPT-labeled data and compare its performance to the arXiv-trained model. The classifier trained on GPT-labeled data outperforms the arXiv-trained model by nine percentage points, achieving 82% accuracy.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# サブシステム対称性の分断化と葉場理論

Subsystem Symmetry Fractionalization and Foliated Field Theory ( http://arxiv.org/abs/2403.09098v1 )

ライセンス: Link先を確認
Po-Shen Hsin, David T. Stephen, Arpit Dua, Dominic J. Williamson, (参考訳) トポロジカル量子物質は、亜次元対称性によって富むと、様々なエキゾチックな現象を示す。 これには、従来の大域対称性の富化の設定に現れるもの以外の新しい特徴が含まれる。 最近発見された例は、大域対称性分数化の異なるメカニズムを通して起こるサブシステム対称性分数化の一種である。 この研究は、組み込みサブシステム対称性の一般原理から高次形式対称性へ導かれる新しい例を通して、サブシステム対称性の分数化の研究を拡張する。 このことは、葉分に依存した高次形式対称性によって記述される新しいタイプの対称性の分数化につながる。 これにより、以前は見られなかったサブシステム対称性の分数化をサポートする場の理論や格子モデルが導かれる。 我々の研究は、場の理論や格子上でのサブシステム対称性によって実現されるエキゾチックな位相物理学の範囲を広げる。

Topological quantum matter exhibits a range of exotic phenomena when enriched by subdimensional symmetries. This includes new features beyond those that appear in the conventional setting of global symmetry enrichment. A recently discovered example is a type of subsystem symmetry fractionalization that occurs through a different mechanism to global symmetry fractionalization. In this work we extend the study of subsystem symmetry fractionalization through new examples derived from the general principle of embedding subsystem symmetry into higher-form symmetry. This leads to new types of symmetry fractionalization that are described by foliation dependent higher-form symmetries. This leads to field theories and lattice models that support previously unseen anomalous subsystem symmetry fractionalization. Our work expands the range of exotic topological physics that is enabled by subsystem symmetry in field theory and on the lattice.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# ファンデルワールスα-MoO3における量子放出体

Quantum emitters in van der Waals α-MoO3 ( http://arxiv.org/abs/2403.09099v1 )

ライセンス: Link先を確認
Jeonghan Lee, Haiyuan Wang, Keun-Yeol Park, Soonsang Huh, Donghan Kim, Mihyang Yu, Changyoung Kim, Kristian Sommer Thygesen, Jieun Lee, (参考訳) 固体材料中の量子エミッタは、量子情報処理と通信科学のための非常に有望な構成要素である。 近年、ファンデルワールス物質からの単一光子放出が遷移金属ジアルコゲナイドと六方晶窒化ホウ素に報告されており、二次元材料で光量子技術を実現する可能性を示している。 本稿では,ファンデルワールス-MoO3の剥離および熱処理による単結晶からの単一光子生成の観察を報告する。 二階相関関数測定は、明快な光子反バンチングを示し、発光強度は100kcounts/sを超え、レーザー励起下で安定である。 また、これらのエミッタのゼロフォノン線はスペクトル的に狭いエネルギー範囲に分布する。 この理論計算は、酸素空孔欠陥が観測されたエミッターの候補である可能性を示唆している。 フォトスタビリティと明るさとともに、ファンデルワールス材料における光子に基づく量子情報科学を実現するための新たな道を提供する。

Quantum emitters in solid-state materials are highly promising building blocks for quantum information processing and communication science. Recently, single-photon emission from van der Waals materials has been reported in transition metal dichalcogenides and hexagonal boron nitride, exhibiting the potential to realize photonic quantum technologies in two-dimensional materials. Here, we report the observation of single-photon generation from exfoliated and thermally annealed single crystals of van der Waals {\alpha}-MoO3. The second-order correlation function measurement displays a clear photon antibunching, while the luminescence intensity exceeds 100 kcounts/s and remains stable under laser excitation. Also, the zero-phonon lines of these emitters are distributed in a spectrally narrow energy range. The theoretical calculation suggests that an oxygen vacancy defect is a possible candidate for the observed emitters. Together with photostability and brightness, quantum emitters in {\alpha}-MoO3 provide a new avenue to realize photon-based quantum information science in van der Waals materials.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# 自己蛍光顕微鏡とディープラーニングを用いたラベルフリー組織中のアミロイド鉱床の仮想複屈折イメージングと組織染色

Virtual birefringence imaging and histological staining of amyloid deposits in label-free tissue using autofluorescence microscopy and deep learning ( http://arxiv.org/abs/2403.09100v1 )

ライセンス: Link先を確認
Xilin Yang, Bijie Bai, Yijie Zhang, Musa Aydin, Sahan Yoruc Selcuk, Zhen Guo, Gregory A. Fishbein, Karine Atlan, William Dean Wallace, Nir Pillar, Aydogan Ozcan, (参考訳) 全身性アミロイドーシス(systemic amyloidosis)は、様々な臓器や組織に折りたたみタンパク質が沈着し、進行性臓器機能障害と不全を引き起こす疾患群である。 コンゴ赤染色(コンゴ赤し、英: Congo red stain)は、組織断面におけるアミロイド鉱床の可視化のための金標準の化学染色であり、これらタンパク質との複合体を形成し、偏光顕微鏡下で複屈折パターンを示す。 しかし、コンゴの赤色染色は面倒でコストがかかるため、偏光顕微鏡で組織を手動で検査することで、アミロイドの量、染色品質、専門的解釈のばらつきによる誤診断が生じる傾向にある。 本稿では, ラベルフリーヒト組織における仮想複屈折画像と仮想コンゴ赤外染色の初回デモンストレーションを行い, ラベルフリー組織断面の自己蛍光画像が, 同じ試料の組織化学的に染色されたバージョンと一致して, 蛍光画像の明るさと偏光顕微鏡的等価画像に迅速に変換可能であることを示す。 組織化学的に染色された地中真実像と仮想染色画像が一致した心組織に対して, ブラインドテストおよび病理組織学的評価で本法の有効性を実証した。 我々の仮想染色偏光と明るい視野画像は、臨床ワークフローの一部として化学染色や手動画像の画質の変動による診断上の課題を軽減しつつ、一貫した再現性のある方法でアミロイド複屈折パターンを強調させる。

Systemic amyloidosis is a group of diseases characterized by the deposition of misfolded proteins in various organs and tissues, leading to progressive organ dysfunction and failure. Congo red stain is the gold standard chemical stain for the visualization of amyloid deposits in tissue sections, as it forms complexes with the misfolded proteins and shows a birefringence pattern under polarized light microscopy. However, Congo red staining is tedious and costly to perform, and prone to false diagnoses due to variations in the amount of amyloid, staining quality and expert interpretation through manual examination of tissue under a polarization microscope. Here, we report the first demonstration of virtual birefringence imaging and virtual Congo red staining of label-free human tissue to show that a single trained neural network can rapidly transform autofluorescence images of label-free tissue sections into brightfield and polarized light microscopy equivalent images, matching the histochemically stained versions of the same samples. We demonstrate the efficacy of our method with blind testing and pathologist evaluations on cardiac tissue where the virtually stained images agreed well with the histochemically stained ground truth images. Our virtually stained polarization and brightfield images highlight amyloid birefringence patterns in a consistent, reproducible manner while mitigating diagnostic challenges due to variations in the quality of chemical staining and manual imaging processes as part of the clinical workflow.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# Soften to Defend: 自己ガイドラベルリファインメントによる対人ロバストネスを目指して

Soften to Defend: Towards Adversarial Robustness via Self-Guided Label Refinement ( http://arxiv.org/abs/2403.09101v1 )

ライセンス: Link先を確認
Daiwei Yu, Zhuorong Li, Lina Wei, Canghong Jin, Yun Zhang, Sixian Chan, (参考訳) 敵対的トレーニング(AT)は、現在、敵対的攻撃に対するディープニューラルネットワークの堅牢性を得る最も効果的な方法の1つである。 しかし、ほとんどのAT手法は頑健なオーバーフィッティング、すなわちトレーニング曲線とテスト曲線の間の対角的ロバスト性において重要な一般化ギャップに悩まされている。 本稿では、まず、勾配ノルムの観点から、頑健なオーバーフィッティングとATにおける雑音ラベルの過剰な記憶との関係を同定する。 このようなラベルノイズは、主に分布ミスマッチと不適切なラベル割り当てによって引き起こされるため、我々はATのラベル改善アプローチを提案する動機がある。 具体的には、まず、自信過剰なラベルから、より正確で情報的なラベルの分布を自己定義し、それから、自己拡散モデルからの知識を現在のモデルに動的に取り入れて、外部教師を必要とせず、トレーニングを校正する。 実験により,本手法は複数のベンチマークデータセット,アタックタイプ,アーキテクチャにおいて,標準精度とロバストな性能を同時に向上できることを示す。 さらに,情報理論の立場から分析を行い,本手法を応用し,堅牢な一般化のためのソフトラベルの重要性を示唆する。

Adversarial training (AT) is currently one of the most effective ways to obtain the robustness of deep neural networks against adversarial attacks. However, most AT methods suffer from robust overfitting, i.e., a significant generalization gap in adversarial robustness between the training and testing curves. In this paper, we first identify a connection between robust overfitting and the excessive memorization of noisy labels in AT from a view of gradient norm. As such label noise is mainly caused by a distribution mismatch and improper label assignments, we are motivated to propose a label refinement approach for AT. Specifically, our Self-Guided Label Refinement first self-refines a more accurate and informative label distribution from over-confident hard labels, and then it calibrates the training by dynamically incorporating knowledge from self-distilled models into the current model and thus requiring no external teachers. Empirical results demonstrate that our method can simultaneously boost the standard accuracy and robust performance across multiple benchmark datasets, attack types, and architectures. In addition, we also provide a set of analyses from the perspectives of information theory to dive into our method and suggest the importance of soft labels for robust generalization.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# 光学的対応可能な分子量としての代替炭化水素ダイラジカル

Alternant Hydrocarbon Diradicals as Optically Addressable Molecular Qubits ( http://arxiv.org/abs/2403.09102v1 )

ライセンス: Link先を確認
Yong Rui Poh, Dmitry Morozov, Nathanael P. Kazmierczak, Ryan G. Hadt, Gerrit Groenhof, Joel Yuen-Zhou, (参考訳) 高スピン分子はボトムアップ量子ビットの設計を可能にし、磁気センシングと量子情報科学のための有望なプラットフォームである。 分子電子スピンの光アドレス性はまた、ダイヤモンド-NV色中心に類似した光検出磁気共鳴(ODMR)機構を介して、第一ロー遷移金属錯体でも提案されている。 しかし、金属のない分子の前面では、コストが低く、環境への影響も緩やかになるため、進歩が著しく少ない。 現在、ほとんどの発光性開殻有機分子はd-diradicalsであるが、安定な分子量子ビットを実現するために必要な基底状態の開殻特性に悩まされることが多い。 本研究では,基本状態におけるラジカル-ラジカル相互作用を選択的に最小化するために,交互対称性を用いることを提案する。 我々はこれらをm-二量体と呼び、所望の対称性のためにメタ炭素原子で2つのベンジル基を共有結合する必要性を参照する。 詳細な電子構造解析により、置換炭化水素m-ジラジカルの励起状態は、ODMR機構の構築に使用できる重要な対称性を含むことが明らかとなった。 分子パラメータは、メタ位置で共有結合されたトリス(2,4,6-トリクロロフェニル)メチル(TTM)ラジカル二量体(英語版)の文脈で設定され、交互に {\pi}-ジラジカルを持つ分子色中心の実現の可能性を示す。

High-spin molecules allow for bottom-up qubit design and are promising platforms for magnetic sensing and quantum information science. Optical addressability of molecular electron spins has also been proposed in first-row transition metal complexes via optically-detected magnetic resonance (ODMR) mechanisms analogous to the diamond-NV colour centre. However, significantly less progress has been made on the front of metal-free molecules, which can deliver lower costs and milder environmental impacts. At present, most luminescent open-shell organic molecules are {\pi}-diradicals, but such systems often suffer from poor ground-state open-shell characters necessary to realise a stable molecular qubit. In this work, we propose the use of alternancy symmetry to selectively minimise radical-radical interactions in the ground state, generating {\pi}-systems with high diradical characters. We call them m-dimers, referencing the need to covalently link two benzylic radicals at their meta carbon atoms for the desired symmetry. Through a detailed electronic structure analysis, we find that the excited states of alternant hydrocarbon m-diradicals contain important symmetries that can be used to construct ODMR mechanisms. The molecular parameters are set in the context of a tris(2,4,6-trichlorophenyl)methyl (TTM) radical dimer covalently tethered at the meta position, demonstrating the feasibility of realising a molecular colour centre with alternant {\pi}-diradicals.
翻訳日:2024-03-15 21:47:12 公開日:2024-03-14
# S^2MVTC: シンプルだが効率的でスケーラブルなマルチビューテンソルクラスタリング

S^2MVTC: a Simple yet Efficient Scalable Multi-View Tensor Clustering ( http://arxiv.org/abs/2403.09107v1 )

ライセンス: Link先を確認
Zhen Long, Qiyuan Wang, Yazhou Ren, Yipeng Liu, Ce Zhu, (参考訳) アンカーベースの大規模マルチビュークラスタリングは、大規模なデータセットを扱う上での有効性にかなりの注目を集めている。 しかし,近年の手法では,アンカーグラフとプロジェクション行列のグローバルな相関関係を探索することで,クラスタリングのためのコンセンサス埋め込み機能を主に求めており,本論文では,ビュー内およびビュー間の埋め込み機能の相関関係を学習することに焦点を当てた,シンプルかつ効率的なスケーラブルなマルチビューテンソルクラスタリング(S^2MVTC)手法を提案する。 具体的には、まず異なるビューの埋め込み特徴をテンソルに積み重ねて回転させることにより、埋め込み特徴テンソルを構築する。 さらに、グラフ類似性を埋め込み特徴学習に組み込んだ新しいテンソル低周波近似(TLFA)演算子を構築し、異なるビュー内での埋め込み特徴のスムーズな表現を効率的に達成する。 さらに、ビュー間のセマンティック一貫性を確保するために、コンセンサス制約が埋め込み機能に適用される。 6つの大規模マルチビューデータセットによる実験結果から,S^2MVTCはクラスタリング性能やCPU実行時間,特に大規模データを扱う場合において,最先端のアルゴリズムを著しく上回ることが示された。 S^2MVTCのコードはhttps://github.com/longzhen520/S2MVTCで公開されている。

Anchor-based large-scale multi-view clustering has attracted considerable attention for its effectiveness in handling massive datasets. However, current methods mainly seek the consensus embedding feature for clustering by exploring global correlations between anchor graphs or projection matrices.In this paper, we propose a simple yet efficient scalable multi-view tensor clustering (S^2MVTC) approach, where our focus is on learning correlations of embedding features within and across views. Specifically, we first construct the embedding feature tensor by stacking the embedding features of different views into a tensor and rotating it. Additionally, we build a novel tensor low-frequency approximation (TLFA) operator, which incorporates graph similarity into embedding feature learning, efficiently achieving smooth representation of embedding features within different views. Furthermore, consensus constraints are applied to embedding features to ensure inter-view semantic consistency. Experimental results on six large-scale multi-view datasets demonstrate that S^2MVTC significantly outperforms state-of-the-art algorithms in terms of clustering performance and CPU execution time, especially when handling massive data. The code of S^2MVTC is publicly available at https://github.com/longzhen520/S2MVTC.
翻訳日:2024-03-15 21:36:55 公開日:2024-03-14
# CardioCaps:クラス不均衡心エコー図分類のための注意型カプセルネットワーク

CardioCaps: Attention-based Capsule Network for Class-Imbalanced Echocardiogram Classification ( http://arxiv.org/abs/2403.09108v1 )

ライセンス: Link先を確認
Hyunkyung Han, Jihyeon Seong, Jaesik Choi, (参考訳) Capsule Neural Networks (CapsNets) は、複数のニューロンによって形成されるベクトルワイド表現を利用する新しいアーキテクチャである。 具体的には、Dynamic Routing CapsNets(DR-CapsNets)は、カプセルをトレーニングし、翻訳等価性を取得するためにアフィンマトリックスと動的ルーティング機構を使用し、従来の畳み込みニューラルネットワーク(CNN)と比較して堅牢性を高めている。 心臓の動きを捉えたエコー心電図は、従来の画像分類法に特有の課題を提示する。 本稿では、DR-CapsNetsの可能性を探り、クラス不均衡心エコー図分類のための新しい注目型DR-CapsNetアーキテクチャであるCardioCapsを提案する。 CardioCapsは、回帰補助損失を含む重み付きマージン損失とアテンションメカニズムの2つの重要なコンポーネントから構成される。 第一に、重み付きマージン損失は、心機能の重要な指標である吐出障害(EF)回帰タスクに基づく補助的損失関数によって補足された陽性症例を優先する。 このアプローチは、クラス不均衡に直面してモデルのレジリエンスを高める。 第二に、動的ルーティングの二次的複雑さがトレーニングの非効率性につながることを認識し、より計算的に効率的な代替手段として注意機構を採用する。 その結果,CardioCapsは,ロジスティック回帰,ランダムフォレスト,XGBoostなどの従来の機械学習ベースライン手法を,サンプリング手法とクラス重み行列で超越していることがわかった。 さらに、CNN、ResNets、U-Nets、ViTsといった他のディープラーニングベースラインメソッド、EM-CapsNetsやEfficient-CapsNetsといった高度なCapsNetsメソッドよりも優れています。 特に,クラス不均衡に対するロバスト性を示し,負の場合のかなりの割合のデータセットにおいても高い精度を実現している。

Capsule Neural Networks (CapsNets) is a novel architecture that utilizes vector-wise representations formed by multiple neurons. Specifically, the Dynamic Routing CapsNets (DR-CapsNets) employ an affine matrix and dynamic routing mechanism to train capsules and acquire translation-equivariance properties, enhancing its robustness compared to traditional Convolutional Neural Networks (CNNs). Echocardiograms, which capture moving images of the heart, present unique challenges for traditional image classification methods. In this paper, we explore the potential of DR-CapsNets and propose CardioCaps, a novel attention-based DR-CapsNet architecture for class-imbalanced echocardiogram classification. CardioCaps comprises two key components: a weighted margin loss incorporating a regression auxiliary loss and an attention mechanism. First, the weighted margin loss prioritizes positive cases, supplemented by an auxiliary loss function based on the Ejection Fraction (EF) regression task, a crucial measure of cardiac function. This approach enhances the model's resilience in the face of class imbalance. Second, recognizing the quadratic complexity of dynamic routing leading to training inefficiencies, we adopt the attention mechanism as a more computationally efficient alternative. Our results demonstrate that CardioCaps surpasses traditional machine learning baseline methods, including Logistic Regression, Random Forest, and XGBoost with sampling methods and a class weight matrix. Furthermore, CardioCaps outperforms other deep learning baseline methods such as CNNs, ResNets, U-Nets, and ViTs, as well as advanced CapsNets methods such as EM-CapsNets and Efficient-CapsNets. Notably, our model demonstrates robustness to class imbalance, achieving high precision even in datasets with a substantial proportion of negative cases.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# SINDy-RL: モデルベース強化学習の解釈と効率化

SINDy-RL: Interpretable and Efficient Model-Based Reinforcement Learning ( http://arxiv.org/abs/2403.09110v1 )

ライセンス: Link先を確認
Nicholas Zolman, Urban Fasel, J. Nathan Kutz, Steven L. Brunton, (参考訳) 深部強化学習(DRL)は、トカマク核融合炉の磁気流体力学を安定化したり、流体中の物体に作用する抵抗力を最小化したり、複雑な力学と相互作用する洗練された制御ポリシーを明らかにする上で、大きな可能性を示している。 しかし、これらのアルゴリズムには多くのトレーニング例が必要であり、多くのアプリケーションでは違法に高価になる可能性がある。 さらに、ディープニューラルネットワークへの依存は、特定の組み込みシステムで使用するには計算コストがかかりすぎる、解釈不能なブラックボックスポリシーをもたらすことが多い。 非線形力学のスパース同定(SINDy)のような疎辞書学習の最近の進歩は、低データ体制下で効率的かつ解釈可能なデータ駆動モデルを作成することを約束している。 本研究では,SINDyとDRLを組み合わせた一元化フレームワークであるSINDy-RLを紹介する。 我々は,ベンチマーク制御環境と流体問題に対するアプローチの有効性を実証する。 SINDy-RLは、環境内の相互作用を著しく少なくすることで、最先端のDRLアルゴリズムに匹敵する性能を達成し、深いニューラルネットワークポリシーよりも桁違いに小さい解釈可能な制御ポリシー命令をもたらす。

Deep reinforcement learning (DRL) has shown significant promise for uncovering sophisticated control policies that interact in environments with complicated dynamics, such as stabilizing the magnetohydrodynamics of a tokamak fusion reactor or minimizing the drag force exerted on an object in a fluid flow. However, these algorithms require an abundance of training examples and may become prohibitively expensive for many applications. In addition, the reliance on deep neural networks often results in an uninterpretable, black-box policy that may be too computationally expensive to use with certain embedded systems. Recent advances in sparse dictionary learning, such as the sparse identification of nonlinear dynamics (SINDy), have shown promise for creating efficient and interpretable data-driven models in the low-data regime. In this work we introduce SINDy-RL, a unifying framework for combining SINDy and DRL to create efficient, interpretable, and trustworthy representations of the dynamics model, reward function, and control policy. We demonstrate the effectiveness of our approaches on benchmark control environments and challenging fluids problems. SINDy-RL achieves comparable performance to state-of-the-art DRL algorithms using significantly fewer interactions in the environment and results in an interpretable control policy orders of magnitude smaller than a deep neural network policy.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# AutoLoRA:メタ学習に基づく低ランク適応における行列ランクの自動調整

AutoLoRA: Automatically Tuning Matrix Ranks in Low-Rank Adaptation Based on Meta Learning ( http://arxiv.org/abs/2403.09113v1 )

ライセンス: Link先を確認
Ruiyi Zhang, Rushi Qiang, Sai Ashish Somayajula, Pengtao Xie, (参考訳) 大規模プレトレーニングとタスク固有の微調整は、様々なNLPタスクで大きな成功を収めた。 大規模事前学習モデルの全パラメータの微調整は、計算とメモリの問題を引き起こすため、いくつかの効率的な微調整法が開発されている。 そのうちローランク適応(LoRA)は、凍結した事前訓練した重量の上に低ランクの増分更新行列を微調整するが、特に有効であることが証明されている。 それでも、LoRAの全ての層にわたる均一なランク割り当ては、最高のランクを見つけるための徹底的な探索に依存するとともに、高い計算コストと準最適微調整性能をもたらす。 これらの制限に対処するために,各LoRA層の最適ランクを自動的に識別するメタ学習ベースのフレームワークであるAutoLoRAを紹介した。 AutoLoRAはローランク更新行列の各ランク1行列と選択変数を関連付け、ランク1行列を破棄すべきかどうかを決定する。 これらの選択変数を学習するためにメタ学習に基づく手法を開発した。 最適なランクは、これらの変数の値をしきい値にすることで決定される。 自然言語理解,生成,シーケンスラベリングに関する包括的実験により,AutoLoRAの有効性が示された。

Large-scale pretraining followed by task-specific finetuning has achieved great success in various NLP tasks. Since finetuning all parameters of large pretrained models poses substantial computational and memory challenges, several efficient finetuning methods have been developed. Among them, low-rank adaptation (LoRA), which finetunes low-rank incremental update matrices on top of frozen pretrained weights, has proven particularly effective. Nonetheless, LoRA's uniform rank assignment across all layers, along with its reliance on an exhaustive search to find the best rank, leads to high computation costs and suboptimal finetuning performance. To address these limitations, we introduce AutoLoRA, a meta learning based framework for automatically identifying the optimal rank of each LoRA layer. AutoLoRA associates each rank-1 matrix in a low-rank update matrix with a selection variable, which determines whether the rank-1 matrix should be discarded. A meta learning based method is developed to learn these selection variables. The optimal rank is determined by thresholding the values of these variables. Our comprehensive experiments on natural language understanding, generation, and sequence labeling demonstrate the effectiveness of AutoLoRA.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# ハイパースペクトル画像分類のためのランダム化主成分分析

Randomized Principal Component Analysis for Hyperspectral Image Classification ( http://arxiv.org/abs/2403.09117v1 )

ライセンス: Link先を確認
Mustafa Ustuner, (参考訳) ハイパースペクトル画像の高次元特徴空間は、ハイパースペクトルデータセットの処理と解析に大きな課題をもたらす。 このような場合、計算複雑性を減少させるためには次元削減が必要である。 ランダムプロジェクションは、特に大きなデータセットに対して、次元の減少の新しい方法を開く。 本稿では, 支持ベクトルマシン (SVM) と光勾配ブースティングマシン (LightGBM) を用いたハイパースペクトル画像の分類のための主成分分析 (PCA) とランダム化主成分分析 (R-PCA) について検討した。 この実験では、2つの超スペクトルデータセット(インドパインズ大学とパヴィア大学)を分類するために、特徴の数は20と30に減らされた。 実験の結果、PCAは両方のデータセットでSVMのR-PCAよりも優れていたが、LightGBMでは精度が良くなった。 最も高い分類精度は、パヴィア大学とインド・パインズに固有の特徴を持つLightGBMによって0.9925と0.9639として得られた。

The high-dimensional feature space of the hyperspectral imagery poses major challenges to the processing and analysis of the hyperspectral data sets. In such a case, dimensionality reduction is necessary to decrease the computational complexity. The random projections open up new ways of dimensionality reduction, especially for large data sets. In this paper, the principal component analysis (PCA) and randomized principal component analysis (R-PCA) for the classification of hyperspectral images using support vector machines (SVM) and light gradient boosting machines (LightGBM) have been investigated. In this experimental research, the number of features was reduced to 20 and 30 for classification of two hyperspectral datasets (Indian Pines and Pavia University). The experimental results demonstrated that PCA outperformed R-PCA for SVM for both datasets, but received close accuracy values for LightGBM. The highest classification accuracies were obtained as 0.9925 and 0.9639 by LightGBM with original features for the Pavia University and Indian Pines, respectively.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# ベストアーム同定と流体解析のための最適トップツー法

Optimal Top-Two Method for Best Arm Identification and Fluid Analysis ( http://arxiv.org/abs/2403.09123v1 )

ライセンス: Link先を確認
Agniv Bandyopadhyay, Sandeep Juneja, Shubhada Agrawal, (参考訳) ベストアーム識別(BAI)問題の解決において、上位2ドルメソッドが人気となっている。 ベストアーム(または、有限個の腕の中で最大の平均を持つ腕)は、任意の逐次ステップで実験的なベストアームを独立に引っ張り、確率は$\beta$で、それ以外はベストチャレンジャーアームを引っ張るアルゴリズムによって識別される。 不正選択の確率は、指定された$\delta > 0$より下にあることが保証される。 サンプル複雑性に関する情報理論の下限は、BAI問題でよく知られており、計算的にプラグイン法を要求することにより、$\delta \rightarrow 0$と漸近的に一致する。 任意の$\beta \in (0,1)$に対する上述のトップ2のアルゴリズムは、下界の定数内でサンプリング複雑性を持つ。 しかし、下界と一致する最適な$\beta$を決定することは困難である。 本稿では,この問題に対処し,最適なトップ2型アルゴリズムを提案する。 しきい値に固定されたアロケーションの関数を考える。 しきい値を超えると、アルゴリズムは経験的ベストアームをサンプリングする。 そうでなければ、挑戦者の腕をサンプリングする。 提案アルゴリズムは$\delta \rightarrow 0$として最適であることを示す。 我々の分析は、一連の常微分方程式を満たす割り当ての制限流体力学を同定し、その漸近経路をアルゴリズムで記述することに依存している。 我々はこれらの流体オードの存在と特異性を示すために暗黙の関数定理に依存し、提案されたアルゴリズムがオード解に近づいたままであることを示す。

Top-$2$ methods have become popular in solving the best arm identification (BAI) problem. The best arm, or the arm with the largest mean amongst finitely many, is identified through an algorithm that at any sequential step independently pulls the empirical best arm, with a fixed probability $\beta$, and pulls the best challenger arm otherwise. The probability of incorrect selection is guaranteed to lie below a specified $\delta >0$. Information theoretic lower bounds on sample complexity are well known for BAI problem and are matched asymptotically as $\delta \rightarrow 0$ by computationally demanding plug-in methods. The above top 2 algorithm for any $\beta \in (0,1)$ has sample complexity within a constant of the lower bound. However, determining the optimal $\beta$ that matches the lower bound has proven difficult. In this paper, we address this and propose an optimal top-2 type algorithm. We consider a function of allocations anchored at a threshold. If it exceeds the threshold then the algorithm samples the empirical best arm. Otherwise, it samples the challenger arm. We show that the proposed algorithm is optimal as $\delta \rightarrow 0$. Our analysis relies on identifying a limiting fluid dynamics of allocations that satisfy a series of ordinary differential equations pasted together and that describe the asymptotic path followed by our algorithm. We rely on the implicit function theorem to show existence and uniqueness of these fluid ode's and to show that the proposed algorithm remains close to the ode solution.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# クラウドカウントのための単一ドメインの一般化

Single Domain Generalization for Crowd Counting ( http://arxiv.org/abs/2403.09124v1 )

ライセンス: Link先を確認
Zhuoxuan Peng, S. -H. Gary Chan, (参考訳) 現在の画像に基づく群集カウントは、その有望な結果のために密度マップの回帰を広く採用している。 しかし、この手法は、目に見えないシナリオからのデータでテストした場合、しばしば深刻なパフォーマンス劣化に悩まされる。 いわゆる「ドメインシフト」問題に対処するため,集団カウントのための単一領域一般化(SDG)について検討する。 既存のSDGアプローチは主に分類とセグメンテーションのためのものであり、その回帰性やラベルの曖昧さ(不明瞭なピクセルレベルの基底真理)のため、我々の場合までほとんど拡張できない。 本稿では,狭い音源分布においても有効な新しいSDG手法であるMPCountを提案する。 MPCountは、単一のメモリバンクで密度マップレグレッションの多様な機能を再構築し、コンテンツエラーマスクとアテンション一貫性損失を使用して、ドメイン不変表現のみを保持する。 さらに、高精度なラベルを実現するために密度予測の堅牢性を高める補助タスクとしてパッチワイズ分類を導入する。 異なるデータセットに関する広範な実験により、MPCountは、狭いソース分布のトレーニングデータに保存されていない様々なシナリオの下で、最先端の手法と比較して、カウント精度を著しく改善することが示された。 コードはhttps://github.com/Shimmer93/MPCount.comから入手できる。

Current image-based crowd counting widely employs density map regression due to its promising results. However, the method often suffers from severe performance degradation when tested on data from unseen scenarios. To address this so-called "domain shift" problem, we investigate single domain generalization (SDG) for crowd counting. The existing SDG approaches are mainly for classification and segmentation, and can hardly be extended to our case due to its regression nature and label ambiguity (i.e., ambiguous pixel-level ground truths). We propose MPCount, a novel SDG approach effective even for narrow source distribution. Reconstructing diverse features for density map regression with a single memory bank, MPCount retains only domain-invariant representations using a content error mask and attention consistency loss. It further introduces patch-wise classification as an auxiliary task to boost the robustness of density prediction to achieve highly accurate labels. Through extensive experiments on different datasets, MPCount is shown to significantly improve counting accuracy compared to the state of the art under diverse scenarios unobserved in the training data of narrow source distribution. Code is available at https://github.com/Shimmer93/MPCount.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# 参照オブジェクト削除の再考

Rethinking Referring Object Removal ( http://arxiv.org/abs/2403.09128v1 )

ライセンス: Link先を確認
Xiangtian Xue, Jiasong Wu, Youyong Kong, Lotfi Senhadji, Huazhong Shu, (参考訳) 参照オブジェクトの削除は、自然言語表現によって参照される画像中の特定のオブジェクトを削除し、行方不明領域を合理的な意味論で埋めることを指す。 この課題に対処するため,23,951枚の画像対において34,615個のオブジェクトの表現を参照する136,495個の合成データセットであるComCOCOを構築した。 各ペアは、参照表現と削除後の基底真理を含む画像を含む。 さらに,エンコーディング・デコード構造を持つエンドツーエンドの構文認識型ハイブリッドマッピングネットワークを提案する。 言語的特徴は構文レベルで階層的に抽出され、多面的注意を伴う視覚的特徴のダウンサンプリング過程に融合する。 特徴対応ピラミッドネットワークを利用して、セグメンテーションマスクを生成し、高レベルの特徴マップの外部セマンティクスから学んだ領域親和性に置き換える。 大規模な実験により,我々のモデルは拡散モデルと2段階の手法より優れており,セグメンテーションとインペインティングのタスクを大きなマージンで別々に処理することがわかった。

Referring object removal refers to removing the specific object in an image referred by natural language expressions and filling the missing region with reasonable semantics. To address this task, we construct the ComCOCO, a synthetic dataset consisting of 136,495 referring expressions for 34,615 objects in 23,951 image pairs. Each pair contains an image with referring expressions and the ground truth after elimination. We further propose an end-to-end syntax-aware hybrid mapping network with an encoding-decoding structure. Linguistic features are hierarchically extracted at the syntactic level and fused in the downsampling process of visual features with multi-head attention. The feature-aligned pyramid network is leveraged to generate segmentation masks and replace internal pixels with region affinity learned from external semantics in high-level feature maps. Extensive experiments demonstrate that our model outperforms diffusion models and two-stage methods which process the segmentation and inpainting task separately by a significant margin.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# 非適応型プールテストにおけるウイルス負荷推定

Viral Load Inference in Non-Adaptive Pooled Testing ( http://arxiv.org/abs/2403.09130v1 )

ライセンス: Link先を確認
Mansoor Sheikh, David Saad, (参考訳) 医療診断試験は、プールテストプロトコルを使用して、はるかに効率的に行うことができる。 これらは通常、疎感染シグナルを必要とし、O(1)のバイナリまたは実際の値のエントリを使用する。 しかし、既存の方法では、多くの桁にまたがるウイルス負荷を推測することはできない。 本研究では,PCR(ポリメラーゼ連鎖反応)特異的ノイズ関数と結合したメッセージパッシングアルゴリズムを開発し,現実的なバイラルロード信号の正確な推測を可能にする。 この研究は非適応的な設定であり、ウイルスの負荷決定が臨床的に重要である効率的なスクリーニングの可能性を開く可能性がある。

Medical diagnostic testing can be made significantly more efficient using pooled testing protocols. These typically require a sparse infection signal and use either binary or real-valued entries of O(1). However, existing methods do not allow for inferring viral loads which span many orders of magnitude. We develop a message passing algorithm coupled with a PCR (Polymerase Chain Reaction) specific noise function to allow accurate inference of realistic viral load signals. This work is in the non-adaptive setting and could open the possibility of efficient screening where viral load determination is clinically important.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# ProSwitch: 専門的および非専門的なスタイルのテキストを生成するための知識誘導型言語モデルファインチューニング

ProSwitch: Knowledge-Guided Language Model Fine-Tuning to Generate Professional and Non-Professional Styled Text ( http://arxiv.org/abs/2403.09131v1 )

ライセンス: Link先を確認
Chang Zong, Yuyan Chen, Weiming Lu, Jian Shao, Yueting Zhuang, (参考訳) 大規模言語モデル(LLM)は、テキスト要約や制御されたテキスト生成など、様々な言語応用において有効であることを示す。 しかし、細調整によってスタイルを切り替える能力についての研究は、いまだに過小評価されている。 本研究は、テキストプロフェッショナル主義に焦点をあて、知識誘導型指導チューニングを通じて専門的・非専門的応答を生成できる言語モデルを備えたProSwitchという新しい方法論を導入する。 ProSwitchは、ドメイン知識とトレーニングコーパスを収集するためのデータ準備、複数のレベルの命令形式で言語モデルを最適化するための命令チューニング、生成したテキストのプロフェッショナル差別と参照ベースの品質を評価するための包括的な評価の3段階に展開する。 汎用言語モデルと特殊言語モデルの比較分析により,プロと非プロのテキスト生成の切り替えにおいて,本手法がベースラインを上回っていることが判明した。

Large Language Models (LLMs) have demonstrated efficacy in various linguistic applications, including text summarization and controlled text generation. However, studies into their capacity of switching between styles via fine-tuning remain underexplored. This study concentrates on textual professionalism and introduces a novel methodology, named ProSwitch, which equips a language model with the ability to produce both professional and non-professional responses through knowledge-guided instruction tuning. ProSwitch unfolds across three phases: data preparation for gathering domain knowledge and training corpus; instruction tuning for optimizing language models with multiple levels of instruction formats; and comprehensive evaluation for assessing the professionalism discrimination and reference-based quality of generated text. Comparative analysis of ProSwitch against both general and specialized language models reveals that our approach outperforms baselines in switching between professional and non-professional text generation.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# 脳腫瘍切除における病理組織学的正則化の意義

Biophysics Informed Pathological Regularisation for Brain Tumour Segmentation ( http://arxiv.org/abs/2403.09136v1 )

ライセンス: Link先を確認
Lipei Zhang, Yanqi Cheng, Lihao Liu, Carola-Bibiane Schönlieb, Angelica I Aviles-Rivero, (参考訳) 近年の深層学習の進歩は脳腫瘍のセグメンテーション技術を大幅に改善させたが、画像データのみをバイオ物理の先駆者や病理情報を含まないことを考えると、信頼性や堅牢性に欠ける。 バイオフィジカルインフォームド・正規化を統合することは、自動化されたエンドツーエンド学習の事前正規化を提供するため、この状況を変える効果的な方法の1つである。 本稿では,脳腫瘍進展部分微分方程式(PDE)モデルを,ディープラーニングを用いた正規化モデルとして設計し,任意のネットワークモデルで運用する手法を提案する。 本手法では,特にデータ共有シナリオにおいて,腫瘍増殖PDEモデルをセグメント化プロセスに直接導入し,精度とロバスト性を向上させる。 本システムは周期活性化関数を用いて腫瘍細胞の密度を推定する。 この推定を生物物理モデルと効果的に統合することにより,腫瘍特性の捕集性を向上する。 このアプローチは、セグメント化を実際の生物学的挙動に近づけるだけでなく、限られたデータ条件下でのモデルの性能を強化する。 我々はBraTS 2023データセットの広範囲な実験を通じて,我々のフレームワークの有効性を実証し,腫瘍セグメンテーションの精度と信頼性を両立させた。

Recent advancements in deep learning have significantly improved brain tumour segmentation techniques; however, the results still lack confidence and robustness as they solely consider image data without biophysical priors or pathological information. Integrating biophysics-informed regularisation is one effective way to change this situation, as it provides an prior regularisation for automated end-to-end learning. In this paper, we propose a novel approach that designs brain tumour growth Partial Differential Equation (PDE) models as a regularisation with deep learning, operational with any network model. Our method introduces tumour growth PDE models directly into the segmentation process, improving accuracy and robustness, especially in data-scarce scenarios. This system estimates tumour cell density using a periodic activation function. By effectively integrating this estimation with biophysical models, we achieve a better capture of tumour characteristics. This approach not only aligns the segmentation closer to actual biological behaviour but also strengthens the model's performance under limited data conditions. We demonstrate the effectiveness of our framework through extensive experiments on the BraTS 2023 dataset, showcasing significant improvements in both precision and reliability of tumour segmentation.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# 非IIDマルチドメインシナリオにおける連結脳テンプレートのメタデータ駆動フェデレーション学習

Metadata-Driven Federated Learning of Connectional Brain Templates in Non-IID Multi-Domain Scenarios ( http://arxiv.org/abs/2403.09139v1 )

ライセンス: Link先を確認
Geng Chen, Qingyue Wang, Islem Rekik, (参考訳) コネクショナル脳テンプレート(コネクショナル脳テンプレート、英: connectional brain template、CBT)は、多視点脳接続グラフの集団の全体像であり、共有パターンを符号化し、個人間で典型的なバリエーションを正規化したものである。 CBT学習のフェデレーションは、完全にデータ保存された方法で、マルチドメイン脳接続データセットの代表中心を包括的に推定することを可能にする。 しかし、既存の方法では、異なる病院からデータドメインが引き出され、画像モダリティが撮像されるマルチドメイン脳接続の不均一性から生じる非独立で同一の(非IDD)問題を見落としている。 この制限を克服するために,メタFedCBTと呼ばれるメタデータ駆動型フェデレーション学習フレームワークを,ドメイン間CBT学習のために前代未聞の形で提案する。 特定のドメイン(例えば病院)から引き出されたデータを考えると、当社のモデルは、ローカルクライアントベースの回帰器ネットワークを導入することで、完全に教師された方法でメタデータを学習することを目的としています。 生成されたメタデータは、プライバシを保持しながら、他のドメインの統計属性(例えば、平均)を満たすように強制されます。 我々の教師付きメタデータ生成アプローチは、様々な領域にまたがる特定の脳状態のより中心的で代表的で総合的なCBTの教師なし学習を促進する。 連合学習が複数のラウンドで進行するにつれて、学習したメタデータと関連する生成された接続性は継続的に更新され、対象のドメイン情報をよりよく近似する。 MetaFedCBTは、プライバシー保護の総合的なCBT学習のための情報的脳結合性をメタデータを用いたガイダンスで生成することで、既存の手法の非IID問題を克服する。 健常者および患者における多視点脳ネットワークに関する広範囲な実験により,我々のMetaFedCBTは優れたCBT学習モデルであり,最先端の性能を著しく向上させることが示された。

A connectional brain template (CBT) is a holistic representation of a population of multi-view brain connectivity graphs, encoding shared patterns and normalizing typical variations across individuals. The federation of CBT learning allows for an inclusive estimation of the representative center of multi-domain brain connectivity datasets in a fully data-preserving manner. However, existing methods overlook the non-independent and identically distributed (non-IDD) issue stemming from multidomain brain connectivity heterogeneity, in which data domains are drawn from different hospitals and imaging modalities. To overcome this limitation, we unprecedentedly propose a metadata-driven federated learning framework, called MetaFedCBT, for cross-domain CBT learning. Given the data drawn from a specific domain (i.e., hospital), our model aims to learn metadata in a fully supervised manner by introducing a local client-based regressor network. The generated meta-data is forced to meet the statistical attributes (e.g., mean) of other domains, while preserving their privacy. Our supervised meta-data generation approach boosts the unsupervised learning of a more centered, representative, and holistic CBT of a particular brain state across diverse domains. As the federated learning progresses over multiple rounds, the learned metadata and associated generated connectivities are continuously updated to better approximate the target domain information. MetaFedCBT overcomes the non-IID issue of existing methods by generating informative brain connectivities for privacy-preserving holistic CBT learning with guidance using metadata. Extensive experiments on multi-view morphological brain networks of normal and patient subjects demonstrate that our MetaFedCBT is a superior federated CBT learning model and significantly advances the state-of-the-art performance.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# Sculpt3D:スパース3D先行によるマルチビュー一貫性テキスト・ツー・3D生成

Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior ( http://arxiv.org/abs/2403.09140v1 )

ライセンス: Link先を確認
Cheng Chen, Xiaofeng Yang, Fan Yang, Chengzeng Feng, Zhoujie Fu, Chuan-Sheng Foo, Guosheng Lin, Fayao Liu, (参考訳) 最近のテキスト・ツー・3d生成の研究は、3次元生成に2次元拡散監督のみを用いることで、不整合な外観(例えば、背面の顔)と不正確な形状(例えば、余分な脚を持つ動物)が生じる傾向にあることを示している。 既存の手法では、3次元データからレンダリングされた画像を用いて拡散モデルを再学習し、2次元生成品質と3次元整合性のバランスを保ちながら、多視点整合性を確保する。 本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元事前の明示的なインジェクションを,電流パイプラインに装備する新しいフレームワークSculpt3Dを提案する。 具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。 さらに、異なるビューの正確な出現を保証するため、生成されたオブジェクトのスタイルを変えることなく、2次元拡散モデルの出力をテンプレートビューの正しいパターンに調整する。 これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。 大規模な実験により,本手法は忠実度と多様性を保ちながら,多視点整合性を大幅に向上できることが示された。 私たちのプロジェクトページは、https://stellarcheng.github.io/Sculpt3D/.com/で公開されています。

Recent works on text-to-3d generation show that using only 2D diffusion supervision for 3D generation tends to produce results with inconsistent appearances (e.g., faces on the back view) and inaccurate shapes (e.g., animals with extra legs). Existing methods mainly address this issue by retraining diffusion models with images rendered from 3D data to ensure multi-view consistency while struggling to balance 2D generation quality with 3D consistency. In this paper, we present a new framework Sculpt3D that equips the current pipeline with explicit injection of 3D priors from retrieved reference objects without re-training the 2D diffusion model. Specifically, we demonstrate that high-quality and diverse 3D geometry can be guaranteed by keypoints supervision through a sparse ray sampling approach. Moreover, to ensure accurate appearances of different views, we further modulate the output of the 2D diffusion model to the correct patterns of the template views without altering the generated object's style. These two decoupled designs effectively harness 3D information from reference objects to generate 3D objects while preserving the generation quality of the 2D diffusion model. Extensive experiments show our method can largely improve the multi-view consistency while retaining fidelity and diversity. Our project page is available at: https://stellarcheng.github.io/Sculpt3D/.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# AI対応エッジデバイスにおけるマルチエージェント分散学習の不確実性推定

Uncertainty Estimation in Multi-Agent Distributed Learning for AI-Enabled Edge Devices ( http://arxiv.org/abs/2403.09141v1 )

ライセンス: Link先を確認
Gleb Radchenko, Victoria Andrea Fill, (参考訳) 当初は、限られた自律処理を備えた低消費電力ユニットと考えられていたが、Edge IoTデバイスはFPGAとAIアクセラレータの導入によってパラダイムシフトを経験している。 この進歩は、エッジAIの実用性を強調し、その計算能力を大幅に増幅した。 このような進歩は、エッジコンピューティング環境で典型的なエネルギーとネットワークリソースの制限のためにAIタスクを最適化する新たな課題をもたらす。 本研究では,AI対応エッジデバイスによる分散データ処理を実現する手法について検討し,協調学習能力の向上を図る。 我々の研究の焦点は、独立したエージェントが遭遇するデータセットの空間的および時間的変動を考慮して、学習結果の信頼度を決定することである。 この問題に対処するため,ベイズニューラルネットワークの適用について検討し,分散学習環境における不確実性を管理するための新しいアプローチを提案する。

Initially considered as low-power units with limited autonomous processing, Edge IoT devices have seen a paradigm shift with the introduction of FPGAs and AI accelerators. This advancement has vastly amplified their computational capabilities, emphasizing the practicality of edge AI. Such progress introduces new challenges of optimizing AI tasks for the limitations of energy and network resources typical in Edge computing environments. Our study explores methods that enable distributed data processing through AI-enabled edge devices, enhancing collaborative learning capabilities. A key focus of our research is the challenge of determining confidence levels in learning outcomes, considering the spatial and temporal variability of data sets encountered by independent agents. To address this issue, we investigate the application of Bayesian neural networks, proposing a novel approach to manage uncertainty in distributed learning environments.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# USimAgent: 検索ユーザをシミュレートする大規模言語モデル

USimAgent: Large Language Models for Simulating Search Users ( http://arxiv.org/abs/2403.09142v1 )

ライセンス: Link先を確認
Erhan Zhang, Xingzhu Wang, Peiyuan Gong, Yankai Lin, Jiaxin Mao, (参考訳) コスト効率と再現性に利点があるため、ユーザシミュレーションは情報検索システムのユーザ中心評価において有望な解決策となっている。 しかし,検索におけるユーザの行動は非常に複雑で,学習や推論,計画といった複雑な認知プロセスによって引き起こされるため,ユーザの検索行動の正確なシミュレートは長年難しかった。 近年,Large Language Models (LLMs) は人間レベルのインテリジェンスをシミュレートする可能性を示し,様々なタスクのための自律エージェントの構築に利用されている。 しかし, 探索行動のシミュレーションにLLMを使用する可能性については, まだ十分に検討されていない。 本稿では,LLMに基づくユーザ検索行動シミュレータUSimAgentを紹介する。 提案するシミュレータは,検索中のユーザのクエリ,クリック,停止をシミュレートし,特定の検索タスクに対して完全な検索セッションを生成することができる。 実際のユーザ行動データセットに関する実証的な調査では、提案したシミュレータがクエリ生成の既存手法よりも優れており、ユーザクリックの予測や動作停止における従来の手法に匹敵することを示している。 これらの結果は、ユーザシミュレーションにLLMを使うことの有効性を検証するだけでなく、より堅牢で汎用的なユーザシミュレータの開発にも光を当てている。

Due to the advantages in the cost-efficiency and reproducibility, user simulation has become a promising solution to the user-centric evaluation of information retrieval systems. Nonetheless, accurately simulating user search behaviors has long been a challenge, because users' actions in search are highly complex and driven by intricate cognitive processes such as learning, reasoning, and planning. Recently, Large Language Models (LLMs) have demonstrated remarked potential in simulating human-level intelligence and have been used in building autonomous agents for various tasks. However, the potential of using LLMs in simulating search behaviors has not yet been fully explored. In this paper, we introduce a LLM-based user search behavior simulator, USimAgent. The proposed simulator can simulate users' querying, clicking, and stopping behaviors during search, and thus, is capable of generating complete search sessions for specific search tasks. Empirical investigation on a real user behavior dataset shows that the proposed simulator outperforms existing methods in query generation and is comparable to traditional methods in predicting user clicks and stopping behaviors. These results not only validate the effectiveness of using LLMs for user simulation but also shed light on the development of a more robust and generic user simulators.
翻訳日:2024-03-15 21:36:54 公開日:2024-03-14
# 著名人における性差を考慮したLSMの評価

Evaluating LLMs for Gender Disparities in Notable Persons ( http://arxiv.org/abs/2403.09148v1 )

ライセンス: Link先を確認
Lauren Rhue, Sofie Goethals, Arun Sundararajan, (参考訳) 本研究では, 事実情報の検索にLarge Language Models (LLMs) を用いることを検討し, 事実的不正確な「ハロシン化」応答や, 答えのプロンプトを全く含まないことへの懸念に対処する。 具体的には,LLMの事実調査に対する反応における性別に基づく偏見の存在について検討する。 本稿では,複数次元のリコール,幻覚,偏見の公平性を評価することによって,GPTモデルの評価に多角的アプローチを採る。 以上の結果から, GPT-3.5の反応における性別差が明らかとなった。 GPT-4の進歩は、パフォーマンスの改善につながっているが、特に反応が低下するケースにおいて、これらの男女格差を完全に根絶していない。 この研究は、ジェンダー・アソシエーションがインプロンプトに与える影響と反応の均一性を調べることによって、これらの格差の起源をさらに探求する。

This study examines the use of Large Language Models (LLMs) for retrieving factual information, addressing concerns over their propensity to produce factually incorrect "hallucinated" responses or to altogether decline to even answer prompt at all. Specifically, it investigates the presence of gender-based biases in LLMs' responses to factual inquiries. This paper takes a multi-pronged approach to evaluating GPT models by evaluating fairness across multiple dimensions of recall, hallucinations and declinations. Our findings reveal discernible gender disparities in the responses generated by GPT-3.5. While advancements in GPT-4 have led to improvements in performance, they have not fully eradicated these gender disparities, notably in instances where responses are declined. The study further explores the origins of these disparities by examining the influence of gender associations in prompts and the homogeneity in the responses.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# 3レベル量子オットーエンジンのエネルギーギャップ変調と磁化

Energy-gap modulation and majorization in three-level quantum Otto engine ( http://arxiv.org/abs/2403.09154v1 )

ライセンス: Link先を確認
Sachin Sonkar, Ramandeep S. Johal, (参考訳) 2つのエネルギーギャップを持つ3レベル量子系は、量子熱エンジンの非自明な作用媒体を示す。 我々の焦点は、与えられた2つの熱貯水池の確率分布の変化に対して、これらのギャップを変調する能力の制約を理解することである。 準静的極限のオットーエンジンは、第1量子断熱段階で少なくとも1つのエネルギーギャップが縮むと実現可能である。 差分の違いによる運転条件を解析した結果, 両差分が小さくなると, 温度分布と寒冷分布との比例関係がエンジンの十分な基準となることがわかった。 さらに、正規化が成立する場合にはオットー効率が向上する。 一方、ギャップの1つだけが縮小している場合、偏化は必要条件となる。 1つのギャップが固定された特別な場合、分極はエンジンの運転に必要で十分である。 n$レベルのシステムでは、エネルギーギャップの明確に定義された変化は、偏極関係と整合し、エンジンの動作を特徴付けることに留意する。

A three-level quantum system having two energy gaps presents a nontrivial working medium for a quantum heat engine. Our focus lies in understanding the constraints on the ability to modulate these gaps relative to the changes in probability distributions at the two given heat reservoirs. It is seen that an Otto engine in the quasistatic limit is feasible if at least one energy gap shrinks during the first quantum adiabatic stage. We analyze operating conditions under different variations of the gaps, revealing that a definite majorization relation between the hot and cold distributions serves as a sufficient criterion for the engine when both gaps are shrinking. Further, Otto efficiency is enhanced in case majorization holds. On the other hand, majorization becomes a necessary condition when only one of the gaps is shrinking. In the special case where one gap remains fixed, majorization is both necessary and sufficient for engine operation. For an $n$-level system, we note that a well defined change in energy gaps aligns with the majorization relation, thus characterizing the operation of the engine.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# VM-UNET-V2、医療画像セグメンテーションのためのビジョンマンバUNetを再考

VM-UNET-V2 Rethinking Vision Mamba UNet for Medical Image Segmentation ( http://arxiv.org/abs/2403.09157v1 )

ライセンス: Link先を確認
Mingya Zhang, Yue Yu, Limei Gu, Tingsheng Lin, Xianping Tao, (参考訳) 医用画像セグメンテーションの分野では、CNNとTransformerの両方に基づくモデルが徹底的に研究されている。 しかし、CNNは長距離依存のモデリング機能に制限があるため、画像内のセマンティック情報を完全に活用することは困難である。 一方、二次計算の複雑さはトランスフォーマーにとって課題となる。 近年,マンバのような状態空間モデル (SSM) は有望な手法として認識されている。 長距離相互作用のモデリングにおいて優れた性能を示すだけでなく、線形計算の複雑さを保っている。 Mambaアーキテクチャにインスパイアされた我々は、Visual State Space (VSS) Blockを導入し、コンテキスト情報を収集し、Semantics and Detail Infusion (SDI)を導入し、低レベルかつ高レベルな特徴の注入を強化した。 我々はISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB、ETIS-LaribPolypDBのパブリックデータセットに関する包括的な実験を行う。 以上の結果から,VM-UNetV2は医用画像分割タスクの競合性能を示すことがわかった。 私たちのコードはhttps://github.com/nobodyplayer1/VM-UNetV2で利用可能です。

In the field of medical image segmentation, models based on both CNN and Transformer have been thoroughly investigated. However, CNNs have limited modeling capabilities for long-range dependencies, making it challenging to exploit the semantic information within images fully. On the other hand, the quadratic computational complexity poses a challenge for Transformers. Recently, State Space Models (SSMs), such as Mamba, have been recognized as a promising method. They not only demonstrate superior performance in modeling long-range interactions, but also preserve a linear computational complexity. Inspired by the Mamba architecture, We proposed Vison Mamba-UNetV2, the Visual State Space (VSS) Block is introduced to capture extensive contextual information, the Semantics and Detail Infusion (SDI) is introduced to augment the infusion of low-level and high-level features. We conduct comprehensive experiments on the ISIC17, ISIC18, CVC-300, CVC-ClinicDB, Kvasir, CVC-ColonDB and ETIS-LaribPolypDB public datasets. The results indicate that VM-UNetV2 exhibits competitive performance in medical image segmentation tasks. Our code is available at https://github.com/nobodyplayer1/VM-UNetV2.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# バスクとスペインのカウンターナラティブジェネレーション:データ作成と評価

Basque and Spanish Counter Narrative Generation: Data Creation and Evaluation ( http://arxiv.org/abs/2403.09159v1 )

ライセンス: Link先を確認
Jaione Bengoetxea, Yi-Ling Chung, Marco Guerini, Rodrigo Agerri, (参考訳) カウンターナラティブズ(Counter Narratives, CN)は、ヘイトスピーチ(Hate Speech, HS)に対する否定的な回答であり、オンラインの憎悪を否定し、メディアの拡散を緩和することを目的としている。 最近、オンラインに投稿されたHSコンテンツの増加にもかかわらず、自動CN生成の研究は比較的少なく、主に英語に焦点を当てている。 本稿では,機械翻訳(MT)と専門的な後編集によって開発されたCN生成のための新しいバスク・スペイン語データセットであるCONAN-EUSを提案する。 パラレルコーパスであり、もともとの英語のCONANに対しても、CNの多言語的および多言語的自動生成に関する新しい研究を行うことができる。 マルチリンガルエンコーダデコーダモデルであるmT5を用いたCN生成実験では,銀MTデータのみに依存するのではなく,後処理データによるトレーニングにより生成が大幅に向上することが示された。 これらの結果は定性的な手動評価と相関して確認され、手動で修正したトレーニングデータが生成したCNの品質に不可欠であることが証明された。 さらに、多言語データ拡張は、英語やスペイン語のような構造的に類似した言語に対する単言語設定よりも、結果を改善します。 同様に、ゼロショットのクロスリンガル評価では、モデル転送(英語で微調整し、異なるターゲット言語で生成する)は、スペイン語の機械翻訳データにおいて、バスク語ではなく、微調整のmT5よりも優れている。 これは生成モデルの多言語性における非対称性に関する興味深い洞察を与える。

Counter Narratives (CNs) are non-negative textual responses to Hate Speech (HS) aiming at defusing online hatred and mitigating its spreading across media. Despite the recent increase in HS content posted online, research on automatic CN generation has been relatively scarce and predominantly focused on English. In this paper, we present CONAN-EUS, a new Basque and Spanish dataset for CN generation developed by means of Machine Translation (MT) and professional post-edition. Being a parallel corpus, also with respect to the original English CONAN, it allows to perform novel research on multilingual and crosslingual automatic generation of CNs. Our experiments on CN generation with mT5, a multilingual encoder-decoder model, show that generation greatly benefits from training on post-edited data, as opposed to relying on silver MT data only. These results are confirmed by their correlation with a qualitative manual evaluation, demonstrating that manually revised training data remains crucial for the quality of the generated CNs. Furthermore, multilingual data augmentation improves results over monolingual settings for structurally similar languages such as English and Spanish, while being detrimental for Basque, a language isolate. Similar findings occur in zero-shot crosslingual evaluations, where model transfer (fine-tuning in English and generating in a different target language) outperforms fine-tuning mT5 on machine translated data for Spanish but not for Basque. This provides an interesting insight into the asymmetry in the multilinguality of generative models, a challenging topic which is still open to research.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# 微調整大言語モデルの一般化力の展開

Unveiling the Generalization Power of Fine-Tuned Large Language Models ( http://arxiv.org/abs/2403.09162v1 )

ライセンス: Link先を確認
Haoran Yang, Yumeng Zhang, Jiaqi Xu, Hongyuan Lu, Pheng Ann Heng, Wai Lam, (参考訳) 大規模言語モデル(LLM)は、これらのモデルを下流で微調整するなど、例外的なマルチタスク能力を示してきたが、ドメイン固有のデータセットは、微調整なしでテストセット上での優れたパフォーマンスを得るためには、しばしば必要である。 しかし、LLMの一般化能力に対する微調整の包括的な影響は、完全には理解されていない。 本論文は, 原型無修正LLMと微調整型との相違について述べる。 本研究の主目的は, 微調整が LLM に固有の一般化能力に影響を及ぼすかどうかである。 そこで本研究では,5つの異なる言語タスクに対して,様々なデータセット上で広範な実験を行う。 本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。 興味深いことに、生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。 この体系的な調査を通じて,LLMの微調整実践の進化する景観に関する貴重な知見を提供することを目標としている。

While Large Language Models (LLMs) have demonstrated exceptional multitasking abilities, fine-tuning these models on downstream, domain-specific datasets is often necessary to yield superior performance on test sets compared to their counterparts without fine-tuning. However, the comprehensive effects of fine-tuning on the LLMs' generalization ability are not fully understood. This paper delves into the differences between original, unmodified LLMs and their fine-tuned variants. Our primary investigation centers on whether fine-tuning affects the generalization ability intrinsic to LLMs. To elaborate on this, we conduct extensive experiments across five distinct language tasks on various datasets. Our main findings reveal that models fine-tuned on generation and classification tasks exhibit dissimilar behaviors in generalizing to different domains and tasks. Intriguingly, we observe that integrating the in-context learning strategy during fine-tuning on generation tasks can enhance the model's generalization ability. Through this systematic investigation, we aim to contribute valuable insights into the evolving landscape of fine-tuning practices for LLMs.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# Caveat Lector: 法律実務における大規模言語モデル

Caveat Lector: Large Language Models in Legal Practice ( http://arxiv.org/abs/2403.09163v1 )

ライセンス: Link先を確認
Eliza Mik, (参考訳) 大規模言語モデル(LLM)への現在の関心は、多くのユーザーが生成されたテキストの品質を評価する専門知識を持っていないという事実から来ている。 したがって、LLMは実際よりも能力が高いように見える。 急流と表面的可視性の危険な組み合わせは、生成されたテキストを信頼する誘惑を招き、過信のリスクを生じさせる。 誰が完璧な法学者を信用しないのか。 本条は, 技術・法学両分野における最近の知見を踏まえ, 法律実務におけるLLMの役割について, 過度に楽観的な予測と相反するものである。 LLMを法的な作業ストリームに統合し、その制限をより理解することなく、完全なリスクを伴わないような非効率性を生み出す。 テキストを生成するという前例のない能力にもかかわらず、LLMはテキストを理解していない。 意味を理解する能力がなければ、LLMは言語を使い続けることができず、知識を取得し、複雑な推論タスクを実行することができる。 確率的単語予測に基づいて言語をモデル化するために訓練されたLLMは、事実とフィクションを区別することはできない。 彼らの法則に関する知識は、それらのパラメータに記憶された単語文字列に限られている。 また、不完全であり、ほとんど正しくない。 LLMは、検証された事実のレベルではなく、単語の分布のレベルで動作する。 幻覚を起こそうとすると、不正確だが役に立ち、関連性のある発言が生まれ、法律サービスのようなリスクの高い領域で警戒されている。 現在、弁護士はLLMが生成したテキストに依存することに留意すべきである。

The current fascination with large language models, or LLMs, derives from the fact that many users lack the expertise to evaluate the quality of the generated text. LLMs may therefore appear more capable than they actually are. The dangerous combination of fluency and superficial plausibility leads to the temptation to trust the generated text and creates the risk of overreliance. Who would not trust perfect legalese? Relying recent findings in both technical and legal scholarship, this Article counterbalances the overly optimistic predictions as to the role of LLMs in legal practice. Integrating LLMs into legal workstreams without a better comprehension of their limitations, will create inefficiencies if not outright risks. Notwithstanding their unprecedented ability to generate text, LLMs do not understand text. Without the ability to understand meaning, LLMs will remain unable to use language, to acquire knowledge and to perform complex reasoning tasks. Trained to model language on the basis of stochastic word predictions, LLMs cannot distinguish fact from fiction. Their knowledge of the law is limited to word strings memorized in their parameters. It is also incomplete and largely incorrect. LLMs operate at the level of word distributions, not at the level of verified facts. The resulting propensity to hallucinate, to produce statements that are incorrect but appear helpful and relevant, is alarming in high-risk areas like legal services. At present, lawyers should beware of relying on text generated by LLMs.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# 伝統的な中国医学知識におけるチャットGPTの理解を探る

Exploring the Comprehension of ChatGPT in Traditional Chinese Medicine Knowledge ( http://arxiv.org/abs/2403.09164v1 )

ライセンス: Link先を確認
Li Yizhen, Huang Shaohan, Qi Jiaxing, Quan Lei, Han Dongran, Luan Zhongzhi, (参考訳) 従来の中国医学(TCM)における言語モデル(LLM)の性能に関する研究は行われていない。 このギャップを埋めるために,TCM-QAという,単一選択,複数選択,真偽の3つの質問タイプからなるTCM質問データセットを提案する。 本研究では,LLMの2つの設定,ゼロショットと少数ショットの設定を評価し,英語と中国語のプロンプトの違いを同時に議論した。 以上の結果から,ChatGPTの精度は0.688であり,最も低い精度は0.241であることがわかった。 さらに、我々の評価では、中国語のプロンプトが英語のプロンプトより優れていた。 さらに、ChatGPTが生成する説明の質と、TCMの知識理解への潜在的貢献を評価する。 本稿では、特殊領域におけるLCMの適用性に関する貴重な知見を提供し、これらの強力なモデルを活用してTCMを前進させる今後の研究の道を開く。

No previous work has studied the performance of Large Language Models (LLMs) in the context of Traditional Chinese Medicine (TCM), an essential and distinct branch of medical knowledge with a rich history. To bridge this gap, we present a TCM question dataset named TCM-QA, which comprises three question types: single choice, multiple choice, and true or false, to examine the LLM's capacity for knowledge recall and comprehensive reasoning within the TCM domain. In our study, we evaluate two settings of the LLM, zero-shot and few-shot settings, while concurrently discussing the differences between English and Chinese prompts. Our results indicate that ChatGPT performs best in true or false questions, achieving the highest precision of 0.688 while scoring the lowest precision is 0.241 in multiple-choice questions. Furthermore, we observed that Chinese prompts outperformed English prompts in our evaluations. Additionally, we assess the quality of explanations generated by ChatGPT and their potential contribution to TCM knowledge comprehension. This paper offers valuable insights into the applicability of LLMs in specialized domains and paves the way for future research in leveraging these powerful models to advance TCM.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# 量子モノガミー関係の振動によるベル非局在性の検証

Verification of Bell Nonlocality by Violating Quantum Monogamy Relations ( http://arxiv.org/abs/2403.09166v1 )

ライセンス: Link先を確認
Yan-Han Yang, Xin-Zhu Liu, Xing-Zhou Zheng, Shao-Ming Fei, Ming-Xing Luo, (参考訳) 絡み合いの証人としての量子非局所性は、様々な分野で重要な役割を果たしている。 既存の量子モノガミー関係は、全てのベルの不等式を同時に違反する可能性を、あるベル実験から生成された、任意の多重粒子の絡み合いや後量子源に関する部分統計と区別する。 本稿では,ベルの不等式に基づくマルチパートベル試験の効率的な構築法について報告する。 これらのモノガミー関係に違反することは、部分系のベル非局所性を動的に目撃できることを実証する。 我々は、最大エンタングルされた2光子状態を用いて三部体モノガミー関係を破り、量子非局所性を検証する三部体実験を行う。

Quantum nonlocality as a witness of entanglement plays a crucial role in various fields. Existing quantum monogamy relations rule out the possibility of simultaneous violations of any Bell inequalities with partial statistics generated from one Bell experiment on any multipartite entanglement or post-quantum sources. In this paper, we report an efficient method to construct multipartite Bell test based on any Bell inequalities. We demonstrate that violating these monogamy relations can dynamically witness simultaneous Bell nonlocalities of partial systems. We conduct a tripartite experiment to verify quantum nonlocalities by violating a tripartite monogamy relation using a maximally entangled two-photon state.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# Dial-insight:高品質ドメイン特化データを用いた微調整型大規模言語モデル

Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse ( http://arxiv.org/abs/2403.09167v1 )

ライセンス: Link先を確認
Jianwei Sun, Chaoyang Mei, Linlin Wei, Kaiyu Zheng, Na Liu, Ming Cui, Tianyi Li, (参考訳) 大規模言語モデル(LLM)の有効性は、基礎となるデータの品質に大きく依存している。 ドメイン固有のアプリケーションのための微調整 LLM の一般的な課題は、モデルの一般化能力の潜在的な劣化である。 これらの課題に対処するため,高品質なデータを得るために設計された生産プロンプト構築のための2段階のアプローチを提案する。 この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。 さらに,生成したラベルデータの整合性を確保するため,コスト効率・多次元品質評価フレームワークを導入する。 サービスプロバイダと不動産セクターからの顧客インタラクションからなるデータセットを用いて、データ品質とモデルパフォーマンスの正の相関を実証する。 特に,本手法を用いて作成したデータを用いて,ドメイン固有データのみを微調整に使用しても,全体的な一般化能力を損なうことなく,汎用LLMのドメイン固有習熟度を向上させることができることを示す。

The efficacy of large language models (LLMs) is heavily dependent on the quality of the underlying data, particularly within specialized domains. A common challenge when fine-tuning LLMs for domain-specific applications is the potential degradation of the model's generalization capabilities. To address these issues, we propose a two-stage approach for the construction of production prompts designed to yield high-quality data. This method involves the generation of a diverse array of prompts that encompass a broad spectrum of tasks and exhibit a rich variety of expressions. Furthermore, we introduce a cost-effective, multi-dimensional quality assessment framework to ensure the integrity of the generated labeling data. Utilizing a dataset comprised of service provider and customer interactions from the real estate sector, we demonstrate a positive correlation between data quality and model performance. Notably, our findings indicate that the domain-specific proficiency of general LLMs can be enhanced through fine-tuning with data produced via our proposed method, without compromising their overall generalization abilities, even when exclusively domain-specific data is employed for fine-tuning.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# 乱摂動下における特異部分空間の解析

Analysis of singular subspaces under random perturbations ( http://arxiv.org/abs/2403.09170v1 )

ライセンス: Link先を確認
Ke Wang, (参考訳) 本稿では,信号の文脈における特異ベクトルと特異部分空間の摂動の包括的解析とランダムなガウス雑音行列モデルを提案する。 低ランク信号行列を仮定すると、Wedin-Davis-Kahanの定理を完全に一般化した方法で拡張し、任意の単位不変行列ノルムに適用し、O'Rourke, Vu と著者の以前の結果を拡張する。 また、特異ベクトルの$\ell_\infty$解析、特異部分空間の$\ell_{2, \infty}$解析、および特異ベクトルに関連する線型および双線型関数の探索を含む詳細な結果を得る。 さらに,ガウス混合モデルとサブマトリクス局所化問題の文脈において,これらの知見の実用的意義について考察する。

We present a comprehensive analysis of singular vector and singular subspace perturbations in the context of the signal plus random Gaussian noise matrix model. Assuming a low-rank signal matrix, we extend the Wedin-Davis-Kahan theorem in a fully generalized manner, applicable to any unitarily invariant matrix norm, extending previous results of O'Rourke, Vu and the author. We also obtain the fine-grained results, which encompass the $\ell_\infty$ analysis of singular vectors, the $\ell_{2, \infty}$ analysis of singular subspaces, as well as the exploration of linear and bilinear functions related to the singular vectors. Moreover, we explore the practical implications of these findings, in the context of the Gaussian mixture model and the submatrix localization problem.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# ADEdgeDrop:ロバストグラフニューラルネットワークの逆エッジドロップ

ADEdgeDrop: Adversarial Edge Dropping for Robust Graph Neural Networks ( http://arxiv.org/abs/2403.09171v1 )

ライセンス: Link先を確認
Zhaoliang Chen, Zhihao Wu, Ylli Sadikaj, Claudia Plant, Hong-Ning Dai, Shiping Wang, Wenzhong Guo, (参考訳) グラフニューラルネットワーク(GNN)は,様々なメッセージパッシング機構を通じて周辺ノードからグラフ構造化情報を収集する強力な能力を示したが,ノイズや冗長なグラフデータによって生じる一般化の貧弱さと脆弱な堅牢性により,GNNの性能は制限されている。 目立った解決策として、グラフ強化学習(GAL)が最近注目を集めている。 従来のGAL手法の中で、学習中にグラフからエッジをランダムに除去するエッジドロップ法は、GNNの堅牢性を改善する効果的な手法である。 しかし、ランダムにエッジを落とすと、しばしばクリティカルエッジをバイパスし、メッセージパッシングの有効性を弱める。 本稿では,異なるGNNバックボーンに柔軟に組み込むことができる,エッジの除去を導く対向エッジ予測器を活用する新しい対向エッジドロップ法(ADEdgeDrop)を提案する。 エッジ予測器は、逆トレーニングフレームワークを用いて、元のグラフから変換された線グラフを利用して、ドロップするエッジを推定し、エッジドロップ方式の解釈性を向上させる。 提案したADEdgeDropは,確率勾配勾配と投影勾配勾配とを交互に最適化する。 6つのグラフベンチマークデータセットに関する総合的な実験により、提案されたADEdgeDropは、様々なGNNバックボーンで最先端のベースラインよりも優れ、一般化とロバスト性の向上が示されている。

Although Graph Neural Networks (GNNs) have exhibited the powerful ability to gather graph-structured information from neighborhood nodes via various message-passing mechanisms, the performance of GNNs is limited by poor generalization and fragile robustness caused by noisy and redundant graph data. As a prominent solution, Graph Augmentation Learning (GAL) has recently received increasing attention. Among prior GAL approaches, edge-dropping methods that randomly remove edges from a graph during training are effective techniques to improve the robustness of GNNs. However, randomly dropping edges often results in bypassing critical edges, consequently weakening the effectiveness of message passing. In this paper, we propose a novel adversarial edge-dropping method (ADEdgeDrop) that leverages an adversarial edge predictor guiding the removal of edges, which can be flexibly incorporated into diverse GNN backbones. Employing an adversarial training framework, the edge predictor utilizes the line graph transformed from the original graph to estimate the edges to be dropped, which improves the interpretability of the edge-dropping method. The proposed ADEdgeDrop is optimized alternately by stochastic gradient descent and projected gradient descent. Comprehensive experiments on six graph benchmark datasets demonstrate that the proposed ADEdgeDrop outperforms state-of-the-art baselines across various GNN backbones, demonstrating improved generalization and robustness.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# SHAN:Scene Heterogeneous Graph上での推論によるオブジェクトレベルプライバシ検出

SHAN: Object-Level Privacy Detection via Inference on Scene Heterogeneous Graph ( http://arxiv.org/abs/2403.09172v1 )

ライセンス: Link先を確認
Zhuohang Jiang, Bingkui Tong, Xia Du, Ahmed Alhammadi, Jizhe Zhou, (参考訳) ソーシャルプラットフォームの普及に伴い、プライバシー保護は重要な問題となっている。 プライバシオブジェクト検出は、画像内のプライベートオブジェクトを正確に見つけることを目的としている。 個人のプライバシの権利を保護し、デジタル時代の責任あるデータ処理プラクティスを確実にする基盤となっている。 オブジェクトのプライバシはシフト不変ではないため、プライバシオブジェクト検出タスクの本質は、シーン情報に基づいてオブジェクトのプライバシを推論することである。 しかし、プライバシオブジェクト検出は、一般的なオブジェクト検出タスクのサブプロブレムとして長い間研究されてきた。 したがって、既存の手法は精度、一般化、解釈可能性の重大な欠陥に悩まされている。 さらに、法的制約のため、大規模なプライバシデータセットの作成は困難であり、既存のプライバシデータセットにはラベルの粒度がない。 既存のプライバシー検出手法の粒度は依然として画像レベルに限られている。 上記の2つの問題に対処するために、オブジェクトレベルのプライバシ検出のためのベンチマークデータセットを2つ導入し、画像からシーン異質なグラフを構築し、シーン推論に自己認識機構を用いてオブジェクトのプライバシを得るモデルであるSHAN(Scene Heterogeneous Graph Attention Network)を提案する。 実験により,SHANはプライバシオブジェクト検出タスクにおいて優れた性能を示し,すべての指標がベースラインモデルを上回ることを示した。

With the rise of social platforms, protecting privacy has become an important issue. Privacy object detection aims to accurately locate private objects in images. It is the foundation of safeguarding individuals' privacy rights and ensuring responsible data handling practices in the digital age. Since privacy of object is not shift-invariant, the essence of the privacy object detection task is inferring object privacy based on scene information. However, privacy object detection has long been studied as a subproblem of common object detection tasks. Therefore, existing methods suffer from serious deficiencies in accuracy, generalization, and interpretability. Moreover, creating large-scale privacy datasets is difficult due to legal constraints and existing privacy datasets lack label granularity. The granularity of existing privacy detection methods remains limited to the image level. To address the above two issues, we introduce two benchmark datasets for object-level privacy detection and propose SHAN, Scene Heterogeneous graph Attention Network, a model constructs a scene heterogeneous graph from an image and utilizes self-attention mechanisms for scene inference to obtain object privacy. Through experiments, we demonstrated that SHAN performs excellently in privacy object detection tasks, with all metrics surpassing those of the baseline model.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# ブリッジング量子コンピューティングと微分プライバシ:量子コンピューティングプライバシに関する調査

Bridging Quantum Computing and Differential Privacy: A Survey on Quantum Computing Privacy ( http://arxiv.org/abs/2403.09173v1 )

ライセンス: Link先を確認
Yusheng Zhao, Hui Zhong, Xinyue Zhang, Chi Zhang, Miao Pan, (参考訳) 量子コンピューティングは暗号、サイバーセキュリティ、薬物発見などの分野で大きな注目を集めている。 並列処理の利点により、量子コンピューティングは複雑な課題への応答と大規模データセットの処理を高速化することができる。 しかし、量子コンピューティングは通常、センシティブなデータセットを必要とするため、プライバシー侵害は重要な懸念事項となっている。 微分プライバシ(DP)は古典コンピューティングにおいて有望なプライバシ保護手法であり、近年量子ドメインに拡張されている。 本研究では、量子コンピューティングにおけるDPを実現するために、内部固有ノイズと外部人工ノイズをソースとして使用するかに基づいて、既存の文献を分類する。 量子アルゴリズム(状態準備、量子回路、量子計測)の異なる段階でこれらのアプローチがどのように適用されるかを検討する。 量子コンピューティングにおけるDPの課題と今後の方向性についても論じる。 近年の進歩を要約することで、この分野を探求する研究者に対して、包括的で最新の概要を提供したいと思っています。

Quantum computing has attracted significant attention in areas such as cryptography, cybersecurity, and drug discovery. Due to the advantage of parallel processing, quantum computing can speed up the response to complex challenges and the processing of large-scale datasets. However, since quantum computing usually requires sensitive datasets, privacy breaches have become a vital concern. Differential privacy (DP) is a promising privacy-preserving method in classical computing and has been extended to the quantum domain in recent years. In this survey, we categorize the existing literature based on whether internal inherent noise or external artificial noise is used as a source to achieve DP in quantum computing. We explore how these approaches are applied at different stages of a quantum algorithm (i.e., state preparation, quantum circuit, and quantum measurement). We also discuss challenges and future directions for DP in quantum computing. By summarizing recent advancements, we hope to provide a comprehensive, up-to-date overview for researchers venturing into this field.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# Switch Diffusion Transformer:Sparse Mixture-of-ExpertsによるDenoising Tasksの同期

Switch Diffusion Transformer: Synergizing Denoising Tasks with Sparse Mixture-of-Experts ( http://arxiv.org/abs/2403.09176v1 )

ライセンス: Link先を確認
Byeongjun Park, Hyojun Go, Jin-Young Kim, Sangmin Woo, Seokil Ham, Changick Kim, (参考訳) 拡散モデルは、様々な生成的タスクで顕著な成功を収めた。 拡散モデルアーキテクチャの強化に向けた近年の取り組みは,各タスクが特定の雑音レベルにおける認知タスクに対応するマルチタスク学習の形式として再認識されている。 これらの取り組みはパラメータ分離とタスクルーティングに重点を置いているが、それらはそれぞれ、タスク間の詳細な関係と、セマンティック情報を失うリスクを捉えていない。 これに対して,Switch Diffusion Transformer (Switch-DiT)を導入し,意味情報を妥協することなくタスク間のタスク間関係を確立する。 これを実現するために,各変圧器ブロック内にスパース・オブ・エグゼクティブ(sparse Mixed-of-experts)を用いて意味情報を活用し,パラメータ分離によるタスク間の競合の処理を容易にする。 さらに,相反するタスクを分離しながら,相反するタスクの共有を奨励する拡散先行損失を提案する。 これらを通じて、各トランスフォーマーブロックは、すべてのタスクをまたがる共有専門家を含み、共通およびタスク特化経路により、拡散モデルは、タスクを相乗化するための有益な方法を構築することができる。 画像品質と収束率の両面でのアプローチの有効性を検証し,さらに解析を行った結果,Switch-DiTは様々な生成シナリオにまたがるカスタマイズされたデノナイジングパスを構築していることがわかった。

Diffusion models have achieved remarkable success across a range of generative tasks. Recent efforts to enhance diffusion model architectures have reimagined them as a form of multi-task learning, where each task corresponds to a denoising task at a specific noise level. While these efforts have focused on parameter isolation and task routing, they fall short of capturing detailed inter-task relationships and risk losing semantic information, respectively. In response, we introduce Switch Diffusion Transformer (Switch-DiT), which establishes inter-task relationships between conflicting tasks without compromising semantic information. To achieve this, we employ a sparse mixture-of-experts within each transformer block to utilize semantic information and facilitate handling conflicts in tasks through parameter isolation. Additionally, we propose a diffusion prior loss, encouraging similar tasks to share their denoising paths while isolating conflicting ones. Through these, each transformer block contains a shared expert across all tasks, where the common and task-specific denoising paths enable the diffusion model to construct its beneficial way of synergizing denoising tasks. Extensive experiments validate the effectiveness of our approach in improving both image quality and convergence rate, and further analysis demonstrates that Switch-DiT constructs tailored denoising paths across various generation scenarios.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# 一般化された関係学習 グラスマン量子化

Generalized Relevance Learning Grassmann Quantization ( http://arxiv.org/abs/2403.09183v1 )

ライセンス: Link先を確認
M. Mohammadi, M. Babai, M. H. F. Wilkinson, (参考訳) デジタルカメラの進歩により、異なる条件下でオブジェクトから複数の画像(またはビデオ)を収集することは容易である。 したがって、画像集合分類はより注目され、それらをモデル化するための様々な解決策が提案されている。 イメージ集合をモデル化する一般的な方法は部分空間であり、グラスマン多様体と呼ばれる多様体を形成する。 このコントリビューションでは、グラスマン多様体を扱うために一般化関連学習ベクトル量子化の適用を拡大する。 提案モデルでは,プロトタイプ部分空間と関連ベクトルのセットを返却する。 プロトタイプはクラス内の典型的な振る舞いをモデル化するが、関連因子は分類タスクの最も識別性の高い主ベクトル(または画像)を指定する。 どちらも、予測のために影響力のある画像とピクセルを強調することによって、モデルの判断に対する洞察を提供する。 さらに、プロトタイプの学習により、推論中の新しいメソッドのモデル複雑さは、以前の研究とは異なり、データセットのサイズとは独立している。 手書き文字認識,顔認識,アクティビティ認識,オブジェクト認識など,いくつかのタスクに適用した。 実験では、以前の作品よりも複雑さが低く、手書きスタイルや照明条件などのバリエーションをうまくモデル化できることが示されている。 さらに、関連性の存在は、そのモデルを部分空間の次元性の選択に頑健にする。

Due to advancements in digital cameras, it is easy to gather multiple images (or videos) from an object under different conditions. Therefore, image-set classification has attracted more attention, and different solutions were proposed to model them. A popular way to model image sets is subspaces, which form a manifold called the Grassmann manifold. In this contribution, we extend the application of Generalized Relevance Learning Vector Quantization to deal with Grassmann manifold. The proposed model returns a set of prototype subspaces and a relevance vector. While prototypes model typical behaviours within classes, the relevance factors specify the most discriminative principal vectors (or images) for the classification task. They both provide insights into the model's decisions by highlighting influential images and pixels for predictions. Moreover, due to learning prototypes, the model complexity of the new method during inference is independent of dataset size, unlike previous works. We applied it to several recognition tasks including handwritten digit recognition, face recognition, activity recognition, and object recognition. Experiments demonstrate that it outperforms previous works with lower complexity and can successfully model the variation, such as handwritten style or lighting conditions. Moreover, the presence of relevances makes the model robust to the selection of subspaces' dimensionality.
翻訳日:2024-03-15 21:26:58 公開日:2024-03-14
# マルコフ決定過程の検証のための学習アルゴリズム

Learning Algorithms for Verification of Markov Decision Processes ( http://arxiv.org/abs/2403.09184v1 )

ライセンス: Link先を確認
Tomáš Brázdil, Krishnendu Chatterjee, Martin Chmelik, Vojtěch Forejt, Jan Křetínský, Marta Kwiatkowska, Tobias Meggendorfer, David Parker, Mateusz Ujma, (参考訳) 本稿では, Br\'azdil, T. et al (2014) のアイデアに基づいて, マルコフ決定過程(MDP)の検証に学習アルゴリズムとヒューリスティックガイダンスを適用するための一般的な枠組みを提案する。 学習アルゴリズムを用いたマルコフ決定過程の検証 この研究で提示される技術の主な目標は、ヒューリスティックスによって導かれる状態空間の徹底的な探索を避けることで、パフォーマンスを改善することである。 このアプローチは、この作業で大幅に拡張されています。 基礎理論のいくつかの詳細が洗練され、誤りが修正される。 第1.3節では、すべての相違点について概説している。 提案するフレームワークは,検証における中核的な問題である確率的到達性に注目し,二つの異なるシナリオでインスタンス化される。 第一に、MDPの完全な知識、特に正確な遷移確率が利用できると仮定する。 モデルに対するヒューリスティック駆動による部分探索を行い、要求される確率の正確な下限と上限を導出する。 2つ目は、正確な遷移ダイナミクスを知らずにMDPをサンプリングできるケースに取り組みます。 ここでは、下界と上界の両方の観点からも確率的保証を得、近似の効率的な停止基準を提供する。 特に後者は、MDPの非有界特性に対する統計モデル検査(SMC)の拡張である。 他の関連するアプローチとは対照的に、時間有界(有限水平)や割引特性への注意を制限したり、MDPの特定の構造特性を仮定したりしない。

We present a general framework for applying learning algorithms and heuristical guidance to the verification of Markov decision processes (MDPs), based on the ideas of Br\'azdil, T. et al. (2014). Verification of Markov Decision Processes Using Learning Algorithms. The primary goal of the techniques presented in that work is to improve performance by avoiding an exhaustive exploration of the state space, guided by heuristics. This approach is significantly extended in this work. Several details of the base theory are refined and errors are fixed. Section 1.3 provides an overview of all differences. The presented framework focuses on probabilistic reachability, which is a core problem in verification, and is instantiated in two distinct scenarios. The first assumes that full knowledge of the MDP is available, in particular precise transition probabilities. It performs a heuristic-driven partial exploration of the model, yielding precise lower and upper bounds on the required probability. The second tackles the case where we may only sample the MDP without knowing the exact transition dynamics. Here, we obtain probabilistic guarantees, again in terms of both the lower and upper bounds, which provides efficient stopping criteria for the approximation. In particular, the latter is an extension of statistical model-checking (SMC) for unbounded properties in MDPs. In contrast to other related approaches, we do not restrict our attention to time-bounded (finite-horizon) or discounted properties, nor assume any particular structural properties of the MDP.
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# 量子動的プログラミング

Quantum Dynamic Programming ( http://arxiv.org/abs/2403.09187v1 )

ライセンス: Link先を確認
Jeongrak Son, Marek Gluza, Ryuji Takagi, Nelly H. Y. Ng, (参考訳) 本稿では,メモリを用いた再帰問題の解法として,動的プログラミングの量子拡張を導入する。 我々の革新は、記憶された中間量子状態を用いて再帰ステップのユニタリをコヒーレントに生成する方法を示すことである。 量子力学プログラミングは、Groverの探索の既知の再帰変種を含む、多数の固定点量子再帰に対して、回路深さが指数関数的に減少することを発見した。 さらに、最近提案された対角化のための二重ブラケット量子アルゴリズムに量子力学プログラミングを適用し、そのシュミット基底における量子状態の鮮明な準備のための新しいプロトコルを得るとともに、未知の量子状態の絡み合い構造を明らかにするための潜在的経路を提供する。

We introduce a quantum extension of dynamic programming, a fundamental computational method for efficiently solving recursive problems using memory. Our innovation lies in showing how to coherently generate unitaries of recursion steps using memorized intermediate quantum states. We find that quantum dynamic programming yields an exponential reduction in circuit depth for a large class of fixed-point quantum recursions, including a known recursive variant of the Grover's search. Additionally, we apply quantum dynamic programming to a recently proposed double-bracket quantum algorithm for diagonalization to obtain a new protocol for obliviously preparing a quantum state in its Schmidt basis, providing a potential pathway for revealing entanglement structures of unknown quantum states.
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# gc-msスペクトルを用いた深層学習におけるスパースデータセットのベースプロジェクション層の設計

Design of an basis-projected layer for sparse datasets in deep learning training using gc-ms spectra as a case study ( http://arxiv.org/abs/2403.09188v1 )

ライセンス: Link先を確認
Yu Tang Chang, Shih Fang Chen, (参考訳) ディープラーニング(DL)モデルは、数百万から数十億のパラメータを包含し、ビッグデータから複雑なパターンを学ぶ。 しかし、当初は全てのデータがDLモデル、例えばガスクロマトグラフィー質量分析法(GC-MS)やDNA配列を効果的に訓練するために適切な形態で保存されているわけではない。 これらのデータセットは一般に多くのゼロ値を含み、スパースデータ生成はDLモデルの最適化に困難を引き起こす。 スパースデータを高密度表現に変換することで問題を緩和するため,BPLと呼ばれるDLモジュールが提案された。 変換されたデータは、DLトレーニングプロセスにおける勾配計算と微調整プロセスを容易にすることが期待されている。 データセットはスパースデータセットの例で、GC-MSから検出された362の特別なコーヒー臭気スペクトルを含んでいた。 BPL層はDLモデルの初めに配置された。 層内の調整可能なパラメータは、新しい表現空間の基底となる学習可能な射影軸である。 レイヤはパラメータが更新されたときにこれらのベースを回転させた。 ベース数が元の寸法と同じ場合、F1スコアの増加率は8.56%であった。 さらに、番号が768(当初の寸法は490)と設定された場合、F1スコアの増加率は11.49%であった。 このレイヤはモデルのパフォーマンスを維持できるだけでなく、スパースデータセットの分析において、より良い表現空間を構築した。

Deep learning (DL) models encompass millions or even billions of parameters and learn complex patterns from big data. However, not all data are initially stored in a suitable formation to effectively train a DL model, e.g., gas chromatography-mass spectrometry (GC-MS) spectra and DNA sequence. These datasets commonly contain many zero values, and the sparse data formation causes difficulties in optimizing DL models. A DL module called the basis-projected layer (BPL) was proposed to mitigate the issue by transforming the sparse data into a dense representation. The transformed data is expected to facilitate the gradient calculation and finetuned process in a DL training process. The dataset, example of a sparse dataset, contained 362 specialty coffee odorant spectra detected from GC-MS. The BPL layer was placed at the beginning of the DL model. The tunable parameters in the layer were learnable projected axes that were the bases of a new representation space. The layer rotated these bases when its parameters were updated. When the number of the bases was the same as the original dimension, the increasing percentage of the F1 scores was 8.56%. Furthermore, when the number was set as 768 (the original dimension was 490), the increasing percentage of the F1 score was 11.49%. The layer not only maintained the model performance and even constructed a better representation space in analyzing sparse datasets.
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# 軌道予測のための意図認識型騒音拡散モデル

Intention-aware Denoising Diffusion Model for Trajectory Prediction ( http://arxiv.org/abs/2403.09190v1 )

ライセンス: Link先を確認
Chen Liu, Shibo He, Haoyu Liu, Jiming Chen, (参考訳) 軌道予測は、特に衝突回避システムにおいて、自律運転において不可欠な要素である。 タスクの本質的な不確実性を考慮すると、多くの研究は生成モデルを利用して各エージェントに複数の有望な将来の軌道を生成する。 しかし、そのほとんどは制限された表現能力や不安定なトレーニングの問題に悩まされている。 これらの制約を克服するために,拡散モデルを用いて将来の軌道の分布を生成することを提案する。 そのような考えを実現するために2つの十字架を組み立てる必要がある。 第一に、意図の多様性は不確実な環境と絡み合っており、真の分布をパラメータ化することが困難である。 第二に、拡散プロセスは推論フェーズ中に時間がかかり、リアルタイム駆動システムで実装するのは非現実的である。 上記の2つの問題に対処する意図認識拡散モデル(IDM)を提案する。 元の不確かさを意図的不確かさと行動不確かさに分離し、2つの依存拡散過程でモデル化する。 推定時間を短縮するため、意図認識拡散過程における変動次元を減少させ、行動認識拡散過程の初期分布を制限することで拡散ステップを小さくする。 このアプローチを検証するため、Stanford Drone Dataset(SDD)とETH/UCYデータセットで実験を行った。 提案手法は,SDDデータセットで13.83ピクセル,ETH/UCYデータセットで0.36メートルのFDEで,最先端の結果が得られる。 元の拡散モデルと比較して、IMMは推論時間を3分の2削減する。 興味深いことに,本実験では,より少ないステップの拡散過程をモデル化する上で,意図情報の導入が有用であることが明らかにされている。

Trajectory prediction is an essential component in autonomous driving, particularly for collision avoidance systems. Considering the inherent uncertainty of the task, numerous studies have utilized generative models to produce multiple plausible future trajectories for each agent. However, most of them suffer from restricted representation ability or unstable training issues. To overcome these limitations, we propose utilizing the diffusion model to generate the distribution of future trajectories. Two cruxes are to be settled to realize such an idea. First, the diversity of intention is intertwined with the uncertain surroundings, making the true distribution hard to parameterize. Second, the diffusion process is time-consuming during the inference phase, rendering it unrealistic to implement in a real-time driving system. We propose an Intention-aware denoising Diffusion Model (IDM), which tackles the above two problems. We decouple the original uncertainty into intention uncertainty and action uncertainty and model them with two dependent diffusion processes. To decrease the inference time, we reduce the variable dimensions in the intention-aware diffusion process and restrict the initial distribution of the action-aware diffusion process, which leads to fewer diffusion steps. To validate our approach, we conduct experiments on the Stanford Drone Dataset (SDD) and ETH/UCY dataset. Our methods achieve state-of-the-art results, with an FDE of 13.83 pixels on the SDD dataset and 0.36 meters on the ETH/UCY dataset. Compared with the original diffusion model, IDM reduces inference time by two-thirds. Interestingly, our experiments further reveal that introducing intention information is beneficial in modeling the diffusion process of fewer steps.
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# PYRA: トレーニング推論効率の良いタスク適応のための並列収量再活性化

PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation ( http://arxiv.org/abs/2403.09192v1 )

ライセンス: Link先を確認
Yizhe Xiong, Hui Chen, Tianxiang Hao, Zijia Lin, Jungong Han, Yuesong Zhang, Guoxin Wang, Yongjun Bao, Guiguang Ding, (参考訳) 近年, 変圧器の規模が急速に拡大し, タスク適応の分野において, トレーニングオーバーヘッドや推論効率の面で大きな課題がもたらされている。 既存の研究、すなわちパラメータ効率のよいファインチューニング(PEFT)とモデル圧縮は、これらの課題を別々に検討している。 しかしPEFTは、特に大規模モデルでは、元のバックボーンの推論効率を保証できない。 モデル圧縮は構造探索と再訓練にかなりの訓練コストを必要とする。 したがって、これらの単純な組み合わせは、最小のコストでトレーニング効率と推論効率の両方を達成することを保証できない。 本稿では,PYRA(Parallel Yielding Re-Activation)手法を提案する。 PYRAは、まず並列出力適応重みを利用して、下流タスクのデータ分布を包括的に知覚する。 その後、トークン変調のための再活性化戦略がマージされるトークンに適用され、キャリブレーションされたトークン特徴が導かれる。 PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れており、大規模基礎モデルのトレーニング効率と推論効率の両面において、PYRAの有効性と優位性を示している。 私たちのコードは一般に公開されるでしょう。

Recently, the scale of transformers has grown rapidly, which introduces considerable challenges in terms of training overhead and inference efficiency in the scope of task adaptation. Existing works, namely Parameter-Efficient Fine-Tuning (PEFT) and model compression, have separately investigated the challenges. However, PEFT cannot guarantee the inference efficiency of the original backbone, especially for large-scale models. Model compression requires significant training costs for structure searching and re-training. Consequently, a simple combination of them cannot guarantee accomplishing both training efficiency and inference efficiency with minimal costs. In this paper, we propose a novel Parallel Yielding Re-Activation (PYRA) method for such a challenge of training-inference efficient task adaptation. PYRA first utilizes parallel yielding adaptive weights to comprehensively perceive the data distribution in downstream tasks. A re-activation strategy for token modulation is then applied for tokens to be merged, leading to calibrated token features. Extensive experiments demonstrate that PYRA outperforms all competing methods under both low compression rate and high compression rate, demonstrating its effectiveness and superiority in maintaining both training efficiency and inference efficiency for large-scale foundation models. Our code will be released to the public.
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# 視覚言語モデルはテクスチャーか形状か?

Are Vision Language Models Texture or Shape Biased and Can We Steer Them? ( http://arxiv.org/abs/2403.09193v1 )

ライセンス: Link先を確認
Paul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, Bianca Lamm, Muhammad Jehanzeb Mirza, Margret Keuper, Janis Keuper, (参考訳) 視覚言語モデル(VLM)は、コンピュータビジョンモデルのランドスケープをわずか数年で劇的に変化させ、ゼロショット画像分類から画像キャプション、視覚的質問応答に至るまで、新しいアプリケーションのエキサイティングな配列を開いた。 純粋な視覚モデルとは異なり、言語プロンプトを通じて視覚コンテンツにアクセスする直感的な方法を提供する。 このようなモデルの広範な適用性は、人間のビジョンとも一致しているか、具体的には、マルチモーダル融合による人間の視覚バイアスをどのように採用するか、純粋な視覚モデルから単にバイアスを継承するかを問うのに役立つ。 重要な視覚バイアスの1つは、テクスチャ対形状バイアス、またはグローバル情報に対する局所的な優位性である。 本稿では,このバイアスについて,広く普及しているVLMを用いて検討する。 興味深いことに、VLMは視覚エンコーダよりも形状バイアスが強く、視覚バイアスはマルチモーダルモデルのテキストによってある程度変調されていることが示される。 もしテキストが本当に視覚バイアスに影響を与えているなら、このことは視覚入力だけでなく言語を通して視覚バイアスを操ることができるかもしれないことを示唆している。 例えば、偏見を49%から72%に抑えることができるのです。 今のところ、形状に対する強い人間の偏見(96%)は、全ての試験されたVLMには達していない。

Vision language models (VLMs) have drastically changed the computer vision model landscape in only a few years, opening an exciting array of new applications from zero-shot image classification, over to image captioning, and visual question answering. Unlike pure vision models, they offer an intuitive way to access visual content through language prompting. The wide applicability of such models encourages us to ask whether they also align with human vision - specifically, how far they adopt human-induced visual biases through multimodal fusion, or whether they simply inherit biases from pure vision models. One important visual bias is the texture vs. shape bias, or the dominance of local over global information. In this paper, we study this bias in a wide range of popular VLMs. Interestingly, we find that VLMs are often more shape-biased than their vision encoders, indicating that visual biases are modulated to some extent through text in multimodal models. If text does indeed influence visual biases, this suggests that we may be able to steer visual biases not just through visual input but also through language: a hypothesis that we confirm through extensive experiments. For instance, we are able to steer shape bias from as low as 49% to as high as 72% through prompting alone. For now, the strong human bias towards shape (96%) remains out of reach for all tested VLMs.
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# 意図駆動型エゴ・ツー・エクソビデオ生成

Intention-driven Ego-to-Exo Video Generation ( http://arxiv.org/abs/2403.09194v1 )

ライセンス: Link先を確認
Hongchen Luo, Kai Zhu, Wei Zhai, Yang Cao, (参考訳) Ego-to-exoビデオ生成とは、エゴ中心のビデオに従って対応するエゴ中心のビデオを生成し、AR/VRおよび組み込みAIに有用なアプリケーションを提供する。 拡散モデル技術の進歩により、ビデオ生成において顕著な進歩が達成されている。 しかし、既存の手法は、隣接するフレーム間の時空間的整合性の仮定に基づいて構築されており、ビューの劇的な変化のため、エゴ・ツー・エクソのシナリオでは満足できない。 そこで本研究では,人間の動きと行動記述からなる行動意図を視点に依存しない表現として活用し,コンテンツと動きの一貫性を保ちながら映像生成をガイドする意図駆動型エゴ・ト・エクソビデオ生成フレームワーク(IDE)を提案する。 特に、エゴセントリックな頭部軌跡は、まずマルチビューステレオマッチングによって推定される。 そして、横断的な特徴知覚モジュールを導入し、エクソビューとエゴビューの対応を確立し、頭部から人間の全体の動きを推測する軌道変換モジュールを誘導する。 一方,アクションのセマンティクスを特徴空間にマッピングするアクション記述ユニットを提案する。 最後に、推定された人間の動きとハイレベルな行動記述は、拡散モデルの後方過程における外心運動と相互作用内容(すなわち、対応する光フローとオクルージョンマップ)の生成を共同でガイドし、最終的にそれらが対応する外心映像に圧倒される。 多様なエゴビデオペアによる関連するデータセットに関する広範な実験を行い、我々のIDEは、主観的および客観的な評価において最先端のモデルよりも優れており、エゴ・ツー・エゴビデオ生成におけるその効果を実証している。

Ego-to-exo video generation refers to generating the corresponding exocentric video according to the egocentric video, providing valuable applications in AR/VR and embodied AI. Benefiting from advancements in diffusion model techniques, notable progress has been achieved in video generation. However, existing methods build upon the spatiotemporal consistency assumptions between adjacent frames, which cannot be satisfied in the ego-to-exo scenarios due to drastic changes in views. To this end, this paper proposes an Intention-Driven Ego-to-exo video generation framework (IDE) that leverages action intention consisting of human movement and action description as view-independent representation to guide video generation, preserving the consistency of content and motion. Specifically, the egocentric head trajectory is first estimated through multi-view stereo matching. Then, cross-view feature perception module is introduced to establish correspondences between exo- and ego- views, guiding the trajectory transformation module to infer human full-body movement from the head trajectory. Meanwhile, we present an action description unit that maps the action semantics into the feature space consistent with the exocentric image. Finally, the inferred human movement and high-level action descriptions jointly guide the generation of exocentric motion and interaction content (i.e., corresponding optical flow and occlusion maps) in the backward process of the diffusion model, ultimately warping them into the corresponding exocentric video. We conduct extensive experiments on the relevant dataset with diverse exo-ego video pairs, and our IDE outperforms state-of-the-art models in both subjective and objective assessments, demonstrating its efficacy in ego-to-exo video generation.
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# SAM-Lightening:30倍の加速を実現するために、フラッシュを拡張した軽量セグメンテーションモデル

SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration ( http://arxiv.org/abs/2403.09195v1 )

ライセンス: Link先を確認
Yanfei Songa, Bangzheng Pua, Peng Wanga, Hongxu Jiang, Dong Donga, Yiqing Shen, (参考訳) Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。 しかし、SAMの現実の実践への広範な応用は、その低推論速度と、主に注意機構に由来する高い計算メモリ要求によって制限されている。 既存の作業はエンコーダの最適化に集中しているが、小さいモデルに蒸留してもアテンション機構自体の非効率性には十分対応していない。 これに対し、SAMの亜種であるSAM-Lighteningを導入し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴とする。 並列性が向上し、処理効率が向上するだけでなく、既存のFlashAttentionとの互換性も維持される。 そこで本研究では,バニラSAMからの効率的な知識伝達を,スクラッチからコストのかかる訓練を伴わずに行うための,プログレッシブ蒸留法を提案する。 COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法を著しく上回っていることが明らかとなった。 具体的には、バニラSAMの30.1倍、最先端の2.1倍の1024*1024ピクセルのイメージに対して、画像当たり7ミリ秒(ms)の推論速度を達成することができる。 さらに、バニラSAMの3.5倍の244MBのメモリしか必要としない。 コードとウェイトはhttps://anonymous.4open.science/r/SAM-LIGHTENING-BC25/で公開されている。

Segment Anything Model (SAM) has garnered significant attention in segmentation tasks due to their zero-shot generalization ability. However, a broader application of SAMs to real-world practice has been restricted by their low inference speed and high computational memory demands, which mainly stem from the attention mechanism. Existing work concentrated on optimizing the encoder, yet has not adequately addressed the inefficiency of the attention mechanism itself, even when distilled to a smaller model, which thus leaves space for further improvement. In response, we introduce SAM-Lightening, a variant of SAM, that features a re-engineered attention mechanism, termed Dilated Flash Attention. It not only facilitates higher parallelism, enhancing processing efficiency but also retains compatibility with the existing FlashAttention. Correspondingly, we propose a progressive distillation to enable an efficient knowledge transfer from the vanilla SAM without costly training from scratch. Experiments on COCO and LVIS reveal that SAM-Lightening significantly outperforms the state-of-the-art methods in both run-time efficiency and segmentation accuracy. Specifically, it can achieve an inference speed of 7 milliseconds (ms) per image, for images of size 1024*1024 pixels, which is 30.1 times faster than the vanilla SAM and 2.1 times than the state-of-the-art. Moreover, it takes only 244MB memory, which is 3.5\% of the vanilla SAM. The code and weights are available at https://anonymous.4open.science/r/SAM-LIGHTENING-BC25/.
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# GANのノイズ次元:画像圧縮の観点から

Noise Dimension of GAN: An Image Compression Perspective ( http://arxiv.org/abs/2403.09196v1 )

ライセンス: Link先を確認
Ziran Zhu, Tongda Xu, Ling Li, Yan Wang, (参考訳) GAN(Generative Adversial Network)は、高次元ノイズをターゲット分布のサンプルにマッピングする生成モデルの一種である。 しかし、GANで要求されるノイズの次元はよく理解されていない。 以前のアプローチでは、GANは連続分布から別の連続分布への写像であると見なされていた。 本稿では,GANを離散サンプリングとして扱うことを提案する。 この観点から、最小ノイズとビット間の接続を構築し、画像のロスレス圧縮を行う。 さらに,ノイズ次元が限られている場合のGANの挙動を理解するために,分散エントロピートレードオフを提案する。 このトレードオフは、ノイズが制限されたときに達成できる最高の分散を描いています。 また、速度歪みトレードオフとして、ソース分布が分かっていれば数値的に解ける。 最後に,この理論を画像生成実験で検証する。

Generative adversial network (GAN) is a type of generative model that maps a high-dimensional noise to samples in target distribution. However, the dimension of noise required in GAN is not well understood. Previous approaches view GAN as a mapping from a continuous distribution to another continous distribution. In this paper, we propose to view GAN as a discrete sampler instead. From this perspective, we build a connection between the minimum noise required and the bits to losslessly compress the images. Furthermore, to understand the behaviour of GAN when noise dimension is limited, we propose divergence-entropy trade-off. This trade-off depicts the best divergence we can achieve when noise is limited. And as rate distortion trade-off, it can be numerically solved when source distribution is known. Finally, we verifies our theory with experiments on image generation.
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# MetroGNN: 強化学習によるメトロネットワークの拡張

MetroGNN: Metro Network Expansion with Reinforcement Learning ( http://arxiv.org/abs/2403.09197v1 )

ライセンス: Link先を確認
Hongyuan Su, Yu Zheng, Jingtao Ding, Depeng Jin, Yong Li, (参考訳) 都市開発において,地下鉄網拡大のための都市域の選択が重要であり,計算的に解決が困難である。 拡張プロセスは、都市人口統計やオリジン・デスティネーション(OD)フローのような複雑な特徴だけでなく、既存の地下鉄網や都市地理にも制約されている。 本稿では,都市の異種マルチグラフにおけるマルコフ決定プロセスに対処する強化学習フレームワークを提案する。 このアプローチでは,グラフニューラルネットワークが取得した情報に基づいて,インテリジェントにノードを選択する,注意型ポリシネットワークを採用している。 実世界の都市データを用いた実験により, 提案手法は, 最先端の手法と比較して, 満足度の高い交通需要を30倍以上改善することを示した。 コードはhttps://github.com/tsinghua-fib-lab/MetroGNNで公開されている。

Selecting urban regions for metro network expansion to meet maximal transportation demands is crucial for urban development, while computationally challenging to solve. The expansion process relies not only on complicated features like urban demographics and origin-destination (OD) flow but is also constrained by the existing metro network and urban geography. In this paper, we introduce a reinforcement learning framework to address a Markov decision process within an urban heterogeneous multi-graph. Our approach employs an attentive policy network that intelligently selects nodes based on information captured by a graph neural network. Experiments on real-world urban data demonstrate that our proposed methodology substantially improve the satisfied transportation demands by over 30\% when compared with state-of-the-art methods. Codes are published at https://github.com/tsinghua-fib-lab/MetroGNN.
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# インスタンスセグメンテーションのためのプロンプト学習によるセグメンテーション基礎モデルのカスタマイズ

Customizing Segmentation Foundation Model via Prompt Learning for Instance Segmentation ( http://arxiv.org/abs/2403.09199v1 )

ライセンス: Link先を確認
Hyung-Il Kim, Kimin Yun, Jun-Seok Yun, Yuseok Bae, (参考訳) 近年,広範囲のドメインに対応するために大量のデータセットをトレーニングした基礎モデルは注目され,コンピュータビジョンコミュニティ内で積極的に研究されている。 これらのうち、SAM(Segment Anything Model)は、プロンプトベースのオブジェクトマスク生成によって達成される画像セグメンテーションタスクの一般化性と柔軟性の顕著な進歩を際立たせている。 しかし、SAMはその強みにもかかわらず、特定のオブジェクトやトレーニングデータに通常存在しないユニークな環境をセグメント化するカスタマイズされたインスタンスセグメンテーションに適用する場合、二つの重要な制限に直面している。 1)入力プロンプト及び入力プロンプトに固有のあいまいさ 2)最適なセグメンテーションを達成するために、広範な追加訓練が必要である。 これらの課題に対処するために,SAMに適合したプロンプト学習により,インスタンスセグメンテーションをカスタマイズする新しい手法を提案する。 提案手法は,ユーザ意図に合わせた入力プロンプトを埋め込み空間に調整し,より効率的な学習を可能にするプロンプト学習モジュール (PLM) を備える。 さらに,より細かなセグメンテーションのための特徴表現を強化するために,基底の真理境界との詳細な整合性を確保するために,ポイントマッチングモジュール(PMM)を導入する。 様々なカスタマイズされたインスタンスセグメンテーションシナリオの実験結果から,提案手法の有効性が示された。

Recently, foundation models trained on massive datasets to adapt to a wide range of domains have attracted considerable attention and are actively being explored within the computer vision community. Among these, the Segment Anything Model (SAM) stands out for its remarkable progress in generalizability and flexibility for image segmentation tasks, achieved through prompt-based object mask generation. However, despite its strength, SAM faces two key limitations when applied to customized instance segmentation that segments specific objects or those in unique environments not typically present in the training data: 1) the ambiguity inherent in input prompts and 2) the necessity for extensive additional training to achieve optimal segmentation. To address these challenges, we propose a novel method, customized instance segmentation via prompt learning tailored to SAM. Our method involves a prompt learning module (PLM), which adjusts input prompts into the embedding space to better align with user intentions, thereby enabling more efficient training. Furthermore, we introduce a point matching module (PMM) to enhance the feature representation for finer segmentation by ensuring detailed alignment with ground truth boundaries. Experimental results on various customized instance segmentation scenarios demonstrate the effectiveness of the proposed method.
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# 部分概念ボトルネックモデル(CBM)におけるベイズ一般化誤差の上界:部分的CBMは単純CBMより優れている

Upper Bound of Bayesian Generalization Error in Partial Concept Bottleneck Model (CBM): Partial CBM outperforms naive CBM ( http://arxiv.org/abs/2403.09206v1 )

ライセンス: Link先を確認
Naoki Hayashi, Yoshihide Sawada, (参考訳) 概念ボトルネックモデル(Concept Bottleneck Model, CBM)は、ニューラルネットワークを説明する手法である。 CBMでは、観測値として最後の中間層に出力の理由に対応する概念を挿入する。 線形回帰と同様の出力と概念の関係を解釈できることが期待される。 しかし、この解釈はすべての概念を観察し、ニューラルネットワークの一般化性能を低下させる必要がある。 部分的に観測された概念を用いる部分的なCBM(PCBM)は、これらの困難を解決するために考案されている。 いくつかの数値実験では、PCBMの一般化性能は元のニューラルネットワークとほぼ同等であることが示唆されているが、PCBMは特異統計モデルであるため、その一般化誤差の理論的挙動はまだ明らかになっていない。 本稿では,PCBMにおけるベイズ一般化誤差を3層線形アーキテクチャで明らかにする。 その結果、部分的に観察された概念の構造は、CBM (full-observed concept) と比較してベイズ一般化誤差を減少させることが示された。

Concept Bottleneck Model (CBM) is a methods for explaining neural networks. In CBM, concepts which correspond to reasons of outputs are inserted in the last intermediate layer as observed values. It is expected that we can interpret the relationship between the output and concept similar to linear regression. However, this interpretation requires observing all concepts and decreases the generalization performance of neural networks. Partial CBM (PCBM), which uses partially observed concepts, has been devised to resolve these difficulties. Although some numerical experiments suggest that the generalization performance of PCBMs is almost as high as that of the original neural networks, the theoretical behavior of its generalization error has not been yet clarified since PCBM is singular statistical model. In this paper, we reveal the Bayesian generalization error in PCBM with a three-layered and linear architecture. The result indcates that the structure of partially observed concepts decreases the Bayesian generalization error compared with that of CBM (full-observed concepts).
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# TaxoLLaMA:複数語彙意味課題の解決のためのWordNetベースのモデル

TaxoLLaMA: WordNet-based Model for Solving Multiple Lexical Sematic Tasks ( http://arxiv.org/abs/2403.09207v1 )

ライセンス: Link先を確認
Viktor Moskvoretskii, Ekaterina Neminova, Alina Lobanova, Alexander Panchenko, Irina Nikishina, (参考訳) 本稿では,LLaMA-2-7bモデルの例を用いて,WordNetから語彙意味知識を抽出し,複数の語彙意味タスクで検証するLLMの機能について検討する。 実験の結果,4ビット量子化とLoRAにより軽量なオールインワンモデルであるTaxoLLaMAを提案する。 SotAの結果は11で、分類の豊かさ、ハイパーネム発見、分類構築、レキシカル・エンテリメントの16のタスクのうち4つのトップ2が達成されている。 さらに、レキシカルエンターメントと分類構築において、微調整なしで非常に強力なゼロショット性能を示す。 また、その隠れた多言語およびドメイン適応機能についても、少しチューニングしたり、ほんの少しの学習で調べます。 すべてのデータセット、コード、モデルはhttps://github.com/VityaVitalich/TaxoLLaMAで公開されている。

In this paper, we explore the capabilities of LLMs in capturing lexical-semantic knowledge from WordNet on the example of the LLaMA-2-7b model and test it on multiple lexical semantic tasks. As the outcome of our experiments, we present TaxoLLaMA, the everything-in-one model, lightweight due to 4-bit quantization and LoRA. It achieves 11 SotA results, 4 top-2 results out of 16 tasks for the Taxonomy Enrichment, Hypernym Discovery, Taxonomy Construction, and Lexical Entailment tasks. Moreover, it demonstrates very strong zero-shot performance on Lexical Entailment and Taxonomy Construction with no fine-tuning. We also explore its hidden multilingual and domain adaptation capabilities with a little tuning or few-shot learning. All datasets, code, and model are available online at https://github.com/VityaVitalich/TaxoLLaMA
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# 高齢者の安全と安全 : パンデミック後の態度と行動の調査

Older adults' safety and security online: A post-pandemic exploration of attitudes and behaviors ( http://arxiv.org/abs/2403.09208v1 )

ライセンス: Link先を確認
Edgar Pacheco, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックによってさらに加速するインターネットや関連技術の普及は、オンラインの脅威に対する彼らの行動や態度を批判的に評価するだけでなく、この集団内での特定の特徴の役割についてより深く理解するきっかけとなっている。 調査データと記述的および推論的統計を用いて、この実証的研究はこの問題を深く掘り下げる。 60歳以上の高齢者(n=275)のオンライン安全とサイバーセキュリティの異なる側面に関する行動と態度について検討した。 その結果,高齢者は個人情報の安全性について明確な懸念を抱いていることが明らかとなった。 様々な予防措置がとられているにもかかわらず、ほとんどの人はオンラインの脅威をどこに報告すべきかを知らない。 さらに、重要な人口統計に関して、この研究は性別と年齢の面で有意な差が見られたが、障害のステータスは見つからなかった。 これは、高齢者がオンラインでの安全と安全に関する態度や行動に関して同質なグループを構成していないことを示唆している。 この研究は、高齢者が保護措置の開発に参加し、多様性を認めなければならないと結論付けている。 本研究の意義について考察し,今後の研究の方向性について述べる。

Older adults' growing use of the internet and related technologies, further accelerated by the COVID-19 pandemic, has prompted not only a critical examination of their behaviors and attitudes about online threats but also a greater understanding of the roles of specific characteristics within this population group. Based on survey data and using descriptive and inferential statistics, this empirical study delves into this matter. The behaviors and attitudes of a group of older adults aged 60 years and older (n=275) regarding different dimensions of online safety and cybersecurity are investigated. The results show that older adults report a discernible degree of concern about the security of their personal information. Despite the varied precautions taken, most of them do not know where to report online threats. What is more, regarding key demographics, the study found some significant differences in terms of gender and age group, but not disability status. This implies that older adults do not seem to constitute a homogeneous group when it comes to attitudes and behaviors regarding safety and security online. The study concludes that support systems should include older adults in the development of protective measures and acknowledge their diversity. The implications of the results are discussed and some directions for future research are proposed.
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# LAN:リアルタイムインサイダー脅威検出のための適応的隣人学習

LAN: Learning Adaptive Neighbors for Real-Time Insider Threat Detection ( http://arxiv.org/abs/2403.09209v1 )

ライセンス: Link先を確認
Xiangrui Cai, Yang Wang, Sihan Xu, Hao Li, Ying Zhang, Xiaojie Yuan, (参考訳) 企業や組織は、深刻な結果をもたらす可能性のあるインサイダー従業員からの潜在的な脅威に直面しています。 インサイダー脅威検出(ITD)に関するこれまでの研究は、主に異常ユーザや異常期間(例:1週間または1日)の検出に焦点を当てていた。 しかし、ログには数十万のアクティビティがあり、1日以内にユーザに対して数千のアクティビティが存在する可能性があるため、検出結果から異常なユーザやアクティビティを検証するための調査予算が要求される。 一方、既存の作業は、主にリアルタイム検出ではなく、ポストホックな方法であり、損失が発生する前に内部の脅威を報告できない。 本稿では,リアルタイムITDを活動レベルに向けた最初の研究を行い,よりきめ細かな,効率的なフレームワークLANを提案する。 具体的には、LANはアクティビティシーケンス内の時間的依存関係と、グラフ構造学習を伴うシーケンス間のアクティビティ間の関係を同時に学習する。 さらに、ITDにおけるデータ不均衡問題を緩和するため、異常活動からの自己超越信号と監視信号を統合したハイブリッド予測損失を、異常検出のための統一的損失として提案する。 CERT r4.2 と CERT r5.2 の2つの広く使われているデータセット上での LAN の性能を評価する。 大規模な実験と比較実験は、CERT r4.2とr5.2のリアルタイムITDにおいて、9つの最先端のベースラインを少なくとも9.92%と6.35%で上回り、LANの優位性を実証している。 さらに、LANはポストホックITDにも適用可能で、2つのデータセット上でAUCの少なくとも7.70%と4.03%の競争ベースラインを超えている。 最後に, LANにおける各モジュールとハイパーパラメータの影響評価, パラメータ解析, 互換性解析を行った。

Enterprises and organizations are faced with potential threats from insider employees that may lead to serious consequences. Previous studies on insider threat detection (ITD) mainly focus on detecting abnormal users or abnormal time periods (e.g., a week or a day). However, a user may have hundreds of thousands of activities in the log, and even within a day there may exist thousands of activities for a user, requiring a high investigation budget to verify abnormal users or activities given the detection results. On the other hand, existing works are mainly post-hoc methods rather than real-time detection, which can not report insider threats in time before they cause loss. In this paper, we conduct the first study towards real-time ITD at activity level, and present a fine-grained and efficient framework LAN. Specifically, LAN simultaneously learns the temporal dependencies within an activity sequence and the relationships between activities across sequences with graph structure learning. Moreover, to mitigate the data imbalance problem in ITD, we propose a novel hybrid prediction loss, which integrates self-supervision signals {from normal activities} and supervision signals from abnormal activities into a unified loss for anomaly detection. We evaluate the performance of LAN on two widely used datasets, i.e., CERT r4.2 and CERT r5.2. Extensive and comparative experiments demonstrate the superiority of LAN, outperforming 9 state-of-the-art baselines by at least 9.92% and 6.35% in AUC for real-time ITD on CERT r4.2 and r5.2, respectively. Moreover, LAN can be also applied to post-hoc ITD, surpassing 8 competitive baselines by at least 7.70% and 4.03% in AUC on two datasets. Finally, the ablation study, parameter analysis, and compatibility analysis evaluate the impact of each module and hyper-parameter in LAN.
翻訳日:2024-03-15 21:16:56 公開日:2024-03-14
# PoIFusion:関心点での核融合による多モード3次元物体検出

PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest ( http://arxiv.org/abs/2403.09212v1 )

ライセンス: Link先を確認
Jiajun Deng, Sha Zhang, Feras Dayoub, Wanli Ouyang, Yanyong Zhang, Ian Reid, (参考訳) 本稿では,RGB画像とLiDAR点雲の情報を興味ある時点(PoIと略す)に融合させる,シンプルで効果的なマルチモーダル3Dオブジェクト検出フレームワークPoIFusionを提案する。 技術的には、PoIFusionはクエリベースのオブジェクト検出のパラダイムに従い、オブジェクトクエリを動的3Dボックスとして定式化します。 PoIはオンザフライで各クエリボックスから適応的に生成され、3Dオブジェクトを表すキーポイントとして機能し、マルチモーダル融合において基本的なユニットの役割を担う。 具体的には、PoIを各モードのビューに投影し、対応する特徴をサンプリングし、動的融合ブロックを介して各PoIのマルチモーダル特徴を統合する。 さらに、同じクエリボックスから派生したPoIの機能を集約してクエリ機能を更新する。 本手法は、ビュー変換による情報損失を防止し、計算集約的なグローバルな注目を排除し、マルチモーダル3Dオブジェクト検出器をより適用できるようにする。 我々はnuScenesデータセットの広範な実験を行い、我々のアプローチを評価した。 注目すべきは、我々のPoIFusionが74.9\% NDSと73.4\% mAPを達成したことだ。 コードは \url{https://djiajunustc.github.io/projects/poifusion} で利用可能になる。

In this work, we present PoIFusion, a simple yet effective multi-modal 3D object detection framework to fuse the information of RGB images and LiDAR point clouds at the point of interest (abbreviated as PoI). Technically, our PoIFusion follows the paradigm of query-based object detection, formulating object queries as dynamic 3D boxes. The PoIs are adaptively generated from each query box on the fly, serving as the keypoints to represent a 3D object and play the role of basic units in multi-modal fusion. Specifically, we project PoIs into the view of each modality to sample the corresponding feature and integrate the multi-modal features at each PoI through a dynamic fusion block. Furthermore, the features of PoIs derived from the same query box are aggregated together to update the query feature. Our approach prevents information loss caused by view transformation and eliminates the computation-intensive global attention, making the multi-modal 3D object detector more applicable. We conducted extensive experiments on the nuScenes dataset to evaluate our approach. Remarkably, our PoIFusion achieves 74.9\% NDS and 73.4\% mAP, setting a state-of-the-art record on the multi-modal 3D object detection benchmark. Codes will be made available via \url{https://djiajunustc.github.io/projects/poifusion}.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# ガウス過程のモデル選択基準としてのラプラス近似について

On the Laplace Approximation as Model Selection Criterion for Gaussian Processes ( http://arxiv.org/abs/2403.09215v1 )

ライセンス: Link先を確認
Andreas Besginow, Jan David Hüwel, Thomas Pawellek, Christian Beecks, Markus Lange-Hegermann, (参考訳) モデル選択は、正確性、解釈可能性、単純さの観点から最良のモデルを見つけることを目的としています。 本研究では,ガウス過程モデルのモデル性能を評価することに集中する。 以前の作業では、AICや動的ネストサンプリングの可能性が考慮されていたが、パフォーマンスに欠けるか、重大なランタイムの問題があり、適用性が著しく制限されている。 ラプラス近似に基づく複数のメトリクスを導入することでこれらの課題に対処し、ラプラス近似の単純適用時に発生する深刻な不整合を克服する。 実験の結果,我々の測定値は計算速度を犠牲にすることなく,ゴールド標準の動的ネストサンプリングと同等であることがわかった。 我々のモデル選択基準はガウス過程モデルの大幅な高速かつ高品質なモデル選択を可能にする。

Model selection aims to find the best model in terms of accuracy, interpretability or simplicity, preferably all at once. In this work, we focus on evaluating model performance of Gaussian process models, i.e. finding a metric that provides the best trade-off between all those criteria. While previous work considers metrics like the likelihood, AIC or dynamic nested sampling, they either lack performance or have significant runtime issues, which severely limits applicability. We address these challenges by introducing multiple metrics based on the Laplace approximation, where we overcome a severe inconsistency occuring during naive application of the Laplace approximation. Experiments show that our metrics are comparable in quality to the gold standard dynamic nested sampling without compromising for computational speed. Our model selection criteria allow significantly faster and high quality model selection of Gaussian process models.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# オープン・ガバメント・データの可能性の解き放つ--台湾における高価値データセットの戦略的・技術的・応用的展望を探る

Unlocking the Potential of Open Government Data: Exploring the Strategic, Technical, and Application Perspectives of High-Value Datasets Opening in Taiwan ( http://arxiv.org/abs/2403.09216v1 )

ライセンス: Link先を確認
Hsien-Lee Tseng, Anastasija Nikiforova, (参考訳) 現在、データには前例のない価値があり、データ駆動意思決定の基礎を形成し、AIモデルの入力として機能し、後者はデータの可用性に大きく依存している。 しかし、オープンなデータ形式におけるデータの可用性は、これらのデータの価値、すなわちエンドユーザの本当のニーズに対するそれらの関連性が鍵となる、わずかな付加価値を生み出す。 そこで高価値データセット(HVD)の概念が登場し、近年人気が高まっている。 HVDの定義と開放は一連の相互関連ステップからなる進行中のプロセスであり、その実装は国や地域によって異なる可能性がある。 そのため、近年は国家価値の高い国や地域で研究を行う声が上がっている。 これまでのところ、地域レベルではごくわずかの研究しか行われていないが、その多くはHVDの同定や影響の測定など、プロセスの1ステップしか考慮していない。 そこで本研究では,HVDオープニングのライフサイクル全体を探究し,台湾の全国的事例を調査した。 本研究の目的は,世界有数の情報通信技術(ICT)製品の生産者である台湾において,高価値データセット公開のライフサイクルを理解し,評価することである。 そこで本研究では,HVDオープニングのライフサイクルを探索し,HVDオープニングに責任を負う台湾の政府機関の代表者への探索的なインタビューを行い,質的研究を行った。 本研究では,(1)HVD決定過程に関する戦略的側面,(2)技術面,(3)応用面について検討する。

Today, data has an unprecedented value as it forms the basis for data-driven decision-making, including serving as an input for AI models, where the latter is highly dependent on the availability of the data. However, availability of data in an open data format creates a little added value, where the value of these data, i.e., their relevance to the real needs of the end user, is key. This is where the concept of high-value dataset (HVD) comes into play, which has become popular in recent years. Defining and opening HVD is an ongoing process consisting of a set of interrelated steps, the implementation of which may vary from one country or region to another. Therefore, there has recently been a call to conduct research in a country or region setting considered to be of greatest national value. So far, only a few studies have been conducted at the regional or national level, most of which consider only one step of the process, such as identifying HVD or measuring their impact. With this study, we answer this call and examine the national case of Taiwan by exploring the entire lifecycle of HVD opening. The aim of the paper is to understand and evaluate the lifecycle of high-value dataset publishing in one of the world's leading producers of information and communication technology (ICT) products - Taiwan. To do this, we conduct a qualitative study with exploratory interviews with representatives from government agencies in Taiwan responsible for HVD opening, exploring HVD opening lifecycle. As such, we examine (1) strategic aspects related to the HVD determination process, (2) technical aspects, and (3) application aspects.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# 静的アプリケーションセキュリティテストツールの大規模比較

An Extensive Comparison of Static Application Security Testing Tools ( http://arxiv.org/abs/2403.09219v1 )

ライセンス: Link先を確認
Matteo Esposito, Valentina Falaschi, Davide Falessi, (参考訳) コンテキスト: 静的アプリケーションセキュリティテストツール(SASTT)は、ソフトウェアアプリケーションのセキュリティと信頼性をサポートするソフトウェア脆弱性を特定する。 興味深いことに、いくつかの研究は、偽のアラームを発生させる傾向にあるため、代替ソリューションがSASTTよりも効果的である可能性を示唆している。 Aim: SASTT を総合的に評価し,SASTT や代替案に基づく脆弱性識別機構のギャップを評価・発見するための信頼性の高いベンチマークを設定することを目的としている。 メソッド: SASTTsの評価は、制御されているが、合成されたJavaコードベースに基づいています。 これには150万のテスト実行の評価が含まれており、作業認識の精度測定やメソッドレベルの分析といった、革新的な方法論的特徴が特徴である。 結果: SASTTは少数の脆弱性を検出できた。 一般的な知恵とは対照的に、SASTTはリコールで不足しながら高い精度を示す。 結論: 論文は、検出された脆弱性タイプの範囲を広げるとともに、リコールの強化が、SASTTや機械学習ベースの脆弱性識別ソリューションなどの代替アプローチを改善する主要な焦点となることを示唆している。

Context: Static Application Security Testing Tools (SASTTs) identify software vulnerabilities to support the security and reliability of software applications. Interestingly, several studies have suggested that alternative solutions may be more effective than SASTTs due to their tendency to generate false alarms, commonly referred to as low Precision. Aim: We aim to comprehensively evaluate SASTTs, setting a reliable benchmark for assessing and finding gaps in vulnerability identification mechanisms based on SASTTs or alternatives. Method: Our SASTTs evaluation is based on a controlled, though synthetic, Java codebase. It involves an assessment of 1.5 million test executions, and it features innovative methodological features such as effort-aware accuracy metrics and method-level analysis. Results: Our findings reveal that SASTTs detect a tiny range of vulnerabilities. In contrast to prevailing wisdom, SASTTs exhibit high Precision while falling short in Recall. Conclusions: The paper suggests that enhancing Recall, alongside expanding the spectrum of detected vulnerability types, should be the primary focus for improving SASTTs or alternative approaches, such as machine learning-based vulnerability identification solutions.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# 操作的不等式と互換性の抜け穴のない通信ゲームによる普遍的文脈性の実証

Demonstration of universal contextuality through communication games free of both operational inequivalence and compatibility loopholes ( http://arxiv.org/abs/2403.09220v1 )

ライセンス: Link先を確認
Xuan Fan, Ya Xiao, Yongjian Gu, (参考訳) 普遍的文脈性(Universal contextuality)は、単一系においても非古典性の主要な概念であり、ベル非局所性(英語版)よりも一般的な量子相関として優位性を示し、準備的文脈性(英語版)も示している。 しかし、少なくとも普遍的な文脈性を示すループホールのない実験的なデモでは、操作上の不等式と互換性のあるループホールの両方を閉じる必要があり、これはこれまで一度も達成されていない。 本研究では,3,3) と (4,3) の通信ゲームを通じて普遍的文脈性を実験的に検証し,同時に操作等価性を回復し,互換性の抜け穴を回避した。 その結果,3,3シナリオでは97の標準偏差,4,3シナリオでは107の偏差で拘束される普遍的非コンテキスト性に反することが示された。 特に、両方のシナリオで局所性を示すが、普遍的な文脈性を示す状態が存在する。 さらに,3,3シナリオにおける準備文脈性よりも普遍的文脈性の方が,(4,3)シナリオにおける準備文脈性と等価であることを示す。

Universal contextuality is the leading notion of non-classicality even for single systems, showing its advantage as a more general quantum correlation than Bell non-locality, as well as preparation contextuality. However, a loophole-free experimental demonstration of universal contextuality at least requires that both operational inequivalence and compatibility loopholes are closed, which have never been simultaneously achieved to date. In our work, we experimentally test universal contextuality through (3,3) and (4,3) communication games, simultaneously restoring operational equivalence and circumventing the compatibility loophole. Our result exhibits the violation of universal non-contextuality bound by 97 standard deviations in (3,3) scenario, and 107 deviations in (4,3) scenario. Notably there are states which exhibit locality but reveal universal contextuality in both two scenarios. In addition, our result shows that universal contextuality is more general than preparation contextuality in (3,3) scenario, while equivalent to preparation contextuality in (4,3) scenario.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# MCformer:Mixed-Channels Transformerを用いた多変量時系列予測

MCformer: Multivariate Time Series Forecasting with Mixed-Channels Transformer ( http://arxiv.org/abs/2403.09223v1 )

ライセンス: Link先を確認
Wenyong Han, Tao Zhu Member, Liming Chen, Huansheng Ning, Yang Luo, Yaping Wan, (参考訳) 大規模モノのインターネット(IoT)デバイスによる膨大な時系列データの生成は、多変量時系列予測のためのより効率的なモデル探索を必要とする。 以前のモデルでは、Channel Dependence(CD)戦略(各チャネルは単変量列を表す)が主流であった。 現在のSOTAモデルは、主にチャンネルインデペンデンス(CI)戦略に依存している。 CI戦略は、すべてのチャネルを単一のチャネルとして扱い、データセットを拡張して一般化性能を改善し、長期的な特徴を損なうチャネル間の相関を回避する。 しかし、CI戦略はチャネル間の相関を忘れることの難しさに直面している。 この問題に対処するため、我々はCI戦略のデータ拡張の利点とチャネル間の相関を忘れないように対処する能力を組み合わせたMixed Channels戦略を提案する。 この戦略に基づいて,混合チャネル特徴を持つ多変量時系列予測モデルであるMCformerを導入する。 このモデルは特定の数のチャネルをブレンドし、長期的特徴をモデル化する際にチャネル間の相関情報を効果的にキャプチャするアテンション機構を活用する。 実験の結果,Mixed Channels戦略は多変量時系列予測タスクにおいて純粋なCI戦略よりも優れていた。

The massive generation of time-series data by largescale Internet of Things (IoT) devices necessitates the exploration of more effective models for multivariate time-series forecasting. In previous models, there was a predominant use of the Channel Dependence (CD) strategy (where each channel represents a univariate sequence). Current state-of-the-art (SOTA) models primarily rely on the Channel Independence (CI) strategy. The CI strategy treats all channels as a single channel, expanding the dataset to improve generalization performance and avoiding inter-channel correlation that disrupts long-term features. However, the CI strategy faces the challenge of interchannel correlation forgetting. To address this issue, we propose an innovative Mixed Channels strategy, combining the data expansion advantages of the CI strategy with the ability to counteract inter-channel correlation forgetting. Based on this strategy, we introduce MCformer, a multivariate time-series forecasting model with mixed channel features. The model blends a specific number of channels, leveraging an attention mechanism to effectively capture inter-channel correlation information when modeling long-term features. Experimental results demonstrate that the Mixed Channels strategy outperforms pure CI strategy in multivariate time-series forecasting tasks.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# 量子基礎への新しいアプローチといくつかの結果

A new approach towards quantum foundation and some consequences ( http://arxiv.org/abs/2403.09224v1 )

ライセンス: Link先を確認
Inge S. Helland, (参考訳) 6つの仮定に基づく一般的な理論が紹介される。 基本的な概念は、観測者または通信観測者のグループと関連付けられた理論変数である。 これらの変数はアクセス可能かアクセス不能である。 これらの仮定から、量子論の通常の形式主義が導かれる。 数学の導出はこの記事には書かれていないが、最近の記事[9, 10]を参照しよう。 一般理論の3つの可能な応用が与えられる。 1) 変数は,人又は人の集団の決定に関連する変数を判断することができる。 2) 変数は統計的パラメータや将来のデータかもしれない。 3)変数は、あるコンテキストにおける物理変数である。 この最後の応用は、量子力学の全く新しい基盤を与える。これは私の意見では、通常の形式論よりも理解しやすい基礎であり、他の応用もこのアプローチの興味深い結果をもたらすように思える。 Schr\"odinger's cat"のようないわゆるパラドックスは、この理論の下で解明することができる。 デービッド・ボームのEPR実験の結果とベル実験の結果について解説する。 最後に、相対論と場の量子論へのリンクへの参照が与えられる。

A general theory based upon 6 postulates is introduced. The basical notions are theoretical variables that are associated with an observer or with a group of communicating observers. These variables may be accessible or inaccessible. From these postulates, the ordinary formalism of quantum theory are derived. The mathematical derivations are not given in this article, but I refer to the recent articles [9, 10]. Three possible applications of the general theory can be given; 1) The variables may decision variables connected to the decisions of a person or of a group of persons. 2) The variables may be statistical parameters or future data, But most importantly here: 3) The variables are physical variables in some context. This last application gives a completely new foundation of quantum mechanics, a foundation which in my opinion is much more easy to understand than the ordinary formalism.The other applications seem also to give interesting consequences of the approach. Socalled paradoxes like that of Schr\"odinger's cat can be clarified under the theory. Explanations of the outcomes of David Bohm's version of the EPR experiment and of the Bell experiment are provided. Finally, references to links towards relativity theory and to quantum field theory are given.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# 電子健康記録を用いた疫学的質問応答のための検索用テキスト-SQL生成法

Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records ( http://arxiv.org/abs/2403.09226v1 )

ライセンス: Link先を確認
Angelo Ziletti, Leonardo D'Ambrosi, (参考訳) 電子健康記録(EHR)とクレームデータは、患者の健康状態と医療利用を反映した実世界の豊富なデータ源である。 医療用語の複雑さと複雑なSQLクエリの必要性のため、これらのデータベースに疫学的な質問に答えるためのクエリは難しい。 本稿では,テキスト・ツー・SQL生成と検索拡張生成(RAG)を組み合わせて,ERHとクレームデータを用いた疫学的問題に回答するエンド・ツー・エンド手法を提案する。 医用コーディングのステップをテキスト・トゥ・SQLプロセスに統合することで、簡単なプロンプトよりもパフォーマンスが大幅に向上することを示す。 以上の結果から,現在の言語モデルはまだ教師なし使用には十分正確ではないものの,RAGは現実的な産業環境で示すように,その能力向上に向けた有望な方向性を提供する。

Electronic health records (EHR) and claims data are rich sources of real-world data that reflect patient health status and healthcare utilization. Querying these databases to answer epidemiological questions is challenging due to the intricacy of medical terminology and the need for complex SQL queries. Here, we introduce an end-to-end methodology that combines text-to-SQL generation with retrieval augmented generation (RAG) to answer epidemiological questions using EHR and claims data. We show that our approach, which integrates a medical coding step into the text-to-SQL process, significantly improves the performance over simple prompting. Our findings indicate that although current language models are not yet sufficiently accurate for unsupervised use, RAG offers a promising direction for improving their capabilities, as shown in a realistic industry setting.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# BEHAVIOR-1K: 毎日1000のアクティビティとリアルなシミュレーションを備えた人間中心のエボダイドAIベンチマーク

BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation ( http://arxiv.org/abs/2403.09227v1 )

ライセンス: Link先を確認
Chengshu Li, Ruohan Zhang, Josiah Wong, Cem Gokmen, Sanjana Srivastava, Roberto Martín-Martín, Chen Wang, Gabrael Levine, Wensi Ai, Benjamin Martinez, Hang Yin, Michael Lingelbach, Minjune Hwang, Ayano Hiranaka, Sujay Garlanka, Arman Aydin, Sharon Lee, Jiankai Sun, Mona Anvari, Manasi Sharma, Dhruva Bansal, Samuel Hunter, Kyu-Young Kim, Alan Lou, Caleb R Matthews, Ivan Villa-Renteria, Jerry Huayang Tang, Claire Tang, Fei Xia, Yunzhu Li, Silvio Savarese, Hyowon Gweon, C. Karen Liu, Jiajun Wu, Li Fei-Fei, (参考訳) 本稿では,人間中心ロボットの総合シミュレーションベンチマークであるBEHAVIOR-1Kを提案する。 BEHAVIOR-1Kには2つのコンポーネントが含まれており、このコンポーネントは「あなたのためにロボットに何をして欲しいのか? 1つ目は、50のシーン(家、庭園、レストラン、オフィスなど)に、9000以上のオブジェクトにリッチな物理的・意味的な特性を付加した1,000の日常的な活動の定義である。 第二にOMNIGIBSONは、現実的な物理シミュレーションと剛体、変形可能な体、液体のレンダリングを通じてこれらの活動を支援する新しいシミュレーション環境である。 実験の結果,BEHAVIOR-1Kの活動は長期にわたるものであり,複雑な操作能力に依存していることが明らかとなった。 BEHAVIOR-1Kのシミュレーションと現実のギャップをキャリブレーションするために,シミュレーションアパートにおける移動マニピュレータで学習した解を実世界へ移行するための最初の研究を行った。 BEHAVIOR-1Kの人間中心の性質、多様性、リアリズムが、AIとロボット学習研究の具体化に有用であることを願っている。 プロジェクトウェブサイト: https://behavior.stanford.edu

We present BEHAVIOR-1K, a comprehensive simulation benchmark for human-centered robotics. BEHAVIOR-1K includes two components, guided and motivated by the results of an extensive survey on "what do you want robots to do for you?". The first is the definition of 1,000 everyday activities, grounded in 50 scenes (houses, gardens, restaurants, offices, etc.) with more than 9,000 objects annotated with rich physical and semantic properties. The second is OMNIGIBSON, a novel simulation environment that supports these activities via realistic physics simulation and rendering of rigid bodies, deformable bodies, and liquids. Our experiments indicate that the activities in BEHAVIOR-1K are long-horizon and dependent on complex manipulation skills, both of which remain a challenge for even state-of-the-art robot learning solutions. To calibrate the simulation-to-reality gap of BEHAVIOR-1K, we provide an initial study on transferring solutions learned with a mobile manipulator in a simulated apartment to its real-world counterpart. We hope that BEHAVIOR-1K's human-grounded nature, diversity, and realism make it valuable for embodied AI and robot learning research. Project website: https://behavior.stanford.edu.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# クロスオブジェクトモータ画像分類における不確かさの定量化

Uncertainty Quantification for cross-subject Motor Imagery classification ( http://arxiv.org/abs/2403.09228v1 )

ライセンス: Link先を確認
Prithviraj Manivannan, Ivo Pascal de Jong, Matias Valdenegro-Toro, Andreea Ioana Sburlea, (参考訳) 不確実性定量化は、機械学習モデルからの予測が間違っている可能性があるかどうかを判断することを目的としている。 コンピュータビジョン研究は、一般化誤差に対応するてんかん不確実性(モデル不確実性とも呼ばれる)を決定する方法を模索してきた。 これらの手法は理論的には、オブジェクト間の変動による誤分類を予測できる。 我々は、モータ画像脳コンピュータインタフェースの誤分類を予測するために、様々な不確かさ定量化手法を適用した。 ディープアンサンブルは、分類性能とクロスオブジェクト不確かさ定量化性能の両方において、最高の性能を示した。 しかし、Softmax出力の標準CNNは、より先進的な手法よりも優れた性能を示した。

Uncertainty Quantification aims to determine when the prediction from a Machine Learning model is likely to be wrong. Computer Vision research has explored methods for determining epistemic uncertainty (also known as model uncertainty), which should correspond with generalisation error. These methods theoretically allow to predict misclassifications due to inter-subject variability. We applied a variety of Uncertainty Quantification methods to predict misclassifications for a Motor Imagery Brain Computer Interface. Deep Ensembles performed best, both in terms of classification performance and cross-subject Uncertainty Quantification performance. However, we found that standard CNNs with Softmax output performed better than some of the more advanced methods.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# 2次元ボックススーパービジョンを用いた距離3次元物体検出の改良

Improving Distant 3D Object Detection Using 2D Box Supervision ( http://arxiv.org/abs/2403.09230v1 )

ライセンス: Link先を確認
Zetong Yang, Zhiding Yu, Chris Choy, Renhao Wang, Anima Anandkumar, Jose M. Alvarez, (参考訳) 遠方の3dオブジェクトの検出を改善することは重要な課題である。 カメラによる3D認識では、3dバウンディングのアノテーションは正確な深度情報を得るためにLiDARに大きく依存する。 そのため、遠方の物体のLiDAR点の間隔が狭いため、アノテーションの距離が制限されることがしばしばあり、これは長距離シナリオの既存の検出器の能力を損なう。 注釈が簡単であるため,遠隔物体の2次元ボックス管理のみを考慮し,この問題に対処する。 遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。 LR3Dは暗黙のプロジェクションヘッドを用いて、2Dボックスと深度の間のマッピングの生成を、クローズドオブジェクトの3D監視を用いて学習する。 このマッピングにより、2Dの箱に固定された遠方の物体の深さを推定でき、2Dの監督により長距離の3D検出が可能となる。 実験によると、遠方の3Dアノテーションがなければ、LR3Dはカメラベースの手法で(200mを超える)遠方の物体を完全な3D監視と同等の精度で検出できる。 我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。

Improving the detection of distant 3d objects is an important yet challenging task. For camera-based 3D perception, the annotation of 3d bounding relies heavily on LiDAR for accurate depth information. As such, the distance of annotation is often limited due to the sparsity of LiDAR points on distant objects, which hampers the capability of existing detectors for long-range scenarios. We address this challenge by considering only 2D box supervision for distant objects since they are easy to annotate. We propose LR3D, a framework that learns to recover the missing depth of distant objects. LR3D adopts an implicit projection head to learn the generation of mapping between 2D boxes and depth using the 3D supervision on close objects. This mapping allows the depth estimation of distant objects conditioned on their 2D boxes, making long-range 3D detection with 2D supervision feasible. Experiments show that without distant 3D annotations, LR3D allows camera-based methods to detect distant objects (over 200m) with comparable accuracy to full 3D supervision. Our framework is general, and could widely benefit 3D detection methods to a large extent.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# ビジネスプロセスのアウトカム予測のための実現可能かつ確実な対策説明の作成

Generating Feasible and Plausible Counterfactual Explanations for Outcome Prediction of Business Processes ( http://arxiv.org/abs/2403.09232v1 )

ライセンス: Link先を確認
Alexander Stevens, Chun Ouyang, Johannes De Smedt, Catarina Moreira, (参考訳) 近年,予測プロセス分析の分野では,様々な機械学習アーキテクチャやディープラーニングアーキテクチャの導入が成功している。 それでも、これらのアルゴリズムの本質的な不透明さは、人間の意思決定者にとって重大な課題となり、予測の背後にある推論を理解する能力を妨げる。 この懸念の高まりは、シナリオが望ましくない予測の背後にある意思決定プロセスに関するより明確な洞察を提供するために、人間に理解可能なものとして設計された、反事実的説明の導入をきっかけにしている。 しかしながら、カウンターファクトな説明の生成は、予測プロセス分析で一般的に使用される(ビジネス)プロセスケースのシーケンシャルな性質を扱う際に、特定の課題に直面する。 本稿では,データ駆動型アプローチであるREVISEDplusを導入して,より実現可能で実証可能な対実的説明を生成することで,この問題に対処する。 まず, プロセスデータの高密度領域内に存在する反事実を生成するために, 反事実アルゴリズムを制限し, 提案した反事実が観測されたプロセスデータ分布内で現実的かつ実現可能であることを保証する。 さらに、プロセスケースにおけるアクティビティ間の逐次パターンを学習し、Declare言語テンプレートを活用することで、妥当性を保証します。 最後に, カウンターファクトの妥当性を規定する特性について検討する。

In recent years, various machine and deep learning architectures have been successfully introduced to the field of predictive process analytics. Nevertheless, the inherent opacity of these algorithms poses a significant challenge for human decision-makers, hindering their ability to understand the reasoning behind the predictions. This growing concern has sparked the introduction of counterfactual explanations, designed as human-understandable what if scenarios, to provide clearer insights into the decision-making process behind undesirable predictions. The generation of counterfactual explanations, however, encounters specific challenges when dealing with the sequential nature of the (business) process cases typically used in predictive process analytics. Our paper tackles this challenge by introducing a data-driven approach, REVISEDplus, to generate more feasible and plausible counterfactual explanations. First, we restrict the counterfactual algorithm to generate counterfactuals that lie within a high-density region of the process data, ensuring that the proposed counterfactuals are realistic and feasible within the observed process data distribution. Additionally, we ensure plausibility by learning sequential patterns between the activities in the process cases, utilising Declare language templates. Finally, we evaluate the properties that define the validity of counterfactuals.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# 悪天候下における物体検出のためのロバストなフレームワークD-YOLO

D-YOLO a robust framework for object detection in adverse weather conditions ( http://arxiv.org/abs/2403.09233v1 )

ライセンス: Link先を確認
Zihan Chu, (参考訳) ヘイズ、雪、雨などの逆の気象条件は、画像品質の低下を招き、深層学習に基づく検知ネットワークの性能低下を招きかねない。 既存のほとんどのアプローチは、オブジェクト検出を行う前にヘイズな画像を修正しようと試みており、それによってネットワークの複雑さが増大し、潜伏した情報が失われる可能性がある。 画像復元とオブジェクト検出のタスクをよりうまく統合するために,注目機能融合モジュールを備えた二重ルートネットワークを設計し,ハズー機能とデハズー機能の両方を考慮した。 また,検出ネットワークにヘイズフリー機能を提供するサブネットワークも提案した。 具体的には,特徴抽出サブネットワークと検出ネットワーク間の距離を最小化することにより,検出ネットワークの性能を向上させる。 RTTSとFogyCityscapesデータセットの実験は、D-YOLOが最先端の手法よりも優れたパフォーマンスを示していることを示している。 低レベルの脱ハージングと高レベルの検出のギャップを埋めるための堅牢な検出フレームワークである。

Adverse weather conditions including haze, snow and rain lead to decline in image qualities, which often causes a decline in performance for deep-learning based detection networks. Most existing approaches attempts to rectify hazy images before performing object detection, which increases the complexity of the network and may result in the loss in latent information. To better integrate image restoration and object detection tasks, we designed a double-route network with an attention feature fusion module, taking both hazy and dehazed features into consideration. We also proposed a subnetwork to provide haze-free features to the detection network. Specifically, our D-YOLO improves the performance of the detection network by minimizing the distance between the clear feature extraction subnetwork and detection network. Experiments on RTTS and FoggyCityscapes datasets show that D-YOLO demonstrates better performance compared to the state-of-the-art methods. It is a robust detection framework for bridging the gap between low-level dehazing and high-level detection.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# Hyper-3DG:ハイパーグラフによるテキストから3Dガウス生成

Hyper-3DG: Text-to-3D Gaussian Generation via Hypergraph ( http://arxiv.org/abs/2403.09236v1 )

ライセンス: Link先を確認
Donglin Di, Jiahui Yang, Chaofan Luo, Zhou Xue, Wei Chen, Xun Yang, Yue Gao, (参考訳) テキストから3Dへの生成は、テキスト記述の詳細な3Dモデルへの変換を容易にし、急速に進歩した分野である。 しかし、現在の進歩はしばしば3次元オブジェクト内の幾何学とテクスチャの複雑な高次相関を無視し、過度な滑らかさ、過飽和、ヤヌス問題といった課題に繋がる。 本研究では,ハイパーグラフ(Hyper-3DG)' を用いた ``3D Gaussian Generation という手法を提案する。 私たちのフレームワークは、十分に確立されたメインフローと、‘Geometry and Texture Hypergraph Refiner(HGRefiner)’という名の必須モジュールによって固定されています。 このモジュールは、3Dガウスの表現を洗練させるだけでなく、これらの3Dガウスの更新プロセスを加速する。 本フレームワークは, 凝集度を最適化し, 劣化を効果的に回避し, 微細に生成した3Dオブジェクトの創出を可能にする。 大規模な実験により,提案手法は,基礎となるフレームワークの計算オーバーヘッドを増大させることなく,3次元生成の品質を著しく向上させることが示された。 (プロジェクトコード:https://github.com/yjhboy/Hyper3DG)

Text-to-3D generation represents an exciting field that has seen rapid advancements, facilitating the transformation of textual descriptions into detailed 3D models. However, current progress often neglects the intricate high-order correlation of geometry and texture within 3D objects, leading to challenges such as over-smoothness, over-saturation and the Janus problem. In this work, we propose a method named ``3D Gaussian Generation via Hypergraph (Hyper-3DG)'', designed to capture the sophisticated high-order correlations present within 3D objects. Our framework is anchored by a well-established mainflow and an essential module, named ``Geometry and Texture Hypergraph Refiner (HGRefiner)''. This module not only refines the representation of 3D Gaussians but also accelerates the update process of these 3D Gaussians by conducting the Patch-3DGS Hypergraph Learning on both explicit attributes and latent visual features. Our framework allows for the production of finely generated 3D objects within a cohesive optimization, effectively circumventing degradation. Extensive experimentation has shown that our proposed method significantly enhances the quality of 3D generation while incurring no additional computational overhead for the underlying framework. (Project code: https://github.com/yjhboy/Hyper3DG)
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# XReal: 可制御拡散モデルによる現実的解剖と病理認識X線生成

XReal: Realistic Anatomy and Pathology-Aware X-ray Generation via Controllable Diffusion Model ( http://arxiv.org/abs/2403.09240v1 )

ライセンス: Link先を確認
Anees Ur Rehman Hashmi, Ibrahim Almakky, Mohammad Areeb Qazi, Santosh Sanjeev, Vijay Ram Papineni, Dwarikanath Mahapatra, Mohammad Yaqub, (参考訳) 大規模生成モデルは、視覚的に魅力的な画像を生成するための優れた能力を示しており、医療画像の応用が増加している。 しかし、画像幻覚と解剖学的に不正確なアウトプットの生成の難しさに悩まされ続けている。 これらの制限は主に、テキスト入力のみに依存することと、生成された画像に対する空間制御が欠如していることによるものであり、実際の環境でのそのようなモデルの有用性を妨げている。 本稿では,胸部X線像を高精度な解剖学的,病理的位置制御により生成する新しい制御可能な拡散モデルXRealを提案する。 我々の軽量な手法は、微調整をすることなく、事前訓練されたテキスト-画像拡散モデルに空間制御をシームレスに統合し、既存の知識を維持しつつ、生成能力を向上することができる。 XRealは、専門的な放射線学者の評価に基づいて、13%と10%の解剖学と病理リアリズムのゲインを示しながら、定量的および定性的な測定で最先端のX線拡散モデルより優れている。 我々のモデルは、医療画像における生成モデルの発展を約束し、より精度と適応性を提供しながら、この進化する分野におけるさらなる探索を招いている。 アノテーションとコードを備えた大規模な合成データもhttps://github.com/BioMedIA-MBzuAI/XRealで公開されている。

Large-scale generative models have demonstrated impressive capacity in producing visually compelling images, with increasing applications in medical imaging. However, they continue to grapple with the challenge of image hallucination and the generation of anatomically inaccurate outputs. These limitations are mainly due to the sole reliance on textual inputs and lack of spatial control over the generated images, hindering the potential usefulness of such models in real-life settings. We present XReal, a novel controllable diffusion model for generating realistic chest X-ray images through precise anatomy and pathology location control. Our lightweight method can seamlessly integrate spatial control in a pre-trained text-to-image diffusion model without fine-tuning, retaining its existing knowledge while enhancing its generation capabilities. XReal outperforms state-of-the-art x-ray diffusion models in quantitative and qualitative metrics while showing 13% and 10% anatomy and pathology realism gain, respectively, based on the expert radiologist evaluation. Our model holds promise for advancing generative models in medical imaging, offering greater precision and adaptability while inviting further exploration in this evolving field. A large synthetically generated data with annotations and code is publicly available at https://github.com/BioMedIA-MBZUAI/XReal.
翻訳日:2024-03-15 21:07:03 公開日:2024-03-14
# 柔軟なジョブショップスケジューリング問題を動的に解くディープラーニングアプローチにおける制約プログラミングの活用

Leveraging Constraint Programming in a Deep Learning Approach for Dynamically Solving the Flexible Job-Shop Scheduling Problem ( http://arxiv.org/abs/2403.09249v1 )

ライセンス: Link先を確認
Imanol Echeverria, Maialen Murua, Roberto Santana, (参考訳) フレキシブルジョブショップスケジューリング問題(FJSSP)の最近の進歩は、高品質でリアルタイムなソリューションを生成する能力により、主に深層強化学習(DRL)に基づいている。 しかし、DRLアプローチは、より小さなインスタンスに対して最適あるいはほぼ最適解を見つけるのに長けている、正確なメソッドや制約プログラミング(CP)のような既存の手法の強みを十分に活用できないことが多い。 本稿では、CPをディープラーニング(DL)ベースの方法論に統合し、両者の利点を活用することを目的とする。 本稿では,CP が生成する最適解を用いて DL モデルをトレーニングし,高品質なデータからモデルを学習し,DRL に典型的な広範な探索の必要性を排除し,全体的な性能を向上させる手法を提案する。 さらに, CP を DL フレームワークに統合してソリューションを共同構築し, DL を初期複雑な段階に利用し, 問題を単純化して CP に遷移する。 我々のハイブリッドアプローチは3つのFJSSPベンチマークで広範囲にテストされ、5つの最先端のDRLアプローチと広く使われているCPソルバよりも優れた性能を示した。 さらに、他の組合せ最適化問題への応用を探求する目的で、旅行セールスマン問題へのハイブリッドアプローチの適用について、正確な方法とよく知られたDRL法を組み合わせた有望な予備的な結果を示す。

Recent advancements in the flexible job-shop scheduling problem (FJSSP) are primarily based on deep reinforcement learning (DRL) due to its ability to generate high-quality, real-time solutions. However, DRL approaches often fail to fully harness the strengths of existing techniques such as exact methods or constraint programming (CP), which can excel at finding optimal or near-optimal solutions for smaller instances. This paper aims to integrate CP within a deep learning (DL) based methodology, leveraging the benefits of both. In this paper, we introduce a method that involves training a DL model using optimal solutions generated by CP, ensuring the model learns from high-quality data, thereby eliminating the need for the extensive exploration typical in DRL and enhancing overall performance. Further, we integrate CP into our DL framework to jointly construct solutions, utilizing DL for the initial complex stages and transitioning to CP for optimal resolution as the problem is simplified. Our hybrid approach has been extensively tested on three public FJSSP benchmarks, demonstrating superior performance over five state-of-the-art DRL approaches and a widely-used CP solver. Additionally, with the objective of exploring the application to other combinatorial optimization problems, promising preliminary results are presented on applying our hybrid approach to the traveling salesman problem, combining an exact method with a well-known DRL method.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# Bregman発散に基づく逆エムプロブレムとその古典的および量子情報理論への応用

Reverse em-problem based on Bregman divergence and its application to classical and quantum information theory ( http://arxiv.org/abs/2403.09252v1 )

ライセンス: Link先を確認
Masahito Hayashi, (参考訳) 最近の論文 (IEEE Trans. IT 69, 1680) では、繰り返しを必要とせずにチャネル容量を計算する解析手法が導入された。 この方法は適用性を制限する一定の制限がある。 さらに,本稿では,チャネル容量を解析的に解決できる理由について説明していない。 本手法の範囲を広げ,その限界に対処するため,トヨタが提唱した逆のエンプロブレム(Information Geometry, 3, 1355 (2020))に注意を向ける。 この逆エム確率は、エム反復の逆写像を反復的に適用して、最大相互情報を表すチャネル容量を算出する。 しかし、トヨタの業績は未解決のままであった。 これらの課題を克服するために、ブレグマンの発散に基づく逆エム確率を定式化し、これらの開問題に対する解を提供する。 これらの結果に基づいて、逆エムプロブレムをエムプロブレムに変換し、逆エムプロブレムの非定型式を導出する。 この式は前述の解析計算法の一般化と見なすことができる。 重要な点として、この導出は、この特別なケースの根底にある情報幾何学的構造に光を当てる。 従来の解析手法の限界を効果的に解決し,基礎となる情報幾何学的構造をより深く理解することにより,提案手法の適用性を大幅に拡大する。

The recent paper (IEEE Trans. IT 69, 1680) introduced an analytical method for calculating the channel capacity without the need for iteration. This method has certain limitations that restrict its applicability. Furthermore, the paper does not provide an explanation as to why the channel capacity can be solved analytically in this particular case. In order to broaden the scope of this method and address its limitations, we turn our attention to the reverse em-problem, proposed by Toyota (Information Geometry, 3, 1355 (2020)). This reverse em-problem involves iteratively applying the inverse map of the em iteration to calculate the channel capacity, which represents the maximum mutual information. However, several open problems remained unresolved in Toyota's work. To overcome these challenges, we formulate the reverse em-problem based on Bregman divergence and provide solutions to these open problems. Building upon these results, we transform the reverse em-problem into em-problems and derive a non-iterative formula for the reverse em-problem. This formula can be viewed as a generalization of the aforementioned analytical calculation method. Importantly, this derivation sheds light on the information geometrical structure underlying this special case. By effectively addressing the limitations of the previous analytical method and providing a deeper understanding of the underlying information geometrical structure, our work significantly expands the applicability of the proposed method for calculating the channel capacity without iteration.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# ソーシャルメディアにおける銃文化

Gun Culture in Fringe Social Media ( http://arxiv.org/abs/2403.09254v1 )

ライセンス: Link先を確認
Fatemeh Tahmasbi, Aakarsha Chug, Barry Bradlyn, Jeremy Blackburn, (参考訳) アメリカでは銃乱射事件の頻度が増えているが、残念なことにそれは標準になっている。 米国における銃規制の問題には複雑な法的懸念があるが、社会的な問題もある。 このような社会問題のひとつはいわゆる「銃文化」すなわち銃所有に関する一般的な信念や行動である。 しかし、銃文化についてはあまり知られていないが、オンラインコミュニティを侵害するという意味では、あまり知られていない。 これは、前述の銃乱射事件の増加や、オンライン上で過激化している多くの銃乱射事件を考えると、特に心配である。 このギャップに対処するために、我々は /k/, 4chan の武器盤で銃文化を探求する。 より具体的には、様々な定量的手法を用いて、/k/上の4M以上のポストを調べ、それらの議論を銃文化の理論的理解のより大きな領域に位置づける。 我々の研究は、銃文化が比較的多様な話題(特に法的議論に焦点をあてた)をカバーしていることを示唆しており、その一部はフェティシズムの兆候である。

The increasing frequency of mass shootings in the United States has, unfortunately, become a norm. While the issue of gun control in the US involves complex legal concerns, there are also societal issues at play. One such social issue is so-called "gun culture," i.e., a general set of beliefs and actions related to gun ownership. However relatively little is known about gun culture, and even less is known when it comes to fringe online communities. This is especially worrying considering the aforementioned rise in mass shootings and numerous instances of shooters being radicalized online. To address this gap, we explore gun culture on /k/, 4chan's weapons board. More specifically, using a variety of quantitative techniques, we examine over 4M posts on /k/ and position their discussion within the larger body of theoretical understanding of gun culture. Among other things, our findings suggest that gun culture on /k/ covers a relatively diverse set of topics (with a particular focus on legal discussion), some of which are signals of fetishism.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# Landau-Lifshitz-Gilbert動力学の量子アナログ

Quantum analog of Landau-Lifshitz-Gilbert dynamics ( http://arxiv.org/abs/2403.09255v1 )

ライセンス: Link先を確認
Yuefei Liu, Ivan P. Miranda, Lee Johnson, Anders Bergman, Anna Delin, Danny Thonig, Manuel Pereiro, Olle Eriksson, Vahid Azimi Mousolou, Erik Sjöqvist, (参考訳) ランダウ・リフシッツ・ギルベルト方程式(LLG)とランダウ・リフシッツ方程式(LL)は、固体における磁化のダイナミクスを記述する上で重要な役割を果たす。 LL力学の量子アナログが [Phys. Lett. 110, 147201 (2013)] に提案されているが、対応する LLG の量子バージョンは未だ不明である。 本稿では、量子状態の純度を本質的に保存する量子 LLG 方程式を提案する。 2つの相互作用するスピン-1/2粒子からなるダイマーの量子LSGダイナミクスについて検討した。 我々の分析では、強磁性結合の場合、初期の非相関スピンの進化が古典的なLSGダイナミクスを反映していることが判明した。 しかし、反強磁性のシナリオでは、古典的挙動からの顕著な逸脱が観察され、非局所的相関であるスピンレス状態になるというユニークなダイナミクスが強調される。 さらに、当初相関関係にあったスピンを考えると、オープン量子システムで一般的に見られるものとは大きく異なる過渡量子相関ダイナミクスの異常な形態が明らかになる。

The Landau-Lifshitz-Gilbert (LLG) and Landau-Lifshitz (LL) equations play an essential role for describing the dynamics of magnetization in solids. While a quantum analog of the LL dynamics has been proposed in [Phys. Rev. Lett. 110, 147201 (2013)], the corresponding quantum version of LLG remains unknown. Here, we propose such a quantum LLG equation that inherently conserves purity of the quantum state. We examine the quantum LLG dynamics of a dimer consisting of two interacting spin-1/2 particles. Our analysis reveals that, in the case of ferromagnetic coupling, the evolution of initially uncorrelated spins mirrors the classical LLG dynamics. However, in the antiferromagnetic scenario, we observe pronounced deviations from classical behavior, underscoring the unique dynamics of becoming a spinless state, which is non-locally correlated. Moreover, when considering spins that are initially correlated, our study uncovers an unusual form of transient quantum correlation dynamics, which differ significantly from what is typically seen in open quantum systems.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# WSI-SAM: 病理組織学的全スライディング画像のための多分解能セグメンテーションモデル(SAM)

WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images ( http://arxiv.org/abs/2403.09257v1 )

ライセンス: Link先を確認
Hong Liu, Haosen Yang, Paul J. van Diest, Josien P. W. Pluim, Mitko Veta, (参考訳) Segment Anything Model (SAM)は、強力なゼロショット機能とダイナミックプロンプトを提供するセグメンテーションモデルの大幅な進歩を示す。 しかし、既存の医療SAMは、WSIのマルチスケールな性質には適せず、その効果を制限している。 この欠点を解決するため,WSI-SAM は,従来のプロンプト駆動設計,効率,ゼロショット適応性を保ちながら,マルチレゾリューションパッチを用いた病理画像の精度の高いオブジェクトセグメンテーション機能を SAM に拡張した。 トレーニングオーバーヘッドを最小化しながら、事前学習した知識を完全に活用するために、SAMは凍結し、最小限の追加パラメータと計算しか導入しません。 特に,高分解能(HR)トークン,低分解能(LR)トークン,デュアルマスクデコーダを導入する。 このデコーダは、オリジナルのSAMマスクデコーダと、複数のスケールで機能を統合した軽量のフュージョンモジュールを統合する。 マスクを独立に予測する代わりに、HRとLRトークンを中間層に統合し、複数の解像度で同じ物体の特徴を共同で学習する。 実験によると、WSI-SAMは最先端のSAMとその変種よりも優れています。 特に,本モデルでは,乳がん転移分節タスク (CAMELYON16 データセット) および乳がん転移分節タスク (CAMELYON16 データセット) において,SAM を4.1 および2.5 ポイント上回っている。 コードはhttps://github.com/HongLiuuuu/WSI-SAMで入手できる。

The Segment Anything Model (SAM) marks a significant advancement in segmentation models, offering powerful zero-shot capabilities and dynamic prompting. However, existing medical SAMs are not suitable for the multi-scale nature of whole-slide images (WSIs), restricting their effectiveness. To resolve this drawback, we present WSI-SAM, enhancing SAM with precise object segmentation capabilities for histopathology images using multi-resolution patches, while preserving its original prompt-driven design, efficiency, and zero-shot adaptability. To fully exploit pretrained knowledge while minimizing training overhead, we keep SAM frozen, only introducing minimal additional parameters and computation. In particular, we introduce High-Resolution (HR) token, Low-Resolution (LR) token and dual mask decoder. This decoder integrates the original SAM mask decoder with a lightweight fusion module that integrates features at multiple scales. Instead of predicting a mask independently, we integrate HR and LR token at intermediate layer to jointly learn features of the same object across multiple resolutions. Experiments show that our WSI-SAM outperforms state-of-the-art SAM and its variants. In particular, our model outperforms SAM by 4.1 and 2.5 percent points on a ductal carcinoma in situ (DCIS) segmentation tasks and breast cancer metastasis segmentation task (CAMELYON16 dataset). The code will be available at https://github.com/HongLiuuuuu/WSI-SAM.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# To Label or Not to Label: ニューラルネットワーク翻訳のためのハイブリッドアクティブラーニング

To Label or Not to Label: Hybrid Active Learning for Neural Machine Translation ( http://arxiv.org/abs/2403.09259v1 )

ライセンス: Link先を確認
Abdul Hameed Azeemi, Ihsan Ayyub Qazi, Agha Ali Raza, (参考訳) アクティブラーニング(AL)技術は、アノテーションのためのラベルなしデータから、より小さな代表サブセットを選択することで、ニューラルネットワーク翻訳(NMT)モデルのラベリングコストを低減する。 多様性サンプリング手法は不均一なインスタンスを選択するが、不確実なサンプリング手法は最も高いモデル不確実性を持つインスタンスを選択する。 多様性法は様々なが自明な例を抽出し、不確実なサンプリングは反復的で非形式的な例を生み出す。 このギャップを埋めるために,NMTにおけるドメイン適応のためのハイブリッドAL戦略であるHUDSを提案する。 HUDSは、ラベルのない文に対する不確実性スコアを計算し、その後、それらを階層化する。 その後、k-MEANSを用いて各層に文章の埋め込みを集約し、セントロイドまでの距離で多様性のスコアを計算する。 不確実性と多様性を組み合わせた重み付きハイブリッドスコアを使用して、ALイテレーション毎にアノテーションのトップインスタンスを選択する。 マルチドメインのドイツ語-英語データセットの実験は、他の強力なALベースラインよりもHUDSの方が優れた性能を示している。 HUDSを用いて文選択を解析し、初期のALイテレーションにおいて、アノテーションに対して高いモデル不確実性を有する多様なインスタンスを優先することを示す。

Active learning (AL) techniques reduce labeling costs for training neural machine translation (NMT) models by selecting smaller representative subsets from unlabeled data for annotation. Diversity sampling techniques select heterogeneous instances, while uncertainty sampling methods select instances with the highest model uncertainty. Both approaches have limitations - diversity methods may extract varied but trivial examples, while uncertainty sampling can yield repetitive, uninformative instances. To bridge this gap, we propose HUDS, a hybrid AL strategy for domain adaptation in NMT that combines uncertainty and diversity for sentence selection. HUDS computes uncertainty scores for unlabeled sentences and subsequently stratifies them. It then clusters sentence embeddings within each stratum using k-MEANS and computes diversity scores by distance to the centroid. A weighted hybrid score that combines uncertainty and diversity is then used to select the top instances for annotation in each AL iteration. Experiments on multi-domain German-English datasets demonstrate the better performance of HUDS over other strong AL baselines. We analyze the sentence selection with HUDS and show that it prioritizes diverse instances having high model uncertainty for annotation in early AL iterations.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# 画像診断における高度な腫瘍分節化 : BraTS 2023 成人グリオーマと小児腫瘍タスクのアンサンブルアプローチ

Advanced Tumor Segmentation in Medical Imaging: An Ensemble Approach for BraTS 2023 Adult Glioma and Pediatric Tumor Tasks ( http://arxiv.org/abs/2403.09262v1 )

ライセンス: Link先を確認
Fadillah Maani, Anees Ur Rehman Hashmi, Mariam Aljuboory, Numan Saeed, Ikboljon Sobirov, Mohammad Yaqub, (参考訳) 自動セグメンテーションは、医療画像内の腫瘍を正確に検出する貴重なツールであることが証明されている。 腫瘍の正確な同定と分類は、非常に致命的な脳腫瘍の診断、モニタリング、治療において最重要となる。 BraTSチャレンジは、腫瘍セグメンテーションに焦点を当てたオープンチャレンジに参加することで、研究者がこの問題に取り組むためのプラットフォームとして機能する。 本研究はBraTS 2023の課題である成人グリオーマと小児腫瘍の2つの異なる課題の文脈で腫瘍を分節する手法について概説する。 本手法では,2つのエンコーダデコーダベースのCNNモデル,すなわちSegResNetとMedNeXtを用いて腫瘍の3つの領域を分割する。 さらに、特に新たに導入されたBraTS 2023メトリクスに対して、セグメンテーションを改善するための堅牢な後処理のセットを導入します。 本研究では,本手法の具体的特徴と包括的パフォーマンス分析について述べる。 提案手法は,BraTS 2023アダルトグリオーマセグメンテーションチャレンジで平均0.8313点,Dice 36.38点,HD95点の3位を達成した。

Automated segmentation proves to be a valuable tool in precisely detecting tumors within medical images. The accurate identification and segmentation of tumor types hold paramount importance in diagnosing, monitoring, and treating highly fatal brain tumors. The BraTS challenge serves as a platform for researchers to tackle this issue by participating in open challenges focused on tumor segmentation. This study outlines our methodology for segmenting tumors in the context of two distinct tasks from the BraTS 2023 challenge: Adult Glioma and Pediatric Tumors. Our approach leverages two encoder-decoder-based CNN models, namely SegResNet and MedNeXt, for segmenting three distinct subregions of tumors. We further introduce a set of robust postprocessing to improve the segmentation, especially for the newly introduced BraTS 2023 metrics. The specifics of our approach and comprehensive performance analyses are expounded upon in this work. Our proposed approach achieves third place in the BraTS 2023 Adult Glioma Segmentation Challenges with an average of 0.8313 and 36.38 Dice and HD95 scores on the test set, respectively.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# Deep Limit Order Book Forecasting

Deep Limit Order Book Forecasting ( http://arxiv.org/abs/2403.09267v1 )

ライセンス: Link先を確認
Antonio Briola, Silvia Bartolucci, Tomaso Aste, (参考訳) 我々は最先端の深層学習手法を利用してNASDAQ取引所で取引された異種株の高頻度リミットオーダーブックの中間価格変動の予測可能性を探る。 そこで我々はオープンソースのコードベースであるLOBFrameをリリースし、大規模リミットオーダーブックデータを効率的に処理し、最先端のディープラーニングモデルの予測能力を定量的に評価する。 私たちの結果は2倍です。 本研究は,株の微細構造特性が深層学習の有効性に影響を及ぼし,その高い予測能力が必ずしも実行可能な取引信号に対応していないことを実証する。 従来の機械学習のメトリクスは、リミットオーダーブックのコンテキストにおける予測の質を適切に評価できない。 代替として,完全なトランザクションを正確に予測する確率に着目して,予測の実用性を評価する,革新的な運用フレームワークを提案する。 この研究は、深層学習技術の応用、その範囲と限界について情報的かつ堅牢な決定を行うための、学者や実践者に道のりを与え、限界秩序書の創発的な統計的性質を効果的に活用する。

We exploit cutting-edge deep learning methodologies to explore the predictability of high-frequency Limit Order Book mid-price changes for a heterogeneous set of stocks traded on the NASDAQ exchange. In so doing, we release `LOBFrame', an open-source code base, to efficiently process large-scale Limit Order Book data and quantitatively assess state-of-the-art deep learning models' forecasting capabilities. Our results are twofold. We demonstrate that the stocks' microstructural characteristics influence the efficacy of deep learning methods and that their high forecasting power does not necessarily correspond to actionable trading signals. We argue that traditional machine learning metrics fail to adequately assess the quality of forecasts in the Limit Order Book context. As an alternative, we propose an innovative operational framework that assesses predictions' practicality by focusing on the probability of accurately forecasting complete transactions. This work offers academics and practitioners an avenue to make informed and robust decisions on the application of deep learning techniques, their scope and limitations, effectively exploiting emergent statistical properties of the Limit Order Book.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# EventRPG: 関連するプロパゲーションガイダンスを備えたイベントデータ拡張

EventRPG: Event Data Augmentation with Relevance Propagation Guidance ( http://arxiv.org/abs/2403.09274v1 )

ライセンス: Link先を確認
Mingyuan Sun, Donghao Zhang, Zongyuan Ge, Jiaxu Wang, Jia Li, Zheng Fang, Renjing Xu, (参考訳) バイオインスパイアされた新しい視覚センサーであるイベントカメラは、低レイテンシ、低消費電力、高ダイナミックレンジで多くの注目を集めている。 現在では、比較的弱い空間表現能力のため、スパイキングニューラルネットワーク(SNN)のイベントベースの分類タスクにおいて、オーバーフィッティングは依然として重要な問題となっている。 データ拡張は、ニューラルネットワークの過度な適合を緩和し、一般化能力を改善するための、単純だが効率的な方法であり、サリエンシベースの拡張方法は、画像処理分野において有効であることが証明されている。 しかし、SNNからサリエンシマップを抽出するアプローチは存在しない。 そこで、SNNが安定かつ正確なCAMとサリエンシマップを生成するために、SLTRP(Spike Layer-Time-wise Relevance Propagation Rule)とSLRP(Spike Layer-wise Relevance Propagation Rule)を初めて提示する。 これに基づいて,より効率的な拡張のためにスパイキングニューラルネットワーク上での関連伝播を利用するEventRPGを提案する。 提案手法は,N-Caltech101, CIFAR10-DVS, 85.62%, 85.55%, アクション認識タスクSL-Animalsなどのオブジェクト認識タスクにおいて, 91.59%の精度で動作認識タスクSL-Animalsを達成し, 評価を行った。 私たちのコードはhttps://github.com/myuansun/EventRPGで利用可能です。

Event camera, a novel bio-inspired vision sensor, has drawn a lot of attention for its low latency, low power consumption, and high dynamic range. Currently, overfitting remains a critical problem in event-based classification tasks for Spiking Neural Network (SNN) due to its relatively weak spatial representation capability. Data augmentation is a simple but efficient method to alleviate overfitting and improve the generalization ability of neural networks, and saliency-based augmentation methods are proven to be effective in the image processing field. However, there is no approach available for extracting saliency maps from SNNs. Therefore, for the first time, we present Spiking Layer-Time-wise Relevance Propagation rule (SLTRP) and Spiking Layer-wise Relevance Propagation rule (SLRP) in order for SNN to generate stable and accurate CAMs and saliency maps. Based on this, we propose EventRPG, which leverages relevance propagation on the spiking neural network for more efficient augmentation. Our proposed method has been evaluated on several SNN structures, achieving state-of-the-art performance in object recognition tasks including N-Caltech101, CIFAR10-DVS, with accuracies of 85.62% and 85.55%, as well as action recognition task SL-Animals with an accuracy of 91.59%. Our code is available at https://github.com/myuansun/EventRPG.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# CLIP-EBC: CLIPはブロックワイズ分類の強化によって正確にカウントできる

CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification ( http://arxiv.org/abs/2403.09281v1 )

ライセンス: Link先を確認
Yiming Ma, Victor Sanchez, Tanaya Guha, (参考訳) CLIP(Contrastive Language- Image Pretraining)モデルは、ゼロショット画像分類やオブジェクト検出などの認識問題において優れた性能を示した。 しかし、カウントする能力は、カウントする本来の課題、つまりレグレッションタスクが認識タスクに変換されるため、まだ検討されていない。 本稿では,CLIPの数え方の可能性について検討し,特に群集の大きさを推定することに焦点を当てた。 既存の分類に基づくクラウドカウンティング手法では,CLIPの適用を阻害する不適切な識別戦略などの問題が発生し,その結果,準最適性能が得られた。 これらの課題に対処するために、拡張ブロックワイズ分類(EBC)フレームワークを提案する。 従来の手法とは対照的に、EBCは堅牢な決定境界の学習を容易にする整数値のビンに依存している。 モデルに依存しないEBCフレームワークの中で、密度マップを生成することができるCLIP-EBCを導入した。 様々なクラウドカウンティングデータセットの包括的評価は,我々の手法の最先端性能を示している。 特にEBCは既存のモデルを76.9%改善できる。 さらに,我々のCLIP-EBCモデルは,上海工科大学のA部とB部で55.0と6.3の平均絶対誤差を達成した。 コードは公開されます。

The CLIP (Contrastive Language-Image Pretraining) model has exhibited outstanding performance in recognition problems, such as zero-shot image classification and object detection. However, its ability to count remains understudied due to the inherent challenges of transforming counting--a regression task--into a recognition task. In this paper, we investigate CLIP's potential in counting, focusing specifically on estimating crowd sizes. Existing classification-based crowd-counting methods have encountered issues, including inappropriate discretization strategies, which impede the application of CLIP and result in suboptimal performance. To address these challenges, we propose the Enhanced Blockwise Classification (EBC) framework. In contrast to previous methods, EBC relies on integer-valued bins that facilitate the learning of robust decision boundaries. Within our model-agnostic EBC framework, we introduce CLIP-EBC, the first fully CLIP-based crowd-counting model capable of generating density maps. Comprehensive evaluations across diverse crowd-counting datasets demonstrate the state-of-the-art performance of our methods. Particularly, EBC can improve existing models by up to 76.9%. Moreover, our CLIP-EBC model surpasses current crowd-counting methods, achieving mean absolute errors of 55.0 and 6.3 on ShanghaiTech part A and part B datasets, respectively. The code will be made publicly available.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# DA-PFL:個人化フェデレーション学習のための動的親和性アグリゲーション

DA-PFL: Dynamic Affinity Aggregation for Personalized Federated Learning ( http://arxiv.org/abs/2403.09284v1 )

ライセンス: Link先を確認
Xu Yang, Jiyuan Feng, Songyue Guo, Ye Wang, Ye Ding, Binxing Fang, Qing Liao, (参考訳) パーソナライズされたフェデレーション学習は、クライアント毎にパーソナライズされた学習モデルを学ぶことのできるホットな研究トピックになる。 既存のパーソナライズされた学習モデルでは、学習モデルの性能を改善するために、類似したクライアントを同様のデータ分散で集約するのが好ましい。 しかし、類似性に基づくパーソナライズド・フェデレーション学習手法は、クラス不均衡問題を悪化させる可能性がある。 本稿では,動的親和性に基づく個人化フェデレーション学習モデル(DA-PFL)を提案する。 具体的には、補完的な観点から親和性メトリクスを構築し、どのクライアントを集約すべきかをガイドします。 次に,各ラウンドの親和性基準に基づいて動的にクライアントを集約し,クラス不均衡リスクを低減する動的集約戦略を設計する。 大規模実験により,DA-PFLモデルにより,最先端比較手法を用いた実世界の3つのデータセットにおいて,クライアントの精度を大幅に向上できることが示された。

Personalized federated learning becomes a hot research topic that can learn a personalized learning model for each client. Existing personalized federated learning models prefer to aggregate similar clients with similar data distribution to improve the performance of learning models. However, similaritybased personalized federated learning methods may exacerbate the class imbalanced problem. In this paper, we propose a novel Dynamic Affinity-based Personalized Federated Learning model (DA-PFL) to alleviate the class imbalanced problem during federated learning. Specifically, we build an affinity metric from a complementary perspective to guide which clients should be aggregated. Then we design a dynamic aggregation strategy to dynamically aggregate clients based on the affinity metric in each round to reduce the class imbalanced risk. Extensive experiments show that the proposed DA-PFL model can significantly improve the accuracy of each client in three real-world datasets with state-of-the-art comparison methods.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# シーンテキスト視覚質問応答に対するOCRモダリティ摂動を用いた対人訓練

Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering ( http://arxiv.org/abs/2403.09288v1 )

ライセンス: Link先を確認
Zhixuan Shen, Haonan Luo, Sijia Li, Tianrui Li, (参考訳) Scene-Text Visual Question Answering (ST-VQA) は、画像中のシーンテキストを理解し、テキストコンテンツに関連する質問に答えることを目的としている。 既存のほとんどの手法は光学文字認識(OCR)システムの精度に大きく依存しており、空間的位置情報と誤ったOCRテキスト情報に基づくアグレッシブな微調整は、しばしば必然的に過度に適合する。 本稿では,空間認識機能を備えたマルチモーダル対向学習アーキテクチャを提案する。 具体的には、OCRモダリティの埋め込み空間における敵対的トレーニングを活用して、OCRテキストのフォールトトレラント表現を強化し、OCRエラーによるノイズを低減する。 同時に、OCRトークン間の空間関係をよりよく捉えるために、空間認識自己認識(SASA)機構を追加します。 種々の実験により,本手法はST-VQAとTextVQAの双方で大幅な性能向上を実現し,マルチモーダル対角訓練のための新しいパラダイムを提供する。

Scene-Text Visual Question Answering (ST-VQA) aims to understand scene text in images and answer questions related to the text content. Most existing methods heavily rely on the accuracy of Optical Character Recognition (OCR) systems, and aggressive fine-tuning based on limited spatial location information and erroneous OCR text information often leads to inevitable overfitting. In this paper, we propose a multimodal adversarial training architecture with spatial awareness capabilities. Specifically, we introduce an Adversarial OCR Enhancement (AOE) module, which leverages adversarial training in the embedding space of OCR modality to enhance fault-tolerant representation of OCR texts, thereby reducing noise caused by OCR errors. Simultaneously, We add a Spatial-Aware Self-Attention (SASA) mechanism to help the model better capture the spatial relationships among OCR tokens. Various experiments demonstrate that our method achieves significant performance improvements on both the ST-VQA and TextVQA datasets and provides a novel paradigm for multimodal adversarial training.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# サイコ中心の心の理論

Silico-centric Theory of Mind ( http://arxiv.org/abs/2403.09289v1 )

ライセンス: Link先を確認
Anirban Mukherjee, Hannah Hanwen Chang, (参考訳) 心の理論(りょうがく、英: Theory of Mind、ToM)とは、信念、欲望、意図、知識などの心的状態が自分や他と異なることを理解する能力である。 複数の独立した独立したAIエージェントを持つ環境で、それぞれ独自の内部状態、情報、目的を持つ環境でToMを調査する。 人間の偽信実験に触発されて、クローンが人間中心のToMアセスメントを行うシナリオを備えたAI(「焦点AI」)を提示する。 我々は、焦点AIに、そのクローンが追加の指示の恩恵を受けるかどうかを評価するよう促す。 同時に、そのクローンにToMアセスメントを、指示と無指示の両方で与え、それによって、人間のメンタライズに似た高次対実的推論において焦点AIを関与させます。 現代のAIは、人間中心のToMアセスメントにほぼ完璧な精度を示す。 1つのAIに埋め込まれた情報は、そのクローンに同一に埋め込まれているため、追加の命令は冗長である。 しかし、我々はAIがクローンに精巧な指示を下すのを観察し、誤って支援の必要性を予測した。 独立した審判AIは、これらの期待に同意する。 焦点AIも審判も、私たちの「シリカ中心」テストではToMを示さない。

Theory of Mind (ToM) refers to the ability to attribute mental states, such as beliefs, desires, intentions, and knowledge, to oneself and others, and to understand that these mental states can differ from one's own and from reality. We investigate ToM in environments with multiple, distinct, independent AI agents, each possessing unique internal states, information, and objectives. Inspired by human false-belief experiments, we present an AI ('focal AI') with a scenario where its clone undergoes a human-centric ToM assessment. We prompt the focal AI to assess whether its clone would benefit from additional instructions. Concurrently, we give its clones the ToM assessment, both with and without the instructions, thereby engaging the focal AI in higher-order counterfactual reasoning akin to human mentalizing--with respect to humans in one test and to other AI in another. We uncover a discrepancy: Contemporary AI demonstrates near-perfect accuracy on human-centric ToM assessments. Since information embedded in one AI is identically embedded in its clone, additional instructions are redundant. Yet, we observe AI crafting elaborate instructions for their clones, erroneously anticipating a need for assistance. An independent referee AI agrees with these unsupported expectations. Neither the focal AI nor the referee demonstrates ToM in our 'silico-centric' test.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# SELECTOR:マルチモーダルロバストな癌生存予測のための畳み込みマスク付きオートエンコーダを用いた異種グラフネットワーク

SELECTOR: Heterogeneous graph network with convolutional masked autoencoder for multimodal robust prediction of cancer survival ( http://arxiv.org/abs/2403.09290v1 )

ライセンス: Link先を確認
Liangrui Pan, Yijun Peng, Yan Li, Xiang Wang, Wenjuan Liu, Liwen Xu, Qingchun Liang, Shaoliang Peng, (参考訳) がん患者の生存率の正確な予測は、適切な治療計画を立て、がん関連医療費を削減し、患者の生活の質を著しく向上させるために、臨床医を支援するために不可欠である。 がん患者生存のマルチモーダル予測は、より包括的で正確なアプローチを提供する。 しかし、既存の手法は、マルチモーダルデータの欠如や、モダリティ内の情報相互作用に関する課題に依然として対応している。 本稿では, 畳み込みマスクエンコーダを用いた異種グラフ認識ネットワークであるSELECTORを紹介した。 SELECTORは、特徴エッジ再構成、畳み込みマスクエンコーダ、特徴クロスフュージョン、マルチモーダルサバイバル予測モジュールを含む。 当初,マルチモーダルなヘテロジニアスグラフを構築し,特徴エッジ再構成のためのメタパス法,グラフエッジからの特徴情報の包括的取り込み,ノードの効果的な埋め込みを実現する。 予測精度に及ぼすモダリティの欠落特徴の影響を軽減するため,異種グラフポストフィーチャー再構成処理のための畳み込みマスク付きオートエンコーダ(CMAE)を考案した。 その後、特徴クロスフュージョンモジュールは、モダリティ間の通信を容易にし、出力特徴がモダリティの全ての特徴と他のモダリティからの関連情報を含むことを保証する。 TCGAから得られた6つのがんデータセットの広範囲な実験と解析により,本手法はモダリティ欠失例とモダリティ内情報確認症例の両方において,最先端の手法を著しく上回っていることが示された。 私たちのコードはhttps://github.com/panliangrui/Selector.comで公開されています。

Accurately predicting the survival rate of cancer patients is crucial for aiding clinicians in planning appropriate treatment, reducing cancer-related medical expenses, and significantly enhancing patients' quality of life. Multimodal prediction of cancer patient survival offers a more comprehensive and precise approach. However, existing methods still grapple with challenges related to missing multimodal data and information interaction within modalities. This paper introduces SELECTOR, a heterogeneous graph-aware network based on convolutional mask encoders for robust multimodal prediction of cancer patient survival. SELECTOR comprises feature edge reconstruction, convolutional mask encoder, feature cross-fusion, and multimodal survival prediction modules. Initially, we construct a multimodal heterogeneous graph and employ the meta-path method for feature edge reconstruction, ensuring comprehensive incorporation of feature information from graph edges and effective embedding of nodes. To mitigate the impact of missing features within the modality on prediction accuracy, we devised a convolutional masked autoencoder (CMAE) to process the heterogeneous graph post-feature reconstruction. Subsequently, the feature cross-fusion module facilitates communication between modalities, ensuring that output features encompass all features of the modality and relevant information from other modalities. Extensive experiments and analysis on six cancer datasets from TCGA demonstrate that our method significantly outperforms state-of-the-art methods in both modality-missing and intra-modality information-confirmed cases. Our codes are made available at https://github.com/panliangrui/Selector.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# 超低温反応における動的相転移のパラメトリックチューニング

Parametric tuning of dynamical phase transitions in ultracold reactions ( http://arxiv.org/abs/2403.09291v1 )

ライセンス: Link先を確認
Vijay Ganesh Sadhasivam, Fumika Suzuki, Bin Yan, Nikolai A. Sinitsyn, (参考訳) 極低温化学の進歩は、完全なボゾン凝縮物を含む超低温原子と分子との間のコヒーレントな変換の可能性をもたらした。 このような変換は、量子臨界点を通過するフェシュバッハ共鳴における原子の磁気連想によって実現される。 本研究では, 生成分子間の汎用相互作用の存在が臨界点の性質を根本的に変化させ, 反応の収量と相転移の順序を変化させることができることを示す。 この相互作用によって引き起こされる相関関係は、原子と分子間のコヒーレントな振動や、圧縮された分子量子状態と量子キャット状態の選択的形成などの非自明な多体物理学を誘導する。 我々は、これらの多体効果の解析的および数値的な説明と、アディバティックおよび非アディバティックな状態における反応収率のスケーリング法則を提供し、量子センシングにおける潜在的実験的関連性を強調する。

Advances in ultracold chemistry have led to the possibility of a coherent transformation between ultracold atoms and molecules including between completely bosonic condensates. Such transformations are enabled by the magneto-association of atoms at a Feshbach resonance which results in a passage through a quantum critical point. In this study, we show that the presence of generic interaction between the formed molecules can fundamentally alter the nature of the critical point, change the yield of the reaction and the order of the consequent phase transition. We find that the correlations introduced by this rather general interaction induce nontrivial many-body physics such as coherent oscillations between atoms and molecules, and a selective formation of squeezed molecular quantum states and quantum cat states. We provide analytical and numerical descriptions of these many-body effects, along with scaling laws for the reaction yield in both the adiabatic and non-adiabatic regimes, and highlight the potential experimental relevance in quantum sensing.
翻訳日:2024-03-15 20:57:06 公開日:2024-03-14
# 解剖学的構造誘導型医用視力訓練

Anatomical Structure-Guided Medical Vision-Language Pre-training ( http://arxiv.org/abs/2403.09294v1 )

ライセンス: Link先を確認
Qingqiu Li, Xiaohan Yan, Jilan Xu, Runtian Yuan, Yuejie Zhang, Rui Feng, Quanli Shen, Xiaobo Zhang, Shujun Wang, (参考訳) 視覚言語による事前学習による医用視覚表現の学習は目覚ましい進歩を遂げた。 有望な性能にもかかわらず、局所的なアライメントは解釈可能性と臨床的関連性に欠けており、画像-レポートペアの内部および外部表現学習が不十分である。 これらの問題に対処するために、解剖学的構造ガイド(ASG)フレームワークを提案する。 具体的には, 生のレポートを解剖学的領域, 発見, 存在>に解析し, 各要素を教師として活用し, 表現学習の促進を図る。 解剖学的領域に対しては,局所的な微粒なアライメントを探索するための最小のセマンティック単位として,放射線学者と共同で自動解剖学的領域文アライメントパラダイムを設計する。 画像タグの発見と存在をイメージタグとみなし,画像特徴とそれぞれのタグを関連づける画像タグ認識デコーダを適用し,コントラスト学習のためのソフトラベルを構築して,異なる画像レポートペアのセマンティックアソシエーションを改善する。 提案したASGフレームワークを5つの公開ベンチマークを含む2つの下流タスクで評価する。 実験の結果,本手法は最先端の手法よりも優れていた。

Learning medical visual representations through vision-language pre-training has reached remarkable progress. Despite the promising performance, it still faces challenges, i.e., local alignment lacks interpretability and clinical relevance, and the insufficient internal and external representation learning of image-report pairs. To address these issues, we propose an Anatomical Structure-Guided (ASG) framework. Specifically, we parse raw reports into triplets <anatomical region, finding, existence>, and fully utilize each element as supervision to enhance representation learning. For anatomical region, we design an automatic anatomical region-sentence alignment paradigm in collaboration with radiologists, considering them as the minimum semantic units to explore fine-grained local alignment. For finding and existence, we regard them as image tags, applying an image-tag recognition decoder to associate image features with their respective tags within each sample and constructing soft labels for contrastive learning to improve the semantic association of different image-report pairs. We evaluate the proposed ASG framework on two downstream tasks, including five public benchmarks. Experimental results demonstrate that our method outperforms the state-of-the-art methods.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# 選択・希釈:視覚言語モデルに基づく連続学習のための選択的デュアル教師知識伝達

Select and Distill: Selective Dual-Teacher Knowledge Transfer for Continual Learning on Vision-Language Models ( http://arxiv.org/abs/2403.09296v1 )

ライセンス: Link先を確認
Yu-Chu Yu, Chi-Pin Huang, Jr-Jen Chen, Kai-Po Chang, Yung-Hsuan Lai, Fu-En Yang, Yu-Chiang Frank Wang, (参考訳) 大規模視覚言語モデル(VLM)は、目に見えない領域データに対して強力なゼロショット一般化能力を示す。 しかし、訓練済みのVLMを一連の下流タスクに適応させると、学習済みの知識を忘れてしまい、ゼロショット分類能力が低下する傾向にある。 この問題に対処するために,直近の微調整VLMと事前学習VLMを2つの教師として活用して,学習済みの知識とゼロショットの能力をそれぞれ保持する,独自の選択型デュアル教師ナレッジトランスファーフレームワークを提案する。 提案手法は,ラベルのない参照データセットにのみアクセスすることで,二元的教師VLMとの特徴差を測定することにより,選択的な知識蒸留機構を実現する。 その結果, 予備学習VLMのゼロショット能力を保ちながら, 従来学習されていた知識の破滅的な忘れを軽減できる可能性が示唆された。 ベンチマークデータセットに関する広範な実験を通じて、我々の提案するフレームワークは、破滅的な忘れ込みやゼロショット劣化を防止するための最先端の継続的学習アプローチに対して好適であることを示す。

Large-scale vision-language models (VLMs) have shown a strong zero-shot generalization capability on unseen-domain data. However, when adapting pre-trained VLMs to a sequence of downstream tasks, they are prone to forgetting previously learned knowledge and degrade their zero-shot classification capability. To tackle this problem, we propose a unique Selective Dual-Teacher Knowledge Transfer framework that leverages the most recent fine-tuned and the original pre-trained VLMs as dual teachers to preserve the previously learned knowledge and zero-shot capabilities, respectively. With only access to an unlabeled reference dataset, our proposed framework performs a selective knowledge distillation mechanism by measuring the feature discrepancy from the dual teacher VLMs. Consequently, our selective dual-teacher knowledge distillation would mitigate catastrophic forgetting of previously learned knowledge while preserving the zero-shot capabilities from pre-trained VLMs. Through extensive experiments on benchmark datasets, we show that our proposed framework is favorable against state-of-the-art continual learning approaches for preventing catastrophic forgetting and zero-shot degradation.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# 因果一貫性のための完全論理

A complete logic for causal consistency ( http://arxiv.org/abs/2403.09297v1 )

ライセンス: Link先を確認
Will Simmons, Aleks Kissinger, (参考訳) $\mathrm{Caus}[-]$ construction は ``raw materials'' の基本圏を取得し、高次因果過程の圏を構築する。 注目すべき例としては、高階確率写像と高階量子チャネルのカテゴリがある。 $\mathrm{Caus}[-]$ の well-typedness は、所定の型の局所的なプロセスの選択が因果制約を尊重する全体過程をもたらすという意味で、因果一貫性のあるプロセスの合成に対応する。 閉過程は常に確率 1 で発生し、時間ループから生じる eg 因果パラドックスを除外する。 以前、$\mathrm{Caus}[\mathcal{C}]$ が MLL+MIX と BV 論理のモデルを与えることが示されているので、これらの論理は因果一貫性に十分な条件を与えるが、完全な特徴付けは得られない。 本稿では,このモデルにおけるグラフ上の因果構造を調べるためのツールとして,グラフ型を紹介する。 それらの性質、標準形式、および等価な定義を探索し、特に、その過程はグラフのエッジに付随する局所因果過程への因果分解のアフィン結合として表されるグラフフのすべてのシグナリング制約に従う。 グラフ型の性質は、ポムセット論理を保守的に拡張する新しい因果論理の因果一貫性の完全性を証明するために使われる。 重要な余剰成分は、一方向の情報の流れしか持たない一階状態に対応する区別された原子の概念である。 因果論理がポムセット論理を保守的に拡張するという事実を利用して、ポムセットとBVの分離文に物理的に意味のある解釈を与える。

The $\mathrm{Caus}[-]$ construction takes a base category of ``raw materials'' and builds a category of higher order causal processes, that is a category whose types encode causal (a.k.a. signalling) constraints between collections of systems. Notable examples are categories of higher-order stochastic maps and higher-order quantum channels. Well-typedness in $\mathrm{Caus}[-]$ corresponds to a composition of processes being causally consistent, in the sense that any choice of local processes of the prescribed types yields an overall process respecting causality constraints. It follows that closed processes always occur with probability 1, ruling out e.g. causal paradoxes arising from time loops. It has previously been shown that $\mathrm{Caus}[\mathcal{C}]$ gives a model of MLL+MIX and BV logic, hence these logics give sufficient conditions for causal consistency, but they fail to provide a complete characterisation. In this follow-on work, we introduce graph types as a tool to examine causal structures over graphs in this model. We explore their properties, standard forms, and equivalent definitions; in particular, a process obeys all signalling constraints of the graph iff it is expressible as an affine combination of factorisations into local causal processes connected according to the edges of the graph. The properties of graph types are then used to prove completeness for causal consistency of a new causal logic that conservatively extends pomset logic. The crucial extra ingredient is a notion of distinguished atoms that correspond to first-order states, which only admit a flow of information in one direction. Using the fact that causal logic conservatively extends pomset logic, we finish by giving a physically-meaningful interpretation to a separating statement between pomset and BV.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# 言葉以上のもの:歌唱における音声認識の進歩と課題

More than words: Advancements and challenges in speech recognition for singing ( http://arxiv.org/abs/2403.09298v1 )

ライセンス: Link先を確認
Anna Kruspe, (参考訳) 本稿では,標準音声認識とは異なる領域である歌唱における音声認識の課題と進歩について述べる。 歌唱は、幅広いピッチのバリエーション、多様なボーカルスタイル、バックグラウンド音楽の干渉など、独特な課題を含む。 我々は,音素認識,歌唱における言語識別,キーワードスポッティング,歌詞の完全書き起こしといった重要な領域を探索する。 私がこれらのタスクについて研究を始めたときの経験について説明しますが、近年のディープラーニングと大規模データセットの進歩がこの分野の進歩を後押ししていることも示します。 私の目標は、歌唱に音声認識を適用する複雑さを解明し、現在の能力を評価し、将来の研究方向性を概説することです。

This paper addresses the challenges and advancements in speech recognition for singing, a domain distinctly different from standard speech recognition. Singing encompasses unique challenges, including extensive pitch variations, diverse vocal styles, and background music interference. We explore key areas such as phoneme recognition, language identification in songs, keyword spotting, and full lyrics transcription. I will describe some of my own experiences when performing research on these tasks just as they were starting to gain traction, but will also show how recent developments in deep learning and large-scale datasets have propelled progress in this field. My goal is to illuminate the complexities of applying speech recognition to singing, evaluate current capabilities, and outline future research directions.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# 再帰的因果発見

Recursive Causal Discovery ( http://arxiv.org/abs/2403.09300v1 )

ライセンス: Link先を確認
Ehsan Mokhtarian, Sepehr Elahi, Sina Akbari, Negar Kiyavash, (参考訳) 因果発見、すなわち、データから因果グラフを学習することは、多くの科学領域において重要な要件である因果効果の同定と推定への第一歩であることが多い。 因果発見は2つの大きな課題によって妨げられている: 統計的テストにおけるデータ不足と、学習タスクの計算複雑性は恐ろしいほど複雑である。 この論文は、我々の以前の4つの出版物(Mokhtarian et al , 2021; Akbari et al , 2021; Mokhtarian et al , 2022, 2023a)の上に構築され、拡張されている。 これらの研究は、因果発見のために再帰的に除去できる唯一の変数である可除変数の概念を導入した。 削除可能な変数の存在と識別により、因果発見に対する再帰的なアプローチが可能になる。 この削減は、各条件独立(CI)テストの条件セットを最小限にするだけでなく、必要なCIテストの数を著しく削減する。 これらのメソッドの最悪のパフォーマンスは、下限にほぼ一致する。 本稿では,提案するアルゴリズムの統一的なフレームワークについて述べる。 また,本手法の計算複雑性を既存手法と比較し,その最先端性を示す総合的な文献レビューも含んでいる。 この論文のもう1つの貢献は、これらのアルゴリズムを効率的に実装するPythonパッケージであるRCDのリリースである。 このパッケージは、実践的なシナリオにこれらの手法を適用することに興味のある実践者や研究者のために設計されている。 パッケージはgithub.com/ban-epfl/rcdで入手できる。

Causal discovery, i.e., learning the causal graph from data, is often the first step toward the identification and estimation of causal effects, a key requirement in numerous scientific domains. Causal discovery is hampered by two main challenges: limited data results in errors in statistical testing and the computational complexity of the learning task is daunting. This paper builds upon and extends four of our prior publications (Mokhtarian et al., 2021; Akbari et al., 2021; Mokhtarian et al., 2022, 2023a). These works introduced the concept of removable variables, which are the only variables that can be removed recursively for the purpose of causal discovery. Presence and identification of removable variables allow recursive approaches for causal discovery, a promising solution that helps to address the aforementioned challenges by reducing the problem size successively. This reduction not only minimizes conditioning sets in each conditional independence (CI) test, leading to fewer errors but also significantly decreases the number of required CI tests. The worst-case performances of these methods nearly match the lower bound. In this paper, we present a unified framework for the proposed algorithms, refined with additional details and enhancements for a coherent presentation. A comprehensive literature review is also included, comparing the computational complexity of our methods with existing approaches, showcasing their state-of-the-art efficiency. Another contribution of this paper is the release of RCD, a Python package that efficiently implements these algorithms. This package is designed for practitioners and researchers interested in applying these methods in practical scenarios. The package is available at github.com/ban-epfl/rcd, with comprehensive documentation provided at rcdpackage.com.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# StainFuser:マルチギガピクセル画像におけるより高速なニューラルスタイル転送のための拡散制御

StainFuser: Controlling Diffusion for Faster Neural Style Transfer in Multi-Gigapixel Histology Images ( http://arxiv.org/abs/2403.09302v1 )

ライセンス: Link先を確認
Robert Jewsbury, Ruoyu Wang, Abhir Bhalerao, Nasir Rajpoot, Quoc Dang Vu, (参考訳) 静止正規化アルゴリズムは、ソースマルチギガピクセルのヒストロジー画像の色と強度特性を、対象画像の色に合わせるように変換することを目的としており、画像中の細胞成分の強調に用いられる染色の外観上の矛盾を緩和する。 我々は,新しい条件付き潜在拡散アーキテクチャを用いて,この問題をスタイル伝達タスクとして扱う新しいアプローチであるStainFuserを提案し,手作りカラーコンポーネントの必要性を排除した。 本手法により,SPI-2Mは,200万枚以上の組織像に対して,高品質な画像変換のためのニューラルスタイル転送を行うため,これまでで最大の染色正規化データセットである。 このデータに基づいてトレーニングされたStainFuserは、標準化された画像の品質の観点から、現在の最先端のGANと手作りの手法より優れています。 さらに、既存のアプローチと比較して、挑戦的なCoNICデータセット上でテスト時間増強法として使用される場合、核インスタンスのセグメンテーションと分類モデルのパフォーマンスが向上する。 最後に、StainFuserをマルチギガピクセル全スライド画像(WSI)に適用し、計算効率、画質、現在の方法よりもタイル間の整合性が改善されたことを示す。

Stain normalization algorithms aim to transform the color and intensity characteristics of a source multi-gigapixel histology image to match those of a target image, mitigating inconsistencies in the appearance of stains used to highlight cellular components in the images. We propose a new approach, StainFuser, which treats this problem as a style transfer task using a novel Conditional Latent Diffusion architecture, eliminating the need for handcrafted color components. With this method, we curate SPI-2M the largest stain normalization dataset to date of over 2 million histology images with neural style transfer for high-quality transformations. Trained on this data, StainFuser outperforms current state-of-the-art GAN and handcrafted methods in terms of the quality of normalized images. Additionally, compared to existing approaches, it improves the performance of nuclei instance segmentation and classification models when used as a test time augmentation method on the challenging CoNIC dataset. Finally, we apply StainFuser on multi-gigapixel Whole Slide Images (WSIs) and demonstrate improved performance in terms of computational efficiency, image quality and consistency across tiles over current methods.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# 医学的異常検出のためのオートエンコーダの再考 : 理論的視点から

Rethinking Autoencoders for Medical Anomaly Detection from A Theoretical Perspective ( http://arxiv.org/abs/2403.09303v1 )

ライセンス: Link先を確認
Yu Cai, Hao Chen, Kwang-Ting Cheng, (参考訳) 医学的異常検出は、正常なトレーニングデータのみを用いて異常な発見を識別することを目的としており、健康診断やまれな疾患の認識において重要な役割を担っている。 再構成に基づく手法、特にオートエンコーダ(AE)を利用する手法がこの分野で優位である。 彼らは、通常のデータのみに基づいて訓練されたAEが、見えない異常な領域をうまく再構築できないという仮定の下で作業し、再構成エラーに基づく異常検出を可能にする。 しかし, この仮定は, 再建訓練目標と異常検出タスク目標とのミスマッチのため, 理論上は不正確である。 本研究は, 異常検出におけるAEを用いた再構成手法の理論的基礎を提供することに焦点をあてる。 情報理論を活用することにより,これらの手法の原理を解明し,異常検出におけるAE改善の鍵は潜伏ベクトルの情報エントロピーの最小化にあることを示す。 2つの画像モダリティを持つ4つのデータセットの実験により、我々の理論の有効性が検証された。 我々の知る限りでは、これは異常検出のためのAEの原理と設計哲学を理論的に解明する最初の試みである。 コードは受理後利用可能になる。

Medical anomaly detection aims to identify abnormal findings using only normal training data, playing a crucial role in health screening and recognizing rare diseases. Reconstruction-based methods, particularly those utilizing autoencoders (AEs), are dominant in this field. They work under the assumption that AEs trained on only normal data cannot reconstruct unseen abnormal regions well, thereby enabling the anomaly detection based on reconstruction errors. However, this assumption does not always hold due to the mismatch between the reconstruction training objective and the anomaly detection task objective, rendering these methods theoretically unsound. This study focuses on providing a theoretical foundation for AE-based reconstruction methods in anomaly detection. By leveraging information theory, we elucidate the principles of these methods and reveal that the key to improving AE in anomaly detection lies in minimizing the information entropy of latent vectors. Experiments on four datasets with two image modalities validate the effectiveness of our theory. To the best of our knowledge, this is the first effort to theoretically clarify the principles and design philosophy of AE for anomaly detection. Code will be available upon acceptance.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# ビジョンファウンデーションモデルを用いたアノテーションフリーセマンティックセグメンテーション

Annotation Free Semantic Segmentation with Vision Foundation Models ( http://arxiv.org/abs/2403.09307v1 )

ライセンス: Link先を確認
Soroush Seifi, Daniel Olmeda Reino, Fabien Despinoy, Rahaf Aljundi, (参考訳) セマンティックセグメンテーション(Semantic Segmentation)は最も難しいビジョンタスクの1つで、通常は高価なピクセルレベルのアノテーションで大量のトレーニングデータを必要とする。 基礎モデル、特に視覚言語モデルの成功により、最近の研究は、大規模なトレーニングや画像/ピクセルレベルのアノテーションを必要としながら、ゼロショットセマンティックセマンティックセグメンテーションを実現しようと試みている。 本研究では,自己教師付き事前学習型ビジョンエンコーダ上に軽量モジュールを構築し,パッチ機能を事前学習型テキストエンコーダと整合させる。 重要なことは、既存の基盤モデルを使用して、セマンティックセグメンテーションデータセットの無料アノテーションを生成し、アライメントモジュールを無償でトレーニングすることです。 CLIPを使ってオブジェクトとSAMを検出し、高品質なオブジェクトマスクを生成します。 我々のアプローチは、最小限のトレーニングで訓練済みの視覚エンコーダに言語ベースのセマンティクスをもたらすことができる。 我々のモジュールは軽量で、ファンデーションモデルのみを監督の源としており、アノテーションのない小さなトレーニングデータから見事な一般化能力を示している。

Semantic Segmentation is one of the most challenging vision tasks, usually requiring large amounts of training data with expensive pixel-level annotations. With the success of foundation models and especially vision-language models, recent works attempt to achieve zero-shot semantic segmentation while requiring either large scale training or additional image/pixel-level annotations. In this work, we build a lightweight module on top of a self-supervised pretrained vision encoder to align patch features with a pre-trained text encoder. Importantly, we generate free annotations for any semantic segmentation dataset using existing foundation models and train our alignment module cost free. We use CLIP to detect objects and SAM to generate high quality object masks. Our approach can bring language-based semantics to any pre-trained vision encoder with minimal training. Our module is lightweight, uses foundation models as a sole source of supervision and shows impressive generalization capability from little training data with no annotation.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# サイドスキャンソナー物体検出のためのYOLOX-ViTの知識蒸留

Knowledge Distillation in YOLOX-ViT for Side-Scan Sonar Object Detection ( http://arxiv.org/abs/2403.09313v1 )

ライセンス: Link先を確認
Martin Aubard, László Antal, Ana Madureira, Erika Ábrahám, (参考訳) 本稿では,新しい物体検出モデルであるYOLOX-ViTについて述べる。 水中ロボットに焦点をあてた研究は、小型モデルの生存可能性とYOLOXのビジュアルトランスフォーマー層の影響について重要な疑問に対処する。 さらに,新しいサイドスキャンソナー画像データセットを導入し,オブジェクト検出器の性能評価に利用した。 その結果, 知識蒸留は, 壁面検出における偽陽性を効果的に減少させることがわかった。 さらに、導入された視覚トランス層は水中環境における物体検出精度を大幅に向上させる。 YOLOX-ViTの知識蒸留のソースコードはhttps://github.com/remaro-network/KD-YOLOX-ViTにある。

In this paper we present YOLOX-ViT, a novel object detection model, and investigate the efficacy of knowledge distillation for model size reduction without sacrificing performance. Focused on underwater robotics, our research addresses key questions about the viability of smaller models and the impact of the visual transformer layer in YOLOX. Furthermore, we introduce a new side-scan sonar image dataset, and use it to evaluate our object detector's performance. Results show that knowledge distillation effectively reduces false positives in wall detection. Additionally, the introduced visual transformer layer significantly improves object detection accuracy in the underwater environment. The source code of the knowledge distillation in the YOLOX-ViT is at https://github.com/remaro-network/KD-YOLOX-ViT.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# 注釈付きマンモグラムマスセグメンテーションのための半・弱教師付き学習

Semi- and Weakly-Supervised Learning for Mammogram Mass Segmentation with Limited Annotations ( http://arxiv.org/abs/2403.09315v1 )

ライセンス: Link先を確認
Xinyu Xiong, Churan Wang, Wenxue Li, Guanbin Li, (参考訳) 乳腺の正確な同定は乳癌の診断に重要であるが、そのサイズが小さく、周囲の正常な腺に迷っているため困難である。 さらに悪いことに、ディープニューラルネットワークのトレーニングに適切なピクセル単位のアノテーションを得るためには、臨床実践も高価である。 この2つの難しさを1つの石で克服するために,限定的な強いラベル付きサンプルと十分な弱いラベル付きサンプルを用いて満足な性能を実現する,半弱教師付きマスセグメンテーション学習フレームワークを提案する。 このフレームワークは、病変のない背景領域を除外する補助枝と、最終予測のためのセグメント分岐と、2つのブランチの補完情報を統合するための空間的プロンプトモジュールとから構成される。 さらに,病変関連などの不明瞭な特徴をアンタングルし,パフォーマンスを向上した。 CBIS-DDSMとINbreastデータセットを用いた実験により,本手法の有効性が示された。

Accurate identification of breast masses is crucial in diagnosing breast cancer; however, it can be challenging due to their small size and being camouflaged in surrounding normal glands. Worse still, it is also expensive in clinical practice to obtain adequate pixel-wise annotations for training deep neural networks. To overcome these two difficulties with one stone, we propose a semi- and weakly-supervised learning framework for mass segmentation that utilizes limited strongly-labeled samples and sufficient weakly-labeled samples to achieve satisfactory performance. The framework consists of an auxiliary branch to exclude lesion-irrelevant background areas, a segmentation branch for final prediction, and a spatial prompting module to integrate the complementary information of the two branches. We further disentangle encoded obscure features into lesion-related and others to boost performance. Experiments on CBIS-DDSM and INbreast datasets demonstrate the effectiveness of our method.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# SD-Net:ビンピッキングシナリオにおける6次元空間推定のための対称性を考慮したキーポイント予測とドメイン適応

SD-Net: Symmetric-Aware Keypoint Prediction and Domain Adaptation for 6D Pose Estimation In Bin-picking Scenarios ( http://arxiv.org/abs/2403.09317v1 )

ライセンス: Link先を確認
Ding-Tao Huang, En-Te Lin, Lipeng Chen, Li-Fu Liu, Long Zeng, (参考訳) ビンピッキングシナリオにおける6次元ポーズ推定の成功にもかかわらず、既存の手法は対称性オブジェクトや実世界のシナリオの正確な予測結果の生成に苦慮している。 主なボトルネックは 1) 対象対称性による曖昧性キーポイント 2) 実データと合成データの領域ギャップ。 これらの問題を回避するために、対称対応キーポイント予測と自己学習領域適応(SD-Net)を備えた新しい6次元ポーズ推定ネットワークを提案する。 SD-Netは、ポイントワイドキーポイント回帰とディープヒュー投票に基づいて、クラッタとオクルージョンの下で信頼性の高い検出キーポイントを実行する。 具体的には,キーポイント予測段階において,オブジェクトと等価キーポイントの対称性クラスを考慮したロバストな3Dキーポイント選択戦略を設計し,高度に隠蔽されたシーンにおいても3Dキーポイントの配置を容易にする。 さらに、予測キーポイント上に効率的なフィルタリングアルゴリズムを構築し、複数のあいまいさと外れ値キーポイント候補を動的に除去する。 ドメイン適応段階において,学生-教員養成方式を用いた自己学習フレームワークを提案する。 信頼性の高い予測を慎重に識別するために,セミ・チャンファー距離に基づく3次元幾何擬似ラベリングのための調整されたヒューリスティックスを利用する。 パブリックなSil'eaneデータセットでは、SD-Netは最先端の結果を達成し、平均精度は96%である。 パブリックパラメトリックデータセット上での学習と一般化能力のテストでは、SD-Netは最先端の手法よりも8%高い。 コードはhttps://github.com/dingthuang/SD-Netで公開されている。

Despite the success in 6D pose estimation in bin-picking scenarios, existing methods still struggle to produce accurate prediction results for symmetry objects and real world scenarios. The primary bottlenecks include 1) the ambiguity keypoints caused by object symmetries; 2) the domain gap between real and synthetic data. To circumvent these problem, we propose a new 6D pose estimation network with symmetric-aware keypoint prediction and self-training domain adaptation (SD-Net). SD-Net builds on pointwise keypoint regression and deep hough voting to perform reliable detection keypoint under clutter and occlusion. Specifically, at the keypoint prediction stage, we designe a robust 3D keypoints selection strategy considering the symmetry class of objects and equivalent keypoints, which facilitate locating 3D keypoints even in highly occluded scenes. Additionally, we build an effective filtering algorithm on predicted keypoint to dynamically eliminate multiple ambiguity and outlier keypoint candidates. At the domain adaptation stage, we propose the self-training framework using a student-teacher training scheme. To carefully distinguish reliable predictions, we harnesses a tailored heuristics for 3D geometry pseudo labelling based on semi-chamfer distance. On public Sil'eane dataset, SD-Net achieves state-of-the-art results, obtaining an average precision of 96%. Testing learning and generalization abilities on public Parametric datasets, SD-Net is 8% higher than the state-of-the-art method. The code is available at https://github.com/dingthuang/SD-Net.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# 階層型量子ファジィニューラルネットワークによる画像分類

A Hierarchical Fused Quantum Fuzzy Neural Network for Image Classification ( http://arxiv.org/abs/2403.09318v1 )

ライセンス: Link先を確認
Sheng-Yao Wu, Run-Ze Li, Yan-Qi Song, Su-Juan Qin, Qiao-Yan Wen, Fei Gao, (参考訳) ニューラルネットワークは、ビッグデータの時代におけるデータ特徴学習の強力な学習パラダイムである。 しかしながら、ほとんどのニューラルネットワークモデルは、データの不確実性を無視した決定論的モデルである。 この問題を解決するためにファジィニューラルネットワークが提案されている。 FDNNは階層的なディープニューラルネットワークであり、ファジィとニューラル表現の両方から情報を引き出す。 FDNNは不確実なデータ分類タスクでよく機能する。 本稿では,新しい階層型量子ファジィニューラルネットワーク(HQFNN)を提案する。 古典的なFDNNとは異なり、HQFNNは量子ニューラルネットワークを使用してファジィニューラルネットワークのファジィメンバシップ関数を学習する。 本研究では,2種類のデータセット(Dirty-MNISTと15-Scene)のシミュレーション実験を行った。 さらに,提案した量子回路のロバスト性を示す。

Neural network is a powerful learning paradigm for data feature learning in the era of big data. However, most neural network models are deterministic models that ignore the uncertainty of data. Fuzzy neural networks are proposed to address this problem. FDNN is a hierarchical deep neural network that derives information from both fuzzy and neural representations, the representations are then fused to form representation to be classified. FDNN perform well on uncertain data classification tasks. In this paper, we proposed a novel hierarchical fused quantum fuzzy neural network (HQFNN). Different from classical FDNN, HQFNN uses quantum neural networks to learn fuzzy membership functions in fuzzy neural network. We conducted simulated experiment on two types of datasets (Dirty-MNIST and 15-Scene), the results show that the proposed model can outperform several existing methods. In addition, we demonstrate the robustness of the proposed quantum circuit.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# 効率的なMFD:より効率的なマルチモーダル同期核融合検出を目指して

EfficientMFD: Towards More Efficient Multimodal Synchronous Fusion Detection ( http://arxiv.org/abs/2403.09323v1 )

ライセンス: Link先を確認
Jiaqing Zhang, Mingxiang Cao, Xue Yang, Weiying Xie, Jie Lei, Daixun Li, Geng Yang, Wenbo Huang, Yunsong Li, (参考訳) マルチモーダル画像融合と物体検出は、自律運転において重要な役割を果たす。 現在の共同学習手法は,テクスチャの詳細と客観的意味情報を組み合わせたマルチモーダル融合検出タスクにおいて大きな進歩を遂げている。 しかし、退屈なトレーニング手順は、その応用をより広い現実世界の産業展開に限定している。 この制限に対処するために,EfficientMFDと呼ばれる新しいエンドツーエンドのマルチモーダル核融合検出アルゴリズムを提案する。 同期継手最適化は2つのコンポーネント間のエンドツーエンドで利用されるため、個々のタスクの局所最適解の影響を受けない。 さらに、両タスクの共有パラメータ間の勾配行列に包括的な最適化が確立される。 核融合検出重量で最適点に収束することができる。 いくつかの公開データセットでこれを広範囲にテストし、視覚的に魅力的な融合だけでなく、他の最先端のアプローチよりも優れた検出性能(例:6.6% mAP50:95)を示す。

Multimodal image fusion and object detection play a vital role in autonomous driving. Current joint learning methods have made significant progress in the multimodal fusion detection task combining the texture detail and objective semantic information. However, the tedious training steps have limited its applications to wider real-world industrial deployment. To address this limitation, we propose a novel end-to-end multimodal fusion detection algorithm, named EfficientMFD, to simplify models that exhibit decent performance with only one training step. Synchronous joint optimization is utilized in an end-to-end manner between two components, thus not being affected by the local optimal solution of the individual task. Besides, a comprehensive optimization is established in the gradient matrix between the shared parameters for both tasks. It can converge to an optimal point with fusion detection weights. We extensively test it on several public datasets, demonstrating superior performance on not only visually appealing fusion but also favorable detection performance (e.g., 6.6% mAP50:95) over other state-of-the-art approaches.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# HeadEvolver: ローカルに学習可能なメッシュ変形を通じてアバターをヘッドするテキスト

HeadEvolver: Text to Head Avatars via Locally Learnable Mesh Deformation ( http://arxiv.org/abs/2403.09326v1 )

ライセンス: Link先を確認
Duotun Wang, Hengyu Meng, Zeyu Cai, Zhijing Shao, Qianxi Liu, Lin Wang, Mingming Fan, Ying Shan, Xiaohang Zhan, Zeyu Wang, (参考訳) 本稿では、テキストガイダンスからスタイリングされたヘッドアバターを生成する新しいフレームワークであるHeadEvolverを紹介する。 HeadEvolverはテンプレートのヘッドメッシュからローカルに学習可能なメッシュ変形を使用して、詳細な編集とアニメーションのために高品質なデジタルアセットを生成する。 ジャコビアンによる大域的変形における局所形状制御の微粒化とセマンティックな制御の欠如に対処するために,各三角形におけるジャコビアンの重み付け因子としてトレーニング可能なパラメータを導入し,グローバルな対応や顔の特徴を維持しながら局所形状を適応的に変化させる。 さらに、異なる視点から得られた形状と外観のコヒーレンスを確実にするために、正規化項付き微分可能レンダリングに事前訓練された画像拡散モデルを用いて、テキスト指導下での変形を洗練させる。 大規模な実験により,本手法は3次元グラフィックソフトウェアでシームレスに編集可能なメッシュで多種多様な頭部アバターを生成できることが実証された。

We present HeadEvolver, a novel framework to generate stylized head avatars from text guidance. HeadEvolver uses locally learnable mesh deformation from a template head mesh, producing high-quality digital assets for detail-preserving editing and animation. To tackle the challenges of lacking fine-grained and semantic-aware local shape control in global deformation through Jacobians, we introduce a trainable parameter as a weighting factor for the Jacobian at each triangle to adaptively change local shapes while maintaining global correspondences and facial features. Moreover, to ensure the coherence of the resulting shape and appearance from different viewpoints, we use pretrained image diffusion models for differentiable rendering with regularization terms to refine the deformation under text guidance. Extensive experiments demonstrate that our method can generate diverse head avatars with an articulated mesh that can be edited seamlessly in 3D graphics software, facilitating downstream applications such as more efficient animation with inherited blend shapes and semantic consistency.
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# パースペクティブ・平等イメージング:マルチスペクトルパンシャーピングのための教師なしフレームワーク

Perspective-Equivariant Imaging: an Unsupervised Framework for Multispectral Pansharpening ( http://arxiv.org/abs/2403.09327v1 )

ライセンス: Link先を確認
Andrew Wang, Mike Davies, (参考訳) 環境モニタリング,災害管理,都市計画において,高品質な画像を取得することが不可欠であるリモートセンシングなど,多くのシナリオにおいて画像再構成の問題が発生する。 ディープラーニングは,従来のメソッドの制限を克服する上で,大きな成功を収めています。 しかし、これらの逆問題には基礎的な真理データが伴うことはめったになく、部分的および雑音的な測定のみによる教師なし学習の重要性を強調している。 我々は、衛星やハンドヘルドカメラなどの光学カメラベースの撮像システムにおいて、視線変動を利用した視線変化イメージング(EI)を提案し、不測の光学カメライメージング問題で失われた情報を復元する。 これは以前のEIの成果を、よりリッチで非線形なグループ変換を含むように拡張し、衛星や都市画像データにおいて優れた先行性を示しており、パースペクティブ-EIはマルチスペクトルのパンシャーピングにおける最先端の結果を達成し、文献における他の教師なし手法よりも優れていた。 Code at https://andrewwango.github.io/perspective-equivariant-imaging

Ill-posed image reconstruction problems appear in many scenarios such as remote sensing, where obtaining high quality images is crucial for environmental monitoring, disaster management and urban planning. Deep learning has seen great success in overcoming the limitations of traditional methods. However, these inverse problems rarely come with ground truth data, highlighting the importance of unsupervised learning from partial and noisy measurements alone. We propose perspective-equivariant imaging (EI), a framework that leverages perspective variability in optical camera-based imaging systems, such as satellites or handheld cameras, to recover information lost in ill-posed optical camera imaging problems. This extends previous EI work to include a much richer non-linear class of group transforms and is shown to be an excellent prior for satellite and urban image data, where perspective-EI achieves state-of-the-art results in multispectral pansharpening, outperforming other unsupervised methods in the literature. Code at https://andrewwango.github.io/perspective-equivariant-imaging
翻訳日:2024-03-15 20:47:15 公開日:2024-03-14
# Griffon v2:高分解能スケーリングとビジュアルランゲージ共参照によるマルチモーダル知覚の促進

Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring ( http://arxiv.org/abs/2403.09333v1 )

ライセンス: Link先を確認
Yufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang, (参考訳) 大規模視覚言語モデルは、微粒な物体知覚を達成しているが、画像解像度の制限は、複雑で密集したシナリオにおけるタスク固有の専門家のパフォーマンスを超える大きな障害である。 このような制限は、GUI Agents、Counting、および \etcといったドメインで参照されるニュアンスな視覚的および言語を達成するためのモデルの可能性をさらに制限する。 この問題に対処するために、視覚的およびテキスト的プロンプトによるフレキシブルなオブジェクト参照を可能にする、統合された高分解能汎用モデルGriffon v2を導入する。 画像解像度を効率的にスケールアップするために,大規模言語モデルにおける入力トークン制約を克服する,シンプルで軽量なダウンサンプリングプロジェクタを設計する。 この設計は、本質的に完全なコンテキストと細部を保存し、特に小さなオブジェクトに対するマルチモーダル認識能力を大幅に改善する。 これに基づいて、プラグ・アンド・プレイのビジュアル・トークンーザを用いて、ビジュアル・ランゲージ・コレファレンス機能を備えたモデルを構築する。 フレキシブルなターゲットイメージ、自由形式のテキスト、さらにはコーディネートとのユーザフレンドリーなインタラクションを可能にする。 実験により、Griffon v2は、視覚的およびテキスト的参照で関心のあるオブジェクトをローカライズし、REC、フレーズグラウンド、REGタスクにおける最先端のパフォーマンスを実現し、オブジェクト検出とオブジェクトカウントのエキスパートモデルより優れていることが示された。 データ、コード、モデルはhttps://github.com/jefferyZhan/Griffon.comでリリースされる。

Large Vision Language Models have achieved fine-grained object perception, but the limitation of image resolution remains a significant obstacle to surpass the performance of task-specific experts in complex and dense scenarios. Such limitation further restricts the model's potential to achieve nuanced visual and language referring in domains such as GUI Agents, Counting and \etc. To address this issue, we introduce a unified high-resolution generalist model, Griffon v2, enabling flexible object referring with visual and textual prompts. To efficiently scaling up image resolution, we design a simple and lightweight down-sampling projector to overcome the input tokens constraint in Large Language Models. This design inherently preserves the complete contexts and fine details, and significantly improves multimodal perception ability especially for small objects. Building upon this, we further equip the model with visual-language co-referring capabilities through a plug-and-play visual tokenizer. It enables user-friendly interaction with flexible target images, free-form texts and even coordinates. Experiments demonstrate that Griffon v2 can localize any objects of interest with visual and textual referring, achieve state-of-the-art performance on REC, phrase grounding, and REG tasks, and outperform expert models in object detection and object counting. Data, codes and models will be released at https://github.com/jefferyZhan/Griffon.
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# 因子化拡散蒸留による映像編集

Video Editing via Factorized Diffusion Distillation ( http://arxiv.org/abs/2403.09334v1 )

ライセンス: Link先を確認
Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, Yaniv Taigman, (参考訳) EVE(Emu Video Edit)は,教師付きビデオ編集データに頼らずに,映像編集における新たな最先端技術を確立するモデルである。 EVEを開発するために、画像編集アダプタとビデオ生成アダプタを別々に訓練し、同じテキスト・画像モデルにアタッチする。 そこで,ビデオ編集に適応する手法としてFactized Diffusion Distillationを提案する。 この手順は、教師データなしで、1つ以上の教師からの知識を同時に蒸留する。 我々は、この手順を利用して、EVEに知識を共同で蒸留することで、ビデオの編集を教える。 一 画像編集アダプタから各フレームを正確に編集し、 (II)映像生成アダプタを用いて編集フレーム間の時間的一貫性を確保する。 最後に、他の機能をアンロックする際のアプローチの可能性を示すために、アダプタのさらなる組み合わせを調整します。

We introduce Emu Video Edit (EVE), a model that establishes a new state-of-the art in video editing without relying on any supervised video editing data. To develop EVE we separately train an image editing adapter and a video generation adapter, and attach both to the same text-to-image model. Then, to align the adapters towards video editing we introduce a new unsupervised distillation procedure, Factorized Diffusion Distillation. This procedure distills knowledge from one or more teachers simultaneously, without any supervised data. We utilize this procedure to teach EVE to edit videos by jointly distilling knowledge to (i) precisely edit each individual frame from the image editing adapter, and (ii) ensure temporal consistency among the edited frames using the video generation adapter. Finally, to demonstrate the potential of our approach in unlocking other capabilities, we align additional combinations of adapters
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# LocalMamba: ウィンドウ選択スキャンを備えたビジュアルステートスペースモデル

LocalMamba: Visual State Space Model with Windowed Selective Scan ( http://arxiv.org/abs/2403.09338v1 )

ライセンス: Link先を確認
Tao Huang, Xiaohuan Pei, Shan You, Fei Wang, Chen Qian, Chang Xu, (参考訳) 状態空間モデル(特にマンバ)の最近の進歩は、言語理解のようなタスクのための長いシーケンスのモデリングにおいて大きな進歩を見せている。 しかし、ビジョンタスクにおけるそれらの応用は、従来の畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)のパフォーマンスを著しく上回っていない。 本稿では、ViM(Vision Mamba)を強化する鍵は、シーケンスモデリングにおけるスキャン方向の最適化にあると仮定する。 空間トークンを平らにする従来のViMアプローチは、局所的な2次元依存の保存を見落とし、隣接するトークン間の距離を延長する。 我々は,画像を異なるウィンドウに分割し,グローバルな視点を維持しながら,局所的な依存関係を効果的にキャプチャする,新しいローカルスキャン戦略を導入する。 さらに,異なるネットワーク層にまたがるスキャンパターンの様々な選好を認識し,各層に対して最適なスキャン選択を独立に探索し,性能を大幅に向上させる動的手法を提案する。 平面モデルと階層モデルの両方にわたる大規模な実験は、画像表現を効果的に捉える上で、我々のアプローチの優位性を示している。 例えば、私たちのモデルは、同じ1.5GのFLOPでImageNetでVim-Tiを3.1%上回ります。 コードは、https://github.com/hunto/LocalMamba.comで入手できる。

Recent advancements in state space models, notably Mamba, have demonstrated significant progress in modeling long sequences for tasks like language understanding. Yet, their application in vision tasks has not markedly surpassed the performance of traditional Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). This paper posits that the key to enhancing Vision Mamba (ViM) lies in optimizing scan directions for sequence modeling. Traditional ViM approaches, which flatten spatial tokens, overlook the preservation of local 2D dependencies, thereby elongating the distance between adjacent tokens. We introduce a novel local scanning strategy that divides images into distinct windows, effectively capturing local dependencies while maintaining a global perspective. Additionally, acknowledging the varying preferences for scan patterns across different network layers, we propose a dynamic method to independently search for the optimal scan choices for each layer, substantially improving performance. Extensive experiments across both plain and hierarchical models underscore our approach's superiority in effectively capturing image representations. For example, our model significantly outperforms Vim-Ti by 3.1% on ImageNet with the same 1.5G FLOPs. Code is available at: https://github.com/hunto/LocalMamba.
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# モードペアリング量子鍵分布のフィールドテスト

Field test of mode-pairing quantum key distribution ( http://arxiv.org/abs/2403.09339v1 )

ライセンス: Link先を確認
Hao-Tao Zhu, Yizhi Huang, Wen-Xin Pan, Chao-Wu Zhou, Jianjun Tang, Hong He, Ming Cheng, Xiandu Jin, Mi Zou, Shibiao Tang, Xiongfeng Ma, Teng-Yun Chen, Jian-Wei Pan, (参考訳) 量子鍵分布は量子技術の基盤であり、リモートパーティに情報理論の安全な鍵を提供する。 世界中の多くの量子通信ネットワークが確立されているため、このモードペアリングプロトコルは、単純なセットアップを使って都市間距離に対する有効性で際立っている。 本研究では,既存の都市間ファイバリンクにモードペアリング方式を適用し,数十~100kmの範囲でフィールド試験を行う。 我々のシステムは、195.85$kmの対称リンクで1.217$kbit/s、グローバル位相ロックなしで127.92$kmの非対称リンクで3.089$kbit/sというキーレートを達成する。 その結果、モードペアリングプロトコルは北京-上海のバックボーン線上の2つの信頼ノード間の1つの量子リンクの鍵レートに匹敵し、信頼ノードの半分の必要性を効果的に低減できることを示した。 これらのフィールドテストは、モードペアリング方式の適応性、効率、実用性を確認し、量子ネットワークに適したプロトコルとして位置づける。

Quantum key distribution is a cornerstone of quantum technology, offering information-theoretical secure keys for remote parties. With many quantum communication networks established globally, the mode-pairing protocol stands out for its efficacy over inter-city distances using simple setups, emerging as a promising solution. In this study, we employ the mode-pairing scheme into existing inter-city fiber links, conducting field tests across distances ranging from tens to about a hundred kilometers. Our system achieves a key rate of $1.217$ kbit/s in a $195.85$ km symmetric link and $3.089$ kbit/s in a $127.92$ km asymmetric link without global phase locking. The results demonstrate that the mode-pairing protocol can achieve key rates comparable to those of a single quantum link between two trusted nodes on the Beijing-Shanghai backbone line, effectively reducing the need for half of the trusted nodes. These field tests confirm the mode-pairing scheme's adaptability, efficiency, and practicality, positioning it as a highly suitable protocol for quantum networks.
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# 任意の2量子状態の幾何学的量子不一致:正確な値と一般上界

Geometric quantum discord of an arbitrary two-qudit state: the exact value and general upper bounds ( http://arxiv.org/abs/2403.09342v1 )

ライセンス: Link先を確認
Elena R. Loubenets, Louis Hanotel, (参考訳) 2量子状態の幾何学的な量子不協和は、多くの論文で研究されているが、その明示的な形の正確な解析値は、一般的な2量子状態、一般的な2量子状態、いくつかの2量子状態の特別な族についてのみ知られている。 一般的なブロッホベクトル形式主義 (J. Phys. A: Math. Theor. 54 195301 (2021)) に基づいて、その相関行列のパラメータとその縮小状態のブロッホベクトルを通じて、任意の次元の一般2量子状態に対する幾何量子不協和の明確な正確な解析値を求める。 この新たな解析結果は、[Phys. A. 85, 204102 (2012)] で発見された幾何学的量子不協和の低い境界が、各2量子状態で達成され、また、幾何学的不協和の既知の正確な結果が、特定の場合のみ含まれていることを示している。 さらに、この状態のヒルベルト空間特性と純粋な2量子状態の場合には、純あるいは混合の任意の2量子状態を見つけることができる。

The geometric quantum discord of a two-qudit state has been studied in many papers, however, its exact analytical value in the explicit form is known only for a general two-qubit state, a general qubit-qudit state and some special families of two-qudit states. Based on the general Bloch vectors formalism [J. Phys. A: Math. Theor. 54 195301 (2021)], we find the explicit exact analytical value of the geometric quantum discord for a general two-qudit state of an arbitrary dimension via the parameters of its correlation matrix and the Bloch vectors of its reduced states. This new general analytical result indicates that the lower bound on the geometric quantum discord found in [Phys. Rev. A. 85, 204102 (2012)] is attained on each two-qudit state and also, includes all the known exact results on the geometric discord only as particular cases. Moreover, it allows us to find for an arbitrary two-qudit state, pure or mixed, the new general upper bounds on its geometric quantum discord, expressed via the Hilbert space characteristics of this state and in case of a pure two-qudit state -- in terms of its concurrence.
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# SketchINR:スケッチをニューラルネットワークで表現する

SketchINR: A First Look into Sketches as Implicit Neural Representations ( http://arxiv.org/abs/2403.09344v1 )

ライセンス: Link先を確認
Hmrishav Bandyopadhyay, Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Aneeshan Sain, Tao Xiang, Timothy Hospedales, Yi-Zhe Song, (参考訳) 暗黙的ニューラルモデルを用いてベクトルスケッチの表現を前進させるSketchINRを提案する。 可変長ベクトルスケッチは、時間とストロークの関数として下層の形状を暗黙的に符号化する固定次元の潜時空間に圧縮される。 学習された関数は、スケッチとストローク毎に$xy$ポイント座標を予測する。 その単純さにもかかわらず、SketchINRは複数のタスクで既存の表現よりも優れています。 i) スケッチデータセット全体を固定サイズの遅延ベクトルにエンコードするSketchINRは、それぞれラスタとベクターのスケッチよりも60\times$と10\times$のデータ圧縮を提供する。 (ii) SketchINRのオートデコーダは、他の学習されたベクトルスケッチ表現よりもはるかに高い忠実度表現を提供し、FS-COCOのような複雑なベクトルスケッチに拡張することができる。 (iii) SketchINRは並列化をサポートしており、SketchRNNのような他の学習されたベクトル表現よりも高速にデコード/レンダリングできる。 (iv)SketchINRは、初めて、ストロークの数と複雑さの点で、様々な抽象化でスケッチを再現する人間の能力をエミュレートする。 暗黙のスケッチを最初に見るため、SketchINRのコンパクトな高忠実度表現は、長く複雑なスケッチをモデル化する将来の作業をサポートする。

We propose SketchINR, to advance the representation of vector sketches with implicit neural models. A variable length vector sketch is compressed into a latent space of fixed dimension that implicitly encodes the underlying shape as a function of time and strokes. The learned function predicts the $xy$ point coordinates in a sketch at each time and stroke. Despite its simplicity, SketchINR outperforms existing representations at multiple tasks: (i) Encoding an entire sketch dataset into a fixed size latent vector, SketchINR gives $60\times$ and $10\times$ data compression over raster and vector sketches, respectively. (ii) SketchINR's auto-decoder provides a much higher-fidelity representation than other learned vector sketch representations, and is uniquely able to scale to complex vector sketches such as FS-COCO. (iii) SketchINR supports parallelisation that can decode/render $\sim$$100\times$ faster than other learned vector representations such as SketchRNN. (iv) SketchINR, for the first time, emulates the human ability to reproduce a sketch with varying abstraction in terms of number and complexity of strokes. As a first look at implicit sketches, SketchINR's compact high-fidelity representation will support future work in modelling long and complex sketches.
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# リンドブラッド進化における古典的量子対応

Classical-Quantum correspondence in Lindblad evolution ( http://arxiv.org/abs/2403.09345v1 )

ライセンス: Link先を確認
Jeffrey Galkowski, Maciej Zworski, (参考訳) 古典的ハミルトニアンと(多くは)線型に成長する古典的ジャンプ関数(ある楕円性条件を満たすと仮定されるジャンプ作用素に量子化され、より大きなシステムとのモデリング相互作用)を用いて定義されるリンドブラッドの進化について、量子可観測関数の進化はエルベルト-シュミットノルムにおける古典的フォッカー-プランクの進化に近く、エレンフェスト時(ジャンプ作用素とのそのような合意の限界)をはるかに超えていることを示す。 時間スケールは、Hern\'andez--Ranard--Riedelによる最近の2つの論文と同じであるが、ステートメントとメソッドが異なる。

We show that for the Lindblad evolution defined using (at most) quadratically growing classical Hamiltonians and (at most) linearly growing classical jump functions (quantized into jump operators assumed to satisfy certain ellipticity conditions and modeling interaction with a larger system), the evolution of a quantum observable remains close to the classical Fokker--Planck evolution in the Hilbert--Schmidt norm for times vastly exceeding the Ehrenfest time (the limit of such agreement with no jump operators). The time scale is the same as two recent papers by Hern\'andez--Ranard--Riedel but the statement and methods are different.
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# AVIBench: 対向的視覚教育における大規模視覚言語モデルのロバスト性評価に向けて

AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Adversarial Visual-Instructions ( http://arxiv.org/abs/2403.09346v1 )

ライセンス: Link先を確認
Hao Zhang, Wenqi Shao, Hong Liu, Yongqiang Ma, Ping Luo, Yu Qiao, Kaipeng Zhang, (参考訳) LVLM(Large Vision-Language Models)は、視覚的インストラクションに対するユーザからの対応において、大きな進歩を見せている。 しかしながら、画像やテキストを含むこれらの命令は、意図的および意図しない攻撃の両方に影響を受けやすい。 LVLMのこのような脅威に対する堅牢性の重要性にもかかわらず、この分野の現在の研究は限られている。 このギャップを埋めるために,画像ベースAVI,テキストベースAVI,9種類のコンテンツバイアスAVI(性別,暴力,文化,偏見など)を含む,多様な視覚的命令(AVI)に直面する場合のLVLMの堅牢性を分析するためのフレームワークであるAVIBenchを紹介した。 マルチモーダル機能(9つのタスク)とコンテンツバイアスの5つのカテゴリを含む260KのAVIを生成します。 次に、14のオープンソースLVLMを包括的に評価し、その性能を評価する。 AVIBenchはまた、実践者がAVIに対するLVLMの堅牢性を評価するための便利なツールとしても機能する。 以上の結果から,GeminiProVision や GPT-4V といった先進的なクローズドソース LVLM においても,固有のバイアスが存在することが明らかとなった。 このことは、LVLMの堅牢性、セキュリティ、公正性を高めることの重要性を浮き彫りにしている。 ソースコードとベンチマークは一般公開される予定だ。

Large Vision-Language Models (LVLMs) have shown significant progress in well responding to visual-instructions from users. However, these instructions, encompassing images and text, are susceptible to both intentional and inadvertent attacks. Despite the critical importance of LVLMs' robustness against such threats, current research in this area remains limited. To bridge this gap, we introduce AVIBench, a framework designed to analyze the robustness of LVLMs when facing various adversarial visual-instructions (AVIs), including four types of image-based AVIs, ten types of text-based AVIs, and nine types of content bias AVIs (such as gender, violence, cultural, and racial biases, among others). We generate 260K AVIs encompassing five categories of multimodal capabilities (nine tasks) and content bias. We then conduct a comprehensive evaluation involving 14 open-source LVLMs to assess their performance. AVIBench also serves as a convenient tool for practitioners to evaluate the robustness of LVLMs against AVIs. Our findings and extensive experimental results shed light on the vulnerabilities of LVLMs, and highlight that inherent biases exist even in advanced closed-source LVLMs like GeminiProVision and GPT-4V. This underscores the importance of enhancing the robustness, security, and fairness of LVLMs. The source code and benchmark will be made publicly available.
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# BurstAttention: 極端に長いシーケンスのための効率的な分散注意フレームワーク

BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences ( http://arxiv.org/abs/2403.09347v1 )

ライセンス: Link先を確認
Sun Ao, Weilin Zhao, Xu Han, Cheng Yang, Zhiyuan Liu, Chuan Shi, Maosong Sun, Shengnan Wang, Teng Su, (参考訳) 効果的なアテンションモジュールはTransformerベースの大規模言語モデル(LLM)の成功に重要な役割を果たしてきたが、これらのアテンションモジュールの二次時間とメモリの複雑さは、長いシーケンスを処理する際にも問題となる。 ロングシーケンス問題の潜在的な解決策の1つは、分散クラスタを使用して、複数のデバイス(GPUなど)にわたるアテンションモジュールの計算を並列化することである。 しかし、分散アプローチを採用すると、必然的に局所的な注意を格納するためのメモリオーバーヘッドが増加し、局所的な結果をグローバルなものに集約するための通信コストが増大する。 本稿では,グローバルクラスタとローカルデバイスレベルでのメモリアクセスと通信操作を最適化する分散アテンションフレームワークである `BurstAttention' を提案する。 実験では,BurstAttentionと他の競合分散アテンション・ソリューションとの比較を行った。 異なる長さ設定下での実験結果から、BurstAttentionは、これらの競合するベースラインと比較して、長いシーケンスを処理する上で大きな利点を示し、通信オーバーヘッドを40%削減し、8 X A100で32Kシーケンスの長さをトレーニング中に2倍のスピードアップを達成する。

Effective attention modules have played a crucial role in the success of Transformer-based large language models (LLMs), but the quadratic time and memory complexities of these attention modules also pose a challenge when processing long sequences. One potential solution for the long sequence problem is to utilize distributed clusters to parallelize the computation of attention modules across multiple devices (e.g., GPUs). However, adopting a distributed approach inevitably introduces extra memory overheads to store local attention results and incurs additional communication costs to aggregate local results into global ones. In this paper, we propose a distributed attention framework named ``BurstAttention'' to optimize memory access and communication operations at both the global cluster and local device levels. In our experiments, we compare BurstAttention with other competitive distributed attention solutions for long sequence processing. The experimental results under different length settings demonstrate that BurstAttention offers significant advantages for processing long sequences compared with these competitive baselines, reducing 40% communication overheads and achieving 2 X speedup during training 32K sequence length on 8 X A100.
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# スパースビューCT再構成のためのカスケード拡散モデルにおけるデータ一貫性の相違

Mitigating Data Consistency Induced Discrepancy in Cascaded Diffusion Models for Sparse-view CT Reconstruction ( http://arxiv.org/abs/2403.09355v1 )

ライセンス: Link先を確認
Hanyu Chen, Zhixiu Hao, Lin Guo, Liying Xiao, (参考訳) Sparse-view Computed Tomography (CT) 画像再構成は放射線照射を減らすための有望なアプローチであるが、必然的に画像劣化を引き起こす。 拡散モデルに基づくアプローチは計算コストが高く、トレーニングサンプリングの相違に悩まされているが、この問題に対する潜在的な解決策を提供する。 本研究では,遅延空間における低品質画像生成と,1段階再構成プロセスにおけるデータ一貫性と差分緩和を含む画素空間における高品質画像生成を含む,CDDM(Cascaded Diffusion with Discrepancy Mitigation)フレームワークを提案する。 カスケードフレームワークは、いくつかの推論ステップをピクセル空間から潜在空間に移すことにより、計算コストを最小化する。 差分緩和法は、データ一貫性によって誘導されるトレーニングサンプリングギャップに対処し、データ分布が元の多様体に近いことを保証する。 特殊交互方向乗算器(ADMM)は、画像勾配を個別に処理するために用いられ、よりターゲットを絞った正規化手法を提供する。 2つのデータセットにまたがる実験結果は、CDDMが既存の手法よりも明確な境界を持つ高品質な画像生成において優れた性能を示し、フレームワークの計算効率を強調している。

Sparse-view Computed Tomography (CT) image reconstruction is a promising approach to reduce radiation exposure, but it inevitably leads to image degradation. Although diffusion model-based approaches are computationally expensive and suffer from the training-sampling discrepancy, they provide a potential solution to the problem. This study introduces a novel Cascaded Diffusion with Discrepancy Mitigation (CDDM) framework, including the low-quality image generation in latent space and the high-quality image generation in pixel space which contains data consistency and discrepancy mitigation in a one-step reconstruction process. The cascaded framework minimizes computational costs by moving some inference steps from pixel space to latent space. The discrepancy mitigation technique addresses the training-sampling gap induced by data consistency, ensuring the data distribution is close to the original manifold. A specialized Alternating Direction Method of Multipliers (ADMM) is employed to process image gradients in separate directions, offering a more targeted approach to regularization. Experimental results across two datasets demonstrate CDDM's superior performance in high-quality image generation with clearer boundaries compared to existing methods, highlighting the framework's computational efficiency.
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# D3T:ドメイン適応型物体検出のためのRGB熱ギャップをまたいだ特定デュアルドメイン教師ジグザグ

D3T: Distinctive Dual-Domain Teacher Zigzagging Across RGB-Thermal Gap for Domain-Adaptive Object Detection ( http://arxiv.org/abs/2403.09359v1 )

ライセンス: Link先を確認
Dinh Phat Do, Taehoon Kim, Jaemin Na, Jiwon Kim, Keonho Lee, Kyunghwan Cho, Wonjun Hwang, (参考訳) オブジェクト検出のためのドメイン適応は、通常、ある可視領域から別の可視領域への知識の転送を必要とする。 しかし、可視領域と熱領域とのドメインギャップが予想よりもはるかに大きく、伝統的なドメイン適応は、この状況での学習を成功させることができないため、可視領域から熱領域への適応に関する限られた研究がある。 この課題を克服するために、各ドメインに対して異なるトレーニングパラダイムを使用するD3T(Distinctive Dual-Domain Teacher)フレームワークを提案する。 具体的には,学生モデルに対する指数的移動平均を各ドメインの個々の教師に順次展開する。 このフレームワークはさらに、双対教師間のジグザグ学習方法を導入し、トレーニング中の可視領域から熱領域への段階的な移行を容易にする。 本稿では, FLIRとKAISTを併用した新しい実験手法により, 提案手法の優位性を検証した。 ソースコードはhttps://github.com/EdwardDo69/D3Tで入手できる。

Domain adaptation for object detection typically entails transferring knowledge from one visible domain to another visible domain. However, there are limited studies on adapting from the visible to the thermal domain, because the domain gap between the visible and thermal domains is much larger than expected, and traditional domain adaptation can not successfully facilitate learning in this situation. To overcome this challenge, we propose a Distinctive Dual-Domain Teacher (D3T) framework that employs distinct training paradigms for each domain. Specifically, we segregate the source and target training sets for building dual-teachers and successively deploy exponential moving average to the student model to individual teachers of each domain. The framework further incorporates a zigzag learning method between dual teachers, facilitating a gradual transition from the visible to thermal domains during training. We validate the superiority of our method through newly designed experimental protocols with well-known thermal datasets, i.e., FLIR and KAIST. Source code is available at https://github.com/EdwardDo69/D3T .
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# 容量化ロケーションルーティングのためのマルチポピュレーション統合アプローチ

A Multi-population Integrated Approach for Capacitated Location Routing ( http://arxiv.org/abs/2403.09361v1 )

ライセンス: Link先を確認
Pengfei He, Jin-Kao Hao, Qinghua Wu, (参考訳) キャパシタイトされたロケーションルーティング問題は、候補のキャパシタイトされた補給所の集合から補給所を決定することと、選択された補給所から必要な経路を見つけて顧客に提供することを含み、一方、選択された補給所のオープンコスト、使用した車両当たりの固定利用コスト、経路の総コスト(距離)を最小化する。 本稿では,マルチポジトリ・エッジ・アセンブリ・クロスオーバーが,デポジトリとルート・エッジ・アセンブリの両方の観点から,有望なオフスプリング・ソリューションを生成するマルチポジトリ・統合・フレームワークを提案する。 本発明の方法は、有効近傍ベースの局所探索、実現可能性回復手順、および多様化指向突然変異を含む。 特に興味深いのは、人口をデポ構成に基づいて複数のサブポピュレーションに分類するマルチポピュレーション方式である。 文献からの281のベンチマークインスタンスに対する大規模な実験により、このアルゴリズムは101の最もよく知られた結果(新しい上限)を改良し、84の最もよく知られた結果と一致させることで、極めて優れた性能を示した。 アルゴリズムの重要な要素の役割についての洞察を得るために、さらなる実験が提示される。

The capacitated location-routing problem involves determining the depots from a set of candidate capacitated depot locations and finding the required routes from the selected depots to serve a set of customers whereas minimizing a cost function that includes the cost of opening the chosen depots, the fixed utilization cost per vehicle used, and the total cost (distance) of the routes. This paper presents a multi-population integrated framework in which a multi-depot edge assembly crossover generates promising offspring solutions from the perspective of both depot location and route edge assembly. The method includes an effective neighborhood-based local search, a feasibility-restoring procedure and a diversification-oriented mutation. Of particular interest is the multi-population scheme which organizes the population into multiple subpopulations based on depot configurations. Extensive experiments on 281 benchmark instances from the literature show that the algorithm performs remarkably well, by improving 101 best-known results (new upper bounds) and matching 84 best-known results. Additional experiments are presented to gain insight into the role of the key elements of the algorithm.
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# コモド:インドネシアの地域言語への言語学的遠征

Komodo: A Linguistic Expedition into Indonesia's Regional Languages ( http://arxiv.org/abs/2403.09362v1 )

ライセンス: Link先を確認
Louis Owen, Vishesh Tripathi, Abhay Kumar, Biddwan Ahmed, (参考訳) 近年のLLM(Large Language Models)のブレークスルーは、主に英語のような手軽で十分なリソースを持つ言語に焦点を当てている。 しかし、パブリックドメインで十分な言語資源が不足している言語には、依然として大きなギャップがある。 インドネシア語,英語,11の地域言語をシームレスに操作することで,このギャップに対処する7ビリオンパラメータ大言語モデルであるKomodo-7Bを紹介した。 コモド-7Bは、コモド-7B-ベースとコモド-7B-インストラクションからなるLLMのファミリーである。 Komodo-7B-Instructは、OpenAIのGPT-3.5、CohereのAya-101、Llama-2-Chat-13B、Mixtral-8x7B-Instruct-v0.1、Gemma-7B-itなどのベンチマークを上回り、様々なタスクや言語で最先端のパフォーマンスを達成することで際立っている。 このモデルは、言語固有の評価と全体的な評価の両方において優れた性能を示すだけでなく、言語多様性に優れる能力を強調している。 言語モデルの発展への我々のコミットメントは、限られた言語資産を持つ人々のギャップを埋めることを目的として、十分なリソースを持つ言語を超えて拡張されます。 さらに、コモド7B-インストラクトはインドネシアの教育格差に対処するために、英語から11の地域言語への直接翻訳を提供しており、既存の言語翻訳サービスに比べて大幅に改善されている。 コモド7Bは言語モデルにおける傾きと有効性への重要なステップであり、多様なコミュニティの言語的ニーズに寄与する。

The recent breakthroughs in Large Language Models (LLMs) have mostly focused on languages with easily available and sufficient resources, such as English. However, there remains a significant gap for languages that lack sufficient linguistic resources in the public domain. Our work introduces Komodo-7B, 7-billion-parameter Large Language Models designed to address this gap by seamlessly operating across Indonesian, English, and 11 regional languages in Indonesia. Komodo-7B is a family of LLMs that consist of Komodo-7B-Base and Komodo-7B-Instruct. Komodo-7B-Instruct stands out by achieving state-of-the-art performance in various tasks and languages, outperforming the benchmarks set by OpenAI's GPT-3.5, Cohere's Aya-101, Llama-2-Chat-13B, Mixtral-8x7B-Instruct-v0.1, Gemma-7B-it , and many more. This model not only demonstrates superior performance in both language-specific and overall assessments but also highlights its capability to excel in linguistic diversity. Our commitment to advancing language models extends beyond well-resourced languages, aiming to bridge the gap for those with limited linguistic assets. Additionally, Komodo-7B-Instruct's better cross-language understanding contributes to addressing educational disparities in Indonesia, offering direct translations from English to 11 regional languages, a significant improvement compared to existing language translation services. Komodo-7B represents a crucial step towards inclusivity and effectiveness in language models, providing to the linguistic needs of diverse communities.
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# センチネルガイドによるゼロショット学習 - 実データ公開のない協調パラダイム

Sentinel-Guided Zero-Shot Learning: A Collaborative Paradigm without Real Data Exposure ( http://arxiv.org/abs/2403.09363v1 )

ライセンス: Link先を確認
Fan Wan, Xingyu Miao, Haoran Duan, Jingjing Deng, Rui Gao, Yang Long, (参考訳) データプライバシとモデル著作権に対する懸念の高まり、特にAIサービスプロバイダとデータ所有者のコラボレーションの文脈において、この研究で革新的なSG-ZSLパラダイムが提案されている。 SG-ZSLは、モデルや機密データを交換することなく、効率的なコラボレーションを促進するように設計されている。 教師モデル、学生モデル、両方のモデルエンティティをリンクするジェネレータで構成される。 教師モデルは、データ所有者に代わってセンチネルとして機能し、実際のデータを置き換えることで、トレーニング中のAIサービスプロバイダの終了時に学生モデルをガイドする。 教師と生徒の知識空間の相違を考慮すると,教師モデルにはオムニエンスと準オムニエンスという2つの変種を導入する。 これらの教師の指導のもと、学生モデルは教師モデルのパフォーマンスにマッチし、教師がカバーしていない領域を探索する。 さらに、プライバシとパフォーマンスのトレードオフとして、ホワイトボックスとブラックボックスという2つの異なるセキュリティレベルのトレーニングプロトコルを導入し、パラダイムの適応性を高めます。 SG-ZSLパラダイムにおける真のデータ欠如という固有の課題にもかかわらず、ZSLやGZSLタスク、特にホワイトボックスプロトコルでは一貫してパフォーマンスが向上している。 包括的評価は、厳密なブラックボックストレーニングプロトコルを含む様々な設定における堅牢性と効率性をさらに証明する。

With increasing concerns over data privacy and model copyrights, especially in the context of collaborations between AI service providers and data owners, an innovative SG-ZSL paradigm is proposed in this work. SG-ZSL is designed to foster efficient collaboration without the need to exchange models or sensitive data. It consists of a teacher model, a student model and a generator that links both model entities. The teacher model serves as a sentinel on behalf of the data owner, replacing real data, to guide the student model at the AI service provider's end during training. Considering the disparity of knowledge space between the teacher and student, we introduce two variants of the teacher model: the omniscient and the quasi-omniscient teachers. Under these teachers' guidance, the student model seeks to match the teacher model's performance and explores domains that the teacher has not covered. To trade off between privacy and performance, we further introduce two distinct security-level training protocols: white-box and black-box, enhancing the paradigm's adaptability. Despite the inherent challenges of real data absence in the SG-ZSL paradigm, it consistently outperforms in ZSL and GZSL tasks, notably in the white-box protocol. Our comprehensive evaluation further attests to its robustness and efficiency across various setups, including stringent black-box training protocol.
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# DF4LCZ:Scene-Levelローカル気候ゾーン分類のためのSAMを利用したデータフュージョンフレームワーク

DF4LCZ: A SAM-Empowered Data Fusion Framework for Scene-Level Local Climate Zone Classification ( http://arxiv.org/abs/2403.09367v1 )

ライセンス: Link先を確認
Qianqian Wu, Xianping Ma, Jialu Sui, Man-On Pun, (参考訳) リモートセンシング(RS)技術の最近の進歩は、地域気候帯(LCZ)を正確に分類する可能性を示している。 しかし、畳み込みニューラルネットワーク(CNN)を用いた伝統的なシーンレベルの手法は、しばしば地上物体の事前知識を効果的に統合するのに苦労する。 さらに、Sentinel-2のような一般的なデータソースは、詳細な地上情報を取得するのに困難に直面する。 これらの課題に対処するために,高解像度のGoogle画像から抽出した地中オブジェクトをSentinel-2マルチスペクトル画像と統合するデータ融合手法を提案する。 提案手法では, LCZ分類のための新しいDual-stream Fusionフレームワーク(DF4LCZ)を導入し, Google画像からのインスタンスベースの位置特徴とSentinel-2画像から抽出したシーンレベルの空間スペクトル特徴を統合する。 このフレームワークには、Segment Anything Model (SAM) によって強化された Graph Convolutional Network (GCN) モジュールが含まれており、Googleイメージからの機能抽出を強化する。 同時に、このフレームワークは3D-CNNアーキテクチャを使用して、Sentinel-2画像のスペクトル空間的特徴を学習する。 提案するDF4LCZの有効性を検証するため,LCZ分類に特化して設計されたマルチソースリモートセンシング画像データセットを用いて実験を行った。 関連するコードとデータセットはhttps://github.com/ctrlovefly/DF4LCZで公開されている。

Recent advancements in remote sensing (RS) technologies have shown their potential in accurately classifying local climate zones (LCZs). However, traditional scene-level methods using convolutional neural networks (CNNs) often struggle to integrate prior knowledge of ground objects effectively. Moreover, commonly utilized data sources like Sentinel-2 encounter difficulties in capturing detailed ground object information. To tackle these challenges, we propose a data fusion method that integrates ground object priors extracted from high-resolution Google imagery with Sentinel-2 multispectral imagery. The proposed method introduces a novel Dual-stream Fusion framework for LCZ classification (DF4LCZ), integrating instance-based location features from Google imagery with the scene-level spatial-spectral features extracted from Sentinel-2 imagery. The framework incorporates a Graph Convolutional Network (GCN) module empowered by the Segment Anything Model (SAM) to enhance feature extraction from Google imagery. Simultaneously, the framework employs a 3D-CNN architecture to learn the spectral-spatial features of Sentinel-2 imagery. Experiments are conducted on a multi-source remote sensing image dataset specifically designed for LCZ classification, validating the effectiveness of the proposed DF4LCZ. The related code and dataset are available at https://github.com/ctrlovefly/DF4LCZ.
翻訳日:2024-03-15 20:37:19 公開日:2024-03-14
# 量子領域における絡み合いの発生と因果関係の分解

Emergence of entanglement and breakdown of causality in the quantum realm ( http://arxiv.org/abs/2403.09368v1 )

ライセンス: Link先を確認
Shuang-Kai Yang, Wei-Min Zhang, (参考訳) 絡み合いは最も印象的だが、量子力学において最も奇妙な性質である。 ベルの不平等を犯すという基準によって、何十年にもわたって多くの実験によって確認されてきた。 しかし、EPRパラドックスから生じるより根本的な問題は、量子世界が古典物理学が持たない絡み合いを生じさせる理由として、まだ完全には理解されていない。 本稿では,ビーム分割により互いに結合した2つのフォトニックモード(または2つのボソニックモード)の量子力学について検討する。 このような結合は2モードの絡み合いを生じさせない。 また、分離された2モードのイニシャルステートから始めます。 確率論的解釈に頼らずに運動の量子方程式を解くことで、あるモードの初期波動関数が最小のハイゼンベルクの不確実性に従う波動パケットと異なる場合、他のモードの時間進化の因果性は明示的に分解される。 これはまた、2つのモード間の量子絡み合いの出現にも繋がる。 因果関係の欠如は統計の性質である。 ベルの不等式は、量子力学の確率論的解釈のためにのみ、局所的な隠れ変数の存在を排除している。 孤立系におけるサブシステムの動的進化における内部因果関係の破れは、量子力学が自然に確率的現象を生成しているのかという疑問に答えることができる。

Entanglement is the most striking but also most weird property in quantum mechanics. It has been confirmed by many experiments over decades through the criterion of violating Bell's inequality. However, a more fundamental problem arisen from EPR paradox is still not fully understood, that is, why quantum world emerges entanglement that classical physics does not. In this paper, we investigate the quantum dynamics of two photonic modes (or any two bosonic modes) coupled to each other through a beam splitting. Such a coupling fails to produce two-mode entanglement. We also start with a decoupled two-mode initial pure state, namely, no entanglement and no statistic feature to begin with. By solving the quantum equation of motion exactly without relying on the probabilistic interpretation, we find that when the initial wave function of one mode is different from a wave packet obeying minimum Heisenberg uncertainty (which corresponds to a well-defined classically particle), the causality in the time-evolution of another mode is broken down explicitly. It also leads to the emergence of quantum entanglement between the two modes. The lack of causality is the nature of statistics. The Bell's inequality only excludes the possible existence of local hidden variables for the probabilistic interpretation of quantum mechanics. The internally causality breaking in the dynamical evolution of subsystems in isolated systems may answer the question how quantum dynamics generate naturally the probabilistic phenomena, even though the dynamical evolution of the whole system is completely described by the deterministic Schr\"{o}dinger equation.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# 低ランクボツネックを用いたビジョンランゲージパラメータ効率の良いファインチューニングへのルーティング関数の導入

Introducing Routing Functions to Vision-Language Parameter-Efficient Fine-Tuning with Low-Rank Bottlenecks ( http://arxiv.org/abs/2403.09377v1 )

ライセンス: Link先を確認
Tingyu Qu, Tinne Tuytelaars, Marie-Francine Moens, (参考訳) LoRA(英語版)やAdapter(英語版)のようなメインストリームパラメータ効率の良い微調整(PEFT)手法は、モデルの隠れた状態を低い次元に投影し、トレーニング済みのモデルがこの低ランクのボトルネックを通じて新しいデータに適応できるようにする。 しかしながら、視覚言語(VL)タスクのような複数のモダリティを含むPEFTタスクは、新しいデータへの適応だけでなく、異なるモダリティ間の関係も学習する必要がある。 VL PEFTタスクをターゲットに、低ランクボトルネックにおけるVLアライメントを高めるためにルーティング関数と呼ばれる一連の操作を提案する。 ルーティング関数は線形演算を採用し、新しいトレーニング可能なパラメータを導入しない。 詳細な分析を行ない、その振る舞いを研究する。 様々なVL PEFT設定において、ルーティング機能は元のPEFTメソッドのパフォーマンスを大幅に改善し、VQAv2$\text{RoBERTa}_{\text{large}}$+ViT-L/16)とCOCOキャプション(GPT2-medium+ViT-L/16)で20%以上の改善を実現した。 また,CLIP-BARTのような事前学習型マルチモーダルモデルの微調整では,VL PEFTタスクの幅が小さくても一貫した改善が観察される。

Mainstream parameter-efficient fine-tuning (PEFT) methods, such as LoRA or Adapter, project a model's hidden states to a lower dimension, allowing pre-trained models to adapt to new data through this low-rank bottleneck. However, PEFT tasks involving multiple modalities, like vision-language (VL) tasks, require not only adaptation to new data but also learning the relationship between different modalities. Targeting at VL PEFT tasks, we propose a family of operations, called routing functions, to enhance VL alignment in the low-rank bottlenecks. The routing functions adopt linear operations and do not introduce new trainable parameters. In-depth analyses are conducted to study their behavior. In various VL PEFT settings, the routing functions significantly improve performance of the original PEFT methods, achieving over 20% improvement on VQAv2 ($\text{RoBERTa}_{\text{large}}$+ViT-L/16) and 30% on COCO Captioning (GPT2-medium+ViT-L/16). Also when fine-tuning a pre-trained multimodal model such as CLIP-BART, we observe smaller but consistent improvements across a range of VL PEFT tasks.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# シームズネットワークを用いたモーフィング検出における合成画像の影響

Impact of Synthetic Images on Morphing Attack Detection Using a Siamese Network ( http://arxiv.org/abs/2403.09380v1 )

ライセンス: Link先を確認
Juan Tapia, Christoph Busch, (参考訳) 本稿では,セミハードロス機能を有するシームズネットワークを用いて,合成画像がモーフィング攻撃検出(MAD)に与える影響を評価した。 クロスデータセットを用いて合成画像の一般化能力を測定するために, 内部および交差データセットの評価を行った。 従来のMobileNetV2、MobileNetV3、EfficientNetB0の3種類のネットワークが特徴抽出器として使用された。 この結果から, FERET, FRGCv2, FRLL からEfficientNetB0 をトレーニングしたMAD は SOTA と比較して誤差が低いことがわかった。 逆に、システムが合成画像でのみ訓練された際には、パフォーマンスが悪化した。 混合アプローチ(合成+デジタル)データベースは、MADを改善し、エラー率を低減するのに役立つかもしれない。 この事実は、私たちはまだトレーニングプロセスに合成画像を含める努力を継続する必要があることを示しています。

This paper evaluated the impact of synthetic images on Morphing Attack Detection (MAD) using a Siamese network with a semi-hard-loss function. Intra and cross-dataset evaluations were performed to measure synthetic image generalisation capabilities using a cross-dataset for evaluation. Three different pre-trained networks were used as feature extractors from traditional MobileNetV2, MobileNetV3 and EfficientNetB0. Our results show that MAD trained on EfficientNetB0 from FERET, FRGCv2, and FRLL can reach a lower error rate in comparison with SOTA. Conversely, worse performances were reached when the system was trained only with synthetic images. A mixed approach (synthetic + digital) database may help to improve MAD and reduce the error rate. This fact shows that we still need to keep going with our efforts to include synthetic images in the training process.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# f-STIRAP法による絡み合いの最適生成

Optimized generation of entanglement based on the f-STIRAP technique ( http://arxiv.org/abs/2403.09381v1 )

ライセンス: Link先を確認
Dongni Chen, Jiahui Li, Stefano Chesi, Ying-Dan Wang, (参考訳) 我々は,f-STIRAPに基づいて,2つの量子ビット間の最大絡み合い状態(ベル状態)を生成することを検討する。 ニュー・J・フィスで開発された体系的アプローチを利用する。 19 093016 (2017) を用いて, 非断熱リークとシステム散逸が絡み合い発生に及ぼす影響を定量化し, 非断熱リークとシステム散逸のバランスをとることで絡み合いを最適化する。 最適結合プロファイル,操作時間,最大絡み合いの解析式が得られた。 我々の研究は量子状態工学、特に散逸効果を無視できない固体デバイスに広く応用されている。

We consider generating maximally entangled states (Bell states) between two qubits coupled to a common bosonic mode, based on f-STIRAP. Utilizing the systematic approach developed in New J. Phys. 19 093016 (2017), we quantify the effects of non-adiabatic leakage and system dissipation on the entanglement generation, and optimize the entanglement by balancing non-adiabatic leakage and system dissipation. We find the analytical expressions of the optimal coupling profile, the operation time, and the maximal entanglement. Our findings have broad applications in quantum state engineering, especially in solid-state devices where dissipative effects cannot be neglected.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# Pantypes: 自己説明可能なモデルのためのさまざまな代表者

Pantypes: Diverse Representatives for Self-Explainable Models ( http://arxiv.org/abs/2403.09383v1 )

ライセンス: Link先を確認
Rune Kjærsgaard, Ahcène Boubekki, Line Clemmensen, (参考訳) 解釈可能なAIシステムに対する需要の高まりに対応するために、原型的な自己説明可能な分類器が出現している。 これらの分類器は、学習された原型オブジェクトとの類似性に基づく推論により、その決定に高い透明性を組み込むように設計されている。 これらのモデルは多様性を念頭に設計されているが、学習されたプロトタイプは入力分布、特に低密度領域の全ての側面を十分に表現していないことが多い。 このような十分なデータ表現の欠如は、表現バイアスとして知られており、機械学習の多様性と公正性に関連する様々な有害な性質と関連付けられている。 そこで本研究では,オブジェクトのスパース集合を通じて入力分布の完全な多様性を捉えるために設計された,新しいプロトタイプオブジェクトのファミリであるパンタイプを紹介する。 パンタイプは、潜在空間の発散領域を占有し、高い多様性、解釈可能性、公平性を育むことによって、原型的自己説明可能なモデルを強化することができることを示す。

Prototypical self-explainable classifiers have emerged to meet the growing demand for interpretable AI systems. These classifiers are designed to incorporate high transparency in their decisions by basing inference on similarity with learned prototypical objects. While these models are designed with diversity in mind, the learned prototypes often do not sufficiently represent all aspects of the input distribution, particularly those in low density regions. Such lack of sufficient data representation, known as representation bias, has been associated with various detrimental properties related to machine learning diversity and fairness. In light of this, we introduce pantypes, a new family of prototypical objects designed to capture the full diversity of the input distribution through a sparse set of objects. We show that pantypes can empower prototypical self-explainable models by occupying divergent regions of the latent space and thus fostering high diversity, interpretability and fairness.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# 非線形システム理論を用いた収束保証による最適化の学習

Learning to optimize with convergence guarantees using nonlinear system theory ( http://arxiv.org/abs/2403.09389v1 )

ライセンス: Link先を確認
Andrea Martin, Luca Furieri, (参考訳) 動的システムを制御したり、機械学習モデルを訓練するための数値的な手法への依存度が増すにつれ、複雑な最適化ランドスケープを確実に効率的にナビゲートするアルゴリズムを考案する必要性が高まっている。 古典的な勾配降下法は凸問題に対して強い理論的保証を与えるが、非凸問題に対して厳密なハイパーパラメータチューニングを要求する。 新たな学習パラダイムであるL2Oは、学習モデルとデータを活用する最適化されたパフォーマンスを備えたアルゴリズムの発見を自動化するが、学習アルゴリズムの収束性と堅牢性を分析する理論的枠組みは欠如している。 本稿では,非線形システム理論を利用して,このギャップを埋める。 具体的には、滑らかな非凸目的関数に対する全収束アルゴリズムの非制約パラメトリゼーションを提案する。 特に、我々のフレームワークは自動微分ツールと直接互換性があり、最適化を学習しながら設計による収束を保証する。

The increasing reliance on numerical methods for controlling dynamical systems and training machine learning models underscores the need to devise algorithms that dependably and efficiently navigate complex optimization landscapes. Classical gradient descent methods offer strong theoretical guarantees for convex problems; however, they demand meticulous hyperparameter tuning for non-convex ones. The emerging paradigm of learning to optimize (L2O) automates the discovery of algorithms with optimized performance leveraging learning models and data - yet, it lacks a theoretical framework to analyze convergence and robustness of the learned algorithms. In this paper, we fill this gap by harnessing nonlinear system theory. Specifically, we propose an unconstrained parametrization of all convergent algorithms for smooth non-convex objective functions. Notably, our framework is directly compatible with automatic differentiation tools, ensuring convergence by design while learning to optimize.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# 時間的インシデント光変調によるイベントベース非同期HDRイメージング

Event-based Asynchronous HDR Imaging by Temporal Incident Light Modulation ( http://arxiv.org/abs/2403.09392v1 )

ライセンス: Link先を確認
Yuliang Wu, Ganchao Tan, Jinze Chen, Wei Zhai, Yang Cao, Zheng-Jun Zha, (参考訳) ダイナミックレンジ(DR)はイメージングシステムの重要な特徴である。 現在のフレームベースのカメラは、グローバルな均一露光と空間的に変化するシーン照明の相違により、高ダイナミックレンジイメージングを達成するのに苦労している。 本稿では,Pixel-Asynchronous HDRイメージングシステムであるAsynHDRを提案する。 提案するAsynHDRシステムは,DVSとLCDパネルを統合する。 LCDパネルは、その透過性を変化させてDVSの照射インシデントを変調し、ピクセル非依存のイベントストリームをトリガーする。 HDR画像は、時間重み付けアルゴリズムによってイベントストリームからデコードされる。 標準的なテストプラットフォームといくつかの挑戦的なシーンによる実験により、HDRイメージングタスクにおけるシステムの実現可能性が確認された。

Dynamic Range (DR) is a pivotal characteristic of imaging systems. Current frame-based cameras struggle to achieve high dynamic range imaging due to the conflict between globally uniform exposure and spatially variant scene illumination. In this paper, we propose AsynHDR, a Pixel-Asynchronous HDR imaging system, based on key insights into the challenges in HDR imaging and the unique event-generating mechanism of Dynamic Vision Sensors (DVS). Our proposed AsynHDR system integrates the DVS with a set of LCD panels. The LCD panels modulate the irradiance incident upon the DVS by altering their transparency, thereby triggering the pixel-independent event streams. The HDR image is subsequently decoded from the event streams through our temporal-weighted algorithm. Experiments under standard test platform and several challenging scenes have verified the feasibility of the system in HDR imaging task.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# GiT:Universal Language Interfaceによる汎用ビジョントランス

GiT: Towards Generalist Vision Transformer through Universal Language Interface ( http://arxiv.org/abs/2403.09394v1 )

ライセンス: Link先を確認
Haiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang, (参考訳) 本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。 大規模言語モデル(LLM)で広く使われている多層トランスフォーマーアーキテクチャ(GPT)の普遍性により、我々はその範囲を広げ、強力なビジョン基盤モデル(VFM)として機能することを目指している。 しかし、言語モデリングとは異なり、視覚タスクは通常、検出のためのボックスヘッドのバウンディングやセグメンテーションのためのピクセルデコーダのような特定のモジュールを必要とする。 この問題を解決するために,画像レベルの理解(例:キャプション),スパース知覚(例:検出),密集予測(例:セグメンテーション)など,様々な視覚的タスクを包括的に統合する,自動回帰デコーディングを成功させるユニバーサル言語インタフェースを設計する。 上記の設計に基づいて、モデル全体がViTのみで構成されており、具体的な追加はない。 GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。 興味深いことに、私たちのGiTはジェネラリストのパフォーマンスの新たなベンチマークを構築し、タスク間の相互強化を促進し、独立したトレーニングに比べて大幅に改善しました。 これはLLMで観察された同様の影響を反映している。 さらに27のデータセットによるトレーニングを充実させることで、GiTはさまざまなタスクに対して強力なゼロショット結果が得られる。 そのシンプルな設計のため、このパラダイムはビジョンと言語の間のアーキテクチャ的ギャップを狭めるという約束を保っている。 コードとモデルは \url{https://github.com/Haiyang-W/GiT} で入手できる。

This paper proposes a simple, yet effective framework, called GiT, simultaneously applicable for various vision tasks only with a vanilla ViT. Motivated by the universality of the Multi-layer Transformer architecture (e.g, GPT) widely used in large language models (LLMs), we seek to broaden its scope to serve as a powerful vision foundation model (VFM). However, unlike language modeling, visual tasks typically require specific modules, such as bounding box heads for detection and pixel decoders for segmentation, greatly hindering the application of powerful multi-layer transformers in the vision domain. To solve this, we design a universal language interface that empowers the successful auto-regressive decoding to adeptly unify various visual tasks, from image-level understanding (e.g., captioning), over sparse perception (e.g., detection), to dense prediction (e.g., segmentation). Based on the above designs, the entire model is composed solely of a ViT, without any specific additions, offering a remarkable architectural simplification. GiT is a multi-task visual model, jointly trained across five representative benchmarks without task-specific fine-tuning. Interestingly, our GiT builds a new benchmark in generalist performance, and fosters mutual enhancement across tasks, leading to significant improvements compared to isolated training. This reflects a similar impact observed in LLMs. Further enriching training with 27 datasets, GiT achieves strong zero-shot results over various tasks. Due to its simple design, this paradigm holds promise for narrowing the architectural gap between vision and language. Code and models will be available at \url{https://github.com/Haiyang-W/GiT}.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# ConDiSR: Contrastive Disentanglement and Style Regularization for Single Domain Generalization

ConDiSR: Contrastive Disentanglement and Style Regularization for Single Domain Generalization ( http://arxiv.org/abs/2403.09400v1 )

ライセンス: Link先を確認
Aleksandr Matsun, Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub, (参考訳) 医療データは、しばしば分散シフトを示し、標準的な教師付き学習パイプラインを使用してトレーニングされたディープラーニングモデルのテスト時のパフォーマンス劣化を引き起こす。 この課題は、単一ドメイン一般化(SDG)のサブフィールドであるドメイン一般化(DG)の分野で解決されている。 既存のアンタングルメントベースのSDG法は、セグメンテーションマスクに埋め込まれた構造情報に大きく依存しているが、分類ラベルはそのような密集した情報を提供していない。 本研究は,チャネルワイドのコントラスト的絡み合いを利用した医用画像分類のための新しいSDG手法を提案する。 さらに、異なるスタイルと構造的特徴表現の抽出を保証するために、再構築ベースのスタイル正規化によって強化されている。 本手法は多心組織像分類の複雑な課題について検討し,SOTA (State-of-the-art) SDGベースラインと比較した。 以上の結果から,本手法は平均精度1%の誤差でSOTAを上回り,より安定した性能を示した。 本研究は,分類タスクの文脈におけるSDGフレームワークの探索の重要性と課題を明らかにする。 コードはhttps://github.com/BioMedIA-MBzuAI/ConDiSRで公開されている。

Medical data often exhibits distribution shifts, which cause test-time performance degradation for deep learning models trained using standard supervised learning pipelines. This challenge is addressed in the field of Domain Generalization (DG) with the sub-field of Single Domain Generalization (SDG) being specifically interesting due to the privacy- or logistics-related issues often associated with medical data. Existing disentanglement-based SDG methods heavily rely on structural information embedded in segmentation masks, however classification labels do not provide such dense information. This work introduces a novel SDG method aimed at medical image classification that leverages channel-wise contrastive disentanglement. It is further enhanced with reconstruction-based style regularization to ensure extraction of distinct style and structure feature representations. We evaluate our method on the complex task of multicenter histopathology image classification, comparing it against state-of-the-art (SOTA) SDG baselines. Results demonstrate that our method surpasses the SOTA by a margin of 1% in average accuracy while also showing more stable performance. This study highlights the importance and challenges of exploring SDG frameworks in the context of the classification task. The code is publicly available at https://github.com/BioMedIA-MBZUAI/ConDiSR
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# 表現アクティベーションシーケンス学習による教師なしモダリティ変換可能なビデオハイライト検出

Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning ( http://arxiv.org/abs/2403.09401v1 )

ライセンス: Link先を確認
Tingtian Li, Zixun Sun, Xinyu Xiao, (参考訳) インターネット上で普及している動画の編集効率を向上させるためには,生動画のハイライトモーメントの同定が不可欠である。 しかし、手動で映像をラベル付けする広範囲な作業は、目に見えないカテゴリーのビデオに教師ありの手法を適用するのに障害を生んでいる。 多くのビデオにおいて、ハイライト検出のための貴重な手がかりを含むオーディオモダリティが欠如しているため、マルチモーダル戦略の使用も困難である。 本稿では,教師なしハイライト検出のためのクロスモーダル認識モデルを提案する。 提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。 教師なしハイライト検出を実現するために,ネットワークの潜在表現を調査し,k点コントラスト学習を用いた表現アクティベーションシーケンス学習(RASL)モジュールを提案し,重要な表現アクティベーションを学習する。 視覚のモダリティとオーディオのモダリティを結びつけるために,対称コントラスト学習(SCL)モジュールを用いて,ペア化された視覚と音声の表現を学習する。 さらに、表現強調のための事前訓練中に、マスク付き特徴ベクトル列(FVS)再構成の補助タスクを同時に実施する。 推論中、クロスモーダル事前学習モデルは、視覚的モダリティのみを与えられたペア化された視覚音響意味論による表現を生成することができる。 RASLモジュールはハイライトスコアを出力するために使用される。 実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。

Identifying highlight moments of raw video materials is crucial for improving the efficiency of editing videos that are pervasive on internet platforms. However, the extensive work of manually labeling footage has created obstacles to applying supervised methods to videos of unseen categories. The absence of an audio modality that contains valuable cues for highlight detection in many videos also makes it difficult to use multimodal strategies. In this paper, we propose a novel model with cross-modal perception for unsupervised highlight detection. The proposed model learns representations with visual-audio level semantics from image-audio pair data via a self-reconstruction task. To achieve unsupervised highlight detection, we investigate the latent representations of the network and propose the representation activation sequence learning (RASL) module with k-point contrastive learning to learn significant representation activations. To connect the visual modality with the audio modality, we use the symmetric contrastive learning (SCL) module to learn the paired visual and audio representations. Furthermore, an auxiliary task of masked feature vector sequence (FVS) reconstruction is simultaneously conducted during pretraining for representation enhancement. During inference, the cross-modal pretrained model can generate representations with paired visual-audio semantics given only the visual modality. The RASL module is used to output the highlight scores. The experimental results show that the proposed framework achieves superior performance compared to other state-of-the-art approaches.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# 情報セキュリティのためのアーキテクチャに基づくデータフロー分析のための拡張可能なフレームワーク

An Extensible Framework for Architecture-Based Data Flow Analysis for Information Security ( http://arxiv.org/abs/2403.09402v1 )

ライセンス: Link先を確認
Nicolas Boltz, Sebastian Hahner, Christopher Gerking, Robert Heinrich, (参考訳) ソフトウェアシステム間の相互接続の増大は、すでに設計時にセキュリティの必要性を高める。 機密性のようなセキュリティ関連のプロパティは、しばしばデータフロー図(DFD)に基づいて分析される。 しかし、大規模ソフトウェアシステムのDFDを手動で解析することは厄介であり、既にデプロイされているソフトウェアを調整するのにコストがかかる。 さらに、クローズドな分析エコシステムは、モデル化された情報の再利用を制限し、システムのセキュリティに関する包括的なステートメントを妨げる。 本稿では,データフロー解析のためのオープンで拡張可能なフレームワークを提案する。 私たちのフレームワークの中心的な要素は、よく検証されたデータフローベースの分析アプローチの実装です。 このフレームワークはDFDと互換性があり、Palladioアーキテクチャ記述言語からデータフローを抽出することもできる。 複数のモデルおよび分析拡張で拡張性を示す。 評価の結果,従来の実装よりも高いスケーラビリティを実現しつつ,同様のシナリオを解析できることが示唆された。

The growing interconnection between software systems increases the need for security already at design time. Security-related properties like confidentiality are often analyzed based on data flow diagrams (DFDs). However, manually analyzing DFDs of large software systems is bothersome and error-prone, and adjusting an already deployed software is costly. Additionally, closed analysis ecosystems limit the reuse of modeled information and impede comprehensive statements about a system's security. In this paper, we present an open and extensible framework for data flow analysis. The central element of our framework is our new implementation of a well-validated data-flow-based analysis approach. The framework is compatible with DFDs and can also extract data flows from the Palladio architectural description language. We showcase the extensibility with multiple model and analysis extensions. Our evaluation indicates that we can analyze similar scenarios while achieving higher scalability compared to previous implementations.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# エントロピーとその生産に関する顕微鏡的研究

Comparative Microscopic Study of Entropies and their Production ( http://arxiv.org/abs/2403.09403v1 )

ライセンス: Link先を確認
Philipp Strasberg, Joseph Schindler, (参考訳) 本研究では, ボルツマン表面, ギブス体積, 正準, 粗粒度, 絡み合い, 対角形) と3つの微視的温度定義(ボルツマン, ギブス, 正準エントロピー)の時間進化について検討した。 これは、シュレーディンガー方程式の数値積分に基づいて、ここでランダム行列理論でモデル化されたエネルギーを交換する2つの系の根元的非平衡設定のために行われる。 そこで本研究では,3種類の純初期状態(局所エネルギー固有状態,非相関および絡み合ったマイクロカノニカル状態)と,(A)正規系,(B)常温系,(C)正熱容量系,(C)正熱容量系の3種類のシステムを考える。 1)全ての初期状態が同じマクロ力学を生じさせる。 2) エンタングルメントと対角エントロピーは, 他のすべてのエントロピーとは対照的に, マイクロステートに敏感に依存する。 (3) クラスBとCでは、ギブス体積エントロピーは第二法則に反し、関連する温度は無意味になる。 (4)クラスCの場合、ボルツマン表面のエントロピーは第二の法則に反し、関連する温度は無意味となる。 (5)正準エントロピーはほぼ一定である傾向にある。 (6) ランダムな初期状態の場合、絡み合いや斜めエントロピーは粗い粒状観測エントロピーと同一または同一の振る舞いをする。

We study the time evolution of eleven microscopic entropy definitions (of Boltzmann-surface, Gibbs-volume, canonical, coarse-grained-observational, entanglement and diagonal type) and three microscopic temperature definitions (based on Boltzmann, Gibbs or canonical entropy). This is done for the archetypal nonequilibrium setup of two systems exchanging energy, modeled here with random matrix theory, based on numerical integration of the Schroedinger equation. We consider three types of pure initial states (local energy eigenstates, decorrelated and entangled microcanonical states) and three classes of systems: (A) two normal systems, (B) a normal and a negative temperature system and (C) a normal and a negative heat capacity system. We find: (1) All types of initial states give rise to the same macroscopic dynamics. (2) Entanglement and diagonal entropy sensitively depend on the microstate, in contrast to all other entropies. (3) For class B and C, Gibbs-volume entropies can violate the second law and the associated temperature becomes meaningless. (4) For class C, Boltzmann-surface entropies can violate the second law and the associated temperature becomes meaningless. (5) Canonical entropy has a tendency to remain almost constant. (6) For a Haar random initial state, entanglement or diagonal entropy behave similar or identical to coarse-grained-observational entropy.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# AIにおけるヒューリスティック推論:機器利用と模倣吸収

Heuristic Reasoning in AI: Instrumental Use and Mimetic Absorption ( http://arxiv.org/abs/2403.09404v1 )

ライセンス: Link先を確認
Anirban Mukherjee, Hannah Hanwen Chang, (参考訳) 人工知能(AI)システムにおけるヒューリスティック推論の新しいプログラムを提案する。 古典的なリンダ問題のバリエーションやビューティ・コンテスト・ゲームの新たな応用を含む一連の革新的な実験を通じて、AIが徹底的な論理処理から認知的ショートカット(ヒューリスティックス)の使用へ移行する条件を形成する精度の最大化と労力削減のトレードオフを明らかにする。 我々は、資源と目的とを一致させる「制度的」ヒューリスティックスの使用と、ヒューリスティックスが人間から学習され、ランダムかつ普遍的に現れる「神秘的吸収」とを区別する。 我々は、本質的な目標や自己認識が欠如しているにもかかわらず、AIが、有界合理性と二重プロセス理論の古典理論で説明されるように、資源・合理的な人間の認知の原理と一致して、正確性と効率の適応的バランスを示す証拠を提供する。

We propose a novel program of heuristic reasoning within artificial intelligence (AI) systems. Through a series of innovative experiments, including variations of the classic Linda problem and a novel application of the Beauty Contest game, we uncover trade-offs between accuracy maximization and effort reduction that shape the conditions under which AIs transition between exhaustive logical processing and the use of cognitive shortcuts (heuristics). We distinguish between the 'instrumental' use of heuristics to match resources with objectives, and 'mimetic absorption,' whereby heuristics are learned from humans, and manifest randomly and universally. We provide evidence that AI, despite lacking intrinsic goals or self-awareness, manifests an adaptive balancing of precision and efficiency, consistent with principles of resource-rational human cognition as explicated in classical theories of bounded rationality and dual-process theory.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# LM2D:歌詞と音楽によるダンス合成

LM2D: Lyrics- and Music-Driven Dance Synthesis ( http://arxiv.org/abs/2403.09407v1 )

ライセンス: Link先を確認
Wenjie Yin, Xuejiao Zhao, Yi Yu, Hang Yin, Danica Kragic, Mårten Björkman, (参考訳) ダンスは通常、音楽のリズムに従う複雑な動きを持つプロの振付を伴い、歌詞の内容にも影響される。 歌詞の統合は、聴覚の次元に加えて、基礎的な音色を豊かにし、その意味的な意味により動きの生成をより快適にする。 しかし、既存のダンス合成手法では、音声信号にのみ条件付の動作をモデル化する傾向がある。 この作業では、このギャップを埋めるために2つの貢献をします。 まず,複数モーダル拡散モデルと整合蒸留を組み込んだ新しい確率的アーキテクチャLM2Dを提案する。 第2に、ポーズ推定技術を用いて得られた音楽と歌詞の両方を包含する最初の3次元ダンスモーションデータセットを提案する。 我々は,音楽のみのベースラインモデルに対して,ダンサーや振付師を含む客観的な評価と人的評価を用いて評価を行った。 その結果、LM2Dは歌詞と音楽の両方にマッチするリアルで多様なダンスを制作できることを示した。 ビデオ概要は、https://youtu.be/4XCgvYookvA.com/で参照できる。

Dance typically involves professional choreography with complex movements that follow a musical rhythm and can also be influenced by lyrical content. The integration of lyrics in addition to the auditory dimension, enriches the foundational tone and makes motion generation more amenable to its semantic meanings. However, existing dance synthesis methods tend to model motions only conditioned on audio signals. In this work, we make two contributions to bridge this gap. First, we propose LM2D, a novel probabilistic architecture that incorporates a multimodal diffusion model with consistency distillation, designed to create dance conditioned on both music and lyrics in one diffusion generation step. Second, we introduce the first 3D dance-motion dataset that encompasses both music and lyrics, obtained with pose estimation technologies. We evaluate our model against music-only baseline models with objective metrics and human evaluations, including dancers and choreographers. The results demonstrate LM2D is able to produce realistic and diverse dance matching both lyrics and music. A video summary can be accessed at: https://youtu.be/4XCgvYookvA.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# ネスティング・ドールのような」:大規模言語モデルを用いたCS学生による再帰アナロジーの分析

"Like a Nesting Doll": Analyzing Recursion Analogies Generated by CS Students using Large Language Models ( http://arxiv.org/abs/2403.09409v1 )

ライセンス: Link先を確認
Seth Bernstein, Paul Denny, Juho Leinonen, Lauren Kan, Arto Hellas, Matt Littlefield Sami Sarsa, Stephen MacNeil, (参考訳) 複雑なコンピューティングの概念をグラッピングすることは、これらの新しいアイデアを慣れ親しんだ経験や理解に定着させるのに苦労する学生にとって、しばしば課題となる。 これを支援するために、優れたアナロジーは、馴染みのない概念と慣れ親しんだ概念のギャップを埋めることができ、理解を助ける魅力的な方法を提供します。 しかし、経験者でも効果的な教育的類推を作ることは困難である。 本稿では,大規模言語モデル(LLM),特にChatGPTが,需要に応じた個人関連アナロジーへのアクセスをどの程度可能かを検討する。 課題となるしきい値の概念である再帰に着目し,350人以上の1年生が生成したアナロジーを解析した。 コードスニペットが提供され、ChatGPTを使って独自の再帰ベースのアナロジーを生成するよう指示された。 LLMで作業する際の学生の創造性の価値を強調し、他の一般的な類推とは対照的に、学生が規定するトピックによる類推の多様性を多数観察した。 学生たちはこの活動を楽しみ、再帰についての理解を深めたことを報告しただけでなく、個人的・文化的に関係のある類推を思い出すのがより簡単であった。

Grasping complex computing concepts often poses a challenge for students who struggle to anchor these new ideas to familiar experiences and understandings. To help with this, a good analogy can bridge the gap between unfamiliar concepts and familiar ones, providing an engaging way to aid understanding. However, creating effective educational analogies is difficult even for experienced instructors. We investigate to what extent large language models (LLMs), specifically ChatGPT, can provide access to personally relevant analogies on demand. Focusing on recursion, a challenging threshold concept, we conducted an investigation analyzing the analogies generated by more than 350 first-year computing students. They were provided with a code snippet and tasked to generate their own recursion-based analogies using ChatGPT, optionally including personally relevant topics in their prompts. We observed a great deal of diversity in the analogies produced with student-prescribed topics, in contrast to the otherwise generic analogies, highlighting the value of student creativity when working with LLMs. Not only did students enjoy the activity and report an improved understanding of recursion, but they described more easily remembering analogies that were personally and culturally relevant.
翻訳日:2024-03-15 20:27:28 公開日:2024-03-14
# XCoOp:概念誘導文脈最適化によるコンピュータ支援診断のための説明可能なプロンプト学習

XCoOp: Explainable Prompt Learning for Computer-Aided Diagnosis via Concept-guided Context Optimization ( http://arxiv.org/abs/2403.09410v1 )

ライセンス: Link先を確認
Yequan Bie, Luyang Luo, Zhixuan Chen, Hao Chen, (参考訳) 大規模視覚言語モデル(VLM)の強力な表現を活用して、様々な下流タスクを実現することが注目されている。 この研究分野において、ソフトプロンプト学習は、画像分類などのタスクにCLIPなどのVLMを効率的に適応するための代表的なアプローチとなっている。 しかし、既存の素早い学習手法のほとんどは、説明不能なテキストトークンを学習しており、医療のような高度なシナリオにおいて、説明可能な人工知能(XAI)の厳密な解釈可能性要件を満たすことはできない。 そこで本稿では, 画像のセマンティクス, 学習可能なプロンティクス, 臨床概念に基づくプロンティクスを複数の粒度で整列させることにより, 医用知識を活用した説明可能なプロンティクス学習フレームワークを提案する。 さらに,大規模な言語モデルから知識を抽出し,視覚的およびテキスト的説明をプロンプトに提供することにより,価値ある概念アノテーションの欠如に対処する。 提案手法は, XAI を補助する基礎モデルの有効性に光を当て, 優れた診断性能, 柔軟性, 解釈性を同時に達成できることを実証した。 コードは一般公開される予定だ。

Utilizing potent representations of the large vision-language models (VLMs) to accomplish various downstream tasks has attracted increasing attention. Within this research field, soft prompt learning has become a representative approach for efficiently adapting VLMs such as CLIP, to tasks like image classification. However, most existing prompt learning methods learn text tokens that are unexplainable, which cannot satisfy the stringent interpretability requirements of Explainable Artificial Intelligence (XAI) in high-stakes scenarios like healthcare. To address this issue, we propose a novel explainable prompt learning framework that leverages medical knowledge by aligning the semantics of images, learnable prompts, and clinical concept-driven prompts at multiple granularities. Moreover, our framework addresses the lack of valuable concept annotations by eliciting knowledge from large language models and offers both visual and textual explanations for the prompts. Extensive experiments and explainability analyses conducted on various datasets, with and without concept labels, demonstrate that our method simultaneously achieves superior diagnostic performance, flexibility, and interpretability, shedding light on the effectiveness of foundation models in facilitating XAI. The code will be made publically available.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# OpenGraph: 大規模屋外環境におけるオープン語彙階層型3Dグラフ表現

OpenGraph: Open-Vocabulary Hierarchical 3D Graph Representation in Large-Scale Outdoor Environments ( http://arxiv.org/abs/2403.09412v1 )

ライセンス: Link先を確認
Yinan Deng, Jiahui Wang, Jingyu Zhao, Xinyu Tian, Guangyan Chen, Yi Yang, Yufeng Yue, (参考訳) 高度なセマンティクスを具備した環境マップは、ロボットと人間のシームレスな相互作用を促進するために重要なものであり、様々なタスクを効果的に実行することができる。 オープン語彙マップは、Visual-Language Model (VLM) を利用しており、マルチモーダル検索やオープンセットクラスを含む固有の利点を持っている。 しかし、既存のオープン語彙マップは、閉じた屋内シナリオやVLMの特徴に制約されており、それによって使用性と推論能力が低下する。 さらに、トポロジカルな関係がないことは、特定のインスタンスの正確なクエリをさらに複雑にする。 本研究では,大規模屋外環境向けに設計されたオープン語彙階層グラフ構造の表現であるOpenGraphを提案する。 OpenGraphは最初、2Dファウンデーションモデルを使用して視覚画像からインスタンスとキャプションを抽出し、テキスト推論を強化する機能を備えたキャプションをエンコードする。 その後、3Dインクリメンタルなパノラママッピングと機能埋め込みは、画像をLiDARポイントクラウドに投影することで実現される。 最後に、環境をレーングラフ接続に基づいてセグメント化して階層グラフを構築する。 実際の公開データセットSemanticKITTIによる検証結果は、モデルを微調整することなく、OpenGraphが新しいセマンティッククラスに一般化し、最も高いセグメンテーションとクエリ精度を達成する能力を示す。 OpenGraphのソースコードはhttps://github.com/BIT-DYN/OpenGraphで公開されている。

Environment maps endowed with sophisticated semantics are pivotal for facilitating seamless interaction between robots and humans, enabling them to effectively carry out various tasks. Open-vocabulary maps, powered by Visual-Language models (VLMs), possess inherent advantages, including multimodal retrieval and open-set classes. However, existing open-vocabulary maps are constrained to closed indoor scenarios and VLM features, thereby diminishing their usability and inference capabilities. Moreover, the absence of topological relationships further complicates the accurate querying of specific instances. In this work, we propose OpenGraph, a representation of open-vocabulary hierarchical graph structure designed for large-scale outdoor environments. OpenGraph initially extracts instances and their captions from visual images using 2D foundation models, encoding the captions with features to enhance textual reasoning. Subsequently, 3D incremental panoramic mapping with feature embedding is achieved by projecting images onto LiDAR point clouds. Finally, the environment is segmented based on lane graph connectivity to construct a hierarchical graph. Validation results from real public dataset SemanticKITTI demonstrate that, even without fine-tuning the models, OpenGraph exhibits the ability to generalize to novel semantic classes and achieve the highest segmentation and query accuracy. The source code of OpenGraph is publicly available at https://github.com/BIT-DYN/OpenGraph.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# 3次元ガウススプラッティングにおける正確な初期化制約の緩和

Relaxing Accurate Initialization Constraint for 3D Gaussian Splatting ( http://arxiv.org/abs/2403.09413v1 )

ライセンス: Link先を確認
Jaewoo Jung, Jisang Han, Honggyu An, Jiwon Kang, Seonghoon Park, Seungryong Kim, (参考訳) 3次元ガウシアンスプラッティング(3DGS)は,近年,リアルタイムの新規視像合成と3次元再構成において顕著な能力を示した。 しかし、3DGSはStructure-from-Motion (SfM)法に由来する正確な初期化に大きく依存している。 ランダムに初期化された点雲で訓練すると、3DGSは高品質な画像を生成する能力を維持することができず、PSNRでは4-5dBという大きなパフォーマンス低下を経験する。 周波数領域におけるSfM初期化の広範囲な解析と、複数の1次元ガウスによる1次元回帰タスクの解析を通じて、ランダムな点雲から3次元ガウスを訓練する、RAIN-GS(Relaxing Accurate Initialization Constraint for 3Dガウススティング)と呼ばれる新しい最適化戦略を提案する。 複数のデータセットに対する定量的および定性的な比較による戦略の有効性を示し、全ての設定における性能を大幅に改善した。 私たちのプロジェクトページとコードは、https://ku-cvlab.github.io/RAIN-GS.orgで参照できます。

3D Gaussian splatting (3DGS) has recently demonstrated impressive capabilities in real-time novel view synthesis and 3D reconstruction. However, 3DGS heavily depends on the accurate initialization derived from Structure-from-Motion (SfM) methods. When trained with randomly initialized point clouds, 3DGS fails to maintain its ability to produce high-quality images, undergoing large performance drops of 4-5 dB in PSNR. Through extensive analysis of SfM initialization in the frequency domain and analysis of a 1D regression task with multiple 1D Gaussians, we propose a novel optimization strategy dubbed RAIN-GS (Relaxing Accurate Initialization Constraint for 3D Gaussian Splatting), that successfully trains 3D Gaussians from random point clouds. We show the effectiveness of our strategy through quantitative and qualitative comparisons on multiple datasets, largely improving the performance in all settings. Our project page and code can be found at https://ku-cvlab.github.io/RAIN-GS.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# 深部脳分節訓練における領域ベースU-netの高速化と精度向上

Region-based U-net for accelerated training and enhanced precision in deep brain segmentation ( http://arxiv.org/abs/2403.09414v1 )

ライセンス: Link先を確認
Mengyu Li, Magnus Magnusson, Thilo van Eimeren, Lotta M. Ellingsen, (参考訳) MRIにおける脳構造の分離は、脳疾患のさらなる定量的解析の第一ステップである。 手動のセグメンテーションは依然として正確性の観点からは金の標準と見なされているが、そのようなデータは生成に非常に時間がかかる。 本稿では,12の深層脳構造に対する深層学習に基づくセグメンテーション手法を提案する。 脳は脳幹、心室系、線条体を含む3つの焦点領域に分けられる。 次に、これらの大きな構造をそれぞれの4つのサブ構造に解析するために、3つのリージョンベースのU-netが並列に実行される。 このアプローチは、トレーニングや処理時間を大幅に短縮するだけでなく、MRI画像全体を一度にセグメント化するよりも、セグメント化の精度を大幅に向上させる。 提案手法は平均Dice similarity Coefficient (DSC) 0.901, 95% Hausdorff Distance (HD95) 1.155mmの精度で得られた。 本手法は最先端のセグメンテーション手法と比較し,提案手法の精度とロバスト性を示した。

Segmentation of brain structures on MRI is the primary step for further quantitative analysis of brain diseases. Manual segmentation is still considered the gold standard in terms of accuracy; however, such data is extremely time-consuming to generate. This paper presents a deep learning-based segmentation approach for 12 deep-brain structures, utilizing multiple region-based U-Nets. The brain is divided into three focal regions of interest that encompass the brainstem, the ventricular system, and the striatum. Next, three region-based U-nets are run in parallel to parcellate these larger structures into their respective four substructures. This approach not only greatly reduces the training and processing times but also significantly enhances the segmentation accuracy, compared to segmenting the entire MRI image at once. Our approach achieves remarkable accuracy with an average Dice Similarity Coefficient (DSC) of 0.901 and 95% Hausdorff Distance (HD95) of 1.155 mm. The method was compared with state-of-the-art segmentation approaches, demonstrating a high level of accuracy and robustness of the proposed method.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# 自由回転眼球追跡データによるユーザ識別

User Identification via Free Roaming Eye Tracking Data ( http://arxiv.org/abs/2403.09415v1 )

ライセンス: Link先を確認
Rishabh Vallabh Varsha Haria, Amin El Abed, Sebastian Maneth, (参考訳) 41人の参加者が大学キャンパス(FR)を歩き回るか、図書館(TR)内の特定の部屋を探すよう依頼される。 眼球運動は、コモディティウェアラブルアイトラッカー(Pupil Labs Neon at 200Hz)を用いて記録される。 本データセットでは,Radial Basis Function Network (RBFN) を分類器として使用する機械学習パイプラインを用いて,ユーザ識別の精度を検討した。 最も高いアキュラシーはFRが87.3%、TRが89.4%である。 これは、私たちが知っている(対応する)最高精度である95.3%と比較されるべきである(BioEye 2015コンペティションデータセットの「RAN」刺激を用いて実験室で達成された)。 我々の知る限りでは、実験結果が実験室以外の環境でのユーザ識別を研究する最初のものである。 各記録の最低持続時間はFRが263秒、TRが154秒である。 FR と TR でそれぞれ 120s と 140s に制限された場合には,常に軌道の終端(トレーニングセッションとテストセッションの両方)から切り離される。 開始時から同じ長さを切ると、FRでは12.2%、TRでは6.4%低下する。 フルトラジェクトリのアキュラシーは、FRおよびTRでは5%以下、52%以下である。 また, 加速度, ジャーク, ジャスンなどの高次速度微分を含む場合の影響についても検討する。

We present a new dataset of "free roaming" (FR) and "targeted roaming" (TR): a pool of 41 participants is asked to walk around a university campus (FR) or is asked to find a particular room within a library (TR). Eye movements are recorded using a commodity wearable eye tracker (Pupil Labs Neon at 200Hz). On this dataset we investigate the accuracy of user identification using a previously known machine learning pipeline where a Radial Basis Function Network (RBFN) is used as classifier. Our highest accuracies are 87.3% for FR and 89.4% for TR. This should be compared to 95.3% which is the (corresponding) highest accuracy we are aware of (achieved in a laboratory setting using the "RAN" stimulus of the BioEye 2015 competition dataset). To the best of our knowledge, our results are the first that study user identification in a non laboratory setting; such settings are often more feasible than laboratory settings and may include further advantages. The minimum duration of each recording is 263s for FR and 154s for TR. Our best accuracies are obtained when restricting to 120s and 140s for FR and TR respectively, always cut from the end of the trajectories (both for the training and testing sessions). If we cut the same length from the beginning, then accuracies are 12.2% lower for FR and around 6.4% lower for TR. On the full trajectories accuracies are lower by 5% and 52% for FR and TR. We also investigate the impact of including higher order velocity derivatives (such as acceleration, jerk, or jounce).
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# 高次元ベイズモデルに対するMetropolis-within-Gibbsスキームのスケーラビリティ

Scalability of Metropolis-within-Gibbs schemes for high-dimensional Bayesian models ( http://arxiv.org/abs/2403.09416v1 )

ライセンス: Link先を確認
Filippo Ascolani, Gareth O. Roberts, Giacomo Zanella, (参考訳) 一般座標系MCMCスキーム(Metropolis-within-Gibbs samplersなど)はベイズ的非共役階層モデルによく適合する。 条件コンダクタンスの概念を用いて、それらの収束特性を対応する(潜在的に実装不可能な)ギブスサンプリング器のものと関連付ける。 これにより,非共役階層モデルに対するMetropolis-within-Gibbsスキームの性能を,データポイント数とパラメータ数の両方が増加する高次元状態下で研究することができる。 ランダムなデータ生成仮定が与えられた場合、数値的な証拠にほぼ一致した次元自由収束結果を確立する。 未知のハイパーパラメータと離散的に観察された拡散を伴う二分回帰に対するベイズモデルの適用についても論じる。 このような統計的応用により、マルコフ作用素の近似コンダクタンスと摂動に対する独立な関心の補助的な結果が提供される。

We study general coordinate-wise MCMC schemes (such as Metropolis-within-Gibbs samplers), which are commonly used to fit Bayesian non-conjugate hierarchical models. We relate their convergence properties to the ones of the corresponding (potentially not implementable) Gibbs sampler through the notion of conditional conductance. This allows us to study the performances of popular Metropolis-within-Gibbs schemes for non-conjugate hierarchical models, in high-dimensional regimes where both number of datapoints and parameters increase. Given random data-generating assumptions, we establish dimension-free convergence results, which are in close accordance with numerical evidences. Applications to Bayesian models for binary regression with unknown hyperparameters and discretely observed diffusions are also discussed. Motivated by such statistical applications, auxiliary results of independent interest on approximate conductances and perturbation of Markov operators are provided.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# 量子フーリエモデルの拘束的・消滅的表現性

Constrained and Vanishing Expressivity of Quantum Fourier Models ( http://arxiv.org/abs/2403.09417v1 )

ライセンス: Link先を確認
Hela Mhiri, Leo Monbroussou, Mario Herrero-Gonzalez, Slimane Thabet, Elham Kashefi, Jonas Landman, (参考訳) 本研究では、機械学習のためのパラメータ化量子回路(PQC)の表現性について、予期せぬ振る舞いを強調した。 これらのモデルの大規模なクラスは、符号化ゲートから周波数を導出するフーリエ級数(Fourier Series)として、訓練可能なゲートによって決定されるフーリエ係数を持つと考えられていた。 本稿では,量子モデルのフーリエ係数と符号化ゲートとの新たな相関関係を示す。 さらに, ある条件下では, 量子ビット数が増加すると, フーリエ係数が指数関数的に消失する現象が現れる。 これらの2つの挙動は、PQCの表現性を制限する新しい形式の制約を示唆しており、従って量子モデルに対する新たな帰納バイアスを示唆している。 この研究における鍵となる概念は、フーリエ級数スペクトルにおける周波数冗長性の概念であり、その重要性を決定するものである。 これらの理論的挙動は数値シミュレーションで観察される。

In this work, we highlight an unforeseen behavior of the expressivity of Parameterized Quantum Circuits (PQC) for machine learning. A large class of these models, seen as Fourier Series which frequencies are derived from the encoding gates, were thought to have their Fourier coefficients mostly determined by the trainable gates. Here, we demonstrate a new correlation between the Fourier coefficients of the quantum model and its encoding gates. In addition, we display a phenomenon of vanishing expressivity in certain settings, where some Fourier coefficients vanish exponentially when the number of qubits grows. These two behaviors imply novel forms of constraints which limit the expressivity of PQCs, and therefore imply a new inductive bias for Quantum models. The key concept in this work is the notion of a frequency redundancy in the Fourier series spectrum, which determines its importance. Those theoretical behaviours are observed in numerical simulations.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# 量子コンピュータにおけるGPT

GPT on a Quantum Computer ( http://arxiv.org/abs/2403.09418v1 )

ライセンス: Link先を確認
Yidong Liao, Chris Ferrie, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、私たちが人工知能(AI)の能力と相互作用し理解する方法を変えました。 しかし、量子機械学習(QML)の急成長する分野とのLLMの交わりは、その初期段階にあるに過ぎない。 本稿では、量子コンピューティングパラダイムにおいて、ChatGPTに不可欠な基盤トランスフォーマーアーキテクチャを実装するための包括的なフレームワークを詳述し、このニッチを探求する。 我々は、トランスコアコンポーネントの適応バージョンと生成前学習フェーズを実装した量子回路を慎重に設計する。 量子コンピューティングとLLMを統合することで、QMLの研究のための新たな道を開き、AI技術の継続的な進化に貢献したいと思っています。

Large Language Models (LLMs) such as ChatGPT have transformed how we interact with and understand the capabilities of Artificial Intelligence (AI). However, the intersection of LLMs with the burgeoning field of Quantum Machine Learning (QML) is only in its nascent stages. This paper presents an exploration of this niche by detailing a comprehensive framework for implementing the foundational Transformer architecture -- integral to ChatGPT -- within a quantum computing paradigm. We meticulously design quantum circuits that implement adapted versions of the transformer's core components and the generative pre-training phase. By integrating quantum computing with LLMs, we aspire to open new avenues for research in QML and contribute to the ongoing evolution of AI technologies.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# RoDUS:都市景観における静的・動的要素のロバスト分解

RoDUS: Robust Decomposition of Static and Dynamic Elements in Urban Scenes ( http://arxiv.org/abs/2403.09419v1 )

ライセンス: Link先を確認
Thang-Anh-Quan Nguyen, Luis Roldão, Nathan Piasco, Moussab Bennehar, Dzmitry Tsishkou, (参考訳) 近年,NeRFを用いた静的環境から動的物体を分離する作業が広く研究されている。 しかし、大規模なシーンの撮影は、複雑な幾何学的構造と制約のないダイナミクスのため、依然として課題となっている。 3Dモーションキューの助けがなければ、従来の手法ではカメラの動きが遅く、数人/数人のダイナミックアクターしか必要とせず、ほとんどの都市部では準最適解が得られる。 このような制約を克服するため,都市部の静的および動的要素を分解するパイプラインであるRoDUSを提案する。 提案手法では、4Dセマンティック情報と組み合わされた堅牢なカーネルベースの初期化を用いて学習プロセスを選択的にガイドする。 この戦略により、シーン内のダイナミックスを正確にキャプチャし、背景再構成におけるNeRFによるアーティファクトの低減を実現することができる。 特に,KITTI-360およびPandasetデータセットを用いた実験により,挑戦的な都市景観を正確に静的かつ動的成分に分解する手法の有効性が示された。

The task of separating dynamic objects from static environments using NeRFs has been widely studied in recent years. However, capturing large-scale scenes still poses a challenge due to their complex geometric structures and unconstrained dynamics. Without the help of 3D motion cues, previous methods often require simplified setups with slow camera motion and only a few/single dynamic actors, leading to suboptimal solutions in most urban setups. To overcome such limitations, we present RoDUS, a pipeline for decomposing static and dynamic elements in urban scenes, with thoughtfully separated NeRF models for moving and non-moving components. Our approach utilizes a robust kernel-based initialization coupled with 4D semantic information to selectively guide the learning process. This strategy enables accurate capturing of the dynamics in the scene, resulting in reduced artifacts caused by NeRF on background reconstruction, all by using self-supervision. Notably, experimental evaluations on KITTI-360 and Pandaset datasets demonstrate the effectiveness of our method in decomposing challenging urban scenes into precise static and dynamic components.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# 反ファクト画像生成における属性増幅の緩和

Mitigating attribute amplification in counterfactual image generation ( http://arxiv.org/abs/2403.09422v1 )

ライセンス: Link先を確認
Tian Xia, Mélanie Roschewitz, Fabio De Sousa Ribeiro, Charles Jones, Ben Glocker, (参考訳) 因果生成モデル(Causal Generative Modelling)は、介入的および反事実的クエリに答える能力によって、医療画像への関心が高まっている。 ほとんどの研究は、シミュレーションされた介入の有効性を強制するために補助的な分類器を使用して、妥当に見える反ファクト画像を生成することに重点を置いている。 提案手法の落とし穴について検討し,無関係な属性が介入中に急激な影響を受け,保護された特徴と疾患状態に偏りが生じる属性増幅の問題を明らかにする。 属性増幅は, 対実的トレーニングプロセスにおけるハードラベルの使用によって引き起こされるものであり, この問題を軽減するためにソフトな対実的微調整を提案する。 胸部X線データセットで得られた画像の有効性を維持しながら増幅効果を大幅に低減する。 我々の研究は、医療画像におけるより忠実で偏見のない因果モデリングに向けて重要な進歩を遂げている。

Causal generative modelling is gaining interest in medical imaging due to its ability to answer interventional and counterfactual queries. Most work focuses on generating counterfactual images that look plausible, using auxiliary classifiers to enforce effectiveness of simulated interventions. We investigate pitfalls in this approach, discovering the issue of attribute amplification, where unrelated attributes are spuriously affected during interventions, leading to biases across protected characteristics and disease status. We show that attribute amplification is caused by the use of hard labels in the counterfactual training process and propose soft counterfactual fine-tuning to mitigate this issue. Our method substantially reduces the amplification effect while maintaining effectiveness of generated images, demonstrated on a large chest X-ray dataset. Our work makes an important advancement towards more faithful and unbiased causal modelling in medical imaging.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# 近隣住民からの宝の借用--モダリティとデータスカシティを欠いたマルチモーダルラーニングのためのインテクストラーニング

Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity ( http://arxiv.org/abs/2403.09428v1 )

ライセンス: Link先を確認
Zhuo Zhi, Ziquan Liu, Moe Elbadawi, Adam Daneshmend, Mine Orlu, Abdul Basit, Andreas Demosthenous, Miguel Rodrigues, (参考訳) モダリティの欠如を伴うマルチモーダル機械学習は、医療などの様々な応用において、ますます関連する課題となっている。 本報告では, ダウンストリームタスクには, モダリティの欠落とサンプルサイズの問題の両方がある。 この問題設定は、フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得するのにしばしばコストがかかるため、特に困難で実用的でもある。 本稿では,この2つの重要な問題に対して,変換器のテキスト内学習能力の可能性を解き放つことにより,検索強化型インコンテキスト学習を提案する。 パラメトリックパラダイムに主に属し,十分なトレーニングサンプルを必要とする既存の手法から逸脱した当社の作業は,利用可能なフルモダリティデータの価値を活用し,課題を解決するための新たな視点を提供する。 提案したデータ依存フレームワークは,より高いサンプル効率を示し,様々なマルチモーダル学習タスクにおいて,低データ体系における全モードデータと欠落モードデータの両方において,分類モデルの性能を向上させることを実証的に実証している。 トレーニングデータの1%しか利用できない場合、提案手法は、様々なデータセットや欠落状態に対する最近の強いベースラインよりも平均6.1%改善されていることを示す。 また,本手法は,ベースラインと比較して,完全モダリティと欠落モダリティの差を小さくする。

Multimodal machine learning with missing modalities is an increasingly relevant challenge arising in various applications such as healthcare. This paper extends the current research into missing modalities to the low-data regime, i.e., a downstream task has both missing modalities and limited sample size issues. This problem setting is particularly challenging and also practical as it is often expensive to get full-modality data and sufficient annotated training samples. We propose to use retrieval-augmented in-context learning to address these two crucial issues by unleashing the potential of a transformer's in-context learning ability. Diverging from existing methods, which primarily belong to the parametric paradigm and often require sufficient training samples, our work exploits the value of the available full-modality data, offering a novel perspective on resolving the challenge. The proposed data-dependent framework exhibits a higher degree of sample efficiency and is empirically demonstrated to enhance the classification model's performance on both full- and missing-modality data in the low-data regime across various multimodal learning tasks. When only 1% of the training data are available, our proposed method demonstrates an average improvement of 6.1% over a recent strong baseline across various datasets and missing states. Notably, our method also reduces the performance gap between full-modality and missing-modality data compared with the baseline.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# 逐次サンプル平均近似を用いた変分推論

Variational Inference with Sequential Sample-Average Approximations ( http://arxiv.org/abs/2403.09429v1 )

ライセンス: Link先を確認
Heiko Zimmermann, Christian A. Naesseth, Jan-Willem van de Meent, (参考訳) 本稿では,数値シミュレーションなどの計算集約モデルにおける近似推論手法として,逐次サンプル平均近似(VISA)を用いた変分推論を提案する。 VISAは、信頼領域内で有効と考えられるサンプル平均近似を用いて、重み付けされたフォワード-KL変量推論を拡張する。 これにより、複数の勾配ステップでモデル評価を再利用し、計算コストを削減できる。 我々は,高次元ガウス,ロトカ・ボルテラダイナミクス,およびピックオーバーアトラクタの実験を行い,VISAが標準重要度重み付きフォワード-KL変量推論に匹敵する近似精度を達成できることを示す。

We present variational inference with sequential sample-average approximation (VISA), a method for approximate inference in computationally intensive models, such as those based on numerical simulations. VISA extends importance-weighted forward-KL variational inference by employing a sequence of sample-average approximations, which are considered valid inside a trust region. This makes it possible to reuse model evaluations across multiple gradient steps, thereby reducing computational cost. We perform experiments on high-dimensional Gaussians, Lotka-Volterra dynamics, and a Pickover attractor, which demonstrate that VISA can achieve comparable approximation accuracy to standard importance-weighted forward-KL variational inference with computational savings of a factor two or more for conservatively chosen learning rates.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# 事前学習型検出器の選択のための効率的な伝達性評価

Efficient Transferability Assessment for Selection of Pre-trained Detectors ( http://arxiv.org/abs/2403.09432v1 )

ライセンス: Link先を確認
Zhao Wang, Aoxue Li, Zhenguo Li, Qi Dou, (参考訳) 大規模事前学習と下流の微調整は、ディープラーニングベースのモデルを転送するための効果的なソリューションである。 事前学習可能なモデルの微調整は計算コストがかかるため、これらの事前学習されたモデルの転送性性能を計算効率よく予測することを目指している。 下流の分類やセグメンテーション作業に適したモデルを求める従来の研究とは違って,本研究では,事前学習対象検出器の効率的な伝達性評価について検討する。 この目的のために,さまざまなアーキテクチャ,ソースデータセット,トレーニングスキームを備えた,多種多様な事前学習型検出器の動物園を含む検出器転送性ベンチマークを構築した。 この動物園を前提として、評価のための下流ターゲットタスクとして、5つの異なるドメインから7つのターゲットデータセットを採用する。 さらに、統一されたフレームワークにおいて、分類と回帰のサブタスクを同時に評価することを提案する。 さらに,タスクを様々なオブジェクトで評価するための補完的指標を設計する。 実験により, 本手法は, 異なる対象領域下での移動性評価において, ウォールクロック時間32$\times$を効率よく削減し, 記憶フットプリントがわずか5.2\%であるのに対して, 全ての事前学習検出器のブルートフォース微調整よりも優れていることを示した。

Large-scale pre-training followed by downstream fine-tuning is an effective solution for transferring deep-learning-based models. Since finetuning all possible pre-trained models is computational costly, we aim to predict the transferability performance of these pre-trained models in a computational efficient manner. Different from previous work that seek out suitable models for downstream classification and segmentation tasks, this paper studies the efficient transferability assessment of pre-trained object detectors. To this end, we build up a detector transferability benchmark which contains a large and diverse zoo of pre-trained detectors with various architectures, source datasets and training schemes. Given this zoo, we adopt 7 target datasets from 5 diverse domains as the downstream target tasks for evaluation. Further, we propose to assess classification and regression sub-tasks simultaneously in a unified framework. Additionally, we design a complementary metric for evaluating tasks with varying objects. Experimental results demonstrate that our method outperforms other state-of-the-art approaches in assessing transferability under different target domains while efficiently reducing wall-clock time 32$\times$ and requires a mere 5.2\% memory footprint compared to brute-force fine-tuning of all pre-trained detectors.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# メタプロンプト表現とインスタンスコントラスト最適化を用いた開語彙オブジェクト検出

Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization ( http://arxiv.org/abs/2403.09433v1 )

ライセンス: Link先を確認
Zhao Wang, Aoxue Li, Fengwei Zhou, Zhenguo Li, Qi Dou, (参考訳) 古典的な物体検出器は、これまで遭遇したことのない新しい種類の物体を検出することができない。 この問題に関して、候補クラスリスト内のオブジェクトを検出することを目的として、OVOD(Open-Vocabulary Object Detection)を提案する。 しかし、現在のOVODモデルは、大規模な追加データと複雑なトレーニングプロセスに大きく依存しているため、ベースクラスに過度な適合に苦しんでいる。 これらの課題を克服するために,メタプロンプトとインスタンスコントラスト学習(MIC)方式を用いた新しいフレームワークを提案する。 まず,クラスとバックグラウンドを学習する学習者が新しいクラスに一般化するのを助けるために,新しいクラスを創出するシナリオをシミュレートする。 第二に、クラス内コンパクト性とクラス間分離を促進するためのインスタンスレベルのコントラスト戦略を設計し、新しいクラスオブジェクトに対する検出器の一般化に寄与する。 筆者らは, 知識蒸留, アンサンブルモデル, 余分な訓練データを使わずに, LVISでこれらの複雑な技術を用いて訓練した従来のSOTA法より優れていた。 最も重要な点として、MICは、新しいクラス、例えば、$+4.3\%$と$+1.9\% \ \mathrm{AP}$の改善により、COCOとObjects365のSOTAと比較して非常に一般化できることを示している。

Classical object detectors are incapable of detecting novel class objects that are not encountered before. Regarding this issue, Open-Vocabulary Object Detection (OVOD) is proposed, which aims to detect the objects in the candidate class list. However, current OVOD models are suffering from overfitting on the base classes, heavily relying on the large-scale extra data, and complex training process. To overcome these issues, we propose a novel framework with Meta prompt and Instance Contrastive learning (MIC) schemes. Firstly, we simulate a novel-class-emerging scenario to help the prompt learner that learns class and background prompts generalize to novel classes. Secondly, we design an instance-level contrastive strategy to promote intra-class compactness and inter-class separation, which benefits generalization of the detector to novel class objects. Without using knowledge distillation, ensemble model or extra training data during detector training, our proposed MIC outperforms previous SOTA methods trained with these complex techniques on LVIS. Most importantly, MIC shows great generalization ability on novel classes, e.g., with $+4.3\%$ and $+1.9\% \ \mathrm{AP}$ improvement compared with previous SOTA on COCO and Objects365, respectively.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# スプリングマス3次元ガウスによる弾性物体の復元とシミュレーション

Reconstruction and Simulation of Elastic Objects with Spring-Mass 3D Gaussians ( http://arxiv.org/abs/2403.09434v1 )

ライセンス: Link先を確認
Licheng Zhong, Hong-Xing Yu, Jiajun Wu, Yunzhu Li, (参考訳) 視覚的な観察から弾性物体を再構成し、シミュレーションすることは、コンピュータビジョンやロボット工学の応用に不可欠である。 3Dガウスのような既存の手法は、3Dの外観と幾何学のモデリングを提供するが、物理特性をシミュレートしたり、異種物体のパラメータを最適化する能力は欠如している。 マルチビュービデオから弾性物体を再構成・シミュレーションするための物理シミュレーションと3次元ガウスアンを統合した新しいフレームワークであるSpring-Gausを提案する。 本手法は3次元Spring-Massモデルを用いて,物理と外観の学習を分離しながら,個々の点レベルでの物理パラメータの最適化を可能にする。 このアプローチは, 試料効率が高く, 一般化を促進し, シミュレーション粒子の分布に対する感度を低下させる。 合成と実世界の両方のデータセット上でSpring-Gausを評価し,弾性物体の正確な再構成とシミュレーションを実証した。 これには、様々な初期状態と環境パラメータの下での将来の予測とシミュレーションが含まれる。 プロジェクトページ: https://zlicheng.com/spring_gaus.com

Reconstructing and simulating elastic objects from visual observations is crucial for applications in computer vision and robotics. Existing methods, such as 3D Gaussians, provide modeling for 3D appearance and geometry but lack the ability to simulate physical properties or optimize parameters for heterogeneous objects. We propose Spring-Gaus, a novel framework that integrates 3D Gaussians with physics-based simulation for reconstructing and simulating elastic objects from multi-view videos. Our method utilizes a 3D Spring-Mass model, enabling the optimization of physical parameters at the individual point level while decoupling the learning of physics and appearance. This approach achieves great sample efficiency, enhances generalization, and reduces sensitivity to the distribution of simulation particles. We evaluate Spring-Gaus on both synthetic and real-world datasets, demonstrating accurate reconstruction and simulation of elastic objects. This includes future prediction and simulation under varying initial states and environmental parameters. Project page: https://zlicheng.com/spring_gaus.
翻訳日:2024-03-15 20:17:36 公開日:2024-03-14
# 人物マッチングと教師なし2D-3Dリフティングによる実時間全方位3次元多人数人物推定の改善

Improving Real-Time Omnidirectional 3D Multi-Person Human Pose Estimation with People Matching and Unsupervised 2D-3D Lifting ( http://arxiv.org/abs/2403.09437v1 )

ライセンス: Link先を確認
Pawel Knap, Peter Hardy, Alberto Tamajo, Hwasup Lim, Hansung Kim, (参考訳) 現在の人間のポーズ推定システムは、一人の人の正確な3次元世界的推定を取得することに焦点を当てている。 そこで本研究では, リアルタイムに動作可能で, 基本形態の隠蔽も処理可能な, 初めての3次元多人ポーズ推定システムを提案する。 まず、市販の2D検出器と、360$^\circ$パノラマカメラとmmWaveレーダーセンサーを使用するための教師なし2D-3Dリフトモデルを調整する。 次に、カメラとレーダーの校正、画像とレーダー空間内の人々のマッチングの改善など、いくつかのコントリビューションを紹介します。 本システムは,軽量な2D-3Dポーズリフトアルゴリズムを用いて,室内環境と屋外環境の両方において,安価でスケーラブルなソリューションを提供する高精度な性能を実現し,深度とスケールの曖昧さの両面に対処する。 特に、検出された個人数に関係なく、我々のシステムの時間複雑性はほぼ一定であり、商用グレードのGPUを搭載したラップトップ上では、約7~8fpsのフレームレートを達成する。

Current human pose estimation systems focus on retrieving an accurate 3D global estimate of a single person. Therefore, this paper presents one of the first 3D multi-person human pose estimation systems that is able to work in real-time and is also able to handle basic forms of occlusion. First, we adjust an off-the-shelf 2D detector and an unsupervised 2D-3D lifting model for use with a 360$^\circ$ panoramic camera and mmWave radar sensors. We then introduce several contributions, including camera and radar calibrations, and the improved matching of people within the image and radar space. The system addresses both the depth and scale ambiguity problems by employing a lightweight 2D-3D pose lifting algorithm that is able to work in real-time while exhibiting accurate performance in both indoor and outdoor environments which offers both an affordable and scalable solution. Notably, our system's time complexity remains nearly constant irrespective of the number of detected individuals, achieving a frame rate of approximately 7-8 fps on a laptop with a commercial-grade GPU.
翻訳日:2024-03-15 20:07:47 公開日:2024-03-14
# 3D-SceneDreamer:テキスト駆動型3D一貫性のシーン生成

3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation ( http://arxiv.org/abs/2403.09439v1 )

ライセンス: Link先を確認
Frank Zhang, Yibo Zhang, Quan Zheng, Rui Ma, Wei Hua, Hujun Bao, Weiwei Xu, Changqing Zou, (参考訳) 近年,テキスト駆動3Dシーン生成技術は急速に進歩している。 彼らの成功は主に、3Dシーンを生成するために、既存の生成モデルを用いて画像ワープとインペイントを反復的に行うことによる。 しかし、これらの手法は既存のモデルの出力に大きく依存しており、幾何や外観の誤りが蓄積され、モデルが様々なシナリオ(例えば屋外や非現実のシナリオ)で使用されるのを防ぐ。 この制限に対処するために、我々はグローバルな3D情報をクエリして集約することで、新たに生成されたローカルビューを生成的に洗練し、3Dシーンを段階的に生成する。 具体的には,3次元シーンの統一表現として3次元特徴量に基づくNeRFを用いてグローバルな3次元一貫性を制約し,2次元拡散モデルに先行する自然画像と,現在のシーンのグローバルな3次元情報を利用して,高画質で新たなコンテンツを合成する生成精細ネットワークを提案する。 提案手法は,従来の手法と比較して,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートすることを実証した。

Text-driven 3D scene generation techniques have made rapid progress in recent years. Their success is mainly attributed to using existing generative models to iteratively perform image warping and inpainting to generate 3D scenes. However, these methods heavily rely on the outputs of existing models, leading to error accumulation in geometry and appearance that prevent the models from being used in various scenarios (e.g., outdoor and unreal scenarios). To address this limitation, we generatively refine the newly generated local views by querying and aggregating global 3D information, and then progressively generate the 3D scene. Specifically, we employ a tri-plane features-based NeRF as a unified representation of the 3D scene to constrain global 3D consistency, and propose a generative refinement network to synthesize new contents with higher quality by exploiting the natural image prior from 2D diffusion model as well as the global 3D information of the current scene. Our extensive experiments demonstrate that, in comparison to previous methods, our approach supports wide variety of scene generation and arbitrary camera trajectories with improved visual quality and 3D consistency.
翻訳日:2024-03-15 20:07:47 公開日:2024-03-14
# 圧縮ニューラルネットワークの対向微調整によるロバスト性と効率性の向上

Adversarial Fine-tuning of Compressed Neural Networks for Joint Improvement of Robustness and Efficiency ( http://arxiv.org/abs/2403.09441v1 )

ライセンス: Link先を確認
Hallgrimur Thorsteinsson, Valdemar J Henriksen, Tong Chen, Raghavendra Selvan, (参考訳) ディープラーニング(DL)モデルが私たちの日常生活にますます統合されるにつれて、敵の攻撃に対して堅牢にすることで安全性を確保することがますます重要になっている。 DLモデルは、入力データを妨害するために小さな標的摂動を導入することで達成できる敵攻撃の影響を受けやすいことが判明した。 敵の訓練は、より堅牢なモデルをもたらすことができる緩和戦略として提示されている。 この敵の堅牢性は、訓練中に敵の攻撃を設計するために必要な追加の計算コストが伴う。 2つの目的 -- 敵の堅牢性と計算効率 -- は、互いに対立しているように見える。 本研究では,2つの異なるモデル圧縮手法 – 構造的ウェイトプルーニングと量子化 – が対向的ロバスト性に及ぼす影響について検討する。 具体的には, 圧縮モデルに対する微調整の効果について検討し, 標準微調整と逆微調整のトレードオフについて述べる。 この結果から, 圧縮がモデルロバスト性を損なうのではなく, 圧縮モデルに対して逆方向の微調整を行うことで, モデルロバスト性性能に大きな改善がもたらされることが示唆された。 本稿では,2つのベンチマークデータセットを用いて,圧縮モデルの逆調整により,逆学習モデルに匹敵するロバスト性性能が得られ,計算効率も向上することを示す。

As deep learning (DL) models are increasingly being integrated into our everyday lives, ensuring their safety by making them robust against adversarial attacks has become increasingly critical. DL models have been found to be susceptible to adversarial attacks which can be achieved by introducing small, targeted perturbations to disrupt the input data. Adversarial training has been presented as a mitigation strategy which can result in more robust models. This adversarial robustness comes with additional computational costs required to design adversarial attacks during training. The two objectives -- adversarial robustness and computational efficiency -- then appear to be in conflict of each other. In this work, we explore the effects of two different model compression methods -- structured weight pruning and quantization -- on adversarial robustness. We specifically explore the effects of fine-tuning on compressed models, and present the trade-off between standard fine-tuning and adversarial fine-tuning. Our results show that compression does not inherently lead to loss in model robustness and adversarial fine-tuning of a compressed model can yield large improvement to the robustness performance of models. We present experiments on two benchmark datasets showing that adversarial fine-tuning of compressed models can achieve robustness performance comparable to adversarially trained models, while also improving computational efficiency.
翻訳日:2024-03-15 20:07:47 公開日:2024-03-14
# ユーザストーリー品質向上のためのLCMエージェントの初期報告

LLM-based agents for automating the enhancement of user story quality: An early report ( http://arxiv.org/abs/2403.09442v1 )

ライセンス: Link先を確認
Zheying Zhang, Maruf Rayhan, Tomas Herda, Manuel Goisauf, Pekka Abrahamsson, (参考訳) アジャイルソフトウェア開発では、高品質なユーザストーリの維持は重要ですが、課題もあります。 本研究では,オーストリアのポストグループITアジャイルチームにおいて,ユーザストーリの品質を自動改善するための大規模言語モデルの利用について検討する。 我々は,自律型LLMエージェントシステムの参照モデルを開発し,企業で実装した。 調査におけるユーザストーリの品質と,これらのエージェントによるユーザストーリの品質改善の有効性は,6つのアジャイルチームの11人の参加者によって評価された。 我々の研究は、LLMがユーザストーリーの品質を向上させる可能性を示し、アジャイル開発におけるAIの役割の研究に貢献し、産業環境におけるAIの変革的影響の実践的な例を提供する。

In agile software development, maintaining high-quality user stories is crucial, but also challenging. This study explores the use of large language models to automatically improve the user story quality in Austrian Post Group IT agile teams. We developed a reference model for an Autonomous LLM-based Agent System and implemented it at the company. The quality of user stories in the study and the effectiveness of these agents for user story quality improvement was assessed by 11 participants across six agile teams. Our findings demonstrate the potential of LLMs in improving user story quality, contributing to the research on AI role in agile development, and providing a practical example of the transformative impact of AI in an industry setting.
翻訳日:2024-03-15 20:07:47 公開日:2024-03-14
# Shake to Leak: 微調整拡散モデルによって生成するプライバシリスクが増幅される

Shake to Leak: Fine-tuning Diffusion Models Can Amplify the Generative Privacy Risk ( http://arxiv.org/abs/2403.09450v1 )

ライセンス: Link先を確認
Zhangheng Li, Junyuan Hong, Bo Li, Zhangyang Wang, (参考訳) 拡散モデルは最近、現実的なイメージの生成において顕著な進歩を見せていますが、プライバシのリスクも生じています。 本稿では,データ操作による事前学習モデルの微調整によって,既存のプライバシーリスクを増幅する新たなリスクであるShake-to-Leak(S2L)を明らかにする。 拡散モデルに対するS2Lは,概念注入法 (DreamBooth と Textual Inversion) やパラメータ効率法 (LoRA と Hypernetwork) など,様々な標準的な微調整手法で実現可能であることを実証した。 最悪の場合、S2Lは拡散モデル上での最先端の会員推論攻撃(MIA)を5.4\%(絶対差)のAUCで増幅し、抽出したサンプルを0ドル近いサンプルから16.3ドルのサンプルに増加させることができる。 この発見は、拡散モデルによるプライバシーリスクが、これまで認識されていたよりもさらに深刻であることを示している。 コードはhttps://github.com/VITA-Group/Shake-to-Leak.comで公開されている。

While diffusion models have recently demonstrated remarkable progress in generating realistic images, privacy risks also arise: published models or APIs could generate training images and thus leak privacy-sensitive training information. In this paper, we reveal a new risk, Shake-to-Leak (S2L), that fine-tuning the pre-trained models with manipulated data can amplify the existing privacy risks. We demonstrate that S2L could occur in various standard fine-tuning strategies for diffusion models, including concept-injection methods (DreamBooth and Textual Inversion) and parameter-efficient methods (LoRA and Hypernetwork), as well as their combinations. In the worst case, S2L can amplify the state-of-the-art membership inference attack (MIA) on diffusion models by $5.4\%$ (absolute difference) AUC and can increase extracted private samples from almost $0$ samples to $16.3$ samples on average per target domain. This discovery underscores that the privacy risk with diffusion models is even more severe than previously recognized. Codes are available at https://github.com/VITA-Group/Shake-to-Leak.
翻訳日:2024-03-15 20:07:46 公開日:2024-03-14
# M&M:認知負荷評価における視覚的キューの統合によるマルチモーダル・マルチタスクモデル

M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment ( http://arxiv.org/abs/2403.09451v1 )

ライセンス: Link先を確認
Long Nguyen-Phuoc, Renald Gaboriau, Dimitri Delacroix, Laurent Navarro, (参考訳) 本稿では,認知負荷評価(CLA)のためのAVCAffeデータセットに適用した,新しいマルチモーダルマルチタスク学習フレームワークであるM&Mモデルを提案する。 M&Mは、オーディオとビデオの入力のための特別なストリームを特徴とする、デュアル・パスウェイ・アーキテクチャを通じてオーディオヴィジュアル・キューを独自に統合する。 重要な革新は多面的マルチヘッドアテンション機構であり、同期マルチタスクの異なるモダリティを融合させる。 もう1つの注目すべき特徴は、モデルの3つの特別なブランチであり、それぞれが特定の認知的負荷ラベルに合わせて調整され、ニュアンス付き、タスク固有の分析を可能にする。 AVCAffeのシングルタスクベースラインと比較して、控えめなパフォーマンスを示しているが、M\&Mは統合マルチモーダル処理のための有望なフレームワークを示している。 本研究は,マルチモーダル・マルチタスク学習システムにおける将来的な拡張の道のりを開拓し,複雑なタスク処理のための多様なデータ型の統合を強調した。

This paper introduces the M&M model, a novel multimodal-multitask learning framework, applied to the AVCAffe dataset for cognitive load assessment (CLA). M&M uniquely integrates audiovisual cues through a dual-pathway architecture, featuring specialized streams for audio and video inputs. A key innovation lies in its cross-modality multihead attention mechanism, fusing the different modalities for synchronized multitasking. Another notable feature is the model's three specialized branches, each tailored to a specific cognitive load label, enabling nuanced, task-specific analysis. While it shows modest performance compared to the AVCAffe's single-task baseline, M\&M demonstrates a promising framework for integrated multimodal processing. This work paves the way for future enhancements in multimodal-multitask learning systems, emphasizing the fusion of diverse data types for complex task handling.
翻訳日:2024-03-15 20:07:46 公開日:2024-03-14
# 影響領域を用いた連続ビーム系の構造設計モデルのための機械学習

Machine learning for structural design models of continuous beam systems via influence zones ( http://arxiv.org/abs/2403.09454v1 )

ライセンス: Link先を確認
Adrien Gallet, Andrew Liew, Iman Hajirasouliha, Danny Smyl, (参考訳) この研究は、逆問題の観点から連続ビームシステムのための機械学習構造設計モデルを開発する。 本研究は, フォワード, 最適化, 逆機械学習演算子を分離した上で, 従来の構造設計手法と比較して, アプローチの根本的な変化を表す, 最近開発されたインフルエンスゾーンの概念に基づく新しい手法を提案する。 本研究の目的は,任意のシステムサイズを持つ連続ビームシステムの断面積要求を予測できる非定常構造設計モデルを概念化することである。 既知のソリューションのデータセットを生成した後、適切なニューラルネットワークアーキテクチャを特定し、トレーニングし、目に見えないデータに対してテストする。 その結果、断面積特性予測における平均絶対パーセンテージテスト誤差は1.6%であり、ニューラルネットワークが可変サイズの構造系にうまく一般化する優れた能力を示している。 この研究で生成されたCBeamXPデータセットと、関連するpythonベースのニューラルネットワークトレーニングスクリプトは、オープンソースのデータリポジトリで利用でき、結果の再現性を可能にし、さらなる調査を促進することができる。

This work develops a machine learned structural design model for continuous beam systems from the inverse problem perspective. After demarcating between forward, optimisation and inverse machine learned operators, the investigation proposes a novel methodology based on the recently developed influence zone concept which represents a fundamental shift in approach compared to traditional structural design methods. The aim of this approach is to conceptualise a non-iterative structural design model that predicts cross-section requirements for continuous beam systems of arbitrary system size. After generating a dataset of known solutions, an appropriate neural network architecture is identified, trained, and tested against unseen data. The results show a mean absolute percentage testing error of 1.6% for cross-section property predictions, along with a good ability of the neural network to generalise well to structural systems of variable size. The CBeamXP dataset generated in this work and an associated python-based neural network training script are available at an open-source data repository to allow for the reproducibility of results and to encourage further investigations.
翻訳日:2024-03-15 20:07:46 公開日:2024-03-14
# 量子連鎖グラフにおける頂点カップリング補間

Vertex coupling interpolation in quantum chain graphs ( http://arxiv.org/abs/2403.09457v1 )

ライセンス: Link先を確認
Pavel Exner, Jan Pekař, (参考訳) 我々は、周期量子グラフの帯域スペクトルを、時間反転不変性に反する頂点結合と線分で連結された環の連鎖の形で解析し、$\delta$結合と単純な循環行列で決定されるものを補間する。 平坦なバンドは一般に欠如しており、負のスペクトルは非誘電性$\delta$結合と補間しても空でないことが分かり、またバンドの高エネルギー漸近挙動も決定する。

We analyze band spectrum of the periodic quantum graph in the form of a chain of rings connected by line segments with the vertex coupling which violates the time reversal invariance, interpolating between the $\delta$ coupling and the one determined by a simple circulant matrix. We find that flat bands are generically absent and that the negative spectrum is nonempty even for interpolation with a non-attractive $\delta$ coupling; we also determine the high-energy asymptotic behavior of the bands.
翻訳日:2024-03-15 20:07:46 公開日:2024-03-14
# 構造光の離散状態空間を用いた深層学習支援光通信

Deep-learning-assisted optical communication with discretized state space of structural light ( http://arxiv.org/abs/2403.09462v1 )

ライセンス: Link先を確認
Minyang Zhang, Dong-Xu Chen, Pengxiang Ruan, Jun Liu, Jun-Long Zhao, Chui-Ping Yang, (参考訳) 構造光の逆空間モードの豊富な構造は、量子情報や光通信にその応用を助長している。 ラゲール・ガウスモード(英語版)(LG)は、アジムタールとラジアル指数を持ち、光の横方向空間モードを記述する完全な直交基底から構成される。 アジムタール指数は、しばしば高次元自由度である軌道角運動量(OAM)によって与えられる。 光科学におけるOAMの出現は、先進的なデータ符号化と信号伝送のための光操作における従来の光学技術を上回る重要な進歩である。 本稿では,LGモード認識のための高度なディープラーニング技術を利用する手法を提案する。 LGモードの状態空間を識別することにより、ニューラルネットワークモデルをトレーニングして、与えられたサンプルを分類する。 実験により,OAM数に制限されたチャネル容量を増大させながら,本手法がモデルトレーニングに必要となるサンプルを少なくすることを示す。 提案手法を画像伝送タスクに適用し,OAM値の低い大容量データを符号化できることを実証する。 我々の研究は、構造光に基づく高容量光通信のための新たな道を開く。

The rich structure of the transverse spatial mode of structural light has facilitated its applications in quantum information and optical communication. The Laguerre-Gaussian (LG) modes, with azimuthal and radial indexes, consist of a complete orthogonal basis to describe the transverse spatial mode of light. The azimuthal index is often endowed with the orbital angular momentum (OAM), a high dimensional degree of freedom. The advent of OAM in optical science marks a pivotal advancement, surpassing traditional optical techniques in light manipulation for advanced data encoding and signal transmission. Here, we present a scheme that utilizes the advanced deep learning technique for LG modes recognition. By discretizing the state space of the LG modes, a neural network model is trained to classify the given samples. A proof-of-principle experiment is performed to show that our scheme requires less samples for model training, while increasing the channel capacity within limited OAM number. We further apply our scheme to an image transmission task, demonstrating the ability to encode large data with low OAM number. Our work opens a new avenue for high capacity optical communication based on structural light.
翻訳日:2024-03-15 20:07:46 公開日:2024-03-14
# Outlier Robust Multivariate Polynomial Regression

Outlier Robust Multivariate Polynomial Regression ( http://arxiv.org/abs/2403.09465v1 )

ライセンス: Link先を確認
Vipul Arora, Arnab Bhattacharyya, Mathews Boban, Venkatesan Guruswami, Esty Kelman, (参考訳) p\colon\mathbb{R}^n\to\mathbb{R}$を未知の$n$-変数多項式とする。 ランダムサンプルの集合 $(\mathbf{x}_i,y_i) \in [-1,1]^n \times \mathbb{R}$ は $(\mathbf{x}_i,p(\mathbf{x}_i))$ のうるさいバージョンである。 より正確には、各$\mathbf{x}_i$ は、ある分布 $\chi$ on $[-1,1]^n$ から独立にサンプリングされ、各$i$ に対して、$y_i$ は任意の(すなわち、外れ値)であり、確率は $\rho < 1/2$ であり、そうでなければ $|y_i-p(\mathbf{x}_i)|\leq\sigma$ を満たす。 目的は多項式 $\hat{p}$ を各変数の次数$d$ で、最大$O(\sigma)$ の $\ell_\infty$-距離で$p$ から出力することである。 Kane, Karmalkar, and Price [FOCS'17] はこの問題を$n=1$で解いた。 それらの結果を$n$-variate設定に一般化し、$O_n(d^n\log d)$のサンプル複雑性を達成するアルゴリズムを示し、もし$\chi$が$n$次元チェビシェフ分布であれば、隠れ定数は$n$に依存する。 サンプルの複雑さは$O_n(d^{2n}\log d)$である。 近似誤差は最大$O(\sigma)$で保証され、実行時間は$\log(1/\sigma)$に依存する。 それぞれの$\mathbf{x}_i$と$y_i$が$N$ビットの精度で知られている場合、ランタイムの$N$への依存は線形である。 また、サンプル複素数は$d^n$の点で最適であることを示す。 さらに,1/\sigma$を1/\sigma$から独立したランタイムを,より高いサンプル複雑性のコストで実現可能であることを示す。

We study the problem of robust multivariate polynomial regression: let $p\colon\mathbb{R}^n\to\mathbb{R}$ be an unknown $n$-variate polynomial of degree at most $d$ in each variable. We are given as input a set of random samples $(\mathbf{x}_i,y_i) \in [-1,1]^n \times \mathbb{R}$ that are noisy versions of $(\mathbf{x}_i,p(\mathbf{x}_i))$. More precisely, each $\mathbf{x}_i$ is sampled independently from some distribution $\chi$ on $[-1,1]^n$, and for each $i$ independently, $y_i$ is arbitrary (i.e., an outlier) with probability at most $\rho < 1/2$, and otherwise satisfies $|y_i-p(\mathbf{x}_i)|\leq\sigma$. The goal is to output a polynomial $\hat{p}$, of degree at most $d$ in each variable, within an $\ell_\infty$-distance of at most $O(\sigma)$ from $p$. Kane, Karmalkar, and Price [FOCS'17] solved this problem for $n=1$. We generalize their results to the $n$-variate setting, showing an algorithm that achieves a sample complexity of $O_n(d^n\log d)$, where the hidden constant depends on $n$, if $\chi$ is the $n$-dimensional Chebyshev distribution. The sample complexity is $O_n(d^{2n}\log d)$, if the samples are drawn from the uniform distribution instead. The approximation error is guaranteed to be at most $O(\sigma)$, and the run-time depends on $\log(1/\sigma)$. In the setting where each $\mathbf{x}_i$ and $y_i$ are known up to $N$ bits of precision, the run-time's dependence on $N$ is linear. We also show that our sample complexities are optimal in terms of $d^n$. Furthermore, we show that it is possible to have the run-time be independent of $1/\sigma$, at the cost of a higher sample complexity.
翻訳日:2024-03-15 20:07:46 公開日:2024-03-14
# エタインバージョン:拡散に基づく実画像編集のための最適エタ関数の設計

Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing ( http://arxiv.org/abs/2403.09468v1 )

ライセンス: Link先を確認
Wonjun Kang, Kevin Galim, Hyung Il Koo, (参考訳) 拡散モデルはテキスト誘導画像生成の領域において顕著な成功を収め、最近ではテキスト誘導画像編集において顕著な成功を収めている。 実際の画像を編集するための一般的に採用されている戦略は、拡散過程を反転させて元の画像のノイズ表現を取得し、所望の編集を達成するためにデノライズされる。 しかし、現在の拡散反転法は、しばしば特定のテキストプロンプトに忠実で、ソース画像によく似ている編集を生成するのに苦労する。 これらの制約を克服するために, DDIMサンプリング式における$\eta$の役割の理論的解析を基礎とした, 実画像編集のための新規かつ適応的な拡散反転手法を提案する。 時間および地域依存の$\eta$関数で普遍拡散反転法を設計することにより、編集範囲を柔軟に制御できる。 定量的および定性的評価の包括的シリーズを通じて,近年の手法との比較を行い,本手法の優位性を実証した。 提案手法は,新しいベンチマークをフィールドに設定するだけでなく,既存の戦略を著しく上回っている。 私たちのコードはhttps://github.com/furiosa-ai/eta-inversionで利用可能です。

Diffusion models have achieved remarkable success in the domain of text-guided image generation and, more recently, in text-guided image editing. A commonly adopted strategy for editing real images involves inverting the diffusion process to obtain a noisy representation of the original image, which is then denoised to achieve the desired edits. However, current methods for diffusion inversion often struggle to produce edits that are both faithful to the specified text prompt and closely resemble the source image. To overcome these limitations, we introduce a novel and adaptable diffusion inversion technique for real image editing, which is grounded in a theoretical analysis of the role of $\eta$ in the DDIM sampling equation for enhanced editability. By designing a universal diffusion inversion method with a time- and region-dependent $\eta$ function, we enable flexible control over the editing extent. Through a comprehensive series of quantitative and qualitative assessments, involving a comparison with a broad array of recent methods, we demonstrate the superiority of our approach. Our method not only sets a new benchmark in the field but also significantly outperforms existing strategies. Our code is available at https://github.com/furiosa-ai/eta-inversion
翻訳日:2024-03-15 20:07:46 公開日:2024-03-14
# MambaTalk: 選択状態空間モデルを用いた効率的なホロスティックジェスチャー合成

MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models ( http://arxiv.org/abs/2403.09471v1 )

ライセンス: Link先を確認
Zunnan Xu, Yukang Lin, Haonan Han, Sicheng Yang, Ronghui Li, Yachao Zhang, Xiu Li, (参考訳) ジェスチャー合成は人間とコンピュータの相互作用において重要な領域であり、映画、ロボティクス、バーチャルリアリティーといった様々な分野に幅広く応用されている。 近年の進歩はジェスチャ合成を改善するために拡散モデルと注意機構を活用している。 しかし、これらの手法の計算複雑性が高いため、低レイテンシで長く多様なシーケンスを生成することは依然として困難である。 この課題に対処するための状態空間モデル(SSM)の可能性を探り、ジェスチャーの質を高めるために、離散的な動きを持つ2段階のモデリング戦略を実装した。 基礎となるMambaブロックを活用し,MambaTalkを導入し,マルチモーダル統合によるジェスチャーの多様性とリズムを向上させる。 大規模な実験により、我々の手法は最先端モデルの性能と一致しているか、上回っていることが示された。

Gesture synthesis is a vital realm of human-computer interaction, with wide-ranging applications across various fields like film, robotics, and virtual reality. Recent advancements have utilized the diffusion model and attention mechanisms to improve gesture synthesis. However, due to the high computational complexity of these techniques, generating long and diverse sequences with low latency remains a challenge. We explore the potential of state space models (SSMs) to address the challenge, implementing a two-stage modeling strategy with discrete motion priors to enhance the quality of gestures. Leveraging the foundational Mamba block, we introduce MambaTalk, enhancing gesture diversity and rhythm through multimodal integration. Extensive experiments demonstrate that our method matches or exceeds the performance of state-of-the-art models.
翻訳日:2024-03-15 20:07:46 公開日:2024-03-14
# 使い勝手の良い一般化:人間のスーパービジョンを超えてスケーラブルなアライメント

Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision ( http://arxiv.org/abs/2403.09472v1 )

ライセンス: Link先を確認
Zhiqing Sun, Longhui Yu, Yikang Shen, Weiyang Liu, Yiming Yang, Sean Welleck, Chuang Gan, (参考訳) 現在のAIアライメント手法は、人間が提供する実演や判断に依存しており、AIシステムの学習能力は、結果として人間の能力によって上界される。 彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか? 本稿では、簡単なタスク(例えば、レベル1-3 MATH問題)に関する人間のアノテーションから学習することで、難しい推論タスク(例えば、レベル4-5 MATH問題)に取り組むという文脈において、この問題に答える。 我々の重要な洞察は、より簡単なタスクに対する監督の訓練を受けた評価者(リワードモデル)が、難しいタスクの候補解のスコアリングに効果的に利用でき、それによって、様々なタスクのレベルに対して容易にハードな一般化が容易になるということです。 この知見に基づいて,まずプロセスが指示する報酬モデル(レベル1-3)を簡単な問題(例えば,レベル1-3)で訓練し,その上で,困難な問題に対するポリシーモデルの性能評価に利用する,スケーラブルなアライメント手法を提案する。 そこで,このような評価器からの強次一般化が,再ランク付けあるいは強化学習(RL)によって生成器内の強次一般化を可能にすることを示す。 特に, プロセス制御7b RLモデルでは, 簡単な問題に対して人的監督のみを用いるにもかかわらず, MATH500で34.0\%の精度を達成している。 我々のアプローチは、人間の監督のフロンティアを越えて進むAIシステムへの有望な道のりを示唆している。

Current AI alignment methodologies rely on human-provided demonstrations or judgments, and the learned capabilities of AI systems would be upper-bounded by human capabilities as a result. This raises a challenging research question: How can we keep improving the systems when their capabilities have surpassed the levels of humans? This paper answers this question in the context of tackling hard reasoning tasks (e.g., level 4-5 MATH problems) via learning from human annotations on easier tasks (e.g., level 1-3 MATH problems), which we term as \textit{easy-to-hard generalization}. Our key insight is that an evaluator (reward model) trained on supervisions for easier tasks can be effectively used for scoring candidate solutions of harder tasks and hence facilitating easy-to-hard generalization over different levels of tasks. Based on this insight, we propose a novel approach to scalable alignment, which firstly trains the process-supervised reward models on easy problems (e.g., level 1-3), and then uses them to evaluate the performance of policy models on hard problems. We show that such \textit{easy-to-hard generalization from evaluators} can enable \textit{easy-to-hard generalizations in generators} either through re-ranking or reinforcement learning (RL). Notably, our process-supervised 7b RL model achieves an accuracy of 34.0\% on MATH500, despite only using human supervision on easy problems. Our approach suggests a promising path toward AI systems that advance beyond the frontier of human supervision.
翻訳日:2024-03-15 20:07:46 公開日:2024-03-14
# 自動運転機能に対する継続的監視・改善・展開の課題に関する産業経験報告

An Industrial Experience Report about Challenges from Continuous Monitoring, Improvement, and Deployment for Autonomous Driving Features ( http://arxiv.org/abs/2403.09474v1 )

ライセンス: Link先を確認
Ali Nouri, Christian Berger, Fredrik Torner, (参考訳) 継続的開発、デプロイメント、監視(CDDM)を使用して、顧客のコンテキストにおけるアプリケーションを理解し、改善することは、スマートフォンアプリやWebアプリケーションのような安全でないアプリケーションにおいて、迅速かつ革新的な機能改善を実現するために広く利用されている。 このような領域でその可能性を実証した上で、一部のOEMが金融会社のコミュニクイックで高いレベルについて説明しているように、自動車機能のためのソフトウェア開発を改善する可能性がある。 しかし、CDDM戦略の適用はまた、自律運転システム(ADS)のような安全関連製品やISO-26262やISO21448といった業界標準によってガイドされるプロセスの遵守と文書化の観点からも課題に直面している。 CDDMに関する出版物は、比較的一般的なレベルで安全クリティカルな機能に重点を置いているため、ADSや自動車に限らず、ソフトウェアにのみ集中しているため、自動車OEMの特定のコンテキストを欠いている。 本稿では,CDDMの安全性を高めるために,自動車分野からCDDMを採用するための課題を特定し,研究のギャップに光を当てることについて論じる。 これらの課題は、今日の工業的に確立された作業方法から、ドメイン専門家とのインタビューを行い、文献研究によって補完されることによって特定される。

Using continuous development, deployment, and monitoring (CDDM) to understand and improve applications in a customer's context is widely used for non-safety applications such as smartphone apps or web applications to enable rapid and innovative feature improvements. Having demonstrated its potential in such domains, it may have the potential to also improve the software development for automotive functions as some OEMs described on a high level in their financial company communiqus. However, the application of a CDDM strategy also faces challenges from a process adherence and documentation perspective as required by safety-related products such as autonomous driving systems (ADS) and guided by industry standards such as ISO-26262 and ISO21448. There are publications on CDDM in safety-relevant contexts that focus on safety-critical functions on a rather generic level and thus, not specifically ADS or automotive, or that are concentrating only on software and hence, missing out the particular context of an automotive OEM: Well-established legacy processes and the need of their adaptations, and aspects originating from the role of being a system integrator for software/software, hardware/hardware, and hardware/software. In this paper, particular challenges from the automotive domain to better adopt CDDM are identified and discussed to shed light on research gaps to enhance CDDM, especially for the software development of safe ADS. The challenges are identified from today's industrial well-established ways of working by conducting interviews with domain experts and complemented by a literature study.
翻訳日:2024-03-15 20:07:46 公開日:2024-03-14
# VIRUS-NeRF --視覚・赤外・超音速ベースニューラルラジアンスフィールド

VIRUS-NeRF -- Vision, InfraRed and UltraSonic based Neural Radiance Fields ( http://arxiv.org/abs/2403.09477v1 )

ライセンス: Link先を確認
Nicolaj Schmid, Cornelius von Einem, Cesar Cadena, Roland Siegwart, Lorenz Hruby, Florian Tschopp, (参考訳) 自律型移動ロボットは、現代の工場や倉庫業務において、ますます不可欠な存在になりつつある。 障害物検出、回避、経路計画は、しばしば高価なLiDARセンサーと深度カメラを用いて解決される安全関連タスクである。 VIRUS-NeRF-Vision, InfraRed, UltraSonic-based Neural Radiance Fields を開発した。 Instant Neural Graphics Primitives with a Multi resolution Hash Encoding (Instant-NGP) をベースとして、VIRUS-NeRFは超音波と赤外線センサーの深さ測定を取り入れ、光線マーキングに使用される占有格子を更新する。 2Dの実験的評価は、VIRUS-NeRFがカバー範囲に関するLiDAR点雲に匹敵するマッピング性能を達成していることを示している。 特に小さな環境では、その精度はLiDARの測定値と一致しているが、より大きな環境では、利用した超音波センサーによって拘束される。 In-depth ablation studyによると、スパースデータと低視野変動を扱う場合、超音波と赤外線センサーの追加は極めて効果的である。 さらに、VIRUS-NeRFの占有グリッドは、Instant-NGPと比較してマッピング能力を改善し、トレーニング速度を46%向上させる。 全体として、VIRUS-NeRFはモバイルロボティクスにおけるコスト効率の良いローカルマッピングのための有望なアプローチを示し、安全性とナビゲーションタスクに潜在的に適用できる可能性がある。 コードはhttps://github.com/ethz-asl/virus nerfで見ることができる。

Autonomous mobile robots are an increasingly integral part of modern factory and warehouse operations. Obstacle detection, avoidance and path planning are critical safety-relevant tasks, which are often solved using expensive LiDAR sensors and depth cameras. We propose to use cost-effective low-resolution ranging sensors, such as ultrasonic and infrared time-of-flight sensors by developing VIRUS-NeRF - Vision, InfraRed, and UltraSonic based Neural Radiance Fields. Building upon Instant Neural Graphics Primitives with a Multiresolution Hash Encoding (Instant-NGP), VIRUS-NeRF incorporates depth measurements from ultrasonic and infrared sensors and utilizes them to update the occupancy grid used for ray marching. Experimental evaluation in 2D demonstrates that VIRUS-NeRF achieves comparable mapping performance to LiDAR point clouds regarding coverage. Notably, in small environments, its accuracy aligns with that of LiDAR measurements, while in larger ones, it is bounded by the utilized ultrasonic sensors. An in-depth ablation study reveals that adding ultrasonic and infrared sensors is highly effective when dealing with sparse data and low view variation. Further, the proposed occupancy grid of VIRUS-NeRF improves the mapping capabilities and increases the training speed by 46% compared to Instant-NGP. Overall, VIRUS-NeRF presents a promising approach for cost-effective local mapping in mobile robotics, with potential applications in safety and navigation tasks. The code can be found at https://github.com/ethz-asl/virus nerf.
翻訳日:2024-03-15 20:07:46 公開日:2024-03-14
# ファウンデーションファーストの在り方 : 原子スキルから複雑な推論課題への一般化をめざして

Laying the Foundation First? Investigating the Generalization from Atomic Skills to Complex Reasoning Tasks ( http://arxiv.org/abs/2403.09479v1 )

ライセンス: Link先を確認
Yuncheng Huang, Qianyu He, Yipei Xu, Jiaqing Liang, Yanghua Xiao, (参考訳) 現在の言語モデルは、基本的な推論を開発する能力を示したが、算術や単位変換のようなスキルを必要とする数学の単語問題のような、原子のスキルの組み合わせを必要とするより複雑な推論タスクに苦慮している。 従来の手法では、モデル固有の原子スキルを改善できないか、複雑な推論タスクに原子スキルを一般化しようとしないかのいずれかであった。 本稿ではまず,原子スキルが複雑な推論タスクに自然に一般化できるかどうかを探索する枠組みを提案する。 そして、より優れたスキルの一般化を実現するために、階層的なカリキュラム学習訓練戦略を導入する。 我々の実験では、原子スキルが自然に合成タスクに一般化できないことが判明した。 階層的なカリキュラム学習を活用することで、一般化を成功させ、複雑な推論タスクにおけるオープンソースのLMの性能を大幅に向上させる。 スキルの一般化は、クロスデータセットとクロスドメインのシナリオで有効である。 複雑な推論は、原子スキルの向上にも役立ちます。 我々の研究結果は、複雑な推論タスクのためのより良いトレーニング戦略を設計するための貴重なガイダンスを提供する。

Current language models have demonstrated their capability to develop basic reasoning, but struggle in more complicated reasoning tasks that require a combination of atomic skills, such as math word problem requiring skills like arithmetic and unit conversion. Previous methods either do not improve the inherent atomic skills of models or not attempt to generalize the atomic skills to complex reasoning tasks. In this paper, we first propose a probing framework to investigate whether the atomic skill can spontaneously generalize to complex reasoning tasks. Then, we introduce a hierarchical curriculum learning training strategy to achieve better skill generalization. In our experiments, we find that atomic skills can not spontaneously generalize to compositional tasks. By leveraging hierarchical curriculum learning, we successfully induce generalization, significantly improve the performance of open-source LMs on complex reasoning tasks. Promisingly, the skill generalization exhibit effective in cross-dataset and cross-domain scenarios. Complex reasoning can also help enhance atomic skills. Our findings offer valuable guidance for designing better training strategies for complex reasoning tasks.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# ダウンストリームタスクにおけるSketch Explainabilityとは何か

What Sketch Explainability Really Means for Downstream Tasks ( http://arxiv.org/abs/2403.09480v1 )

ライセンス: Link先を確認
Hmrishav Bandyopadhyay, Pinaki Nath Chowdhury, Ayan Kumar Bhunia, Aneeshan Sain, Tao Xiang, Yi-Zhe Song, (参考訳) 本稿では,従来の画素指向研究と比較して,人間の脳卒中の影響を強く強調した,説明可能性のためのスケッチの独特なモダリティについて考察する。 ネットワーク行動の説明以外にも、下流のスケッチに関連する様々なタスクにまたがる説明可能性の意味を明らかにする。 我々は軽量でポータブルな説明可能性ソリューションを提案します。これはシームレスなプラグインで、事前トレーニングされたモデルとシームレスに統合し、再トレーニングの必要性をなくします。 適応性を実証し、高度に研究された検索・生成と、完全に新規な描画・スケッチ対逆攻撃の4つの応用を提示する。 私たちのソリューションの中心となるのは、下流のタスクにリンクした場合に異なるフォームを取る、ストロークレベルの属性マップです。 ラスタ化の固有の非微分可能性に対処することにより、粗大脳卒中レベル(SLA)と部分的脳卒中レベル(P-SLA)の両方で説明が可能となり、それぞれが特定の下流タスクに有利である。

In this paper, we explore the unique modality of sketch for explainability, emphasising the profound impact of human strokes compared to conventional pixel-oriented studies. Beyond explanations of network behavior, we discern the genuine implications of explainability across diverse downstream sketch-related tasks. We propose a lightweight and portable explainability solution -- a seamless plugin that integrates effortlessly with any pre-trained model, eliminating the need for re-training. Demonstrating its adaptability, we present four applications: highly studied retrieval and generation, and completely novel assisted drawing and sketch adversarial attacks. The centrepiece to our solution is a stroke-level attribution map that takes different forms when linked with downstream tasks. By addressing the inherent non-differentiability of rasterisation, we enable explanations at both coarse stroke level (SLA) and partial stroke level (P-SLA), each with its advantages for specific downstream tasks.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# ベイジアンネットワークを用いた語彙データとテキストによる臨床推論

Clinical Reasoning over Tabular Data and Text with Bayesian Networks ( http://arxiv.org/abs/2403.09481v1 )

ライセンス: Link先を確認
Paloma Rabaey, Johannes Deleu, Stefan Heytens, Thomas Demeester, (参考訳) ベイジアンネットワークは、表形式のデータに対する臨床推論には適しているが、ニューラルネットワークが成功したフレームワークを提供する自然言語データとの互換性が低い。 本稿では,ベイジアンネットワークとニューラルテキスト表現を生成的・識別的に比較検討する。 本研究は, プライマリ・ケア・ユースケース(肺炎の診断)のシミュレーション結果と, より広い臨床文脈で考察した。

Bayesian networks are well-suited for clinical reasoning on tabular data, but are less compatible with natural language data, for which neural networks provide a successful framework. This paper compares and discusses strategies to augment Bayesian networks with neural text representations, both in a generative and discriminative manner. This is illustrated with simulation results for a primary care use case (diagnosis of pneumonia) and discussed in a broader clinical context.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# SpikeReveal:スパイクストリームでリアルタイムのBlurry入力からテンポラルシーケンスをアンロック

SpikeReveal: Unlocking Temporal Sequences from Real Blurry Inputs with Spike Streams ( http://arxiv.org/abs/2403.09486v1 )

ライセンス: Link先を確認
Kang Chen, Shiyan Chen, Jiyuan Zhang, Baoyue Zhang, Yajing Zheng, Tiejun Huang, Zhaofei Yu, (参考訳) 鮮明な画像列をぼやけた入力から再構成することは、捉えたシーンに対する洞察を高めるのに不可欠であり、画像に埋め込まれた時間的特徴が限られているため、重要な課題となる。 最大4万Hzの速度でサンプリングするスパイクカメラは、運動の特徴を捉え、この不適切な問題を解くのに有効であることが証明されている。 それにもかかわらず、既存の手法は教師付き学習パラダイムに陥り、合成トレーニングデータドメインから分岐する実世界のシナリオに適用した場合、顕著なパフォーマンス劣化に悩まされる。 さらに, 実際のシーンと本質的に異なる動き解析補間に基づいて生成した画像によって再構成画像の品質を抑え, 実時間シナリオにおけるこれらの手法の一般化能力に影響を及ぼす。 これらの課題に対処するために、スパイク誘導動作の劣化に対する最初の自己教師型フレームワークを提案する。 我々のアプローチは、スパイクストリーム、ぼやけた画像、およびそれに対応するシャープシーケンス間の理論的関係を探索するスパイク誘導型デブロアリングモデルの定式化から始まる。 そこで我々は,デブロアリングモデルで発生するスパイクノイズや空間分解能のミスマッチの問題を緩和する,自己教師型カスケードフレームワークを開発した。 知識蒸留と再ブルーリング損失を伴って,明度とテクスチャの整合性を有する高品質なシーケンスを生成する軽量デブルーネットワークを設計する。 実世界および合成データセットのスパイクを用いた定量的および定性的な実験により、提案フレームワークの優れた一般化が検証された。 私たちのコード、データ、トレーニングされたモデルは、 \url{https://github.com/chenkang455/S-SDM}で利用可能になります。

Reconstructing a sequence of sharp images from the blurry input is crucial for enhancing our insights into the captured scene and poses a significant challenge due to the limited temporal features embedded in the image. Spike cameras, sampling at rates up to 40,000 Hz, have proven effective in capturing motion features and beneficial for solving this ill-posed problem. Nonetheless, existing methods fall into the supervised learning paradigm, which suffers from notable performance degradation when applied to real-world scenarios that diverge from the synthetic training data domain. Moreover, the quality of reconstructed images is capped by the generated images based on motion analysis interpolation, which inherently differs from the actual scene, affecting the generalization ability of these methods in real high-speed scenarios. To address these challenges, we propose the first self-supervised framework for the task of spike-guided motion deblurring. Our approach begins with the formulation of a spike-guided deblurring model that explores the theoretical relationships among spike streams, blurry images, and their corresponding sharp sequences. We subsequently develop a self-supervised cascaded framework to alleviate the issues of spike noise and spatial-resolution mismatching encountered in the deblurring model. With knowledge distillation and re-blurring loss, we further design a lightweight deblur network to generate high-quality sequences with brightness and texture consistency with the original input. Quantitative and qualitative experiments conducted on our real-world and synthetic datasets with spikes validate the superior generalization of the proposed framework. Our code, data and trained models will be available at \url{https://github.com/chenkang455/S-SDM}.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# 文脈内学習における実証的ショートカットの定式化

Rectifying Demonstration Shortcut in In-Context Learning ( http://arxiv.org/abs/2403.09488v1 )

ライセンス: Link先を確認
Joonwon Jang, Sanghwan Jang, Wonbin Kweon, Minjin Jeon, Hwanjo Yu, (参考訳) 大規模言語モデル(LLM)は、ICL(In-context Learning)能力を利用したいくつかのデモで、様々なタスクを解くことができる。 しかし、LCMはICL予測を進めるために、インプット-ラベル関係よりも、事前に訓練されたデモのセマンティック先行に頼っていることが多い。 本研究では,この現象を「実証ショートカット」と呼ぶ。 従来の研究は主に、事前定義されたタスクに対するICL予測結果の改善に重点を置いているが、我々はデモから新たなインプット-ラベル関係を効果的に学習できるように、Demonstration Shortcutの修正を目指している。 これを実現するために,実証対応キャリブレーション手法であるIn-Context Calibrationを導入する。 提案手法の有効性を,(1)標準ラベル空間を用いたオリジナルICLタスク,(2)意味不明なトークンでラベル空間を置き換えるタスク学習設定の2つの設定で評価する。 どちらの設定でも、In-Context Calibrationは大幅に改善され、様々な構成で3つのLLMファミリ(OPT、GPT、Llama2)にまたがって結果が一般化される。

Large language models (LLMs) are able to solve various tasks with only a few demonstrations utilizing their in-context learning (ICL) abilities. However, LLMs often rely on their pre-trained semantic priors of demonstrations rather than on the input-label relationships to proceed with ICL prediction. In this work, we term this phenomenon as the `Demonstration Shortcut'. While previous works have primarily focused on improving ICL prediction results for predefined tasks, we aim to rectify the Demonstration Shortcut, thereby enabling the LLM to effectively learn new input-label relationships from demonstrations. To achieve this, we introduce In-Context Calibration, a demonstration-aware calibration method. We evaluate the effectiveness of the proposed method in two settings: (1) the Original ICL Task using the standard label space and (2) the Task Learning setting, where the label space is replaced with semantically unrelated tokens. In both settings, In-Context Calibration demonstrates substantial improvements, with results generalized across three LLM families (OPT, GPT, and Llama2) under various configurations.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# Hyper-CL: Hypernetworksによる条件付き文表現

Hyper-CL: Conditioning Sentence Representations with Hypernetworks ( http://arxiv.org/abs/2403.09490v1 )

ライセンス: Link先を確認
Young Hyun Yoo, Jii Cha, Changhyeon Kim, Taeuk Kim, (参考訳) 文表現学習における対照的な学習フレームワークの導入は、この分野の進歩に大きく寄与しているが、現状の文埋め込みが、特に特定の視点で条件付けられた場合、文の微細な意味を捉えることができるかどうかはまだ不明である。 本稿では,ハイパーネットワークとコントラスト学習を統合し,条件付き文表現を計算する手法であるHyper-CLを紹介する。 提案手法では,計算済み条件埋め込みを対応する射影層に変換する。 これにより、同じ文の埋め込みを様々な条件に応じて異なる方法で投影することができる。 条件付きセマンティックテキスト類似性と知識グラフ補完という2つの代表的な条件付けベンチマークの評価は,ハイパーCLが文表現の柔軟条件付けに有効であることを示し,その計算効率を同時に示す。 また、我々のアプローチの内部動作を包括的に分析し、そのメカニズムをよりよく解釈する。

While the introduction of contrastive learning frameworks in sentence representation learning has significantly contributed to advancements in the field, it still remains unclear whether state-of-the-art sentence embeddings can capture the fine-grained semantics of sentences, particularly when conditioned on specific perspectives. In this paper, we introduce Hyper-CL, an efficient methodology that integrates hypernetworks with contrastive learning to compute conditioned sentence representations. In our proposed approach, the hypernetwork is responsible for transforming pre-computed condition embeddings into corresponding projection layers. This enables the same sentence embeddings to be projected differently according to various conditions. Evaluation on two representative conditioning benchmarks, namely conditional semantic text similarity and knowledge graph completion, demonstrates that Hyper-CL is effective in flexibly conditioning sentence representations, showcasing its computational efficiency at the same time. We also provide a comprehensive analysis of the inner workings of our approach, leading to a better interpretation of its mechanisms.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# 自動車衝突検出のための機械学習アルゴリズムの利用について

On using Machine Learning Algorithms for Motorcycle Collision Detection ( http://arxiv.org/abs/2403.09491v1 )

ライセンス: Link先を確認
Philipp Rodegast, Steffen Maier, Jonas Kneifl, Jörg Fehr, (参考訳) 世界的には、オートバイは多様で多様なユーザーを惹きつけている。 しかし、自動車事故の重傷率や死亡率は旅客自動車事故をはるかに上回っているため、受動的安全システムの向上に向けた取り組みが進められている。 衝突シミュレーションにより,エアバッグやシートベルトなどの受動的安全対策を装備すれば,車両衝突時の重傷や死亡のリスクを大幅に低減できることが示された。 受動安全システムが起動するには、様々な衝撃配置のためにミリ秒以内に衝突を検知する必要があるが、いかなる状況下においても、それは誤って引き起こされる可能性がある。 本稿では,衝突を確実に検出する上での課題として,機械学習アルゴリズムの適用性について検討する。 まず,事故と運転動作のシミュレーションを行い,機械学習の分類モデルを学習するためのデータ収集を行う。 それらのパフォーマンスは、複数の代表およびアプリケーション指向の基準によって評価され、比較される。

Globally, motorcycles attract vast and varied users. However, since the rate of severe injury and fatality in motorcycle accidents far exceeds passenger car accidents, efforts have been directed toward increasing passive safety systems. Impact simulations show that the risk of severe injury or death in the event of a motorcycle-to-car impact can be greatly reduced if the motorcycle is equipped with passive safety measures such as airbags and seat belts. For the passive safety systems to be activated, a collision must be detected within milliseconds for a wide variety of impact configurations, but under no circumstances may it be falsely triggered. For the challenge of reliably detecting impending collisions, this paper presents an investigation towards the applicability of machine learning algorithms. First, a series of simulations of accidents and driving operation is introduced to collect data to train machine learning classification models. Their performance is henceforth assessed and compared via multiple representative and application-oriented criteria.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# 事前学習型視覚言語モデルの適用による異常検出

Anomaly Detection by Adapting a pre-trained Vision Language Model ( http://arxiv.org/abs/2403.09493v1 )

ライセンス: Link先を確認
Yuxuan Cai, Xinwei He, Dingkang Liang, Ao Tong, Xiang Bai, (参考訳) 近年,多くのダウンストリームタスクに適応する上で,大きなビジョンと言語モデルが成功している。 本稿では,事前学習したCLIPモデルに適応して,異常検出のためのCLIP-ADAという統合フレームワークを提案する。 この目的のために、私たちは2つの重要な改善を行いました。 1) 複数のカテゴリの産業画像間での統一された異常検出を実現するために,学習可能なプロンプトを導入し,自己教師付き学習を通して異常パターンと関連付けることを提案する。 2)CLIPの表現能力をフル活用するために,局所化品質を向上するための異常領域改善戦略を導入する。 テスト中は、学習可能なプロンプトの表現と画像との類似性を直接計算することにより、異常を局所化する。 MVTec-AD と VisA による異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 の総合的な実験により,我々のフレームワークの優位性を実証した。 さらに,本手法は,より難易度の高い限界訓練データによる性能向上も実現している。

Recently, large vision and language models have shown their success when adapting them to many downstream tasks. In this paper, we present a unified framework named CLIP-ADA for Anomaly Detection by Adapting a pre-trained CLIP model. To this end, we make two important improvements: 1) To acquire unified anomaly detection across industrial images of multiple categories, we introduce the learnable prompt and propose to associate it with abnormal patterns through self-supervised learning. 2) To fully exploit the representation power of CLIP, we introduce an anomaly region refinement strategy to refine the localization quality. During testing, the anomalies are localized by directly calculating the similarity between the representation of the learnable prompt and the image. Comprehensive experiments demonstrate the superiority of our framework, e.g., we achieve the state-of-the-art 97.5/55.6 and 89.3/33.1 on MVTec-AD and VisA for anomaly detection and localization. In addition, the proposed method also achieves encouraging performance with marginal training data, which is more challenging.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# 懐疑論から受容へ:フェイクニュースへの態度ダイナミクスのシミュレーション

From Skepticism to Acceptance: Simulating the Attitude Dynamics Toward Fake News ( http://arxiv.org/abs/2403.09498v1 )

ライセンス: Link先を確認
Yuhan Liu, Xiuying Chen, Xiaoqing Zhang, Xing Gao, Ji Zhang, Rui Yan, (参考訳) デジタル時代には、偽ニュースや噂がソーシャルネットワークを通じて急速に広まり、社会的課題が顕著になり、世論の規制に影響を及ぼす。 伝統的な偽ニュースモデリングは、通常、異なるグループの一般的な人気傾向を予測したり、意見の変化を数値的に表す。 しかし、これらの手法はしばしば現実の複雑さを単純化し、ニューステキストのリッチな意味情報を見落としている。 大きな言語モデル(LLM)の出現は、微妙な意見力学をモデル化する可能性をもたらす。 そこで本研究では,Fake News Propagation Simulation framework (FPS) について述べる。 具体的には、シミュレーションの各エージェントは、異なる個性を持つ個人を表す。 それらは短期記憶と長期記憶の両方を備えており、人間のような思考を模倣する反射機構を備えている。 毎日、ランダムな意見交換を行い、自分の考えを反映し、意見を更新します。 シミュレーションの結果,話題の関連性や個々の特徴に関連する偽ニュースの伝播パターンが,実世界の観測と一致していることがわかった。 さらに、様々な介入戦略を評価し、早期かつ適切に頻繁な介入がガバナンスコストと効果のバランスを保ち、実用的なアプリケーションに貴重な洞察を提供することを示す。 本研究は,偽ニュース対策におけるLLMの意義と可能性を明らかにするものである。

In the digital era, the rapid propagation of fake news and rumors via social networks brings notable societal challenges and impacts public opinion regulation. Traditional fake news modeling typically forecasts the general popularity trends of different groups or numerically represents opinions shift. However, these methods often oversimplify real-world complexities and overlook the rich semantic information of news text. The advent of large language models (LLMs) provides the possibility of modeling subtle dynamics of opinion. Consequently, in this work, we introduce a Fake news Propagation Simulation framework (FPS) based on LLM, which studies the trends and control of fake news propagation in detail. Specifically, each agent in the simulation represents an individual with a distinct personality. They are equipped with both short-term and long-term memory, as well as a reflective mechanism to mimic human-like thinking. Every day, they engage in random opinion exchanges, reflect on their thinking, and update their opinions. Our simulation results uncover patterns in fake news propagation related to topic relevance, and individual traits, aligning with real-world observations. Additionally, we evaluate various intervention strategies and demonstrate that early and appropriately frequent interventions strike a balance between governance cost and effectiveness, offering valuable insights for practical applications. Our study underscores the significant utility and potential of LLMs in combating fake news.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# Qラーニングを用いた乳牛用バッテリー管理への強化学習アプローチ

A Reinforcement Learning Approach to Dairy Farm Battery Management using Q Learning ( http://arxiv.org/abs/2403.09499v1 )

ライセンス: Link先を確認
Nawazish Ali, Abdul Wahid, Rachael Shaw, Karl Mason, (参考訳) 乳牛の農業はかなりの量のエネルギーを消費しており、農業のエネルギー集約部門となっている。 再生可能エネルギーの農業への統合は、この課題に対処するのに役立つ。 再生可能エネルギーの創出に有効な電池管理が重要である。 電力消費の変動、再生可能エネルギーの断続的な性質、エネルギー価格の変動など、バッテリー充電と放電の管理は大きな課題となっている。 人工知能(AI)は、乳園農業における再生可能エネルギーの利用を著しく改善する可能性があるが、この領域では限定的な研究が行われている。 本研究は、アイルランドを再生可能エネルギーの利用を中心とした2030年のエネルギー戦略の達成に向けたケーススタディとみなす。 本研究は, 乳園における電池充電と排出をスケジューリングするQラーニングに基づくアルゴリズムを提案する。 本研究は,風力発生データの追加とケーススタディの追加による提案アルゴリズムの効果についても検討する。 提案アルゴリズムは,送電網からの電力輸入コストを13.41 %,ピーク需要を2 %,風力発電を24.49 %削減する。 これらの結果は, 農林水産部門における増補学習が, バッテリー管理に極めて有効であることを示すものである。

Dairy farming consumes a significant amount of energy, making it an energy-intensive sector within agriculture. Integrating renewable energy generation into dairy farming could help address this challenge. Effective battery management is important for integrating renewable energy generation. Managing battery charging and discharging poses significant challenges because of fluctuations in electrical consumption, the intermittent nature of renewable energy generation, and fluctuations in energy prices. Artificial Intelligence (AI) has the potential to significantly improve the use of renewable energy in dairy farming, however, there is limited research conducted in this particular domain. This research considers Ireland as a case study as it works towards attaining its 2030 energy strategy centered on the utilization of renewable sources. This study proposes a Q-learning-based algorithm for scheduling battery charging and discharging in a dairy farm setting. This research also explores the effect of the proposed algorithm by adding wind generation data and considering additional case studies. The proposed algorithm reduces the cost of imported electricity from the grid by 13.41\%, peak demand by 2\%, and 24.49\% when utilizing wind generation. These results underline how reinforcement learning is highly effective in managing batteries in the dairy farming sector.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# Faceptor: 顔認識のためのジェネリストモデル

Faceptor: A Generalist Model for Face Perception ( http://arxiv.org/abs/2403.09500v1 )

ライセンス: Link先を確認
Lixiong Qin, Mei Wang, Xuannan Liu, Yuhang Zhang, Wei Deng, Xiaoshuai Song, Weiran Xu, Weihong Deng, (参考訳) 様々な顔分析タスクに関する総合的な研究により、研究者の間では、顔の知覚に統一的なアプローチを開発することへの関心が高まっている。 既存の手法では、タスクの拡張性やアプリケーションの効率性に欠ける統一表現とトレーニングを主に議論している。 この問題に対処するために、我々は統合モデル構造に注目し、顔ジェネラリストモデルを探究する。 直感的な設計として、Naive Faceptorは、同じ出力形状と粒度を持つタスクを標準化された出力ヘッドの構造設計を共有することを可能にし、タスク拡張性の向上を実現している。 さらに、Fceptorはよく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用し、タスク固有のクエリが新しいセマンティクスを表現できるようにする。 この設計は、ストレージオーバーヘッドの観点からアプリケーションの効率を向上しつつ、モデル構造の統合を強化する。 さらに、FceptorにLayer-Attentionを導入し、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行できるようにします。 13の顔認識データセットのジョイントトレーニングを通じて、顔のランドマークのローカライゼーション、顔解析、年齢推定、表現認識、二項属性分類、顔認識において例外的なパフォーマンスを達成し、ほとんどのタスクにおいて特殊手法を達成または超越する。 我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。 コードとモデルはhttps://github.com/lxq1000/Faceptor.comで公開される。

With the comprehensive research conducted on various face analysis tasks, there is a growing interest among researchers to develop a unified approach to face perception. Existing methods mainly discuss unified representation and training, which lack task extensibility and application efficiency. To tackle this issue, we focus on the unified model structure, exploring a face generalist model. As an intuitive design, Naive Faceptor enables tasks with the same output shape and granularity to share the structural design of the standardized output head, achieving improved task extensibility. Furthermore, Faceptor is proposed to adopt a well-designed single-encoder dual-decoder architecture, allowing task-specific queries to represent new-coming semantics. This design enhances the unification of model structure while improving application efficiency in terms of storage overhead. Additionally, we introduce Layer-Attention into Faceptor, enabling the model to adaptively select features from optimal layers to perform the desired tasks. Through joint training on 13 face perception datasets, Faceptor achieves exceptional performance in facial landmark localization, face parsing, age estimation, expression recognition, binary attribute classification, and face recognition, achieving or surpassing specialized methods in most tasks. Our training framework can also be applied to auxiliary supervised learning, significantly improving performance in data-sparse tasks such as age estimation and expression recognition. The code and models will be made publicly available at https://github.com/lxq1000/Faceptor.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# EquiAV: オーディオ・ビジュアル・コントラスト学習のための等価性を活用する

EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning ( http://arxiv.org/abs/2403.09502v1 )

ライセンス: Link先を確認
Jongsuk Kim, Hyeongkeun Lee, Kyeongha Rho, Junmo Kim, Joon Son Chung, (参考訳) 近年の自己教師型音声視覚表現学習の進歩は、リッチで包括的な表現を捉える可能性を示している。 しかし、多くの学習手法で検証されたデータ拡張の利点にもかかわらず、音声視覚学習は、入力ペア間の対応を容易に妨害できるため、これらの利点を十分に活用するのに苦労している。 この制限に対処するために,音声・視覚のコントラスト学習に等価性を利用する新しいフレームワークであるEquiAVを紹介する。 我々のアプローチは、共有注意に基づく変換予測器によって促進される音声視覚学習への同値性の拡張から始まる。 多様な拡張から代表的な埋め込みへの機能の集約を可能にし、堅牢な監視を可能にします。 特に、これは最小の計算オーバーヘッドで達成される。 大規模なアブレーション研究と定性的な結果により,本手法の有効性が検証された。 EquiAVは、様々なオーディオ・ビジュアル・ベンチマークで過去の作品を上回っている。

Recent advancements in self-supervised audio-visual representation learning have demonstrated its potential to capture rich and comprehensive representations. However, despite the advantages of data augmentation verified in many learning methods, audio-visual learning has struggled to fully harness these benefits, as augmentations can easily disrupt the correspondence between input pairs. To address this limitation, we introduce EquiAV, a novel framework that leverages equivariance for audio-visual contrastive learning. Our approach begins with extending equivariance to audio-visual learning, facilitated by a shared attention-based transformation predictor. It enables the aggregation of features from diverse augmentations into a representative embedding, providing robust supervision. Notably, this is achieved with minimal computational overhead. Extensive ablation studies and qualitative results verify the effectiveness of our method. EquiAV outperforms previous works across various audio-visual benchmarks.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# 見た目で判断するな:ビデオ認識のための動きコヒーレント強化

Don't Judge by the Look: A Motion Coherent Augmentation for Video Recognition ( http://arxiv.org/abs/2403.09506v1 )

ライセンス: Link先を確認
Yitian Zhang, Yue Bai, Huan Wang, Yizhou Wang, Yun Fu, (参考訳) オブジェクト認識における現在のトレーニングパイプラインは、データ拡張を行う際のHue Jitteringを無視している。 本研究では,映像情報を含む映像において,静的な外観が重要でないため,映像認識における色相の相違が有益であることを示す。 そこで本研究では,ビデオ認識のためのデータ拡張手法であるMotion Coherent Augmentation (MCA)を提案する。 具体的には,映像サンプルの外観を効率よく修正するSwapMix操作を提案し,SwapMixによる分布変化を解消するためにVAを導入し,そのモデルに外見不変表現の学習を強制する。 様々なアーキテクチャおよび異なるデータセットにわたる総合的な経験的評価は、MCAの有効性と一般化能力、および他の拡張手法におけるVAの適用をしっかりと検証する。 コードはhttps://github.com/BeSpontaneous/MCA-pytorchで入手できる。

Current training pipelines in object recognition neglect Hue Jittering when doing data augmentation as it not only brings appearance changes that are detrimental to classification, but also the implementation is inefficient in practice. In this study, we investigate the effect of hue variance in the context of video recognition and find this variance to be beneficial since static appearances are less important in videos that contain motion information. Based on this observation, we propose a data augmentation method for video recognition, named Motion Coherent Augmentation (MCA), that introduces appearance variation in videos and implicitly encourages the model to prioritize motion patterns, rather than static appearances. Concretely, we propose an operation SwapMix to efficiently modify the appearance of video samples, and introduce Variation Alignment (VA) to resolve the distribution shift caused by SwapMix, enforcing the model to learn appearance invariant representations. Comprehensive empirical evaluation across various architectures and different datasets solidly validates the effectiveness and generalization ability of MCA, and the application of VA in other augmentation methods. Code is available at https://github.com/BeSpontaneous/MCA-pytorch.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# グラフニューラルネットワークによるコード反転予測: J.P. Morgan Chaseでのケーススタディ

Code Revert Prediction with Graph Neural Networks: A Case Study at J.P. Morgan Chase ( http://arxiv.org/abs/2403.09507v1 )

ライセンス: Link先を確認
Yulong Pei, Salwa Alamir, Rares Dolga, Sameena Shah, (参考訳) コードリバース予測(Code Revert Prediction)は、ソフトウェア欠陥検出の特殊な形式であり、コード変更がソフトウェア開発で逆転またはロールバックされる可能性を予測または予測することを目的としている。 このタスクは、逆転しやすいコード変更を特定することで、開発者とプロジェクトマネージャが積極的に対策を講じ、問題を避け、コード品質を改善し、開発プロセスを最適化できるため、実際には非常に重要です。 しかし、コード欠陥検出と比較して、コード逆転予測は以前の研究ではほとんど研究されていない。 さらに、コード欠陥検出の多くの従来の方法は、独立した機能に依存していたが、コードスクリプト間の関係を無視していた。 さらに、企業の規制、限られた機能、大規模なコードベースといった業界環境の制約により、新たな課題がもたらされる。 これらの制約を克服するために,コードインポートグラフとコード機能を統合する,コード逆転予測の体系的研究を行った。 異常とデータ不均衡に対処するさまざまな戦略が実装され、不均衡分類と異常検出を備えたグラフニューラルネットワークが実装されている。 J.P. Morgan Chase 内の実世界のコードコミットデータについて実験を行い、コード反転予測問題に対するこれらの異なるアプローチを包括的に比較するため、非常に不均衡である。

Code revert prediction, a specialized form of software defect detection, aims to forecast or predict the likelihood of code changes being reverted or rolled back in software development. This task is very important in practice because by identifying code changes that are more prone to being reverted, developers and project managers can proactively take measures to prevent issues, improve code quality, and optimize development processes. However, compared to code defect detection, code revert prediction has been rarely studied in previous research. Additionally, many previous methods for code defect detection relied on independent features but ignored relationships between code scripts. Moreover, new challenges are introduced due to constraints in an industry setting such as company regulation, limited features and large-scale codebase. To overcome these limitations, this paper presents a systematic empirical study for code revert prediction that integrates the code import graph with code features. Different strategies to address anomalies and data imbalance have been implemented including graph neural networks with imbalance classification and anomaly detection. We conduct the experiments on real-world code commit data within J.P. Morgan Chase which is extremely imbalanced in order to make a comprehensive comparison of these different approaches for the code revert prediction problem.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# SkateFormer:人間の行動認識のための骨格時間変換器

SkateFormer: Skeletal-Temporal Transformer for Human Action Recognition ( http://arxiv.org/abs/2403.09508v1 )

ライセンス: Link先を確認
Jeonghyeok Do, Munchurl Kim, (参考訳) スケルトンに基づく行動認識は関節の座標と骨格データ内の接続性に基づいて人間の行動を分類し、様々なシナリオで広く利用されている。 グラフ畳み込みネットワーク(GCN)は、グラフとして表される骨格データに対して提案されているが、それらは結合接続によって制限される限られた受容領域に悩まされている。 この制限に対処するため、最近の進歩はトランスフォーマーベースの手法を導入している。 しかし、すべてのフレームで全てのジョイント間の相関を捉えるには、かなりのメモリリソースが必要である。 そこで本稿では,骨格・時間的関係(Skate-Type)の異なるタイプの骨格・時間的関係(Skate-MSA)に基づいて関節とフレームを分割し,各分割内で骨格・時間的自己意識(Skate-MSA)を行う,SkateFormer(SkateFormer)と呼ばれる新しいアプローチを提案する。 本研究は,行動認識のための重要な骨格・時間的関係を4つの異なるタイプに分類する。 これらの種類が組み合わさる 一 物理的に隣人及び遠方の関節に基づく二種類の骨格関係の種類及び (ii)隣接するフレームと遠方のフレームに基づく2つの時間的関係型。 この分割特異的アテンション戦略により、SkateFormerはアクション認識に不可欠なキージョイントとフレームを、効率的な計算で選択的にフォーカスすることができる。 さまざまなベンチマークデータセットに対する大規模な実験により、SkateFormerは最近の最先端の手法よりも優れていることが確認された。

Skeleton-based action recognition, which classifies human actions based on the coordinates of joints and their connectivity within skeleton data, is widely utilized in various scenarios. While Graph Convolutional Networks (GCNs) have been proposed for skeleton data represented as graphs, they suffer from limited receptive fields constrained by joint connectivity. To address this limitation, recent advancements have introduced transformer-based methods. However, capturing correlations between all joints in all frames requires substantial memory resources. To alleviate this, we propose a novel approach called Skeletal-Temporal Transformer (SkateFormer) that partitions joints and frames based on different types of skeletal-temporal relation (Skate-Type) and performs skeletal-temporal self-attention (Skate-MSA) within each partition. We categorize the key skeletal-temporal relations for action recognition into a total of four distinct types. These types combine (i) two skeletal relation types based on physically neighboring and distant joints, and (ii) two temporal relation types based on neighboring and distant frames. Through this partition-specific attention strategy, our SkateFormer can selectively focus on key joints and frames crucial for action recognition in an action-adaptive manner with efficient computation. Extensive experiments on various benchmark datasets validate that our SkateFormer outperforms recent state-of-the-art methods.
翻訳日:2024-03-15 19:57:52 公開日:2024-03-14
# 安全な自動運転の分散開発のためのSTPAについて:インタビュー研究

On STPA for Distributed Development of Safe Autonomous Driving: An Interview Study ( http://arxiv.org/abs/2403.09509v1 )

ライセンス: Link先を確認
Ali Nouri, Christian Berger, Fredrik Törner, (参考訳) 安全分析は、安全関連機能の設計フェーズにおいて、ハザードを特定し、知識を構築するために用いられる。 これは、Autonomous Drive (AD)のような複雑なAI対応およびソフトウェア集約システムに特に当てはまる。 System-Theoretic Process Analysis (STPA)は、防衛や航空宇宙といった安全関連分野に適用される新しい手法であり、自動車産業でも普及している。 しかし、STPAは、分散システム開発とマルチアトラクション設計レベルを備えた自動車システム工学において、完全には有効でない前提条件を前提としている。 これにより、ソフトウェア開発者は、より大きなシステムの一部としてソフトウェアを分析するためにSTPAを使用するのを妨げ、結果としてトレーサビリティが欠如する。 これは継続的開発とデプロイメント(DevOps)における保守性の問題と見なすことができる。 本稿では、自動車産業におけるSTPAの異なるガイドラインであるJ31887/ISO21448/STPAハンドブックを比較し、ADのような複雑なAI対応システムの分散開発への適用性を評価する。 さらに,マルチレベル設計におけるSTPAの課題を克服する手法を提案する。 自動車業界の専門家を対象にAD開発に関するインタビュー研究を行い,課題を検証し,提案手法の有効性を評価する。

Safety analysis is used to identify hazards and build knowledge during the design phase of safety-relevant functions. This is especially true for complex AI-enabled and software intensive systems such as Autonomous Drive (AD). System-Theoretic Process Analysis (STPA) is a novel method applied in safety-related fields like defense and aerospace, which is also becoming popular in the automotive industry. However, STPA assumes prerequisites that are not fully valid in the automotive system engineering with distributed system development and multi-abstraction design levels. This would inhibit software developers from using STPA to analyze their software as part of a bigger system, resulting in a lack of traceability. This can be seen as a maintainability challenge in continuous development and deployment (DevOps). In this paper, STPA's different guidelines for the automotive industry, e.g. J31887/ISO21448/STPA handbook, are firstly compared to assess their applicability to the distributed development of complex AI-enabled systems like AD. Further, an approach to overcome the challenges of using STPA in a multi-level design context is proposed. By conducting an interview study with automotive industry experts for the development of AD, the challenges are validated and the effectiveness of the proposed approach is evaluated.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# AI規制を信頼する? 利用者を識別することは、信頼と効果的なAI規制を構築する上で不可欠である

Trust AI Regulation? Discerning users are vital to build trust and effective AI regulation ( http://arxiv.org/abs/2403.09510v1 )

ライセンス: Link先を確認
Zainab Alalawi, Paolo Bova, Theodor Cimpeanu, Alessandro Di Stefano, Manh Hong Duong, Elias Fernandez Domingos, The Anh Han, Marcus Krellner, Bianca Ogbo, Simon T. Powers, Filippo Zimmaro, (参考訳) AI作成者が信頼できるシステムを開発するためにインセンティブを与えられることや、ユーザが実際にこれらのシステムを信頼するためには、何らかの形態の規制が必要であるという一般的な合意がある。 しかし、これらの規則がどのような形を取るべきか、どのように実施されるべきかについては、多くの議論がある。 この分野のほとんどの研究は定性的であり、正式な予測を行うことができなかった。 ここでは、進化ゲーム理論を用いて、ユーザ、AI作成者、規制当局が直面するジレンマを定量的にモデル化し、異なる規制体制の影響についての洞察を提供する。 我々は、信頼できるAIとユーザー信頼を生み出すためには、規制を効果的に規制するインセンティブを必要とすることを示す。 これを実現するための2つのメカニズムの有効性を実証する。 ひとつは、政府が良い仕事をする規制当局を承認し、報奨する場です。 その場合、AIシステムがユーザにとってあまり危険でない場合、ある程度の信頼性の高い開発とユーザ信頼が進化します。 次に,規制当局の有効性について,ユーザが信頼判断を強制できる代替ソリューションを検討する。 これは効果的な規制につながり、結果として信頼できるAIとユーザ信頼の開発につながります。 本研究は,進化ゲーム理論の観点から,異なる規制体制の効果を考慮することの重要性を強調した。

There is general agreement that some form of regulation is necessary both for AI creators to be incentivised to develop trustworthy systems, and for users to actually trust those systems. But there is much debate about what form these regulations should take and how they should be implemented. Most work in this area has been qualitative, and has not been able to make formal predictions. Here, we propose that evolutionary game theory can be used to quantitatively model the dilemmas faced by users, AI creators, and regulators, and provide insights into the possible effects of different regulatory regimes. We show that creating trustworthy AI and user trust requires regulators to be incentivised to regulate effectively. We demonstrate the effectiveness of two mechanisms that can achieve this. The first is where governments can recognise and reward regulators that do a good job. In that case, if the AI system is not too risky for users then some level of trustworthy development and user trust evolves. We then consider an alternative solution, where users can condition their trust decision on the effectiveness of the regulators. This leads to effective regulation, and consequently the development of trustworthy AI and user trust, provided that the cost of implementing regulations is not too high. Our findings highlight the importance of considering the effect of different regulatory regimes from an evolutionary game theoretic perspective.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# メルミン様ゲームにおけるより良い量子アドバンテージのための有限ジオメトリーの爆発

Exploiting Finite Geometries for Better Quantum Advantages in Mermin-Like Games ( http://arxiv.org/abs/2403.09512v1 )

ライセンス: Link先を確認
Colm Kelleher, Frédéric Holweck, Péter Lévay, (参考訳) 量子ゲームは、絡み合いや文脈性のような量子現象の非直感的な結果を表す。 Mermin-Peresゲームは単純な例であり、2人のプレイヤーが共有量子情報を利用して、古典的なプレイヤーができない確実な通信ゲームに勝つ方法を示している。 本稿では、このような古典的戦略の背後にある幾何学的構造を考察し、この量子的優位性を最大化するためにシンプレクティック極空間の幾何学からアイデアを借りる。 メルミン・ペレスゲームやドミリーゲームよりも大きい$0.2\overline{6}$の量子古典的成功ギャップを持つエロアゲームと呼ばれる新しいゲームを導入する。 我々はこのゲームをIBM Quantum Experienceでシミュレートし、古典的境界である0.7\overline{3}$を破って1ドルの成功率を得る。

Quantum games embody non-intuitive consequences of quantum phenomena, such as entanglement and contextuality. The Mermin-Peres game is a simple example, demonstrating how two players can utilise shared quantum information to win a no - communication game with certainty, where classical players cannot. In this paper we look at the geometric structure behind such classical strategies, and borrow ideas from the geometry of symplectic polar spaces to maximise this quantum advantage. We introduce a new game called the Eloily game with a quantum-classical success gap of $0.2\overline{6}$, larger than that of the Mermin-Peres and doily games. We simulate this game in the IBM Quantum Experience and obtain a success rate of $1$, beating the classical bound of $0.7\overline{3}$ demonstrating the efficiency of the quantum strategy.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# AdaShield:Adaptive Shield Promptingによる構造ベースアタックからのマルチモーダルな大規模言語モデルの保護

AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting ( http://arxiv.org/abs/2403.09513v1 )

ライセンス: Link先を確認
Yu Wang, Xiaogeng Liu, Yu Li, Muhao Chen, Chaowei Xiao, (参考訳) MLLM(Multimodal Large Language Models)の出現と普及に伴い、安全性の確保がますます顕著になっている。 しかし、追加のモダリティの統合により、MLLMは新たな脆弱性に晒され、構造化されたベースのジェイルブレイク攻撃に陥りやすくなり、セマンティックコンテンツ(例:「有害テキスト」)がイメージに注入されてMLLMを誤解させる。 この作業では、このような脅威に対して防御することを目指しています。 具体的には、MLLMを微調整したり、追加モジュール(例えば、ポストステージコンテンツ検出器)を訓練したりすることなく、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。 まず,手動で設計した静的ディフェンスプロンプトを提示し,画像と命令内容のステップごとに徹底的に検証し,悪意のあるクエリに対する応答方法を指定する。 さらに,MLLM と LLM ベースのディフェンスプロンプトジェネレータ (Defender) から構成される適応型自動精細化フレームワークを導入する。 これらのコンポーネントは協調的かつ反復的に通信し、防御プロンプトを生成する。 一般的な構造ベースのジェイルブレイク攻撃と良性データセットに関する広範な実験により、我々の手法は、標準的な良性タスクで評価されたモデルの一般的な能力を損なうことなく、構造ベースのジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善できることを示した。 私たちのコードはhttps://github.com/rain305f/AdaShield.comで入手可能です。

With the advent and widespread deployment of Multimodal Large Language Models (MLLMs), the imperative to ensure their safety has become increasingly pronounced. However, with the integration of additional modalities, MLLMs are exposed to new vulnerabilities, rendering them prone to structured-based jailbreak attacks, where semantic content (e.g., "harmful text") has been injected into the images to mislead MLLMs. In this work, we aim to defend against such threats. Specifically, we propose \textbf{Ada}ptive \textbf{Shield} Prompting (\textbf{AdaShield}), which prepends inputs with defense prompts to defend MLLMs against structure-based jailbreak attacks without fine-tuning MLLMs or training additional modules (e.g., post-stage content detector). Initially, we present a manually designed static defense prompt, which thoroughly examines the image and instruction content step by step and specifies response methods to malicious queries. Furthermore, we introduce an adaptive auto-refinement framework, consisting of a target MLLM and a LLM-based defense prompt generator (Defender). These components collaboratively and iteratively communicate to generate a defense prompt. Extensive experiments on the popular structure-based jailbreak attacks and benign datasets show that our methods can consistently improve MLLMs' robustness against structure-based jailbreak attacks without compromising the model's general capabilities evaluated on standard benign tasks. Our code is available at https://github.com/rain305f/AdaShield.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# 動的回路を用いた量子フーリエ変換

Quantum Fourier Transform using Dynamic Circuits ( http://arxiv.org/abs/2403.09514v1 )

ライセンス: Link先を確認
Elisa Bäumer, Vinay Tripathi, Alireza Seif, Daniel Lidar, Derek S. Wang, (参考訳) 動的量子回路では、回路実行中に中間回路の測定から古典的な情報がフォワードされる。 この量子コンピュータの出現する能力は、特定のコアアルゴリズムプリミティブのリソース要求を大幅に削減することで、より効率的で強力なプロトコルを可能にする、数多くの利点を提供する。 特に、$n$-qubit 量子フーリエ変換がすぐに測定された場合、標準ユニタリ定式における全接続におけるリソース要求のスケーリングは、接続の制約なく、動的にそれに対応する場合、$O(n)$2-qubit ゲートから$O(n)$2-qubit ゲートに還元される。 ここでは、IBMの超伝導量子ハードウェア上での量子フーリエ変換に対する動的量子回路の利点を、最大16ドルキュービットで50\%、最大37ドルキュービットで1\%と認定されたプロセスフィデリティで示し、全ての量子コンピューティングプラットフォームで以前の報告を上回った。 これらの結果は、プロセスの忠実性を証明する効率的な方法と、中間回路測定時のエラー抑制のための動的デカップリングプロトコルと、動的量子回路内でのフィードフォワードにより実現された。 本研究は,量子アルゴリズムの最適化における動的回路の利点を示すものである。

In dynamic quantum circuits, classical information from mid-circuit measurements is fed forward during circuit execution. This emerging capability of quantum computers confers numerous advantages that can enable more efficient and powerful protocols by drastically reducing the resource requirements for certain core algorithmic primitives. In particular, in the case of the $n$-qubit quantum Fourier transform followed immediately by measurement, the scaling of resource requirements is reduced from $O(n^2)$ two-qubit gates in an all-to-all connectivity in the standard unitary formulation to $O(n)$ mid-circuit measurements in its dynamic counterpart without any connectivity constraints. Here, we demonstrate the advantage of dynamic quantum circuits for the quantum Fourier transform on IBM's superconducting quantum hardware with certified process fidelities of $>50\%$ on up to $16$ qubits and $>1\%$ on up to $37$ qubits, exceeding previous reports across all quantum computing platforms. These results are enabled by our contribution of an efficient method for certifying the process fidelity, as well as of a dynamical decoupling protocol for error suppression during mid-circuit measurements and feed-forward within a dynamic quantum circuit. Our results demonstrate the advantages of leveraging dynamic circuits in optimizing the compilation of quantum algorithms.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# 図形情報のない社会バイアスの緩和のためのプロトタイプ表現の活用

Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information ( http://arxiv.org/abs/2403.09516v1 )

ライセンス: Link先を確認
Shadi Iskander, Kira Radinsky, Yonatan Belinkov, (参考訳) 社会的バイアスを緩和するには、典型的には、各データサンプルに関連付けられた社会的グループを特定する必要がある。 本稿では,言語モデルにおける社会的バイアスに対処する新しいアプローチであるDAFairを提案する。 明示的な人口統計ラベルに依存する従来の方法とは異なり、我々のアプローチはそのような情報を必要としない。 代わりに、事前定義された原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を組み込んで、モデルの表現におけるバイアスを軽減する。 2つのタスクと2つのモデルにまたがる実験結果から,ラベル付きデータに依存しない従来の手法と比較して,提案手法の有効性が示された。 さらに,人口統計アノテートデータに制限があるため,本手法は一般的なデバイアス・アプローチより優れている。

Mitigating social biases typically requires identifying the social groups associated with each data sample. In this paper, we present DAFair, a novel approach to address social bias in language models. Unlike traditional methods that rely on explicit demographic labels, our approach does not require any such information. Instead, we leverage predefined prototypical demographic texts and incorporate a regularization term during the fine-tuning process to mitigate bias in the model's representations. Our empirical results across two tasks and two models demonstrate the effectiveness of our method compared to previous approaches that do not rely on labeled data. Moreover, with limited demographic-annotated data, our approach outperforms common debiasing approaches.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# ヒルベルト空間破片に制限された量子熱化の観測

Observation of quantum thermalization restricted to Hilbert space fragments ( http://arxiv.org/abs/2403.09517v1 )

ライセンス: Link先を確認
Luheng Zhao, Prithvi Raj Datla, Weikun Tian, Mohammad Mujahid Aliyu, Huanqian Loh, (参考訳) 量子熱化は、素粒子から複雑な物質まで幅広い種類の系で起こる。 平衡外量子系は、初期状態の記憶を熱化または保持することが長年理解されてきたが、両方ではない。 ここでは量子系における熱化とメモリの同時デモンストレーションを行う。 ライドバーグ原子アレイを用いてヒルベルト空間の破片に制限された量子熱化を観測する。 興味深いことに、異なる部分空間の状態は同じエネルギーであっても互いに熱化しない。 我々の研究課題は、熱化と記憶の長年の緊張を実験的に解決しながら、量子熱化の考え方を確立した。 これらの結果は量子プロセッサや量子センサーにおける絡み合いのダイナミクスの制御に応用できる。

Quantum thermalization occurs in a broad class of systems from elementary particles to complex materials. Out-of-equilibrium quantum systems have long been understood to either thermalize or retain memory of their initial states, but not both. Here we achieve the first simultaneous demonstration of thermalization and memory in a quantum system. Using a Rydberg atom array, we observe quantum thermalization restricted to Hilbert space fragments, where the thermalized system retains characteristics of the initial configuration. Intriguingly, states from different subspaces do not thermalize with each other even when they have the same energy. Our work challenges established ideas of quantum thermalization while experimentally resolving the longstanding tension between thermalization and memory. These results may be applied to control entanglement dynamics in quantum processors and quantum sensors.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# 制御強化量子メトロロジーのための効率的なテンソルネットワーク

Efficient Tensor Networks for Control-Enhanced Quantum Metrology ( http://arxiv.org/abs/2403.09519v1 )

ライセンス: Link先を確認
Qiushi Liu, Yuxiang Yang, (参考訳) 我々は,多数の量子チャネルをアンシラや有界アンシラなしで推定する制御強化シーケンシャル戦略を最適化するための効率的なテンソルネットワークアルゴリズムを提案する。 我々の第一のアプローチでは、$N-1$の任意のインターリーブド制御操作を推定するために$N$チャネル間で適用することができ、第二のアプローチでは、すべての制御操作が同一に制限され、より単純な実験的なデモンストレーションがより容易になる。 数値実験により,提案アルゴリズムは,100$シングルキュービットチャネルと2キュービットチャネルに対して,メトロジカルプロトコルの最適化に優れた性能を示した。 特に,我々のアルゴリズムは,N$が有限だが大きければ,漸近的に最適な量子誤り訂正プロトコルを上回り得る戦略を同定する。

We propose efficient tensor network algorithms for optimizing control-enhanced sequential strategies in estimating a large number of quantum channels, with no ancilla or bounded ancilla. Our first approach allows for applying $N-1$ arbitrary interleaved control operations between the $N$ channels to estimate, and the second approach restricts all control operations to be identical, which could further facilitate simpler experimental demonstration. The numerical experiments show that our algorithm has a good performance in optimizing the metrological protocol for $N=100$ single-qubit and two-qubit channels. In particular, our algorithm identifies a strategy that can outperform the asymptotically optimal quantum error correction protocol when $N$ is finite but large.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# MT-PATCHER:機械翻訳のための大規模言語モデルから選択的で拡張可能な知識蒸留

MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation ( http://arxiv.org/abs/2403.09522v1 )

ライセンス: Link先を確認
Jiahuan Li, Shanbo Cheng, Shujian Huang, Jiajun Chen, (参考訳) 大規模言語モデル(LLM)は機械翻訳(MT)の分野でその強力な能力を示しているが、高い計算コストとレイテンシに悩まされている。 したがって、巨大なLLMから中規模の機械翻訳モデルへの翻訳知識の移行は、有望な研究方向である。 しかし,従来の知識蒸留法では,学生モデルや教師モデルの能力は考慮されていないため,学習した知識を学生モデルに繰り返し教えることができず,新しい文脈や知識にまで拡張できない。 本稿では, LLM から既存の MT モデルへ, 選択的かつ包括的かつ積極的に知識を伝達する MT-Patcher というフレームワークを提案する。 学生MTモデルの現在の翻訳能力を考えると、教師からの翻訳全体を蒸留するのではなく、翻訳誤りを識別し、修正するのみである。 LLMの強い言語能力を活用して、LLM教師に多様な文脈を合成し、より潜在的な誤りを学生に予測するように指示する。 特定の言語現象と一般MTベンチマークの両方の翻訳実験の結果、約10%の例で学生のMTモデルを微調整することで、従来の知識蒸留法と同等の結果が得られることが示され、潜在的な誤りや多様な文脈が合成され、未知の文脈や単語の翻訳性能がさらに向上することが示されている。

Large Language Models (LLM) have demonstrated their strong ability in the field of machine translation (MT), yet they suffer from high computational cost and latency. Therefore, transferring translation knowledge from giant LLMs to medium-sized machine translation models is a promising research direction. However, traditional knowledge distillation methods do not take the capability of student and teacher models into consideration, therefore repeatedly teaching student models on the knowledge they have learned, and failing to extend to novel contexts and knowledge. In this paper, we propose a framework called MT-Patcher, which transfers knowledge from LLMs to existing MT models in a selective, comprehensive and proactive manner. Considering the current translation ability of student MT models, we only identify and correct their translation errors, instead of distilling the whole translation from the teacher. Leveraging the strong language abilities of LLMs, we instruct LLM teachers to synthesize diverse contexts and anticipate more potential errors for the student. Experiment results on translating both specific language phenomena and general MT benchmarks demonstrate that finetuning the student MT model on about 10% examples can achieve comparable results to the traditional knowledge distillation method, and synthesized potential errors and diverse contexts further improve translation performances on unseen contexts and words.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# 大規模カラーセンター量子プロセッサのための電気インタフェースの最適化

Optimizing the Electrical Interface for Large-Scale Color-Center Quantum Processors ( http://arxiv.org/abs/2403.09526v1 )

ライセンス: Link先を確認
Luc Enthoven, Masoud Babaie, Fabio Sebastiano, (参考訳) ダイヤモンドのカラーセンタに基づく量子プロセッサは、フレキシブルな光インターフェース、(比較的)高い動作温度、高忠実度操作のおかげで、将来の大規模量子コンピュータの候補として期待されている。 他の量子コンピューティングプラットフォームと同様に、そのような量子ビットを制御して読み出すために必要な電気インターフェースは、システム全体の性能とスケーラビリティの両方を制限する可能性がある。 この課題に対処するために、電気インターフェースの要件を分析し、多数の同一単位セルからなるスケーラブルなアーキテクチャにおいて、電子コントローラを効率的に実装する方法を検討する。 様々な論じられた機能の中で、電子と核スピンを駆動する静磁場と動的磁場の生成に特に焦点が当てられている。 導出要求に従うと、キュービット周波数多重化方式のような異なるシステムアーキテクチャは、特にプロセッサ全体のキュービットラーモア周波数の不均一性の存在において、最も電力効率のよいアプローチを識別すると考えられる。 その結果,3mWの平均消費電力で最大1個の電子スピン量子ビットと9個の原子スピン量子ビットに対処できる1-mm$^2$単位セルアーキテクチャを最適解として提案した。

Quantum processors based on color centers in diamond are promising candidates for future large-scale quantum computers thanks to their flexible optical interface, (relatively) high operating temperature, and high-fidelity operation. Similar to other quantum-computing platforms, the electrical interface required to control and read out such qubits may limit both the performance of the whole system and its scalability. To address this challenge, this work analyzes the requirements of the electrical interface and investigates how to efficiently implement the electronic controller in a scalable architecture comprising a large number of identical unit cells. Among the different discussed functionalities, a specific focus is devoted to the generation of the static and dynamic magnetic fields driving the electron and nuclear spins, because of their major impact on fidelity and scalability. Following the derived requirements, different system architectures, such as a qubit frequency-multiplexing scheme, are considered to identify the most power efficient approach, especially in the presence of inhomogeneity of the qubit Larmor frequency across the processor. As a result, a non-frequency-multiplexed, 1-mm$^2$ unit-cell architecture is proposed as the optimal solution, able to address up to one electron-spin qubit and 9 nuclear-spin qubits within a 3-mW average power consumption, thus establishing the baseline for the scalable electrical interface for future large-scale color-center quantum computers.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# VisionGPT-3D:3次元視覚理解のための汎用マルチモーダルエージェント

VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding ( http://arxiv.org/abs/2403.09530v1 )

ライセンス: Link先を確認
Chris Kelly, Luhui Hu, Jiayin Hu, Yu Tian, Deshun Yang, Bang Yang, Cindy Yang, Zihao Li, Zaoshan Huang, Yuexian Zou, (参考訳) テキストから視覚コンポーネントへの進化は、画像の生成、テキストからのビデオ、画像内の望ましい要素の特定など、人々の日常生活を促進する。 前時代のマルチモーダル能力を含むコンピュータビジョンモデルは、明確に定義されたオブジェクトに基づいた画像検出、分類に重点を置いている。 大規模言語モデル(LLM)は、自然言語から視覚オブジェクトへの変換を導入し、テキストコンテキストの視覚的レイアウトを提示する。 OpenAI GPT-4はLLMのピンナクルとして登場し、コンピュータビジョン(CV)ドメインは2D画像をその3D表現に変換するための多くの最先端(SOTA)モデルとアルゴリズムを誇っている。 しかし、アルゴリズムと問題とのミスマッチは、望ましくない結果をもたらす可能性がある。 この課題に対応するために、我々は最先端のビジョンモデルを統合するための統合されたVisionGPT-3Dフレームワークを提案し、それによってビジョン指向AIの開発が容易になる。 VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。 様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択を自動化し、2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、テキストプロンプトのような多様なマルチモーダル入力に基づいて最適な結果を生成する。 キーワード: VisionGPT-3D, 3次元視覚理解, マルチモーダルエージェント

The evolution of text to visual components facilitates people's daily lives, such as generating image, videos from text and identifying the desired elements within the images. Computer vision models involving the multimodal abilities in the previous days are focused on image detection, classification based on well-defined objects. Large language models (LLMs) introduces the transformation from nature language to visual objects, which present the visual layout for text contexts. OpenAI GPT-4 has emerged as the pinnacle in LLMs, while the computer vision (CV) domain boasts a plethora of state-of-the-art (SOTA) models and algorithms to convert 2D images to their 3D representations. However, the mismatching between the algorithms with the problem could lead to undesired results. In response to this challenge, we propose an unified VisionGPT-3D framework to consolidate the state-of-the-art vision models, thereby facilitating the development of vision-oriented AI. VisionGPT-3D provides a versatile multimodal framework building upon the strengths of multimodal foundation models. It seamlessly integrates various SOTA vision models and brings the automation in the selection of SOTA vision models, identifies the suitable 3D mesh creation algorithms corresponding to 2D depth maps analysis, generates optimal results based on diverse multimodal inputs such as text prompts. Keywords: VisionGPT-3D, 3D vision understanding, Multimodal agent
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# アーティファクトハブからのHelmチャートのセキュリティミス設定の分析と修正(LLMによる)

Analyzing and Mitigating (with LLMs) the Security Misconfigurations of Helm Charts from Artifact Hub ( http://arxiv.org/abs/2403.09537v1 )

ライセンス: Link先を確認
Francesco Minna, Fabio Massacci, Katja Tuma, (参考訳) 背景: Helmは、一般的なコンテナオーケストレーションプラットフォームであるKubernetes(K8s)によるアプリケーションの定義、インストール、アップグレードを可能にするパッケージマネージャである。 Helmチャートは、K8sクラスタ内にアプリケーションをデプロイするために必要なすべての依存関係、リソース、パラメータを記述するファイルの集合である。 目的:本研究の目的は,Helmチャートのセキュリティを実験的に評価し,既定で利用可能なポリシによって報告される設定ミスの観点から既存のツールのパフォーマンスを比較し,ミスコンフィグレーションの除去にLLMがどの程度使用されるかを測定することである。 また、LLMリファクタリングとツールアウトプットの両方に偽陽性があるかどうかについても検討したいと考えています。 方法: 一般的な集中リポジトリであるArtifact HubからHelmチャートをマイニングするパイプラインを提案し,それをCheckovやKICSといった最先端のオープンソースツールを用いて解析する。 まず、そのようなパイプラインはいくつかのチャートアナライザを実行し、各ツールから報告される共通かつユニークな設定を識別する。 次に、LLMを使用して、設定ミスの緩和を提案する。 最後に、以前生成されたチャートリファクタリングは、ツールのポリシーを満たすかどうかを確認するために、同じツールによって再度分析される。 同時に、ツールのレポートやLLMリファクタリングに偽陽性の誤設定があるかどうかを評価するために、チャートのサブセットを手動で分析する。

Background: Helm is a package manager that allows defining, installing, and upgrading applications with Kubernetes (K8s), a popular container orchestration platform. A Helm chart is a collection of files describing all dependencies, resources, and parameters required for deploying an application within a K8s cluster. Objective: The goal of this study is to mine and empirically evaluate the security of Helm charts, comparing the performance of existing tools in terms of misconfigurations reported by policies available by default, and measure to what extent LLMs could be used for removing misconfiguration. We also want to investigate whether there are false positives in both the LLM refactorings and the tool outputs. Method: We propose a pipeline to mine Helm charts from Artifact Hub, a popular centralized repository, and analyze them using state-of-the-art open-source tools, such as Checkov and KICS. First, such a pipeline will run several chart analyzers and identify the common and unique misconfigurations reported by each tool. Secondly, it will use LLMs to suggest mitigation for each misconfiguration. Finally, the chart refactoring previously generated will be analyzed again by the same tools to see whether it satisfies the tool's policies. At the same time, we will also perform a manual analysis on a subset of charts to evaluate whether there are false positive misconfigurations from the tool's reporting and in the LLM refactoring.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# API検出LDMの一次情報漏洩のロジット

Logits of API-Protected LLMs Leak Proprietary Information ( http://arxiv.org/abs/2403.09539v1 )

ライセンス: Link先を確認
Matthew Finlayson, Swabha Swayamdipta, Xiang Ren, (参考訳) 大規模言語モデル(LLM)の商用化は、プロプライエタリなモデルへの高レベルのAPIのみアクセスの一般的な実践につながった。 本研究は,モデルアーキテクチャに関する保守的な前提の下でも,比較的少数のAPIクエリ(例えば,OpenAIのgpt-3.5-turboの1,000ドル未満の費用)から,APIで保護されたLSMに関する驚くほど多くの非公開情報を学ぶことができることを示す。 現代のLLMは、モデル出力を全出力空間の線形部分空間に制限するソフトマックスボトルネックに悩まされている。 本研究では,LLMの隠れサイズを効率よく発見し,全語彙の出力を取得し,異なるモデル更新を検出し,曖昧にすること,単一のLLM出力を与えられたソースLLMを特定すること,さらには出力層パラメータを推定すること,といった,安価なコストでいくつかの機能を実現するモデルイメージやモデルシグネチャに自らを適用できることを示す。 実験により,OpenAIのgpt-3.5-turboの埋め込みサイズを約4,096。 最後に、LLMプロバイダがこれらの攻撃を防ぎ、透明性と説明責任を高めることで、これらの機能を(バグではなく)機能と見なすことができる方法について論じる。

The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1,000 for OpenAI's gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We show that this lends itself to a model image or a model signature which unlocks several capabilities with affordable cost: efficiently discovering the LLM's hidden size, obtaining full-vocabulary outputs, detecting and disambiguating different model updates, identifying the source LLM given a single full LLM output, and even estimating the output layer parameters. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# 強駆動多層システムにおける競合相互作用

Competing Interactions in Strongly Driven Multi-Level Systems ( http://arxiv.org/abs/2403.09542v1 )

ライセンス: Link先を確認
Jana Bender, Patrick Mischke, Tanita Klas, Florian Binoth, Hani Naim, Herwig Ott, Thomas Niederprüm, (参考訳) 2つの競合する相互作用の下で,光学駆動型原子多層系のレベル混合,分裂,反発について実験的に検討した。 光カップリングの強度は、磁気サブステートを混合する原子超微粒子相互作用を超えるまで増大する。 結合状態空間の多重レベル特性のため、レベルシフトはPaschen-Back効果を連想させる複雑な振る舞いを示す。 この結果から,マルチレベル効果は,非相互作用性2レベルシステムの単純なモデルと異なり,強い外部駆動に多大な影響を及ぼす可能性が示唆された。 これらの結果は、強い光駆動系における光偏光や初期状態の準備の不完全性との関連性を浮き彫りにした。

We experimentally study the level mixing, splitting and repulsion of an optically driven atomic multi-level system under two competing interactions. The strength of the optical coupling is increased until it surpasses the atomic hyperfine interaction responsible for mixing the magnetic substates. Due to the multi-level character of the coupled state space, the level shifts exhibit complex behavior reminiscent of the Paschen-Back effect. Our results show that multi-level effects can have significant influence for strong external drive, differing from a simple model of effective non-interacting two-level systems. These results highlight the relevance of imperfections of the light polarization or initial state preparation in strongly optically driven systems.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# テクスチャ学習における探索

Explorations in Texture Learning ( http://arxiv.org/abs/2403.09543v1 )

ライセンス: Link先を確認
Blaine Hoak, Patrick McDaniel, (参考訳) 本研究では,対象分類モデルによって学習されたテクスチャの同定と,それらのテクスチャに依存する範囲について検討する。 我々は,CNNにおけるテクスチャとオブジェクトクラスの関係に関する新たな洞察を明らかにするためのテクスチャオブジェクトアソシエーションを構築し,その結果の3つのクラスを見出す。 本分析は,テクスチャ学習における研究が,新たな解釈可能性の方法を可能にし,予期せぬバイアスを明らかにする可能性を示唆している。

In this work, we investigate \textit{texture learning}: the identification of textures learned by object classification models, and the extent to which they rely on these textures. We build texture-object associations that uncover new insights about the relationships between texture and object classes in CNNs and find three classes of results: associations that are strong and expected, strong and not expected, and expected but not present. Our analysis demonstrates that investigations in texture learning enable new methods for interpretability and have the potential to uncover unexpected biases.
翻訳日:2024-03-15 19:47:59 公開日:2024-03-14
# マシンラーニングプロジェクトは継続的インテグレーションの実践をどのように利用するのか? GitHub Actionsに関する実証的研究

How do Machine Learning Projects use Continuous Integration Practices? An Empirical Study on GitHub Actions ( http://arxiv.org/abs/2403.09547v1 )

ライセンス: Link先を確認
João Helis Bernardo, Daniel Alencar da Costa, Sérgio Queiroz de Medeiros, Uirá Kulesza, (参考訳) 継続的インテグレーション(CI)は、従来のソフトウェア開発において確立されたプラクティスだが、機械学習(ML)プロジェクトの分野におけるニュアンスは、いまだに解明されていない。 ML開発の独特な性質を考えると、この文脈でCIプラクティスがどのように採用されているかを理解することは、効果的なアプローチの調整に不可欠です。 本研究では,GitHub上の185のオープンソースプロジェクト(93のMLプロジェクトと92の非MLプロジェクト)を包括的に分析する。 本研究は,MLプロジェクトと非MLプロジェクト間のCI導入の差異を明らかにすることを目的として,定量化と定性的化の両面から構成する。 その結果,MLプロジェクトではビルド期間が長い場合が多く,中規模のMLプロジェクトでは非MLプロジェクトに比べてテストカバレッジが低いことがわかった。 さらに、中小規模のMLプロジェクトは、非MLプロジェクトに比べてビルド期間の傾向が増加する傾向にある。 さらに、定性的な分析は、CIビルドの実行とステータス、CIテスト、CIインフラストラクチャといったテーマを含む、MLプロジェクトと非MLプロジェクトのCIに関する議論を照らします。 これらの洞察は、CIプラクティスを効果的に採用する上で、MLプロジェクトが直面するユニークな課題を浮き彫りにした。

Continuous Integration (CI) is a well-established practice in traditional software development, but its nuances in the domain of Machine Learning (ML) projects remain relatively unexplored. Given the distinctive nature of ML development, understanding how CI practices are adopted in this context is crucial for tailoring effective approaches. In this study, we conduct a comprehensive analysis of 185 open-source projects on GitHub (93 ML and 92 non-ML projects). Our investigation comprises both quantitative and qualitative dimensions, aiming to uncover differences in CI adoption between ML and non-ML projects. Our findings indicate that ML projects often require longer build durations, and medium-sized ML projects exhibit lower test coverage compared to non-ML projects. Moreover, small and medium-sized ML projects show a higher prevalence of increasing build duration trends compared to their non-ML counterparts. Additionally, our qualitative analysis illuminates the discussions around CI in both ML and non-ML projects, encompassing themes like CI Build Execution and Status, CI Testing, and CI Infrastructure. These insights shed light on the unique challenges faced by ML projects in adopting CI practices effectively.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# False Negative と SHAP による乳がんの分類

Breast Cancer Classification Using Gradient Boosting Algorithms Focusing on Reducing the False Negative and SHAP for Explainability ( http://arxiv.org/abs/2403.09548v1 )

ライセンス: Link先を確認
João Manoel Herrera Pinheiro, Marcelo Becker, (参考訳) がんは世界で最も多くの女性を殺す病気の1つであり、乳がんは最も多くのがん患者を負い、結果として死亡する。 しかし、早期発見や早期治療によって予防することができる。 この種のがんの検出や摂食の発達は、健康な生活のために重要である。 多くの研究は、癌予測において高い精度のモデルに焦点を当てているが、精度だけでは必ずしも信頼できる計量ではないこともある。 本研究は,リコール基準に着目した乳がん予測のためのブースティングに基づく,異なる機械学習アルゴリズムの性能調査手法を提案する。 機械学習アルゴリズムの強化は、医療疾患の検出に有効なツールであることが証明されている。 カリフォルニア大学アーバイン校(UCI)リポジトリのデータセットを使用して、それらの属性を含むモデル分類器をトレーニングし、テストしている。 本研究の目的は,AdaBoost,XGBoost,CatBoost,LightGBMといった最先端のブースティングアルゴリズムを用いて乳癌の予測と診断を行い,リコール,ROC-AUC,混乱行列に関する最も効果的な測定値を求めることである。 さらに, この4つのブースティングアルゴリズムを, ハイパーパラメータ最適化のためのライブラリであるOptunaと, SHAP法を用いて, 乳がんの同定・予測支援として利用した。 AUCを改良したり、全てのモデルにリコールしたり、AdaBoost と LigthGBM の False Negative を削減できた。

Cancer is one of the diseases that kill the most women in the world, with breast cancer being responsible for the highest number of cancer cases and consequently deaths. However, it can be prevented by early detection and, consequently, early treatment. Any development for detection or perdition this kind of cancer is important for a better healthy life. Many studies focus on a model with high accuracy in cancer prediction, but sometimes accuracy alone may not always be a reliable metric. This study implies an investigative approach to studying the performance of different machine learning algorithms based on boosting to predict breast cancer focusing on the recall metric. Boosting machine learning algorithms has been proven to be an effective tool for detecting medical diseases. The dataset of the University of California, Irvine (UCI) repository has been utilized to train and test the model classifier that contains their attributes. The main objective of this study is to use state-of-the-art boosting algorithms such as AdaBoost, XGBoost, CatBoost and LightGBM to predict and diagnose breast cancer and to find the most effective metric regarding recall, ROC-AUC, and confusion matrix. Furthermore, our study is the first to use these four boosting algorithms with Optuna, a library for hyperparameter optimization, and the SHAP method to improve the interpretability of our model, which can be used as a support to identify and predict breast cancer. We were able to improve AUC or recall for all the models and reduce the False Negative for AdaBoost and LigthGBM the final AUC were more than 99.41\% for all models.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# 非平衡構造の一般化による等変力場の改善

Generalizing Denoising to Non-Equilibrium Structures Improves Equivariant Force Fields ( http://arxiv.org/abs/2403.09549v1 )

ライセンス: Link先を確認
Yi-Lun Liao, Tess Smidt, Abhishek Das, (参考訳) 3次元原子論システムにおける力などの原子の相互作用を理解することは、分子動力学や触媒設計といった多くの応用に基本的である。 しかし、これらの相互作用をシミュレートするには、計算集約的なab initio計算が必要であり、結果として、ニューラルネットワークをトレーニングするための限られたデータが得られる。 本稿では,非平衡構造(DeNS)を補助的タスクとして用いて,トレーニングデータをより活用し,性能を向上させることを提案する。 DeNSを用いたトレーニングでは,まず3次元座標にノイズを加え,そのノイズを予測することで3次元構造を破損させた。 従来の非平衡構造に制限されたデノナイジングの研究とは異なり、提案手法はより大きな非平衡構造の集合にデノナイジングを一般化する。 主な違いは、非平衡構造は局所的なエネルギー最小値に対応せず、非ゼロの力を持ち、したがって平衡構造と比較して多くの原子位置を持つことができることである。 これにより、非平衡構造をデノナイジングの対象が一意に定義されていないため、デノナイジングが不適切な問題となる。 我々の重要な洞察は、元の非平衡構造の力を付加的にエンコードして、どの非平衡構造がどの非平衡構造かを特定することである。 具体的には、破損した非平衡構造と元の非平衡構造の力を考えると、任意の構造ではなく入力力を満たす非平衡構造を予測する。 DeNSはエンコーディング力を必要とするため、DNSはノード埋め込みに力やその他の高次テンソルを容易に組み込むことができる同変ネットワークを好んでいる。 我々は, OC20, OC22, MD17データセット上で, DeNSと等価ネットワークのトレーニングの有効性について検討し, OC20, OC22におけるDeNSの新たな最先端化を実現し, MD17におけるトレーニング効率を大幅に向上できることを実証した。

Understanding the interactions of atoms such as forces in 3D atomistic systems is fundamental to many applications like molecular dynamics and catalyst design. However, simulating these interactions requires compute-intensive ab initio calculations and thus results in limited data for training neural networks. In this paper, we propose to use denoising non-equilibrium structures (DeNS) as an auxiliary task to better leverage training data and improve performance. For training with DeNS, we first corrupt a 3D structure by adding noise to its 3D coordinates and then predict the noise. Different from previous works on denoising, which are limited to equilibrium structures, the proposed method generalizes denoising to a much larger set of non-equilibrium structures. The main difference is that a non-equilibrium structure does not correspond to local energy minima and has non-zero forces, and therefore it can have many possible atomic positions compared to an equilibrium structure. This makes denoising non-equilibrium structures an ill-posed problem since the target of denoising is not uniquely defined. Our key insight is to additionally encode the forces of the original non-equilibrium structure to specify which non-equilibrium structure we are denoising. Concretely, given a corrupted non-equilibrium structure and the forces of the original one, we predict the non-equilibrium structure satisfying the input forces instead of any arbitrary structures. Since DeNS requires encoding forces, DeNS favors equivariant networks, which can easily incorporate forces and other higher-order tensors in node embeddings. We study the effectiveness of training equivariant networks with DeNS on OC20, OC22 and MD17 datasets and demonstrate that DeNS can achieve new state-of-the-art results on OC20 and OC22 and significantly improve training efficiency on MD17.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# WeakSurg : 時間的等比と意味的連続性を用いた弱監督型手術器具セグメンテーション

WeakSurg: Weakly supervised surgical instrument segmentation using temporal equivariance and semantic continuity ( http://arxiv.org/abs/2403.09551v1 )

ライセンス: Link先を確認
Qiyuan Wang, Yanzhe Liu, Shang Zhao, Rong Liu, S. Kevin Zhou, (参考訳) 手術領域では, 器量ラベルのみを付与した手術器具セグメンテーションはめったに行われていない。 制約の少ない課題を緩和するため,2つの視点から時間的特性を持つ2段階の弱教師付きセグメンテーションパラダイムを拡張した。 時間的等分散の観点から,隣接する特徴間の画素幅の整合性を高めるため,プロトタイプに基づく時間的等分散制御損失を提案する。 セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティの損失について検討する。 われわれの知る限りでは、WeakSurgは、外科的シナリオを考慮に入れた初めての、楽器のみによる、弱い教師付きセグメンテーションアーキテクチャである。 Cholec80は、位相と楽器の認識のためのオープンなベンチマークである。 我々は,3年の経験のある臨床医が二重にチェックする,固定時間ステップのインスタンスワイド・インスツルメンツ・ラベルをアノテートする。 以上の結果から,WeakSurgはセマンティックセグメンテーションの指標だけでなく,インスタンスセグメンテーションの指標においても最先端の手法と良好に比較できることがわかった。

Weakly supervised surgical instrument segmentation with only instrument presence labels has been rarely explored in surgical domain. To mitigate the highly under-constrained challenges, we extend a two-stage weakly supervised segmentation paradigm with temporal attributes from two perspectives. From a temporal equivariance perspective, we propose a prototype-based temporal equivariance regulation loss to enhance pixel-wise consistency between adjacent features. From a semantic continuity perspective, we propose a class-aware temporal semantic continuity loss to constrain the semantic consistency between a global view of target frame and local non-discriminative regions of adjacent reference frame. To the best of our knowledge, WeakSurg is the first instrument-presence-only weakly supervised segmentation architecture to take temporal information into account for surgical scenarios. Extensive experiments are validated on Cholec80, an open benchmark for phase and instrument recognition. We annotate instance-wise instrument labels with fixed time-steps which are double checked by a clinician with 3-years experience. Our results show that WeakSurg compares favorably with state-of-the-art methods not only on semantic segmentation metrics but also on instance segmentation metrics.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# 深層学習によるクラウドギャップ充填による草地モニタリングの改善

Cloud gap-filling with deep learning for improved grassland monitoring ( http://arxiv.org/abs/2403.09554v1 )

ライセンス: Link先を確認
Iason Tsardanidis, Alkiviadis Koukos, Vasileios Sitokonstantinou, Thanassis Drivas, Charalampos Kontoes, (参考訳) 農耕地変化のタイムリーなモニタリングには,未断の光学画像シリーズが不可欠である。 しかし、このような時系列の連続性はしばしば雲によって破壊される。 そこで本研究では,クラウドフリー光(Sentinel-2)観測と気象非依存(Sentinel-1)合成開口レーダ(SAR)データを統合する深層学習手法を提案し,CNN-Recurrent Neural Network(RNN)アーキテクチャを併用して連続正規化差分植生指数(NDVI)時系列を生成する。 本研究では,発生時系列が草地刈りイベントの検出に与える影響を評価することにより,観測継続性の重要性を強調した。 我々は、広範なクラウドカバレッジを特徴とするリトアニアに焦点を当て、我々のアプローチを代替補間技術(リニア、アキマ、二次的)と比較する。 平均MAEは0.024、R^2は0.92である。 連続した時系列を用いることでイベント検出タスクの精度を向上するだけでなく、雲のマスクが検出できないことによる突然のシフトやノイズを効果的に除去する。

Uninterrupted optical image time series are crucial for the timely monitoring of agricultural land changes. However, the continuity of such time series is often disrupted by clouds. In response to this challenge, we propose a deep learning method that integrates cloud-free optical (Sentinel-2) observations and weather-independent (Sentinel-1) Synthetic Aperture Radar (SAR) data, using a combined Convolutional Neural Network (CNN)-Recurrent Neural Network (RNN) architecture to generate continuous Normalized Difference Vegetation Index (NDVI) time series. We emphasize the significance of observation continuity by assessing the impact of the generated time series on the detection of grassland mowing events. We focus on Lithuania, a country characterized by extensive cloud coverage, and compare our approach with alternative interpolation techniques (i.e., linear, Akima, quadratic). Our method surpasses these techniques, with an average MAE of 0.024 and R^2 of 0.92. It not only improves the accuracy of event detection tasks by employing a continuous time series, but also effectively filters out sudden shifts and noise originating from cloudy observations that cloud masks often fail to detect.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# より少ないもの:ビジュアルインストラクションチューニングのためのデータ値推定

Less is More: Data Value Estimation for Visual Instruction Tuning ( http://arxiv.org/abs/2403.09559v1 )

ライセンス: Link先を確認
Zikang Liu, Kun Zhou, Wayne Xin Zhao, Dawei Gao, Yaliang Li, Ji-Rong Wen, (参考訳) 視覚インストラクションチューニングは、視覚シナリオにおける大規模言語モデル(LLM)の推論能力を大幅に向上させるマルチモーダルな大言語モデル(MLLM)を構築するための鍵である。 しかし、既存のMLLMは、訓練のための複数の高度に多様な視覚的命令データセット(100万以上の命令)の混合に依存しており、データ冗長性をもたらす可能性がある。 そこで本研究では,視覚的命令データセットに有意な冗長性を示す一連の経験的研究を行い,複数の命令データセットの量を著しく削減しても性能に影響を与えないことを示す。 そこで本研究では,視覚的インストラクションデータの冗長性を解消するため,新たなデータ選択手法であるTIVEを提案する。 TIVEはまず、計算された勾配に基づいて視覚命令のタスクレベルとインスタンスレベルを推定する。 そして、推定値に従って、TIVEは視覚命令内のタスク比率を決定し、代表インスタンスを選択して、トレーニング用のより小さな視覚命令サブセットを構成する。 LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチは、7つのベンチマークにまたがるフルデータ微調整モデルと同等のパフォーマンスを達成できる。 コードとデータは公開されます。

Visual instruction tuning is the key to building multimodal large language models (MLLMs), which greatly improves the reasoning capabilities of large language models (LLMs) in vision scenario. However, existing MLLMs mostly rely on a mixture of multiple highly diverse visual instruction datasets for training (even more than a million instructions), which may introduce data redundancy. To investigate this issue, we conduct a series of empirical studies, which reveal a significant redundancy within the visual instruction datasets, and show that greatly reducing the amount of several instruction dataset even do not affect the performance. Based on the findings, we propose a new data selection approach TIVE, to eliminate redundancy within visual instruction data. TIVE first estimates the task-level and instance-level value of the visual instructions based on computed gradients. Then, according to the estimated values, TIVE determines the task proportion within the visual instructions, and selects representative instances to compose a smaller visual instruction subset for training. Experiments on LLaVA-1.5 show that our approach using only about 7.5% data can achieve comparable performance as the full-data fine-tuned model across seven benchmarks, even surpassing it on four of the benchmarks. Our code and data will be publicly released.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# ハミルトン予測のための自己整合性トレーニング

Self-Consistency Training for Hamiltonian Prediction ( http://arxiv.org/abs/2403.09560v1 )

ライセンス: Link先を確認
He Zhang, Chang Liu, Zun Wang, Xinran Wei, Siyuan Liu, Nanning Zheng, Bin Shao, Tie-Yan Liu, (参考訳) ハミルトン予測は、機械学習を利用して分子科学の問題を解決する汎用的な定式化である。 しかし、その適用性はトレーニングに十分なラベル付きデータによって制限されている。 本研究では,ラベル付きデータを必要としない厳密なトレーニング手法を提案する。 このメリットはデータ不足の難しさに対処し,(1) 自己整合性トレーニングにより,大量の未ラベルデータに基づいてモデルをトレーニングすることが可能になり,その結果,一般化が著しく向上する,(2) 自己整合性トレーニングは,分子構造の集合に対するDFT計算の復号化であるため,DFTでデータをラベル付けするよりも効率的である,というユニークな利点によって,タスクを他の特性予測式と区別する。 データスカースとアウト・オブ・ディストリビューションのシナリオにおけるより良い一般化と、アモート化によるより良い効率を実証的に実証する。 これらの利点はハミルトン予想の適用性をさらに大きな規模に推し進める。

Hamiltonian prediction is a versatile formulation to leverage machine learning for solving molecular science problems. Yet, its applicability is limited by insufficient labeled data for training. In this work, we highlight that Hamiltonian prediction possesses a self-consistency principle, based on which we propose an exact training method that does not require labeled data. This merit addresses the data scarcity difficulty, and distinguishes the task from other property prediction formulations with unique benefits: (1) self-consistency training enables the model to be trained on a large amount of unlabeled data, hence substantially enhances generalization; (2) self-consistency training is more efficient than labeling data with DFT for supervised training, since it is an amortization of DFT calculation over a set of molecular structures. We empirically demonstrate the better generalization in data-scarce and out-of-distribution scenarios, and the better efficiency from the amortization. These benefits push forward the applicability of Hamiltonian prediction to an ever larger scale.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# 新しいAIチームメイトにようこそ - 大規模言語モデルによる安全性分析

Welcome Your New AI Teammate: On Safety Analysis by Leashing Large Language Models ( http://arxiv.org/abs/2403.09565v1 )

ライセンス: Link先を確認
Ali Nouri, Beatriz Cabrero-Daniel, Fredrik Törner, Hȧkan Sivencrona, Christian Berger, (参考訳) DevOpsは、自律走行車の開発を含む多くの産業で必須である。 これらの設定では、SafetyOpsサイクルのスピードを低下させる反復的なアクティビティがあります。 これらの活動の1つが "Hazard Analysis & Risk Assessment" (HARA) であり、安全要件仕様を開始するための重要なステップである。 SafetyOpsのこのステップの速度を上げるための潜在的アプローチとして、私たちは、Large Language Models(LLMs)の能力を掘り下げました。 本研究の目的は,安全工学分野における応用の可能性について,体系的に評価することである。 そこで本研究では,LLM を用いた HARA の高度自動化を支援するフレームワークを提案する。 可能な限り多くのプロセスを自動化しようとする我々の努力にもかかわらず、専門家のレビューは分析結果の妥当性と正当性を保証するために不可欠であり、それに応じて必要な修正がなされている。

DevOps is a necessity in many industries, including the development of Autonomous Vehicles. In those settings, there are iterative activities that reduce the speed of SafetyOps cycles. One of these activities is "Hazard Analysis & Risk Assessment" (HARA), which is an essential step to start the safety requirements specification. As a potential approach to increase the speed of this step in SafetyOps, we have delved into the capabilities of Large Language Models (LLMs). Our objective is to systematically assess their potential for application in the field of safety engineering. To that end, we propose a framework to support a higher degree of automation of HARA with LLMs. Despite our endeavors to automate as much of the process as possible, expert review remains crucial to ensure the validity and correctness of the analysis results, with necessary modifications made accordingly.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# 自律エージェントの信頼を高める - ブロックチェーンと大規模言語モデルによる説明可能性と説明可能性のアーキテクチャ

Enhancing Trust in Autonomous Agents: An Architecture for Accountability and Explainability through Blockchain and Large Language Models ( http://arxiv.org/abs/2403.09567v1 )

ライセンス: Link先を確認
Laura Fernández-Becerra, Miguel Ángel González-Santamarta, Ángel Manuel Guerrero-Higueras, Francisco Javier Rodríguez-Lera, Vicente Matellán Olivera, (参考訳) ヒューマンインタラクションを含む環境における自律エージェントの展開は、セキュリティ上の懸念をますます高めている。 その結果、イベントの背後にある状況を理解することが重要になり、専門家でないユーザにその振る舞いを正当化する能力の開発が求められます。 このような説明は信頼性と安全性を高める上で不可欠であり、失敗、誤り、誤解に対する予防措置として機能する。 さらに、コミュニケーションの改善に寄与し、エージェントとユーザの間のギャップを埋め、それによってインタラクションの有効性を向上させる。 この研究は、ROSベースの移動ロボットに実装された説明可能性と説明可能性のアーキテクチャを示す。 提案手法は2つの主成分からなる。 まず、ブラックボックスのような要素が説明責任を提供し、ブロックチェーン技術によって達成されるアンチタンパリング特性を特徴とする。 第二に、前述のブラックボックスに含まれるデータに対して、Large Language Models(LLM)の機能を利用することで、自然言語の説明を生成するコンポーネントである。 本研究は,自律エージェントナビゲーション機能を含む3つのシナリオにおいて,ソリューションの性能を評価する。 この評価には、説明可能性と説明可能性のメトリクスの徹底的な検証が含まれており、実際のシナリオにおいて自律エージェントの使用に固有の課題に直面した場合でも、ロボットアクションから説明可能なデータを使用して、一貫性があり、正確で理解可能な説明を得るためのアプローチの有効性を実証している。

The deployment of autonomous agents in environments involving human interaction has increasingly raised security concerns. Consequently, understanding the circumstances behind an event becomes critical, requiring the development of capabilities to justify their behaviors to non-expert users. Such explanations are essential in enhancing trustworthiness and safety, acting as a preventive measure against failures, errors, and misunderstandings. Additionally, they contribute to improving communication, bridging the gap between the agent and the user, thereby improving the effectiveness of their interactions. This work presents an accountability and explainability architecture implemented for ROS-based mobile robots. The proposed solution consists of two main components. Firstly, a black box-like element to provide accountability, featuring anti-tampering properties achieved through blockchain technology. Secondly, a component in charge of generating natural language explanations by harnessing the capabilities of Large Language Models (LLMs) over the data contained within the previously mentioned black box. The study evaluates the performance of our solution in three different scenarios, each involving autonomous agent navigation functionalities. This evaluation includes a thorough examination of accountability and explainability metrics, demonstrating the effectiveness of our approach in using accountable data from robot actions to obtain coherent, accurate and understandable explanations, even when facing challenges inherent in the use of autonomous agents in real-world scenarios.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# 非エルミタンパーシスタント電流輸送

Non-Hermitian Persistent Current Transport ( http://arxiv.org/abs/2403.09569v1 )

ライセンス: Link先を確認
Pei-Xin Shen, Zhide Lu, Jose L. Lado, Mircea Trif, (参考訳) 永久電流は外部電源を必要とせずに連続的に循環する。 ここでは、これらの理論を非エルミート量子ハミルトニアンの枠組み内での散逸を含むように拡張する。 グリーン関数フォーマリズムを用いて、非エルミートフェルミ・ディラック分布を導入し、複素スペクトルのみに依存する永続電流の解析式を導出する。 この式を持続電流を支持する2つの散逸モデルに適用する: (i$) 相バイアス超伝導-常温超伝導接合; (ii$) 磁束でスレッディングされた正規環。 両系統の持続電流は、現在の感受性でしか識別できない異常点に異常を示さないことを示す。 本研究は, 厳密な対角化による検証を行い, 有限温度および相互作用効果を考慮に入れた。 我々の定式化は、非エルミート系の量子多体観測可能を平衡で計算するための一般的な枠組みを提供し、非平衡シナリオへの潜在的な拡張を提供する。

Persistent currents circulate continuously without requiring external power sources. Here, we extend their theory to include dissipation within the framework of non-Hermitian quantum Hamiltonians. Using Green's function formalism, we introduce a non-Hermitian Fermi-Dirac distribution and derive an analytical expression for the persistent current that relies solely on the complex spectrum. We apply our formula to two dissipative models supporting persistent currents: ($i$) a phase-biased superconducting-normal-superconducting junction; ($ii$) a normal ring threaded by a magnetic flux. We show that the persistent currents in both systems exhibit no anomalies at any emergent exceptional points, whose signatures are only discernible in the current susceptibility. We validate our findings by exact diagonalization and extend them to account for finite temperatures and interaction effects. Our formalism offers a general framework for computing quantum many-body observables of non-Hermitian systems in equilibrium, with potential extensions to non-equilibrium scenarios.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# Across-Task Transferable Max-Value Entropy Search を用いた多要素ベイズ最適化

Multi-Fidelity Bayesian Optimization With Across-Task Transferable Max-Value Entropy Search ( http://arxiv.org/abs/2403.09570v1 )

ライセンス: Link先を確認
Yunchuan Zhang, Sangwoo Park, Osvaldo Simeone, (参考訳) 多くのアプリケーションにおいて、ロジスティクスからエンジニアリングまで、設計者は、その目的が評価にコストがかかるブラックボックス関数の形で、一連の最適化タスクに直面している。 例えば、デザイナは、時間とともに異なる学習タスクのために、ニューラルネットワークモデルのハイパーパラメータを調整する必要があるかもしれない。 各候補解に対する目的関数を評価するのではなく、設計者は目的関数の近似にアクセスでき、高い忠実度評価はより大きなコストを伴う。 既存のマルチフィデリティブラックボックス最適化戦略では、現在のタスクの最適値や解に関する情報を最大化することを目的として、候補解とフィデリティレベルを選択する。 逐次最適化タスクが関連していると仮定すると,本論文では,現在のタスクに関する情報を取得する必要性と,将来のタスクに転送可能な情報収集の目標とのバランスをとる,新たな情報理論獲得機能を導入する。 提案手法は,タスク間で伝達されるタスク間潜伏変数の共有を含む。 実世界の実世界の実例にまたがる実験結果から,将来的な課題に適合する提案した提案手法が,十分な数のタスクを処理すれば,最適化効率を大幅に向上できることがわかった。

In many applications, ranging from logistics to engineering, a designer is faced with a sequence of optimization tasks for which the objectives are in the form of black-box functions that are costly to evaluate. For example, the designer may need to tune the hyperparameters of neural network models for different learning tasks over time. Rather than evaluating the objective function for each candidate solution, the designer may have access to approximations of the objective functions, for which higher-fidelity evaluations entail a larger cost. Existing multi-fidelity black-box optimization strategies select candidate solutions and fidelity levels with the goal of maximizing the information accrued about the optimal value or solution for the current task. Assuming that successive optimization tasks are related, this paper introduces a novel information-theoretic acquisition function that balances the need to acquire information about the current task with the goal of collecting information transferable to future tasks. The proposed method includes shared inter-task latent variables, which are transferred across tasks by implementing particle-based variational Bayesian updates. Experimental results across synthetic and real-world examples reveal that the proposed provident acquisition strategy that caters to future tasks can significantly improve the optimization efficiency as soon as a sufficient number of tasks is processed.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# ロボットか? 行動分析から自動運転車を検出する

Are you a robot? Detecting Autonomous Vehicles from Behavior Analysis ( http://arxiv.org/abs/2403.09571v1 )

ライセンス: Link先を確認
Fabio Maresca, Filippo Grazioli, Antonio Albanese, Vincenzo Sciancalepore, Gianpiero Negri, Xavier Costa-Perez, (参考訳) 自動運転に関する誇大宣伝は、先進的なモビリティのユースケースをサポートする新しいテクノロジーを熱心に求めている。 自動車メーカーは、乗客の安全と快適性を改善するため、SAEレベル3以上のシステムの開発を続けているため、交通当局は、人間主導の車から完全自律車への移行を管理するための新たな手順を確立するとともに、微調整された自動運転システムへのフィードバックループ機構を提供する必要がある。 したがって、自動運転車を自動でプロファイリングし、人間主導の車と区別する方法は必須である。 本稿では,車両自体からのアクティブな通知を必要とせずに,車両が自律的であるかどうかを判断するために,カメラ画像と状態情報を用いてアクティブな車両を監視する,本格的なフレームワークを提案する。 基本的には、自動運転車を識別するための機械学習モデルを提供する道路上で取得したデータをシェアする車両間の協力に基づいて構築される。 CARLAシミュレータを用いて、私たちのソリューションを広範囲にテストし、NexusStreetデータセットを作成しました。 実験により,ビデオクリップを80%の精度で解析することにより,2つの行動の識別が可能であることが確認された。 最後に、非理想的なデータ収集条件下でフレームワークがどのように機能するかを観察するために、故意に状態を劣化させた。

The tremendous hype around autonomous driving is eagerly calling for emerging and novel technologies to support advanced mobility use cases. As car manufactures keep developing SAE level 3+ systems to improve the safety and comfort of passengers, traffic authorities need to establish new procedures to manage the transition from human-driven to fully-autonomous vehicles while providing a feedback-loop mechanism to fine-tune envisioned autonomous systems. Thus, a way to automatically profile autonomous vehicles and differentiate those from human-driven ones is a must. In this paper, we present a fully-fledged framework that monitors active vehicles using camera images and state information in order to determine whether vehicles are autonomous, without requiring any active notification from the vehicles themselves. Essentially, it builds on the cooperation among vehicles, which share their data acquired on the road feeding a machine learning model to identify autonomous cars. We extensively tested our solution and created the NexusStreet dataset, by means of the CARLA simulator, employing an autonomous driving control agent and a steering wheel maneuvered by licensed drivers. Experiments show it is possible to discriminate the two behaviors by analyzing video clips with an accuracy of 80%, which improves up to 93% when the target state information is available. Lastly, we deliberately degraded the state to observe how the framework performs under non-ideal data collection conditions.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# 目が閉じて安全:画像からテキストへの変換によるマルチモーダルLCMの保護

Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation ( http://arxiv.org/abs/2403.09572v1 )

ライセンス: Link先を確認
Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang, (参考訳) マルチモーダルな大規模言語モデル (MLLM) は印象的な推論能力を示しており、従来の LLM よりもジェイルブレイク攻撃に弱い。 安全でない応答を検出できるが,画像特徴の導入により,MLLMにおける予め整列されたLLMの安全性機構が容易に回避できることが観察された。 堅牢なMLLMを構築するために、我々は、MLLMの固有の安全意識を生かし、安全でない画像をテキストに適応的に変換して安全応答を生成し、MLLMにおける予め整列されたLCMの本質的な安全性メカニズムを活性化する新しいトレーニング不要な保護手法ECSO(Eyes Closed, Safety On)を提案する。 The State-of-the-art (SoTA) MLLMの5つの実験により、我々のECSOはモデルの安全性を大幅に向上し(例:MM-SafetyBench (SD+OCR)、LLaVA-1.5-7BのVLSafeは71.3%向上した。 さらに,人間の介入なしにMLLMアライメントのための教師付きファインタニング(SFT)データを生成するために,ECSOをデータエンジンとして使用できることを示す。

Multimodal large language models (MLLMs) have shown impressive reasoning abilities, which, however, are also more vulnerable to jailbreak attacks than their LLM predecessors. Although still capable of detecting unsafe responses, we observe that safety mechanisms of the pre-aligned LLMs in MLLMs can be easily bypassed due to the introduction of image features. To construct robust MLLMs, we propose ECSO(Eyes Closed, Safety On), a novel training-free protecting approach that exploits the inherent safety awareness of MLLMs, and generates safer responses via adaptively transforming unsafe images into texts to activate intrinsic safety mechanism of pre-aligned LLMs in MLLMs. Experiments on five state-of-the-art (SoTA) MLLMs demonstrate that our ECSO enhances model safety significantly (e.g., a 37.6% improvement on the MM-SafetyBench (SD+OCR), and 71.3% on VLSafe for the LLaVA-1.5-7B), while consistently maintaining utility results on common MLLM benchmarks. Furthermore, we show that ECSO can be used as a data engine to generate supervised-finetuning (SFT) data for MLLM alignment without extra human intervention.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# シャットリングベースのスピン量子プロセッサによるスケーラブルなパリティアーキテクチャ

Scalable Parity Architecture With a Shuttling-Based Spin Qubit Processor ( http://arxiv.org/abs/2403.09574v1 )

ライセンス: Link先を確認
Florian Ginzel, Michael Fellner, Christian Ertler, Lars R. Schreiber, Hendrik Bluhm, Wolfgang Lechner, (参考訳) 半導体スピン量子ビットの2次元2乗格子幾何学の展望により、量子ドット(QD)を用いたパリティアーキテクチャの実現を探求する。 これは、量子コンピューティングにおけるスピン量子ビットの利用を推進し、その利点(特に最も近い隣同士の相互作用の速い時間スケールや小さなサイズなど)を生かしたアーキテクチャ開発の一環である。 本稿では,同一の単位セルからなる格子上にParity Quantum Approximate Optimization Algorithm (QAOA)を実装したスピンシャットリングと量子ゲートのシーケンスを示す。 さらに、谷分割の確率分布関数の関数としてのシャットリング誤差の一般的な記述を含む誤差モデルを開発し、谷分割によって主に制限されるパリティQAOAの一ラウンドにおける誤差を推定する。 最後に、論理量子状態の復号化と量子エラー軽減の可能性について議論する。 短期スピンキュービットデバイスでは、成功確率が標準QAOAと良好に比較可能な状態において、Parity QAOAを短時間で確実に行うことが期待できる。

Motivated by the prospect of a two-dimensional square-lattice geometry for semiconductor spin qubits, we explore the realization of the Parity Architecture with quantum dots (QDs). This is part of the endeavor of developing architectures that advance the utilization of spin qubits for quantum computing while harnessing their advantages, such as their fast timescales -- especially of the nearest-neighbor interaction -- and small size. We present sequences of spin shuttling and quantum gates that implement the Parity Quantum Approximate Optimization Algorithm (QAOA) on a lattice constructed of identical unit cells, where the circuit depth is independent of the problem Hamiltonian and the system size. We further develop an error model, including a general description of the shuttling errors as a function of the probability distribution function of the valley splitting, and estimate the errors during one round of Parity QAOA, which is mainly limited by the valley splitting. Finally, we discuss the possibility of decoding the logical quantum state and of quantum error mitigation. We find that already with near-term spin qubit devices a sufficiently low physical error probability can be expected to reliably perform Parity QAOA with a short depth in a regime where the success probability compares favorably to standard QAOA.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# NeRFect Match:ビジュアルローカライゼーションのためのNeRF機能探索

The NeRFect Match: Exploring NeRF Features for Visual Localization ( http://arxiv.org/abs/2403.09577v1 )

ライセンス: Link先を確認
Qunjie Zhou, Maxim Maximov, Or Litany, Laura Leal-Taixé, (参考訳) 本研究では,視覚的局所化のためのシーン表現としてNeRF(Neural Radiance Fields)を提案する。 最近、NeRFは、トレーニングデータベースを拡張し、レンダリングされた画像を通して補助的な監視を提供し、反復的なリファインメントモジュールとして機能することで、ポーズ回帰とシーン座標回帰モデルを強化するために使用されている。 我々は、NeRFの内部特徴の可能性を探求し、正確な2D-3Dマッチングをローカライゼーションのために確立することで、その認識された利点、すなわち、現実的な外観と正確な幾何学を備えたコンパクトなシーン表現を提供する能力を拡張した。 この目的のために、様々な条件下でのマッチングのために、ビュー合成によって得られたNeRFの暗黙の知識を網羅的に検証する。 これには、異なるマッチングネットワークアーキテクチャの探索、複数のレイヤでのエンコーダ機能の抽出、さまざまなトレーニング設定が含まれる。 ビュー合成により学習したNeRFの内部知識を活かした2D-3Dマッチング機能であるNeRFMatchを導入する。 構造に基づくパイプライン内の標準的なローカライゼーションベンチマークにおけるNeRFMatchの評価は、ケンブリッジ・ランドマークスにおけるローカライゼーション性能の新たな最先端を規定する。

In this work, we propose the use of Neural Radiance Fields (NeRF) as a scene representation for visual localization. Recently, NeRF has been employed to enhance pose regression and scene coordinate regression models by augmenting the training database, providing auxiliary supervision through rendered images, or serving as an iterative refinement module. We extend its recognized advantages -- its ability to provide a compact scene representation with realistic appearances and accurate geometry -- by exploring the potential of NeRF's internal features in establishing precise 2D-3D matches for localization. To this end, we conduct a comprehensive examination of NeRF's implicit knowledge, acquired through view synthesis, for matching under various conditions. This includes exploring different matching network architectures, extracting encoder features at multiple layers, and varying training configurations. Significantly, we introduce NeRFMatch, an advanced 2D-3D matching function that capitalizes on the internal knowledge of NeRF learned via view synthesis. Our evaluation of NeRFMatch on standard localization benchmarks, within a structure-based pipeline, sets a new state-of-the-art for localization performance on Cambridge Landmarks.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# uaMix-MAE:教師なしオーディオミキサーを用いた事前学習型オーディオ変換器の効率的なチューニング

uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures ( http://arxiv.org/abs/2403.09579v1 )

ライセンス: Link先を確認
Afrina Tabassum, Dung Tran, Trung Dang, Ismini Lourentzou, Kazuhito Koishida, (参考訳) Masked Autoencoders (MAE) はラベルのないデータから豊富な低レベル表現を学習するが、下流のタスクに効果的に適応するためにラベル付きデータを必要とする。 逆に、インスタンス識別(ID)は高レベルのセマンティクスを強調し、MAEのアノテーション要件を緩和する潜在的なソリューションを提供する。 これら2つのアプローチを組み合わせることで、ラベル付きデータに制限のあるダウンストリームタスクに対処できるが、IDをMAEに統合することで、トレーニング時間と計算コストの増大につながる。 この課題に対処するために、教師なしオーディオミックスを利用した効率的なIDチューニング戦略であるuaMix-MAEを導入する。 対照的なチューニングを利用することで、uaMix-MAEは事前訓練されたMAEの表現を調整し、タスク固有のセマンティクスへの効果的な適応を容易にする。 少ないラベル付きデータでモデルを最適化するために,入力空間と仮想ラベル空間の両方で音声サンプルを操作するオーディオミキシング手法を提案する。 ローショット/フェーショット設定の実験では、AudioSet-20Kのような限定されたラベル付きデータでチューニングすると、さまざまなベンチマークに対して、 \modelnameが4-6%の精度向上を実現している。 コードはhttps://github.com/PLAN-Lab/uamix-MAEで入手できる。

Masked Autoencoders (MAEs) learn rich low-level representations from unlabeled data but require substantial labeled data to effectively adapt to downstream tasks. Conversely, Instance Discrimination (ID) emphasizes high-level semantics, offering a potential solution to alleviate annotation requirements in MAEs. Although combining these two approaches can address downstream tasks with limited labeled data, naively integrating ID into MAEs leads to extended training times and high computational costs. To address this challenge, we introduce uaMix-MAE, an efficient ID tuning strategy that leverages unsupervised audio mixtures. Utilizing contrastive tuning, uaMix-MAE aligns the representations of pretrained MAEs, thereby facilitating effective adaptation to task-specific semantics. To optimize the model with small amounts of unlabeled data, we propose an audio mixing technique that manipulates audio samples in both input and virtual label spaces. Experiments in low/few-shot settings demonstrate that \modelname achieves 4-6% accuracy improvements over various benchmarks when tuned with limited unlabeled data, such as AudioSet-20K. Code is available at https://github.com/PLAN-Lab/uamix-MAE
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# アルゴリズムによる構文因果同定

Algorithmic syntactic causal identification ( http://arxiv.org/abs/2403.09580v1 )

ライセンス: Link先を確認
Dhurim Cakiqi, Max A. Little, (参考訳) 因果的ベイズネット(CBN)における因果的識別は、因果的推論において重要なツールであり、原理的に可能な観測分布からの介入分布の導出を可能にする。 しかし、d-分離やdo-calculusのような手法を用いた因果同定のほとんどの既存の定式化は、CBN上の古典的確率論の数学的言語の中で表現されている。 しかし、確率論や現在の因果同定技術は、関係データベース、ハードウェア記述言語などのデータフロープログラム、分散システム、そして現代の機械学習アルゴリズムなど、適用できない多くの因果的設定が存在する。 古典的確率論を対称モノイド圏の代替公理的基礎に置き換えることで、この制限を解除できることを示す。 この代替公理化では、因果モデルの一般的な構文と、その因果モデルの特定の意味的実装との間に、曖昧で明確な区別がいかに引き出されるかを示す。 これにより、修正による一般IDアルゴリズムの最近の定式化の翻訳により、一般的な因果同定を純粋に構文的に記述することができる。 我々の記述は、因果モデルと対応するモノイド圏の代数的シグネチャを規定する非パラメトリックADMG構造によって完全に与えられる。 このアイデアは、古典的なバックドアとフロントドアの因果調整の純粋に構文的な類似を導出し、より複雑な因果モデルへの応用を説明するために用いられる。

Causal identification in causal Bayes nets (CBNs) is an important tool in causal inference allowing the derivation of interventional distributions from observational distributions where this is possible in principle. However, most existing formulations of causal identification using techniques such as d-separation and do-calculus are expressed within the mathematical language of classical probability theory on CBNs. However, there are many causal settings where probability theory and hence current causal identification techniques are inapplicable such as relational databases, dataflow programs such as hardware description languages, distributed systems and most modern machine learning algorithms. We show that this restriction can be lifted by replacing the use of classical probability theory with the alternative axiomatic foundation of symmetric monoidal categories. In this alternative axiomatization, we show how an unambiguous and clean distinction can be drawn between the general syntax of causal models and any specific semantic implementation of that causal model. This allows a purely syntactic algorithmic description of general causal identification by a translation of recent formulations of the general ID algorithm through fixing. Our description is given entirely in terms of the non-parametric ADMG structure specifying a causal model and the algebraic signature of the corresponding monoidal category, to which a sequence of manipulations is then applied so as to arrive at a modified monoidal category in which the desired, purely syntactic interventional causal model, is obtained. We use this idea to derive purely syntactic analogues of classical back-door and front-door causal adjustment, and illustrate an application to a more complex causal model.
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# 反復予測:データベースにインスパイアされた適応的グラデーションを用いたオンラインデータストリーム回帰

Iterative Forgetting: Online Data Stream Regression Using Database-Inspired Adaptive Granulation ( http://arxiv.org/abs/2403.09588v1 )

ライセンス: Link先を確認
Niket Kathiriya, Hossein Haeri, Cindy Chen, Kshitij Jerath, (参考訳) 金融、交通、電気通信などの現代のシステムの多くは、リアルタイム意思決定のために低レイテンシの予測を要求するという意味で、時間に敏感である。 このようなシステムは、しばしば、伝統的な回帰テクニックが耐えられないという難しい要件である概念のドリフトと同様に、連続した無制限のデータストリームと競合する必要があります。 これらのシナリオを処理できる新しいデータストリームレグレッションメソッドを作成する必要がある。 データベースにインスパイアされたデータストリーム回帰モデルを提案する。 (a)R*-ツリーからインスピレーションを得て、関連する情報が保持されるように、入ってくるデータストリームから顆粒を生成する。 b) 情報を時代遅れとみなす粒状体を反復的に忘れ、かつ、最近、関係のある粒状体のみのリストを維持し、 (c) 最新のデータと顆粒を用いて低遅延予測を行う。 R*ツリーにインスパイアされたアプローチは、アルゴリズムをデータベースシステムと統合できるようにする。 我々の実験は、この手法がデータを捨てる能力は、最も正確な最先端のアルゴリズムに対して評価した場合のレイテンシとトレーニング時間において、大幅に改善され、R*ツリーにインスパイアされた顆粒化技術は競合的に正確な予測を提供することを示した。

Many modern systems, such as financial, transportation, and telecommunications systems, are time-sensitive in the sense that they demand low-latency predictions for real-time decision-making. Such systems often have to contend with continuous unbounded data streams as well as concept drift, which are challenging requirements that traditional regression techniques are unable to cater to. There exists a need to create novel data stream regression methods that can handle these scenarios. We present a database-inspired datastream regression model that (a) uses inspiration from R*-trees to create granules from incoming datastreams such that relevant information is retained, (b) iteratively forgets granules whose information is deemed to be outdated, thus maintaining a list of only recent, relevant granules, and (c) uses the recent data and granules to provide low-latency predictions. The R*-tree-inspired approach also makes the algorithm amenable to integration with database systems. Our experiments demonstrate that the ability of this method to discard data produces a significant order-of-magnitude improvement in latency and training time when evaluated against the most accurate state-of-the-art algorithms, while the R*-tree-inspired granulation technique provides competitively accurate predictions
翻訳日:2024-03-15 19:38:09 公開日:2024-03-14
# 一次元無限角井内の粒子のマトリックス力学

Matrix Mechanics of a Particle in a One-Dimensional Infinite Square Well ( http://arxiv.org/abs/2403.09590v1 )

ライセンス: Link先を確認
Vlatko Vedral, (参考訳) ハイゼンベルクの行列力学の手法を用いて無限ポテンシャル井戸問題を解く。 教育的価値に加えて、マトリックス力学は、このポテンシャルによって引き起こされる様々な非物理的問題に、一見非プロブレマ的な方法で対処することを可能にする。 また、この表現の中で多くの粒子をどう扱うかを示す。

We solve the infinite potential well problem using the methods of Heisenberg's matrix mechanics. In addition to being of educational value, the matrix mechanics allows us to deal with various unphysical issues caused by this potential in a seemingly unproblematic fashion. We also show how to treat many particles within this representation.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# Open-Vocabulary Segmentationベンチマークにおける名前の更新

Renovating Names in Open-Vocabulary Segmentation Benchmarks ( http://arxiv.org/abs/2403.09593v1 )

ライセンス: Link先を確認
Haiwen Huang, Songyou Peng, Dan Zhang, Andreas Geiger, (参考訳) 名前は人間の認知と視覚言語モデルの両方に必須である。 オープン語彙モデルは、訓練中に見えないカテゴリに一般化するテキストプロンプトとしてクラス名を利用する。 しかし、名前の品質はしばしば見過ごされ、既存のデータセットに十分な精度が欠如している。 本稿では,オープンボキャブラリセグメンテーションベンチマーク(RENOVATE)における「リノベーション」の枠組みを提示することにより,この問題に対処する。 人間の研究を通して、我々のモデルによって生成された名前は視覚セグメントのより正確な記述であり、したがって単純なリネームによって既存のデータセットの品質を高めることを実証する。 さらに, 改良された名称を用いることで, より強力な開語彙セグメンテーションモデルの訓練が可能になることを実証した。 名称品質評価にオープンボキャブラリセグメンテーションを用いることで, 改良された名称は, 様々な評価モデルにおいて, 元の名称から最大16%の相対的な改善をもたらすことを示す。 研究コミュニティに人気のセグメンテーションデータセット(ADE20K, Cityscapes, PASCAL Context)のコードとレバリングを提供しています。

Names are essential to both human cognition and vision-language models. Open-vocabulary models utilize class names as text prompts to generalize to categories unseen during training. However, name qualities are often overlooked and lack sufficient precision in existing datasets. In this paper, we address this underexplored problem by presenting a framework for "renovating" names in open-vocabulary segmentation benchmarks (RENOVATE). Through human study, we demonstrate that the names generated by our model are more precise descriptions of the visual segments and hence enhance the quality of existing datasets by means of simple renaming. We further demonstrate that using our renovated names enables training of stronger open-vocabulary segmentation models. Using open-vocabulary segmentation for name quality evaluation, we show that our renovated names lead to up to 16% relative improvement from the original names on various benchmarks across various state-of-the-art models. We provide our code and relabelings for several popular segmentation datasets (ADE20K, Cityscapes, PASCAL Context) to the research community.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# 希少なオーロラ音のマルチラベル分類のための混合音の混合

Mixture of Mixups for Multi-label Classification of Rare Anuran Sounds ( http://arxiv.org/abs/2403.09598v1 )

ライセンス: Link先を確認
Ilyass Moummad, Nicolas Farrugia, Romain Serizel, Jeremy Froidevaux, Vincent Lostanlen, (参考訳) マルチラベルの不均衡な分類は、機械学習において重要な課題となり、特に生物音響学において、動物の音がしばしば共起し、特定の音が他の音よりもはるかに少ないことが顕著である。 本稿では,クラス不均衡とマルチラベルの両方の例を含むデータセットAnuraSetを用いて,アヌラン種の音を分類する特定の事例に焦点を当てた。 これらの課題に対処するために、Mixup、Manifold Mixup、MultiMixの混合正規化手法を利用したMixture of Mixups(Mix2)を紹介する。 実験結果から,これらの手法は個別に最適以下の結果をもたらす可能性が示唆された。しかし,各トレーニングイテレーションで選択された1つをランダムに適用した場合,特に稀なクラスにおいて,上記の課題に対処する上で有効であることが示唆された。 さらに分析した結果、Mix2は様々なレベルの共起音の分類に長けていることが明らかとなった。

Multi-label imbalanced classification poses a significant challenge in machine learning, particularly evident in bioacoustics where animal sounds often co-occur, and certain sounds are much less frequent than others. This paper focuses on the specific case of classifying anuran species sounds using the dataset AnuraSet, that contains both class imbalance and multi-label examples. To address these challenges, we introduce Mixture of Mixups (Mix2), a framework that leverages mixing regularization methods Mixup, Manifold Mixup, and MultiMix. Experimental results show that these methods, individually, may lead to suboptimal results; however, when applied randomly, with one selected at each training iteration, they prove effective in addressing the mentioned challenges, particularly for rare classes with few occurrences. Further analysis reveals that Mix2 is also proficient in classifying sounds across various levels of class co-occurrences.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# 対称性に保護された非アベリア統計を持つパラフェルミオン

Parafermions with symmetry-protected non-Abelian statistics ( http://arxiv.org/abs/2403.09602v1 )

ライセンス: Link先を確認
Jian-Song Hong, Su-Qi Zhang, Xin Liu, Xiong-Jun Liu, (参考訳) 非アベリア・エノンは、エキゾチックな非アベリア統計に従い、フォールトトレラント量子計算への潜在的な応用について広範囲に注意を払っている。 以前の研究では、対称性の保護を必要としない非アベリア統計に主に焦点が当てられていたが、近年の進歩により、対称性が重要な役割を担い、対称性に保護された非アベリア統計(SPNA)の概念をもたらすことが示されている。 本研究では、SPNA統計学の概念をパラフェミオンゼロモード(PZM)をホストする強相関系に拡張する。 この研究は、ここで証明されたいくつかの基本的な結果を含んでいる。 まず、PZMを局所結合から保護する一般ユニタリ対称性機構を公表する。 この対称性の保護により、PZMは2つの非自明なセクターに分類でき、それぞれがそれぞれのパリティ保存を維持している。 最後に、各セクターのパリティ保存と実効ブレイディングハミルトニアンの一般的な性質を活用して、PZMsが本質的にSPNA統計に従うことを厳密に証明する。 結果をさらに確認するため,三接合におけるブレイディング行列を導出する。 さらに、ミラー対称性で保護され、一般的な理論を満たす一対のPZMに対応する物理モデルを提案する。 この研究は、分数的なSPNA準粒子をホストし、交換ダイナミクスを管理する対称性に関連する基本量子統計学の理解を深めることのできる、強相関系の幅広いスペクトルを示す。

Non-Abelian anyons have garnered extensive attention for obeying exotic non-Abelian statistics and potential applications to fault-tolerant quantum computation. Although the prior research has predominantly focused on non-Abelian statistics without the necessity of symmetry protection, recent progresses have shown that symmetries can play essential roles and bring about a notion of the symmetry-protected non-Abelian (SPNA) statistics. In this work, we extend the concept of SPNA statistics to strongly-correlated systems which host parafermion zero modes (PZMs). This study involves a few fundamental results proved here. First, we unveil a generic unitary symmetry mechanism that protects PZMs from local couplings. Then, with this symmetry protection, the PZMs can be categorized into two nontrivial sectors, each maintaining its own parity conservation, even though the whole system cannot be dismantled into separate subsystems due to nonlinear interactions. Finally, by leveraging the parity conservation of each sector and the general properties of the effective braiding Hamiltonian, we prove rigorously that the PZMs intrinsically obey SPNA statistics. To further confirm the results, we derive the braiding matrix at a tri-junction. In addition, we propose a physical model that accommodates a pair of PZMs protected by mirror symmetry and satisfying the generic theory. This work shows a broad spectrum of strongly-correlated systems capable of hosting fractional SPNA quasiparticles and enriches our comprehension of fundamental quantum statistics linked to the symmetries that govern the exchange dynamics.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# ハードウェア非決定性制御による最適検証訓練

Optimistic Verifiable Training by Controlling Hardware Nondeterminism ( http://arxiv.org/abs/2403.09603v1 )

ライセンス: Link先を確認
Megha Srivastava, Simran Arora, Dan Boneh, (参考訳) AIシステムの計算要求の増加は、必要なリソースが不足しているクライアントのためにモデルをトレーニングするサービスの出現につながった。 しかし、トレーニングの正確性を確保し、データ中毒などの潜在的なトレーニングタイムアタックに対する防御が課題となる。 検証可能なトレーニングに関する既存の研究は、暗号技術を必要とするためスケールに苦しむ証明ベースシステムと、トレーニングプロセスを再現する信頼できる第三者監査者を考える「最適化」方法の2つのクラスに大別される。 後者の主な課題は、トレーニング中のGPUタイプ間のハードウェア非決定性により、監査人がトレーニングプロセスを正確に複製できないため、そのようなスキームは非破壊的である。 本研究では,対象モデルよりも高精度なトレーニング,中間計算ステップ後のラウンドリング,適応的しきい値決定法に基づくラウンドリング決定を組み合わせ,非決定性をうまく制御する手法を提案する。 3種類のNVIDIA GPU(A40, Titan XP, RTX 2080 Ti)にわたって、我々は、ResNet-50(23M)モデルとGPT-2(117M)モデルのフルトレーニングと微調整の両方において、FP32精度で正確なトレーニングレプリケーションを実現する。 検証可能なトレーニング手法は,証明ベースシステムと比較して,ストレージと時間コストを著しく削減する。

The increasing compute demands of AI systems has led to the emergence of services that train models on behalf of clients lacking necessary resources. However, ensuring correctness of training and guarding against potential training-time attacks, such as data poisoning, poses challenges. Existing works on verifiable training largely fall into two classes: proof-based systems, which struggle to scale due to requiring cryptographic techniques, and "optimistic" methods that consider a trusted third-party auditor who replicates the training process. A key challenge with the latter is that hardware nondeterminism between GPU types during training prevents an auditor from replicating the training process exactly, and such schemes are therefore non-robust. We propose a method that combines training in a higher precision than the target model, rounding after intermediate computation steps, and storing rounding decisions based on an adaptive thresholding procedure, to successfully control for nondeterminism. Across three different NVIDIA GPUs (A40, Titan XP, RTX 2080 Ti), we achieve exact training replication at FP32 precision for both full-training and fine-tuning of ResNet-50 (23M) and GPT-2 (117M) models. Our verifiable training scheme significantly decreases the storage and time costs compared to proof-based systems.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# 潜伏変数を用いた極端グラフィカルモデリング

Extremal graphical modeling with latent variables ( http://arxiv.org/abs/2403.09604v1 )

ライセンス: Link先を確認
Sebastian Engelke, Armeen Taeb, (参考訳) 極端グラフィカルモデルは多変量極度の条件独立構造を符号化し、稀な事象のリスクを定量化する強力なツールを提供する。 データからこれらのグラフを学習する以前の作業は、すべての関連する変数が観察される設定に焦点を当てていた。 H\"usler-Reissモデルの一般的なクラスに対しては、潜在変数の存在下での極端グラフィカルモデル学習のための抽出可能な凸プログラムである \texttt{eglatent} 法を提案する。 提案手法は,H\"usler-Reiss精度行列を,潜伏変数の条件付け後の観測変数間のグラフィカルな構造を符号化するスパース成分と,観測変数に対する少数の潜伏変数の影響を符号化するローランク成分に分解する。 我々は、texttt{eglatent} の有限サンプル保証を提供し、条件付きグラフと潜在変数の数を一貫して回復することを示す。 我々は、合成および実データに対するアプローチの改善性能を強調した。

Extremal graphical models encode the conditional independence structure of multivariate extremes and provide a powerful tool for quantifying the risk of rare events. Prior work on learning these graphs from data has focused on the setting where all relevant variables are observed. For the popular class of H\"usler-Reiss models, we propose the \texttt{eglatent} method, a tractable convex program for learning extremal graphical models in the presence of latent variables. Our approach decomposes the H\"usler-Reiss precision matrix into a sparse component encoding the graphical structure among the observed variables after conditioning on the latent variables, and a low-rank component encoding the effect of a few latent variables on the observed variables. We provide finite-sample guarantees of \texttt{eglatent} and show that it consistently recovers the conditional graph as well as the number of latent variables. We highlight the improved performances of our approach on synthetic and real data.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# 対実的コントラスト学習:因果画像合成による頑健な表現

Counterfactual contrastive learning: robust representations via causal image synthesis ( http://arxiv.org/abs/2403.09605v1 )

ライセンス: Link先を確認
Melanie Roschewitz, Fabio De Sousa Ribeiro, Tian Xia, Galvin Khara, Ben Glocker, (参考訳) 対照的な事前訓練は、特に限定されたラベル設定において、ダウンストリームタスクのパフォーマンスとモデル一般化を改善することでよく知られている。 しかし、拡張パイプラインの選択には敏感である。 正のペアは、ドメイン固有の情報を破壊しながら意味情報を保存すべきである。 標準的な拡張パイプラインは、事前に定義された測光変換でドメイン固有の変更をエミュレートしますが、代わりに現実的なドメイン変更をシミュレートできるとしたらどうでしょう? 本研究では, この効果に対して, 対実画像生成の最近の進歩を活用する方法について述べる。 本稿では,正のペア生成に近似した反現実的推論を利用する対実的コントラスト学習手法CF-SimCLRを提案する。 胸部X線撮影およびマンモグラフィーによる5つのデータセットの総合的評価は、CF-SimCLRが、特にトレーニング中にあまり表現されていない領域において、イン・オブ・オブ・アウト・ディストリビューション・データにおいて、より高いダウンストリーム性能で、取得シフトに対するロバスト性を大幅に向上することを示した。

Contrastive pretraining is well-known to improve downstream task performance and model generalisation, especially in limited label settings. However, it is sensitive to the choice of augmentation pipeline. Positive pairs should preserve semantic information while destroying domain-specific information. Standard augmentation pipelines emulate domain-specific changes with pre-defined photometric transformations, but what if we could simulate realistic domain changes instead? In this work, we show how to utilise recent progress in counterfactual image generation to this effect. We propose CF-SimCLR, a counterfactual contrastive learning approach which leverages approximate counterfactual inference for positive pair creation. Comprehensive evaluation across five datasets, on chest radiography and mammography, demonstrates that CF-SimCLR substantially improves robustness to acquisition shift with higher downstream performance on both in- and out-of-distribution data, particularly for domains which are under-represented during training.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# 共同作業における大規模言語モデルと因果推論:包括的調査

Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey ( http://arxiv.org/abs/2403.09606v1 )

ライセンス: Link先を確認
Xiaoyu Liu, Paiheng Xu, Junda Wu, Jiaxin Yuan, Yifan Yang, Yuhang Zhou, Fuxiao Liu, Tianrui Guan, Haoliang Wang, Tong Yu, Julian McAuley, Wei Ai, Furong Huang, (参考訳) 因果推論は、変数間の因果関係を捉えることにより、自然言語処理(NLP)モデルの予測精度、公平性、堅牢性、説明可能性を高める可能性を示している。 生成型大規模言語モデル(LLM)の出現は、特に高度な推論能力を通じて、様々なNLPドメインに大きな影響を与えている。 本調査は, LLMの推論能力の理解と改善, LLMの公平性と安全性の問題への対処, 説明付きLCMの補完, マルチモーダリティの取扱いなど, 因果的観点からのLCMの評価と改善に焦点を当てた。 一方、LSMの強い推論能力は因果関係の発見と因果効果の推定を補助することにより因果推論の分野に寄与することができる。 本稿では、両視点から、因果推論フレームワークとLLMの相互作用を考察し、より先進的で公平な人工知能システムの開発を促進するための、それらの集団的ポテンシャルを強調した。

Causal inference has shown potential in enhancing the predictive accuracy, fairness, robustness, and explainability of Natural Language Processing (NLP) models by capturing causal relationships among variables. The emergence of generative Large Language Models (LLMs) has significantly impacted various NLP domains, particularly through their advanced reasoning capabilities. This survey focuses on evaluating and improving LLMs from a causal view in the following areas: understanding and improving the LLMs' reasoning capacity, addressing fairness and safety issues in LLMs, complementing LLMs with explanations, and handling multimodality. Meanwhile, LLMs' strong reasoning capacities can in turn contribute to the field of causal inference by aiding causal relationship discovery and causal effect estimations. This review explores the interplay between causal inference frameworks and LLMs from both perspectives, emphasizing their collective potential to further the development of more advanced and equitable artificial intelligence systems.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# MM1:マルチモーダルLLM事前学習の方法・分析・洞察

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training ( http://arxiv.org/abs/2403.09611v1 )

ライセンス: Link先を確認
Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang, (参考訳) 本稿では,MLLM(Multimodal Large Language Models)の構築について論じる。 特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。 画像エンコーダ,視覚言語コネクタ,各種事前学習データの選択を慎重にかつ包括的に改善することにより,いくつかの重要な設計の教訓を明らかにした。 例えば、画像キャプチャー、インターリーブド画像テキスト、テキストのみのデータを慎重に組み合わせた大規模マルチモーダル事前学習は、複数のベンチマークで最新のSOTA (State-of-the-art) 数ショット結果を達成するのに不可欠であることを示す。 さらに、画像解像度と画像トークン数とを併用した画像エンコーダは、視覚言語コネクタ設計が比較的重要視されているのに対して、かなりの影響を与えることを示す。 提案したレシピをスケールアップすることにより,厳密なモデルと混合実験(MoE)の2つの変種からなる最大30BパラメータのマルチモーダルモデルのファミリーであるMM1を構築する。 大規模な事前トレーニングによって、MM1は、強化されたコンテキスト内学習やマルチイメージ推論などの魅力的な特性を享受し、数発のチェーン・オブ・シークレットのプロンプトを可能にしている。

In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, consisting of both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# 雑音応答型視覚知覚のためのコンピュータファースト光検出

Compute-first optical detection for noise-resilient visual perception ( http://arxiv.org/abs/2403.09612v1 )

ライセンス: Link先を確認
Jungmin Kim, Nanfang Yu, Zongfu Yu, (参考訳) 視覚的知覚の文脈では、シーンからの光学信号は、画像データの形で検出器によって電子ドメインに転送され、視覚情報の抽出のために処理される。 しかし、夜間視覚応用のためのサーマルイメージングのようなノイズや弱い信号環境においては、ニューラルコンピューティングタスクの性能はノイズ検出に伴うデータ品質の固有の劣化のために重大なボトルネックに直面している。 本稿では,この問題に対処するために,検出前の光信号処理の概念を提案する。 我々は、MNIST分類でベンチマークしたように、適切に設計された線形変換器を通して空間的に再分配された光信号は、視覚知覚タスクのノイズ耐性を高めることができることを示した。 我々は,信号濃度と雑音の頑健性との関係を定量的に分析し,非整合イメージングシステムにおけるその実践的実装を支持した。 この計算ファースト検出方式は、産業や防衛用途に広く使われている赤外線機械ビジョン技術の進歩の道を開くことができる。

In the context of visual perception, the optical signal from a scene is transferred into the electronic domain by detectors in the form of image data, which are then processed for the extraction of visual information. In noisy and weak-signal environments such as thermal imaging for night vision applications, however, the performance of neural computing tasks faces a significant bottleneck due to the inherent degradation of data quality upon noisy detection. Here, we propose a concept of optical signal processing before detection to address this issue. We demonstrate that spatially redistributing optical signals through a properly designed linear transformer can enhance the detection noise resilience of visual perception tasks, as benchmarked with the MNIST classification. Our idea is supported by a quantitative analysis detailing the relationship between signal concentration and noise robustness, as well as its practical implementation in an incoherent imaging system. This compute-first detection scheme can pave the way for advancing infrared machine vision technologies widely used for industrial and defense applications.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# 再覚醒知識:構造的訓練による破滅的干渉からの予測回復

Reawakening knowledge: Anticipatory recovery from catastrophic interference via structured training ( http://arxiv.org/abs/2403.09613v1 )

ライセンス: Link先を確認
Yanlai Yang, Matt Jones, Michael C. Mozer, Mengye Ren, (参考訳) 固定された繰り返しシーケンスで文書が循環的に提示される構造化された非IID環境で、ニューラルネットワークのトレーニングダイナミクスを探索する。 典型的には、一連の文書のトレーニングにおいて、ネットワークは破滅的な干渉に悩まされるが、この環境では、予測行動を示し、文書の忘れ物から再び遭遇する前に回復する、微調整されたLCMの興味深い、注目すべき特性が発見される。 アーキテクチャがパラメータの数をスケールアップするにつれて、振る舞いが出現し、より堅牢になる。 総合的な実験と可視化を通じて、構造化環境における過パラメータネットワークのトレーニングに関する新たな洞察を明らかにする。

We explore the training dynamics of neural networks in a structured non-IID setting where documents are presented cyclically in a fixed, repeated sequence. Typically, networks suffer from catastrophic interference when training on a sequence of documents; however, we discover a curious and remarkable property of LLMs fine-tuned sequentially in this setting: they exhibit anticipatory behavior, recovering from the forgetting on documents before encountering them again. The behavior emerges and becomes more robust as the architecture scales up its number of parameters. Through comprehensive experiments and visualizations, we uncover new insights into training over-parameterized networks in structured environments.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# 潜在拡散モデルによる文脈内セグメンテーションの探索

Explore In-Context Segmentation via Latent Diffusion Models ( http://arxiv.org/abs/2403.09616v1 )

ライセンス: Link先を確認
Chaoyang Wang, Xiangtai Li, Henghui Ding, Lu Qi, Jiangning Zhang, Yunhai Tong, Chen Change Loy, Shuicheng Yan, (参考訳) インコンテキストセグメンテーションは、ビジョン基礎モデルの導入によってより注目されている。 既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。 本研究では,1つの代表生成モデルである潜在拡散モデル(LDM)を用いて,新しい視点からこの問題を考察する。 拡散モデルにおける生成とセグメンテーションの間のタスクギャップを観察するが、LDMは文内セグメンテーションの有効なミニマリストである。 特に,2つのメタアーキテクチャを提案し,それに対応する出力アライメントと最適化戦略を設計する。 包括的アブレーション研究を行い、セグメンテーションの品質が出力アライメントとインコンテクスト命令に依存していることを実証的に確認した。 さらに、画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。 実験では、我々のアプローチの効率を検証し、以前のスペシャリストモデルやビジュアルファンデーションモデルに匹敵する、あるいはさらに強い結果を示します。 本研究は, LDMが文脈内セグメンテーション課題に挑戦する上で, 十分な結果が得られることを示す。

In-context segmentation has drawn more attention with the introduction of vision foundation models. Most existing approaches adopt metric learning or masked image modeling to build the correlation between visual prompts and input image queries. In this work, we explore this problem from a new perspective, using one representative generation model, the latent diffusion model (LDM). We observe a task gap between generation and segmentation in diffusion models, but LDM is still an effective minimalist for in-context segmentation. In particular, we propose two meta-architectures and correspondingly design several output alignment and optimization strategies. We have conducted comprehensive ablation studies and empirically found that the segmentation quality counts on output alignment and in-context instructions. Moreover, we build a new and fair in-context segmentation benchmark that includes both image and video datasets. Experiments validate the efficiency of our approach, demonstrating comparable or even stronger results than previous specialist models or visual foundation models. Our study shows that LDMs can also achieve good enough results for challenging in-context segmentation tasks.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# 擬似絡み合いのダイナミクス

Dynamics of Pseudoentanglement ( http://arxiv.org/abs/2403.09619v1 )

ライセンス: Link先を確認
Xiaozhou Feng, Matteo Ippoliti, (参考訳) 量子絡み合いの力学は、孤立多体系における熱平衡の出現を説明する上で中心的な役割を果たす。 最近の研究は、多体状態のアンサンブルを記述する擬似絡みの概念を導入しており、弱い絡み合いしか持たないが、ヒルベルト空間のランダム状態のような、はるかに高い絡み合いを持つ状態と効率的に区別することはできない。 本研究では,擬似絡みの動的生成と伝播の研究を開始する。 一般的な量子力学は実際の絡み合いを最大化する傾向があるため、時間進化の制約されたモデルを考える: 適切な入力状態を満たすと、疑似絡み合ったアンサンブルの「標準モデル」を確実に生成するオートマトン(すなわち可逆的古典)回路。 検討する (i)小さなサブシステム上の擬似絡み合いが時間関数としてシステム全体にどのように広がるか、 (ii)初期積状態から擬似絡み合いが発生する方法。 上記の問題を計算基底の部分集合上の古典マルコフ連鎖の族に写像する。 このようなマルコフ連鎖の混合時間は、各統計モーメント(またはコピー数)のレベルにおけるハールランダム状態と力学から生成される状態が区別できない時間スケールに関係している。 数値によって支えられる厳密な境界と予想の組み合わせに基づいて、各マルコフ連鎖の緩和時間と混合時間は、大きな系の大きさの極限において異なる漸近的挙動を持つと論じる。 これはカットオフ現象に必要な条件であり、急激な動的遷移から平衡への遷移である。 したがって、我々のランダム回路は漸近的に鋭い擬熱化遷移をもたらすと推測する。

The dynamics of quantum entanglement plays a central role in explaining the emergence of thermal equilibrium in isolated many-body systems. However, entanglement is notoriously hard to measure, and can in fact be forged: recent works have introduced a notion of pseudoentanglement describing ensembles of many-body states that, while only weakly entangled, cannot be efficiently distinguished from states with much higher entanglement, such as random states in the Hilbert space. In this work we initiate the study of the dynamical generation and propagation of pseudoentanglement. As generic quantum dynamics tends to maximize actual entanglement, we consider constrained models of time evolution: automaton (i.e. reversible classical) circuits that, when fed suitable input states, provably produce the "standard models" of pseudoentangled ensembles--uniformly random subset(-phase) states--at late times, a phenomenon we name 'pseudothermalization'. We examine (i) how a pseudoentangled ensemble on a small subsystem spreads to the whole system as a function of time, and (ii) how a pseudoentangled ensemble is generated from an initial product state. We map the above problems onto a family of classical Markov chains on subsets of the computational basis. The mixing times of such Markov chains are related to the time scales at which the states produced from the dynamics become indistinguishable from Haar-random states at the level of each statistical moment (or number of copies). Based on a combination of rigorous bounds and conjectures supported by numerics, we argue that each Markov chain's relaxation time and mixing time have different asymptotic behavior in the limit of large system size. This is a necessary condition for a cutoff phenomenon: an abrupt dynamical transition to equilibrium. We thus conjecture that our random circuits give rise to asymptotically sharp pseudothermalization transitions.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# PosSAM: Panoptic Open-vocabulary Segment Anything

PosSAM: Panoptic Open-vocabulary Segment Anything ( http://arxiv.org/abs/2403.09620v1 )

ライセンス: Link先を確認
Vibashan VS, Shubhankar Borse, Hyojin Park, Debasmit Das, Vishal Patel, Munawar Hayat, Fatih Porikli, (参考訳) 本稿では,Segment Anything Model(SAM)の強みを,エンドツーエンドのフレームワークで視覚言語CLIPモデルと効果的に統合する,オープンな語彙的パノプティセグメンテーションモデルを提案する。 SAMは空間的に認識可能なマスクを生成するのに優れていますが、デコーダはオブジェクトクラス情報を認識するのに不足しており、追加のガイダンスなしでオーバーセージする傾向があります。 既存のアプローチでは、マルチステージ技術を使用して、バウンディングボックスやセグメンテーションマスクなどのクラス認識プロンプトを生成することで、この制限に対処している。 提案手法であるPosSAMは、SAMの空間的リッチな特徴を活用して、インスタンス認識マスクを生成し、CLIPのセマンティック識別機能を有効インスタンス分類に活用するエンド・ツー・エンドモデルである。 具体的には、SAMの限界に対処し、クラスに依存しないSAMとクラス認識CLIP機能を利用した新しいローカル識別プール(LDP)モジュールを提案する。 さらに、生成マスクの品質を適応的に向上させ、各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズム(MASE)を導入する。 我々は,複数のデータセットにまたがる手法の強い一般化特性を実証し,SOTAオープンボキャブラリ・パノプティクス・セグメンテーション法よりも大幅に改善された最先端性能を実現するために,広範な実験を行った。 COCO - ADE20K と ADE20K の両方のCOCO設定では、PosSAM は従来の最先端の手法をそれぞれ2.4 PQ と 4.6 PQ で上回っている。 プロジェクトサイト:https://vibashan.github.io/possam-web/.com

In this paper, we introduce an open-vocabulary panoptic segmentation model that effectively unifies the strengths of the Segment Anything Model (SAM) with the vision-language CLIP model in an end-to-end framework. While SAM excels in generating spatially-aware masks, it's decoder falls short in recognizing object class information and tends to oversegment without additional guidance. Existing approaches address this limitation by using multi-stage techniques and employing separate models to generate class-aware prompts, such as bounding boxes or segmentation masks. Our proposed method, PosSAM is an end-to-end model which leverages SAM's spatially rich features to produce instance-aware masks and harnesses CLIP's semantically discriminative features for effective instance classification. Specifically, we address the limitations of SAM and propose a novel Local Discriminative Pooling (LDP) module leveraging class-agnostic SAM and class-aware CLIP features for unbiased open-vocabulary classification. Furthermore, we introduce a Mask-Aware Selective Ensembling (MASE) algorithm that adaptively enhances the quality of generated masks and boosts the performance of open-vocabulary classification during inference for each image. We conducted extensive experiments to demonstrate our methods strong generalization properties across multiple datasets, achieving state-of-the-art performance with substantial improvements over SOTA open-vocabulary panoptic segmentation methods. In both COCO to ADE20K and ADE20K to COCO settings, PosSAM outperforms the previous state-of-the-art methods by a large margin, 2.4 PQ and 4.6 PQ, respectively. Project Website: https://vibashan.github.io/possam-web/.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# 分散ロバストオフライン強化学習のための最小かつ計算効率の良いアルゴリズム

Minimax Optimal and Computationally Efficient Algorithms for Distributionally Robust Offline Reinforcement Learning ( http://arxiv.org/abs/2403.09621v1 )

ライセンス: Link先を確認
Zhishuai Liu, Pan Xu, (参考訳) 動的不確かさをモデル化することで環境摂動に対する堅牢な政策トレーニングを求める分散ロバストなオフライン強化学習(RL)は、大きな状態行動空間に直面した場合に関数近似を求める。 しかし、力学の不確実性を考慮すると、本質的な非線形性と計算的負担が伴い、関数近似を解析し、実際に活用する上でユニークな課題が浮き彫りになる。 そこで我々は,関数近似を実現する最小最適・計算効率のアルゴリズムを提案し,ロバストなオフラインRLの文脈におけるインスタンス依存的最適性解析の研究を開始する。 その結果、ロバストなオフラインRLの関数近似は、標準のオフラインRLと本質的に異なり、おそらくは難しいことが判明した。 我々のアルゴリズムと理論的結果は、分散情報を含む新しい関数近似機構、最適化と推定の不確実性分解の新たな手順、ロバストな値関数の縮小の定量化、そして厳密に設計されたハードインスタンスのファミリーなど、様々な新しい手法に大きく依存する。

Distributionally robust offline reinforcement learning (RL), which seeks robust policy training against environment perturbation by modeling dynamics uncertainty, calls for function approximations when facing large state-action spaces. However, the consideration of dynamics uncertainty introduces essential nonlinearity and computational burden, posing unique challenges for analyzing and practically employing function approximation. Focusing on a basic setting where the nominal model and perturbed models are linearly parameterized, we propose minimax optimal and computationally efficient algorithms realizing function approximation and initiate the study on instance-dependent suboptimality analysis in the context of robust offline RL. Our results uncover that function approximation in robust offline RL is essentially distinct from and probably harder than that in standard offline RL. Our algorithms and theoretical results crucially depend on a variety of new techniques, involving a novel function approximation mechanism incorporating variance information, a new procedure of suboptimality and estimation uncertainty decomposition, a quantification of the robust value function shrinkage, and a meticulously designed family of hard instances, which might be of independent interest.
翻訳日:2024-03-15 19:06:48 公開日:2024-03-14
# Glyph-ByT5: 正確なビジュアルテキストレンダリングのためのカスタマイズされたテキストエンコーダ

Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering ( http://arxiv.org/abs/2403.09622v1 )

ライセンス: Link先を確認
Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan, (参考訳) ビジュアルテキストレンダリングは、テキストエンコーダの欠陥が中心的な問題となっている現代テキスト・画像生成モデルにおいて、根本的な課題となっている。 正確なテキストレンダリングを実現するために,文字認識とグリフとのアライメントという,テキストエンコーダの2つの重要な要件を特定した。 我々のソリューションは、微妙にキュレートされたグリフテキストデータセットを使用して文字認識のBYT5エンコーダを微調整することで、一連のカスタマイズされたテキストエンコーダ、Glyph-ByT5を作成することである。 本稿では,Glyph-ByT5をSDXLに統合する方法を提案する。 これにより、テキストレンダリングの精度が大幅に向上し、デザインイメージベンチマークで20セント未満から90セント近くに改善します。 注目すべきは、Glyph-SDXLの新しいテキスト段落レンダリング機能で、自動的な複数行レイアウトを持つ数十から数百文字のスペル精度を実現することである。 最後に,Glyph-SDXLの微調整により,オープンドメイン実画像におけるシーンテキストレンダリング機能を大幅に向上させることを示す。 これらの魅力的な成果は、多様で困難なタスクのためにカスタマイズされたテキストエンコーダを設計する際のさらなる調査を促進することを目的としている。

Visual text rendering poses a fundamental challenge for contemporary text-to-image generation models, with the core problem lying in text encoder deficiencies. To achieve accurate text rendering, we identify two crucial requirements for text encoders: character awareness and alignment with glyphs. Our solution involves crafting a series of customized text encoder, Glyph-ByT5, by fine-tuning the character-aware ByT5 encoder using a meticulously curated paired glyph-text dataset. We present an effective method for integrating Glyph-ByT5 with SDXL, resulting in the creation of the Glyph-SDXL model for design image generation. This significantly enhances text rendering accuracy, improving it from less than $20\%$ to nearly $90\%$ on our design image benchmark. Noteworthy is Glyph-SDXL's newfound ability for text paragraph rendering, achieving high spelling accuracy for tens to hundreds of characters with automated multi-line layouts. Finally, through fine-tuning Glyph-SDXL with a small set of high-quality, photorealistic images featuring visual text, we showcase a substantial improvement in scene text rendering capabilities in open-domain real images. These compelling outcomes aim to encourage further exploration in designing customized text encoders for diverse and challenging tasks.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# 3次元回復のためのスコアガイド付き拡散

Score-Guided Diffusion for 3D Human Recovery ( http://arxiv.org/abs/2403.09623v1 )

ライセンス: Link先を確認
Anastasis Stathopoulos, Ligong Han, Dimitris Metaxas, (参考訳) Score-Guided Human Mesh Recovery (ScoreHMR)を提案する。 これらの逆問題には、人体モデルを画像観察に合わせることが含まれており、伝統的に最適化技術によって解決されてきた。 ScoreHMRはモデルフィッティングアプローチを模倣するが、拡散モデルの潜在空間におけるスコアガイダンスによって画像観察との整合が達成される。 拡散モデルは、入力画像が与えられた人間のモデルパラメータの条件分布をキャプチャするために訓練される。 ScoreHMRは、タスク固有のスコアを付与することで、タスクに依存しない拡散モデルの再学習を必要とせずに、様々なアプリケーションの逆問題を効果的に解決する。 我々は3つの設定/アプリケーションに対してアプローチを評価した。 これらは (i)単フレームモデル適合 二 複数の校正されていない見解から復興すること。 三 映像で人間を再構築すること。 ScoreHMRは、すべての設定で人気のあるベンチマークの最適化ベースラインを一貫して上回っている。 私たちはコードとモデルをhttps://statho.github.io/ScoreHMR.orgで公開しています。

We present Score-Guided Human Mesh Recovery (ScoreHMR), an approach for solving inverse problems for 3D human pose and shape reconstruction. These inverse problems involve fitting a human body model to image observations, traditionally solved through optimization techniques. ScoreHMR mimics model fitting approaches, but alignment with the image observation is achieved through score guidance in the latent space of a diffusion model. The diffusion model is trained to capture the conditional distribution of the human model parameters given an input image. By guiding its denoising process with a task-specific score, ScoreHMR effectively solves inverse problems for various applications without the need for retraining the task-agnostic diffusion model. We evaluate our approach on three settings/applications. These are: (i) single-frame model fitting; (ii) reconstruction from multiple uncalibrated views; (iii) reconstructing humans in video sequences. ScoreHMR consistently outperforms all optimization baselines on popular benchmarks across all settings. We make our code and models available at the https://statho.github.io/ScoreHMR.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# 変量量子固有溶媒の物理的改善

Physically motivated improvements of Variational Quantum Eigensolvers ( http://arxiv.org/abs/2403.09624v1 )

ライセンス: Link先を確認
Nonia Vaquero-Sabater, Abel Carreras, Román Orús, Nicholas J. Mayhall, David Casanova, (参考訳) アダプティブデリバティブ・アサンブル・擬似トロッター変分量子固有解器 (ADAPT-VQE) は、ノイズ量子デバイスを用いた量子化学における電子構造問題に対する重要なアプローチとして登場した。 しかし,既存の技術的制約を克服するため,ADAPT-VQEの有効性を高める努力を行った。 電子構造理論からの洞察を生かし、計算負荷を加味せずに状態準備を最適化することに集中し、アンザッツ展開を誘導し、より簡潔な波動関数を高速に解へ収束させる。 これらの進歩は、より浅い回路で頂点に達し、実証されたように測定要求を減らした。 本研究は,H4モデルの単次元,二次元,三次元の配列,および水分子におけるそれらの性能を評価する。 究極的には、この研究はADAPT-VQEの効率を固める物理的動機付け戦略の可能性を証明し、量子化学シミュレーションにおいて重要な一歩を踏み出した。

The Adaptive Derivative-Assembled Pseudo-Trotter Variational Quantum Eigensolver (ADAPT-VQE) has emerged as a pivotal promising approach for electronic structure challenges in quantum chemistry with noisy quantum devices. Nevertheless, to surmount existing technological constraints, this study endeavors to enhance ADAPT-VQE's efficacy. Leveraging insights from electronic structure theory, we concentrate on optimizing state preparation without added computational burden and guiding ansatz expansion to yield more concise wavefunctions with expedited convergence toward exact solutions. These advancements culminate in shallower circuits and, as demonstrated, reduced measurement requirements. This research delineates these enhancements and assesses their performance across mono, di, and tridimensional arrangements of H4 models, as well as in the water molecule. Ultimately, this work attests to the viability of physically-motivated strategies in fortifying ADAPT-VQE's efficiency, marking a significant stride in quantum chemistry simulations.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# Make-Your-3D: 高速かつ一貫性のある主題駆動型3Dコンテンツ生成

Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation ( http://arxiv.org/abs/2403.09625v1 )

ライセンス: Link先を確認
Fangfu Liu, Hanyang Wang, Weiliang Chen, Haowen Sun, Yueqi Duan, (参考訳) 近年、ユーザーが単一の画像や自然言語を通じて3Dコンテンツ生成プロセスをガイドできるようにすることで、新しいレベルの創造的柔軟性を提供する3D生成モデルの強みを目の当たりにしている。 しかし、既存の3D生成手法が多様なプロンプトにまたがって主題駆動型3Dコンテンツを作成することは依然として困難である。 本稿では,高忠実度・一貫した3Dコンテンツを,テキスト記述を伴う1つの画像のみから5分以内にパーソナライズできる,Make-Your-3Dという新しい3Dカスタマイズ手法を提案する。 我々の重要な洞察は、多視点拡散モデルとアイデンティティ特異的な2次元生成モデルの分布を調和させ、所望の3次元対象の分布と整合させることである。 具体的には,分散の分散を低減するための共進化フレームワークを設計し,各モデルがそれぞれ同一性を考慮した最適化と主観的事前最適化によって互いに学習するプロセスを実行する。 広汎な実験により,本手法は,対象画像に見つからないテキスト駆動型修正による高品質で一貫した,主題特異的な3Dコンテンツを生成できることが実証された。

Recent years have witnessed the strong power of 3D generation models, which offer a new level of creative flexibility by allowing users to guide the 3D content generation process through a single image or natural language. However, it remains challenging for existing 3D generation methods to create subject-driven 3D content across diverse prompts. In this paper, we introduce a novel 3D customization method, dubbed Make-Your-3D that can personalize high-fidelity and consistent 3D content from only a single image of a subject with text description within 5 minutes. Our key insight is to harmonize the distributions of a multi-view diffusion model and an identity-specific 2D generative model, aligning them with the distribution of the desired 3D subject. Specifically, we design a co-evolution framework to reduce the variance of distributions, where each model undergoes a process of learning from the other through identity-aware optimization and subject-prior optimization, respectively. Extensive experiments demonstrate that our method can produce high-quality, consistent, and subject-specific 3D content with text-driven modifications that are unseen in subject image.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# Video Mamba Suite:ビデオ理解の代替手段としてのステートスペースモデル

Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding ( http://arxiv.org/abs/2403.09626v1 )

ライセンス: Link先を確認
Guo Chen, Yifei Huang, Jilan Xu, Baoqi Pei, Zhe Chen, Zhiqi Li, Jiahao Wang, Kunchang Li, Tong Lu, Limin Wang, (参考訳) ビデオの理解はコンピュータビジョン研究における基本的な方向性の1つであり、RNN、3D CNN、Transformersといった様々なアーキテクチャの探索に重点を置いている。 新たに提案された状態空間モデルアーキテクチャであるMambaは、長周期モデリングからビデオモデリングへの成功を期待できる特性を示している。 本研究では,映像理解領域におけるトランスフォーマーの代替として,マンバが有効であるかどうかを評価するために,マンバがビデオモデリングにおいて果たす役割を,マンバが優位性を示す様々なタスクについて検討しながら,包括的研究を行う。 ビデオモデリングでは,14のモデル/モジュールからなるビデオマンバスイートを,12のビデオ理解タスクで評価し,Mambaを4つの役割に分類した。 広範にわたる実験により,ビデオ専用タスクとビデオ言語タスクの両方において,Mambaの強い可能性を示すとともに,有望な効率と性能のトレードオフを示す。 この研究が将来のビデオ理解研究に有用なデータポイントと洞察を提供することを期待している。 コードは、https://github.com/OpenGVLab/video-mamba-suite.comで公開されている。

Understanding videos is one of the fundamental directions in computer vision research, with extensive efforts dedicated to exploring various architectures such as RNN, 3D CNN, and Transformers. The newly proposed architecture of state space model, e.g., Mamba, shows promising traits to extend its success in long sequence modeling to video modeling. To assess whether Mamba can be a viable alternative to Transformers in the video understanding domain, in this work, we conduct a comprehensive set of studies, probing different roles Mamba can play in modeling videos, while investigating diverse tasks where Mamba could exhibit superiority. We categorize Mamba into four roles for modeling videos, deriving a Video Mamba Suite composed of 14 models/modules, and evaluating them on 12 video understanding tasks. Our extensive experiments reveal the strong potential of Mamba on both video-only and video-language tasks while showing promising efficiency-performance trade-offs. We hope this work could provide valuable data points and insights for future research on video understanding. Code is public: https://github.com/OpenGVLab/video-mamba-suite.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# Quiet-STaR: 言語モデルは話す前に考えを学べる

Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking ( http://arxiv.org/abs/2403.09629v1 )

ライセンス: Link先を確認
Eric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber, Noah D. Goodman, (参考訳) 書くときも話すときも、考えるのをやめることもある。 推論に焦点を当てた著作は、しばしば、質問に答えたり、エージェント的なタスクを完了させる方法として推論の枠組みを定めているが、ほとんどすべてのテキストで推論は暗黙的である。 例えば、証明の行の間に記載されていないステップや、会話の根底にある心の理論に当てはまる。 Self-Taught Reasoner (STaR, Zelikman et al 2022) では、質問回答の少数の例から合理的に推論し、正しい答えにつながるものから学習することで、有用な思考が学習される。 これは非常に制約のある設定です - 理想的には、言語モデルは、任意のテキストで未定の有理を推測することを学ぶことができます。 本稿では,STaRの一般化であるQuiet-STaRを提案する。 私たちは重要な課題に取り組みます。 1)継続生成の計算コスト 2 LMが当初内部思想の生成又は使用方法を知らないこと、及び 3) 個々の次のトークンを越えて予測する必要性。 これらを解決するために,思考の開始と終了を示す学習可能なトークンを用いたトークンワイド並列サンプリングアルゴリズムと,拡張された教師強制手法を提案する。 生成した合理性は不公平に予測し難いトークンをモデル化し、難しい質問に直接答えるLMの能力を改善するのに役立つ。 特に、Quiet-STaRでインターネットテキストのコーパスにLMを事前訓練した後、GSM8K (5.9%$\rightarrow$10.9%) とCommonsenseQA (36.3%$\rightarrow$47.2%) をゼロショットで改善し、自然文における難解なトークンの難易度改善を観察した。 重要な点として、これらの改善はこれらのタスクを微調整する必要がない。 Quiet-STaRは、より汎用的でスケーラブルな方法で理屈を学べるLMへの一歩である。

When writing and talking, people sometimes pause to think. Although reasoning-focused works have often framed reasoning as a method of answering questions or completing agentic tasks, reasoning is implicit in almost all written text. For example, this applies to the steps not stated between the lines of a proof or to the theory of mind underlying a conversation. In the Self-Taught Reasoner (STaR, Zelikman et al. 2022), useful thinking is learned by inferring rationales from few-shot examples in question-answering and learning from those that lead to a correct answer. This is a highly constrained setting -- ideally, a language model could instead learn to infer unstated rationales in arbitrary text. We present Quiet-STaR, a generalization of STaR in which LMs learn to generate rationales at each token to explain future text, improving their predictions. We address key challenges, including 1) the computational cost of generating continuations, 2) the fact that the LM does not initially know how to generate or use internal thoughts, and 3) the need to predict beyond individual next tokens. To resolve these, we propose a tokenwise parallel sampling algorithm, using learnable tokens indicating a thought's start and end, and an extended teacher-forcing technique. Encouragingly, generated rationales disproportionately help model difficult-to-predict tokens and improve the LM's ability to directly answer difficult questions. In particular, after continued pretraining of an LM on a corpus of internet text with Quiet-STaR, we find zero-shot improvements on GSM8K (5.9%$\rightarrow$10.9%) and CommonsenseQA (36.3%$\rightarrow$47.2%) and observe a perplexity improvement of difficult tokens in natural text. Crucially, these improvements require no fine-tuning on these tasks. Quiet-STaR marks a step towards LMs that can learn to reason in a more general and scalable way.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# 自律運転における一般化予測モデル

Generalized Predictive Model for Autonomous Driving ( http://arxiv.org/abs/2403.09630v1 )

ライセンス: Link先を確認
Jiazhi Yang, Shenyuan Gao, Yihang Qiu, Li Chen, Tianyu Li, Bo Dai, Kashyap Chitta, Penghao Wu, Jia Zeng, Ping Luo, Jun Zhang, Andreas Geiger, Yu Qiao, Hongyang Li, (参考訳) 本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。 高速データ収集の制限をなくし,モデルの一般化能力を高めるため,Webから大量のデータを取得し,多種多様な高品質なテキスト記述と組み合わせる。 その結果得られたデータセットは2000時間以上の運転ビデオを蓄積し、さまざまな気象条件と交通シナリオで世界中に分散している。 近年の潜伏拡散モデルの利点を継承して、我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。 ゼロショット方式で様々な未確認運転データセットに一般化でき、一般または運転特化映像予測データセットを超越することを示す。 さらに、GenADはアクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。

In this paper, we introduce the first large-scale video prediction model in the autonomous driving discipline. To eliminate the restriction of high-cost data collection and empower the generalization ability of our model, we acquire massive data from the web and pair it with diverse and high-quality text descriptions. The resultant dataset accumulates over 2000 hours of driving videos, spanning areas all over the world with diverse weather conditions and traffic scenarios. Inheriting the merits from recent latent diffusion models, our model, dubbed GenAD, handles the challenging dynamics in driving scenes with novel temporal reasoning blocks. We showcase that it can generalize to various unseen driving datasets in a zero-shot manner, surpassing general or driving-specific video prediction counterparts. Furthermore, GenAD can be adapted into an action-conditioned prediction model or a motion planner, holding great potential for real-world driving applications.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# 3D-VLA:3Dビジョンランゲージ・アクション生成世界モデル

3D-VLA: A 3D Vision-Language-Action Generative World Model ( http://arxiv.org/abs/2403.09631v1 )

ライセンス: Link先を確認
Haoyu Zhen, Xiaowen Qiu, Peihao Chen, Jincheng Yang, Xin Yan, Yilun Du, Yining Hong, Chuang Gan, (参考訳) 最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。 さらに、知覚から行動への直接マッピングを学習し、世界の広大なダイナミクスや行動と力学の関係を無視して行動予測を行う。 対照的に、人間には未来のシナリオについての想像力を描いた世界モデルが与えられ、それに従って行動を計画する。 そこで本研究では, 3次元知覚, 推論, 行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより, 3D-VLAを提案する。 具体的には、3D-VLAは3Dベースの大規模言語モデル(LLM)上に構築され、エンボディ環境での対話トークンのセットが導入された。 さらに、モデルに生成能力を注入するために、一連の具体的拡散モデルを訓練し、目標画像と点雲を予測するためにLSMに整列させる。 3D-VLAをトレーニングするために、既存のロボットデータセットから膨大な3D関連情報を抽出することにより、大規模な3D実施指導データセットをキュレートする。 本実験は,3D-VLAが実環境における推論,マルチモーダル生成,計画能力を大幅に改善し,実世界の応用の可能性を示したものである。

Recent vision-language-action (VLA) models rely on 2D inputs, lacking integration with the broader realm of the 3D physical world. Furthermore, they perform action prediction by learning a direct mapping from perception to action, neglecting the vast dynamics of the world and the relations between actions and dynamics. In contrast, human beings are endowed with world models that depict imagination about future scenarios to plan actions accordingly. To this end, we propose 3D-VLA by introducing a new family of embodied foundation models that seamlessly link 3D perception, reasoning, and action through a generative world model. Specifically, 3D-VLA is built on top of a 3D-based large language model (LLM), and a set of interaction tokens is introduced to engage with the embodied environment. Furthermore, to inject generation abilities into the model, we train a series of embodied diffusion models and align them into the LLM for predicting the goal images and point clouds. To train our 3D-VLA, we curate a large-scale 3D embodied instruction dataset by extracting vast 3D-related information from existing robotics datasets. Our experiments on held-in datasets demonstrate that 3D-VLA significantly improves the reasoning, multimodal generation, and planning capabilities in embodied environments, showcasing its potential in real-world applications.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# ホロリライティング:単一画像からの制御可能なボリュームポートレートリライティング

Holo-Relighting: Controllable Volumetric Portrait Relighting from a Single Image ( http://arxiv.org/abs/2403.09632v1 )

ライセンス: Link先を確認
Yiqun Mei, Yu Zeng, He Zhang, Zhixin Shu, Xuaner Zhang, Sai Bi, Jianming Zhang, HyunJoon Jung, Vishal M. Patel, (参考訳) 肖像画の核心は、理想的な照明と視点の探索である。 このプロセスは、しばしば写真に関する高度な知識と精巧なスタジオのセットアップを必要とする。 本研究では,新しい視点を合成可能なボリュームリライティング手法であるHolo-Relightingと,単一画像からの新たなライティングを提案する。 Holo-Relightingは、事前訓練された3D GAN(EG3D)を利用して、入力されたポートレートから3D対応の特徴のセットとして幾何学と外観を再構築する。 これらの特徴を処理するために、所定の照明に条件付けされた照明モジュールを設計し、ボリュームレンダリングにより任意の視点にレンダリングできるトリプレーンの形で、信頼度の高い3D表現を予測する。 視点制御と照明制御に加えて、ホロライティングはヘッドポーズを条件として、ヘッドポジション依存の照明効果を可能にする。 これらの新しい設計により、ホロライティングは、明示的な物理的照明の前兆を使わずに、複雑な非ランベルト照明効果(例えば、特異なハイライトやキャストシャドウ)を発生させることができる。 本研究は, ホロライティングを光で捉えたデータを用いて訓練し, ボリュームライティングシステムの学習におけるデータ品質向上のための2つのデータレンダリング手法を提案する。 定量的および定性的な実験を通じて、ホロライティングは、より優れたフォトリアリズム、3次元の一貫性、制御性を備えた最先端のリライティング品質を実現することができることを実証する。

At the core of portrait photography is the search for ideal lighting and viewpoint. The process often requires advanced knowledge in photography and an elaborate studio setup. In this work, we propose Holo-Relighting, a volumetric relighting method that is capable of synthesizing novel viewpoints, and novel lighting from a single image. Holo-Relighting leverages the pretrained 3D GAN (EG3D) to reconstruct geometry and appearance from an input portrait as a set of 3D-aware features. We design a relighting module conditioned on a given lighting to process these features, and predict a relit 3D representation in the form of a tri-plane, which can render to an arbitrary viewpoint through volume rendering. Besides viewpoint and lighting control, Holo-Relighting also takes the head pose as a condition to enable head-pose-dependent lighting effects. With these novel designs, Holo-Relighting can generate complex non-Lambertian lighting effects (e.g., specular highlights and cast shadows) without using any explicit physical lighting priors. We train Holo-Relighting with data captured with a light stage, and propose two data-rendering techniques to improve the data quality for training the volumetric relighting system. Through quantitative and qualitative experiments, we demonstrate Holo-Relighting can achieve state-of-the-arts relighting quality with better photorealism, 3D consistency and controllability.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# OneTracker: ファンデーションモデルと効率的なチューニングによるビジュアルオブジェクト追跡の統合

OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning ( http://arxiv.org/abs/2403.09634v1 )

ライセンス: Link先を確認
Lingyi Hong, Shilin Yan, Renrui Zhang, Wanyun Li, Xinyu Zhou, Pinxue Guo, Kaixun Jiang, Yiting Chen, Jinglun Li, Zhaoyu Chen, Wenqiang Zhang, (参考訳) ビジュアルオブジェクト追跡は、第1フレームの最初の外観に基づいて、各フレームのターゲットオブジェクトをローカライズすることを目的としている。 入力のモダリティによって、トラッキングタスクはRGBのトラッキングとRGB+X(例えばRGB+NとRGB+D)のトラッキングに分けられる。 異なる入力モダリティにもかかわらず、トラッキングのコアとなる側面は時間的マッチングである。 この共通基盤に基づいて,OneTrackerと呼ばれる様々なトラッキングタスクを統合するための一般的なフレームワークを提案する。 OneTrackerは最初に、Foundation Trackerと呼ばれるRGBトラッカーで大規模な事前トレーニングを行う。 この事前訓練フェーズは、ファンデーショントラッカーに、対象物の位置を推定する安定した能力を与える。 次に、他のモダリティ情報をプロンプトとみなし、Foundation Tracker上にPrompt Trackerを構築する。 Foundation Trackerを凍結し、いくつかのトレーニング可能なパラメータのみを調整することで、Prompt TrackerはFoundation Trackerからの強力なローカライゼーション能力を阻害し、下流のRGB+Xトラッキングタスクでパラメータ効率の良い微調整を実現する。 ファウンデーショントラッカーとプロンプトトラッカーで構成される一般的なフレームワークであるOneTrackerの有効性を評価するため、11のベンチマークで6つの一般的なトラッキングタスクについて広範な実験を行い、OneTrackerは他のモデルよりも優れ、最先端のパフォーマンスを達成する。

Visual object tracking aims to localize the target object of each frame based on its initial appearance in the first frame. Depending on the input modility, tracking tasks can be divided into RGB tracking and RGB+X (e.g. RGB+N, and RGB+D) tracking. Despite the different input modalities, the core aspect of tracking is the temporal matching. Based on this common ground, we present a general framework to unify various tracking tasks, termed as OneTracker. OneTracker first performs a large-scale pre-training on a RGB tracker called Foundation Tracker. This pretraining phase equips the Foundation Tracker with a stable ability to estimate the location of the target object. Then we regard other modality information as prompt and build Prompt Tracker upon Foundation Tracker. Through freezing the Foundation Tracker and only adjusting some additional trainable parameters, Prompt Tracker inhibits the strong localization ability from Foundation Tracker and achieves parameter-efficient finetuning on downstream RGB+X tracking tasks. To evaluate the effectiveness of our general framework OneTracker, which is consisted of Foundation Tracker and Prompt Tracker, we conduct extensive experiments on 6 popular tracking tasks across 11 benchmarks and our OneTracker outperforms other models and achieves state-of-the-art performance.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# トランスフォーマーが安定する: 言語モデルのためのエンドツーエンド信号伝搬理論

Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models ( http://arxiv.org/abs/2403.09635v1 )

ライセンス: Link先を確認
Akhil Kedia, Mohd Abbas Zaidi, Sushil Khyalia, Jungho Jung, Harshith Goka, Haejun Lee, (参考訳) 彼らの大きな成功にもかかわらず、トランスフォーマーモデルは深さのスケールが難しいままである。 本研究では,変換器モデルによる前方及び後方信号のモーメントを管理する統一信号伝搬理論と公式を提供する。 我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。 また、モデル全体を通して単位出力/漸進モーメントを保存する初期化およびスケーリングスキームであるDeepScaleLMを提案し、100の層を持つ非常に深いモデルのトレーニングを可能にした。 言語モデリング、音声翻訳、画像分類において浅いモデルよりも少ないパラメータを持つ私たちのディープモデルは、複数のデータセットとモデルサイズに対して、Encoder-only、Decoder-only、Encoder-Decoder の変種に対して、Pre-LNとPost-LNのトランスフォーマーよりも優れている。 これらの改善は、ダウンストリーム質問回答タスクのパフォーマンス向上や、画像分類の堅牢性向上にも寄与する。

In spite of their huge success, transformer models remain difficult to scale in depth. In this work, we develop a unified signal propagation theory and provide formulae that govern the moments of the forward and backward signal through the transformer model. Our framework can be used to understand and mitigate vanishing/exploding gradients, rank collapse, and instability associated with high attention scores. We also propose DeepScaleLM, an initialization and scaling scheme that conserves unit output/gradient moments throughout the model, enabling the training of very deep models with 100s of layers. We find that transformer models could be much deeper - our deep models with fewer parameters outperform shallow models in Language Modeling, Speech Translation, and Image Classification, across Encoder-only, Decoder-only and Encoder-Decoder variants, for both Pre-LN and Post-LN transformers, for multiple datasets and model sizes. These improvements also translate into improved performance on downstream Question Answering tasks and improved robustness for image classification.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# 動的メモリ圧縮:加速推論のためのLLMの再最適化

Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference ( http://arxiv.org/abs/2403.09636v1 )

ライセンス: Link先を確認
Piotr Nawrot, Adrian Łańcucki, Marcin Chochowski, David Tarjan, Edoardo M. Ponti, (参考訳) トランスフォーマーは、大きな言語モデル(LLM)のバックボーンとして登場した。 しかし、過去のトークンのキー値表現のキャッシュをメモリに格納する必要があるため、生成は非効率であり、そのサイズは入力シーケンスの長さとバッチサイズと線形にスケールする。 そこで本研究では,動的メモリ圧縮(Dynamic Memory Compression, DMC)を提案する。 最も重要なことは、モデルが異なる頭と層に異なる圧縮率を適用することを学ぶことだ。 我々は、Llama 2 (7B, 13B, 70B) などの事前トレーニング済み LLM を DMC トランスフォーマーに適合させ、NVIDIA H100 GPU 上での自己回帰推論のスループットを最大 3.7 倍に向上させる。 DMCは、余分なパラメータを加えることなく、元のデータの無視できる割合で継続事前訓練によって適用される。 DMCは、最大4倍のキャッシュ圧縮で、ダウンストリーム性能を保ち、アップトレーニングされたグループクエリ(GQA)よりも優れていた。 GQAとDMCを結合して合成ゲインを得ることもできる。 その結果、DMCは任意のメモリ予算内で、より長いコンテキストとより大きなバッチに適合する。

Transformers have emerged as the backbone of large language models (LLMs). However, generation remains inefficient due to the need to store in memory a cache of key-value representations for past tokens, whose size scales linearly with the input sequence length and batch size. As a solution, we propose Dynamic Memory Compression (DMC), a method for on-line key-value cache compression at inference time. Most importantly, the model learns to apply different compression rates in different heads and layers. We retrofit pre-trained LLMs such as Llama 2 (7B, 13B and 70B) into DMC Transformers, achieving up to ~3.7x throughput increase in auto-regressive inference on a NVIDIA H100 GPU. DMC is applied via continued pre-training on a negligible percentage of the original data without adding any extra parameters. We find that DMC preserves the original downstream performance with up to 4x cache compression, outperforming up-trained grouped-query attention (GQA). GQA and DMC can be even combined to obtain compounded gains. As a result DMC fits longer contexts and larger batches within any given memory budget.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# Gaussian Grasper:オープン語彙ロボットグラフ作成のための3D言語Gaussian Splatting

GaussianGrasper: 3D Language Gaussian Splatting for Open-vocabulary Robotic Grasping ( http://arxiv.org/abs/2403.09637v1 )

ライセンス: Link先を確認
Yuhang Zheng, Xiangyu Chen, Yupeng Zheng, Songen Gu, Runyi Yang, Bu Jin, Pengfei Li, Chengliang Zhong, Zengmao Wang, Lina Liu, Chao Yang, Dawei Wang, Zhen Chen, Xiaoxiao Long, Meiqing Wang, (参考訳) オープンエンド言語クエリを収容できる3Dシーンの構築は、特にロボティクスの領域における重要な追求である。 このような技術は、人間の言語指示に基づくオブジェクト操作の実行をロボットに促進する。 この課題に取り組むために、言語に埋め込まれた暗黙のフィールドの開発にいくつかの研究努力が注がれている。 しかし、暗黙のフィールド(eg NeRF)は、多くの入力ビューを再構成するために処理する必要があるため、推論の本来の非効率さと相まって制限に遭遇する。 そこで,3次元ガウススプラッティングを用いてガウス原始体の集合としてシーンを明示的に表現するガウスグラフを提案する。 提案手法では,RGB-Dビューを限定的に取得し,タイルベースのスプラッティング技術を用いて特徴フィールドを作成する。 特に,基本モデルから派生した言語埋め込みを効率的に高精度に再現するために,コントラスト学習を用いた効率的な特徴蒸留(EFD)モジュールを提案する。 ガウス場の再構成幾何を用いて,事前学習したグルーピングモデルにより,衝突のないグルーピングポーズ候補を生成することができる。 さらに,最適なグリップポーズを選択するための正規誘導グリップモジュールを提案する。 実世界の総合的な実験を通して、GaussianGrasperはロボットが言語命令でオブジェクトを正確にクエリし、把握し、言語誘導操作タスクのための新しいソリューションを提供することを実証した。 データとコードはhttps://github.com/MrSecant/GaussianGrasper.comで入手できる。

Constructing a 3D scene capable of accommodating open-ended language queries, is a pivotal pursuit, particularly within the domain of robotics. Such technology facilitates robots in executing object manipulations based on human language directives. To tackle this challenge, some research efforts have been dedicated to the development of language-embedded implicit fields. However, implicit fields (e.g. NeRF) encounter limitations due to the necessity of processing a large number of input views for reconstruction, coupled with their inherent inefficiencies in inference. Thus, we present the GaussianGrasper, which utilizes 3D Gaussian Splatting to explicitly represent the scene as a collection of Gaussian primitives. Our approach takes a limited set of RGB-D views and employs a tile-based splatting technique to create a feature field. In particular, we propose an Efficient Feature Distillation (EFD) module that employs contrastive learning to efficiently and accurately distill language embeddings derived from foundational models. With the reconstructed geometry of the Gaussian field, our method enables the pre-trained grasping model to generate collision-free grasp pose candidates. Furthermore, we propose a normal-guided grasp module to select the best grasp pose. Through comprehensive real-world experiments, we demonstrate that GaussianGrasper enables robots to accurately query and grasp objects with language instructions, providing a new solution for language-guided manipulation tasks. Data and codes can be available at https://github.com/MrSecant/GaussianGrasper.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# SCP-Diff:空間-カテゴリー結合を用いたフォトリアリスティック・セマンティック画像合成

SCP-Diff: Photo-Realistic Semantic Image Synthesis with Spatial-Categorical Joint Prior ( http://arxiv.org/abs/2403.09638v1 )

ライセンス: Link先を確認
Huan-ang Gao, Mingju Gao, Jiaju Li, Wenyi Li, Rong Zhi, Hao Tang, Hao Zhao, (参考訳) セマンティック画像合成(SIS)は、センサシミュレーションに良い可能性を示している。 しかし、この分野の現在のベストプラクティスは、GANに基づいており、まだ望ましい品質レベルに達していません。 遅延拡散モデルが画像生成において顕著な進歩を遂げる中、我々はその高密度制御能力の顕著な方法である制御ネットを評価するよう促される。 調査の結果,大きなセマンティック領域に奇妙なサブ構造が存在すること,セマンティックマスクによるコンテンツアライメントの誤り,という2つの大きな問題が明らかになった。 実験的な研究を通じて,これらの問題の原因を,推測段階で適用される雑音付きトレーニングデータ分布と標準正規値とのミスマッチとして特定した。 この課題に対処するために、推論に先立って、空間的、カテゴリー的、および新しい空間的カテゴリー的関節を含む、SISの特定のノイズ先行法を開発した。 SCP-Diffという名前のこのアプローチは、Cityscapesで10.53、ADE20Kで12.66のFIDを達成し、例外的な結果を得た。

Semantic image synthesis (SIS) shows good promises for sensor simulation. However, current best practices in this field, based on GANs, have not yet reached the desired level of quality. As latent diffusion models make significant strides in image generation, we are prompted to evaluate ControlNet, a notable method for its dense control capabilities. Our investigation uncovered two primary issues with its results: the presence of weird sub-structures within large semantic areas and the misalignment of content with the semantic mask. Through empirical study, we pinpointed the cause of these problems as a mismatch between the noised training data distribution and the standard normal prior applied at the inference stage. To address this challenge, we developed specific noise priors for SIS, encompassing spatial, categorical, and a novel spatial-categorical joint prior for inference. This approach, which we have named SCP-Diff, has yielded exceptional results, achieving an FID of 10.53 on Cityscapes and 12.66 on ADE20K.The code and models can be accessed via the project page.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14
# グループコントラスト:3次元理解のための意味認識型自己教師型表現学習

GroupContrast: Semantic-aware Self-supervised Representation Learning for 3D Understanding ( http://arxiv.org/abs/2403.09639v1 )

ライセンス: Link先を確認
Chengyao Wang, Li Jiang, Xiaoyang Wu, Zhuotao Tian, Bohao Peng, Hengshuang Zhao, Jiaya Jia, (参考訳) 自己教師付き3D表現学習は、大規模未ラベルの点群から効果的な表現を学習することを目的としている。 既存のほとんどのアプローチでは、マッチした点を正の対として、未一致の点を負の対として割り当てるプリテキストタスクとしてポイント判別を採用している。 しかし、このアプローチは、しばしば意味的に同一の点に異なる表現を持ち、多くの偽陰性が生じ、「意味的対立」問題がもたらされる。 この問題に対処するために,セグメンテーションとセマンティック・アウェア・コントラッシブ・ラーニングを組み合わせた新しいアプローチであるGroupContrastを提案する。 セグメンテーションの分割は意味的に意味のある領域を指し、セグメンテーションの一貫性を高め、その後のコントラスト表現学習のためのセグメンテーションガイダンスを提供する。 セマンティック・アウェア・コントラッシブ・ラーニング(Semantic-aware contrastive learning)は、セグメンテーションから抽出された意味情報を増強し、「セマンティック・コンフリクト(semantic conflict)」の問題を緩和する。 複数の3次元シーン理解タスクについて広範な実験を行った。 その結果,GroupContrastは意味的に意味のある表現を学習し,有望な伝達学習性能を実現することを示した。

Self-supervised 3D representation learning aims to learn effective representations from large-scale unlabeled point clouds. Most existing approaches adopt point discrimination as the pretext task, which assigns matched points in two distinct views as positive pairs and unmatched points as negative pairs. However, this approach often results in semantically identical points having dissimilar representations, leading to a high number of false negatives and introducing a "semantic conflict" problem. To address this issue, we propose GroupContrast, a novel approach that combines segment grouping and semantic-aware contrastive learning. Segment grouping partitions points into semantically meaningful regions, which enhances semantic coherence and provides semantic guidance for the subsequent contrastive representation learning. Semantic-aware contrastive learning augments the semantic information extracted from segment grouping and helps to alleviate the issue of "semantic conflict". We conducted extensive experiments on multiple 3D scene understanding tasks. The results demonstrate that GroupContrast learns semantically meaningful representations and achieves promising transfer learning performance.
翻訳日:2024-03-15 18:57:03 公開日:2024-03-14