このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240719となっている論文です。

PDF登録状況(公開日: 20240719)

TitleAuthorsAbstract論文公表日・翻訳日
# インデックス依存型要素変換行列の特定の特性

Certain Properties of Indices-dependent Element-wise Transformed Matrices ( http://arxiv.org/abs/2409.09033v1 )

ライセンス: Link先を確認
Aadarsh Singh, (参考訳) 本稿では,行列の零空間に対する指標依存的要素変換の影響について検討した。 我々は、元の行列の階数と零性を保存するこの変換の条件を発見した。 また、変換行列に対して局所化されたヌルベクトルを与える変換も発見されている。 最後に、これらの局所化されたヌルベクトルと固有値のいくつかの応用が異なる領域で言及されている。

In this paper, we have explored the impact of certain indices-dependent element-wise transformations on the null space of a matrix. We have found the conditions on this transformation that will preserve the rank and nullity of the original matrix. We have also found some transformations which give localized null vectors for the transformed matrix. Finally, some possible applications of these localized null vectors and eigenvalues are mentioned in different domains.
翻訳日:2024-11-07 20:57:42 公開日:2024-07-19
# リカレントニューラルネットワークの最大依存性長に対する構造的影響に関する技術的考察

A Technical Note on the Architectural Effects on Maximum Dependency Lengths of Recurrent Neural Networks ( http://arxiv.org/abs/2408.11946v1 )

ライセンス: Link先を確認
Jonathan S. Kent, Michael M. Murray, (参考訳) 本研究では、リカレントニューラルネットワーク(RNN)の最大依存性長を決定する手法を提案し、その後、従来のRNNの最大依存性長、ゲートリカレントユニット(GRU)、長寿命メモリ(LSTM)モデルに対するレイヤーの数とニューロン数を含むアーキテクチャ変化の影響について検討する。

This work proposes a methodology for determining the maximum dependency length of a recurrent neural network (RNN), and then studies the effects of architectural changes, including the number and neuron count of layers, on the maximum dependency lengths of traditional RNN, gated recurrent unit (GRU), and long-short term memory (LSTM) models.
翻訳日:2024-08-25 13:51:32 公開日:2024-07-19
# ドローンによる建築検査のためのクラスタリングによる新しいビュープランニング手法

A New Clustering-based View Planning Method for Building Inspection with Drone ( http://arxiv.org/abs/2408.01435v1 )

ライセンス: Link先を確認
Yongshuai Zheng, Guoliang Liu, Yan Ding, Guohui Tian, (参考訳) ドローン技術の急速な発展に伴い、視覚センサーを備えたドローンによる検査・監視が注目されている。 ビュープランニングの目的は、ビジョンカバレッジ目標を達成するために、視覚関連タスクのほぼ最適視点を見つけることである。 本稿では, スペクトルクラスタリング, 局所ポテンシャル場法, ハイパーヒューリスティックアルゴリズムを用いたクラスタリングに基づく2段階計算手法を提案する。 最初のステップでは、スペクトルクラスタリングに基づいて候補視点を生成し、新たに提案した局所ポテンシャル場法に基づいて候補視点の位置を補正する。 第2のステップでは、最適化問題をセット被覆問題(SCP)に変換し、提案した超ヒューリスティックアルゴリズムを用いて最適視点部分集合を解く。 実験の結果,提案手法はより少ない視点と高いカバレッジでより良い解が得られることがわかった。

With the rapid development of drone technology, the application of drones equipped with visual sensors for building inspection and surveillance has attracted much attention. View planning aims to find a set of near-optimal viewpoints for vision-related tasks to achieve the vision coverage goal. This paper proposes a new clustering-based two-step computational method using spectral clustering, local potential field method, and hyper-heuristic algorithm to find near-optimal views to cover the target building surface. In the first step, the proposed method generates candidate viewpoints based on spectral clustering and corrects the positions of candidate viewpoints based on our newly proposed local potential field method. In the second step, the optimization problem is converted into a Set Covering Problem (SCP), and the optimal viewpoint subset is solved using our proposed hyper-heuristic algorithm. Experimental results show that the proposed method is able to obtain better solutions with fewer viewpoints and higher coverage.
翻訳日:2024-08-19 05:08:47 公開日:2024-07-19
# Qubernetes: ハイブリッド古典量子コンピューティングのための統一クラウドネイティブ実行プラットフォームを目指す

Qubernetes: Towards a Unified Cloud-Native Execution Platform for Hybrid Classic-Quantum Computing ( http://arxiv.org/abs/2408.01436v1 )

ライセンス: Link先を確認
Vlad Stirbu, Otso Kinanen, Majid Haghparast, Tommi Mikkonen, (参考訳) コンテキスト: 量子コンピューティングの出現は、多くの科学的および産業的アプリケーションドメインを根本的に変換できる革命的パラダイムを提案する。 量子コンピュータが、現在のコンピュータが持つ以上の計算をスケールできることは、特定のアルゴリズムタスクに対して、より良いパフォーマンスと効率をもたらす。 目的: しかし、そのような改善の恩恵を受けるためには、量子コンピュータは既存のソフトウェアシステムと統合されなければならない。 本稿では,ハイブリッド古典量子アプリケーションを大規模に構築することによる課題に対処する統一実行モデルを提案する。 Method: Design Science Researchの方法論に従って、量子リソースとアーティファクトをKubernetesの概念にマッピングするための規約を提案しました。 そして、実験的なKubernetesクラスタで、量子シミュレータとハードウェアの両方で量子タスクをスケジューリングし、実行するための実験を行った。 実験結果: 提案されたプラットフォームであるQubernetes(あるいは量子用Kubernetes)が、確立されたクラウドネイティブの原則に従って、量子計算タスクとハードウェア機能を公開することにより、大規模なKubernetesエコシステムへのシームレスな統合が可能になることが実証された。 結論: 量子コンピューティングの可能性は、古典コンピューティングへのシームレスな統合なしには実現できない。 Kubernetesインフラストラクチャで量子タスクを実行することが現実的であることを検証することで、私たちは、ハイブリッド古典量子コンピューティングのイネーブラーとして、既存のKubernetesエコシステムを活用する方法を開拓しています。

Context: The emergence of quantum computing proposes a revolutionary paradigm that can radically transform numerous scientific and industrial application domains. The ability of quantum computers to scale computations beyond what the current computers are capable of implies better performance and efficiency for certain algorithmic tasks. Objective: However, to benefit from such improvement, quantum computers must be integrated with existing software systems, a process that is not straightforward. In this paper, we propose a unified execution model that addresses the challenges that emerge from building hybrid classical-quantum applications at scale. Method: Following the Design Science Research methodology, we proposed a convention for mapping quantum resources and artifacts to Kubernetes concepts. Then, in an experimental Kubernetes cluster, we conducted experiments for scheduling and executing quantum tasks on both quantum simulators and hardware. Results: The experimental results demonstrate that the proposed platform Qubernetes (or Kubernetes for quantum) exposes the quantum computation tasks and hardware capabilities following established cloud-native principles, allowing seamless integration into the larger Kubernetes ecosystem. Conclusion: The quantum computing potential cannot be realised without seamless integration into classical computing. By validating that it is practical to execute quantum tasks in a Kubernetes infrastructure, we pave the way for leveraging the existing Kubernetes ecosystem as an enabler for hybrid classical-quantum computing.
翻訳日:2024-08-19 05:08:47 公開日:2024-07-19
# Img2CAD:VLM支援条件因子化による画像からのリバースエンジニアリング3次元CADモデル

Img2CAD: Reverse Engineering 3D CAD Models from Images through VLM-Assisted Conditional Factorization ( http://arxiv.org/abs/2408.01437v1 )

ライセンス: Link先を確認
Yang You, Mikaela Angelina Uy, Jiaqi Han, Rahul Thomas, Haotong Zhang, Suya You, Leonidas Guibas, (参考訳) 画像からのリバースエンジニアリング3Dコンピュータ支援デザイン(CAD)モデルは、インタラクティブな編集、製造、アーキテクチャ、ロボット工学など、多くの下流アプリケーションにとって重要なタスクである。 タスクの難しさはCAD出力と画像入力との間の大きな表現格差にある。 CADモデルは、個別のコマンド構造と連続的な属性を組み合わせたシーケンシャルな操作を含む、正確でプログラム的な構成です。 同時に、入力画像は、リバースエンジニアリングプロセスを複雑にすることで、光度可変性やセンサノイズといった固有の課題を導入している。 本研究では,タスクを2つのサブプロブレムに条件付き分解する手法を提案する。 まず,大規模基盤モデル,特にGPT-4Vを活用し,意味情報を用いてグローバルな離散基底構造を予測する。 次に,個別構造にセマンティクスを組み込んだTrAssemblerを提案する。 TrAssemblerのトレーニングを支援するため,ShapeNetから共通オブジェクトの注釈付きCADデータセットを構築した。 まとめると、我々のアプローチとデータにより、野生のCAD画像化に向けた重要な第一歩が示される。 プロジェクトページ:https://anonymous123342.github.io/

Reverse engineering 3D computer-aided design (CAD) models from images is an important task for many downstream applications including interactive editing, manufacturing, architecture, robotics, etc. The difficulty of the task lies in vast representational disparities between the CAD output and the image input. CAD models are precise, programmatic constructs that involves sequential operations combining discrete command structure with continuous attributes -- making it challenging to learn and optimize in an end-to-end fashion. Concurrently, input images introduce inherent challenges such as photo-metric variability and sensor noise, complicating the reverse engineering process. In this work, we introduce a novel approach that conditionally factorizes the task into two sub-problems. First, we leverage large foundation models, particularly GPT-4V, to predict the global discrete base structure with semantic information. Second, we propose TrAssembler that conditioned on the discrete structure with semantics predicts the continuous attribute values. To support the training of our TrAssembler, we further constructed an annotated CAD dataset of common objects from ShapeNet. Putting all together, our approach and data demonstrate significant first steps towards CAD-ifying images in the wild. Our project page: https://anonymous123342.github.io/
翻訳日:2024-08-19 05:08:47 公開日:2024-07-19
# AI for All: 多様性と包摂性に関連するAIインシデントを特定する

AI for All: Identifying AI incidents Related to Diversity and Inclusion ( http://arxiv.org/abs/2408.01438v1 )

ライセンス: Link先を確認
Rifat Ara Shams, Didar Zowghi, Muneera Bano, (参考訳) 人工知能(AI)技術の急速な拡張は、多様性と包摂性(D&I)が重要な懸念事項として現れ、大きな進歩と課題の両方をもたらした。 AIにおけるD&Iへの対応は、バイアスと差別を減らし、公平性を高め、社会的悪影響を防ぐために不可欠である。 その重要性にもかかわらず、D&Iの考慮はしばしば見落とされ、結果として、内蔵バイアスと倫理的ジレンマが特徴である。 D&Iレンズを通じてAIインシデントを分析することは、バイアスの原因を特定し、それらを緩和し、より公平で公平なAI技術を確保するための戦略を開発するために不可欠である。 しかし、D&I関連のAIインシデントに関する体系的な調査は少ない。 本研究では,AIインシデントデータベース(AIID,AIAAIC)を手動で解析することで,AIシステム内のD&I問題を特定し,理解することで,これらの課題に対処する。 この研究は、AIインシデントに関連するD&I問題を調査し、D&I関連のAIインシデントを公開リポジトリに配置する決定ツリーを開発する。 決定木はカードソートとグループディスカッションで検証された。 この研究は、分析されたAIインシデントのほぼ半数が、人種、性別、年齢差別の顕著な優位性を持つD&Iに関連していることを示している。 決定ツリーと結果の公開リポジトリは、さらなる研究と責任あるAIプラクティスを促進し、包括的で公平なAIシステムの開発を促進することを目的としている。

The rapid expansion of Artificial Intelligence (AI) technologies has introduced both significant advancements and challenges, with diversity and inclusion (D&I) emerging as a critical concern. Addressing D&I in AI is essential to reduce biases and discrimination, enhance fairness, and prevent adverse societal impacts. Despite its importance, D&I considerations are often overlooked, resulting in incidents marked by built-in biases and ethical dilemmas. Analyzing AI incidents through a D&I lens is crucial for identifying causes of biases and developing strategies to mitigate them, ensuring fairer and more equitable AI technologies. However, systematic investigations of D&I-related AI incidents are scarce. This study addresses these challenges by identifying and understanding D&I issues within AI systems through a manual analysis of AI incident databases (AIID and AIAAIC). The research develops a decision tree to investigate D&I issues tied to AI incidents and populate a public repository of D&I-related AI incidents. The decision tree was validated through a card sorting exercise and focus group discussions. The research demonstrates that almost half of the analyzed AI incidents are related to D&I, with a notable predominance of racial, gender, and age discrimination. The decision tree and resulting public repository aim to foster further research and responsible AI practices, promoting the development of inclusive and equitable AI systems.
翻訳日:2024-08-19 05:08:47 公開日:2024-07-19
# U(N)$の量子信号処理と量子特異値変換

Quantum Signal Processing and Quantum Singular Value Transformation on $U(N)$ ( http://arxiv.org/abs/2408.01439v1 )

ライセンス: Link先を確認
Xi Lu, Yuan Liu, Hongwei Lin, (参考訳) 量子信号処理と量子特異値変換は、ブロック符号化行列の多項式変換を量子コンピュータに実装するための強力なツールであり、多くの著名な量子アルゴリズムにおいて漸近的に最適な複雑性を達成した。 ブロック符号化された入力から複数の多項式を同時に実現する量子信号処理と量子特異値変換のフレームワークを,元となるフレームワークにおける$U(2)$の一般化として提案する。 また、達成可能な多項式の包括的解析を行い、所望の多項式変換を与える量子回路を構成する再帰的アルゴリズムを与える。 例として、新しいフレームワークを使用して、漸近的に最適なクエリ複雑性を持つ量子振幅推定アルゴリズムを構築する。 また,この枠組みに基づいて,可換変数に対する多変量多項式関数を実現するフレームワークを提案する。

Quantum signal processing and quantum singular value transformation are powerful tools to implement polynomial transformations of block-encoded matrices on quantum computers, and has achieved asymptotically optimal complexity in many prominent quantum algorithms. We propose a framework of quantum signal processing and quantum singular value transformation on $U(N)$, which realizes multiple polynomials simultaneously from a block-encoded input, as a generalization of those on $U(2)$ in the original frameworks. We also perform a comprehensive analysis on achievable polynomials and give a recursive algorithm to construct the quantum circuit that gives the desired polynomial transformation. As an example application, the new framework is used to construct the quantum amplitude estimation algorithm with asymptotically optimal query complexity. Based on this framework, we also propose a framework to realize multi-variate polynomial functions for commutative variables.
翻訳日:2024-08-19 05:08:47 公開日:2024-07-19
# 畳み込みニューラルネットワークを用いた干渉画像からの不規則粗粒子形状の再構成

Reconstruction of the shape of irregular rough particles from their interferometric images using a convolutional neural network ( http://arxiv.org/abs/2408.03327v1 )

ライセンス: Link先を確認
Alexis Abad, Alexandre Poux, Alexis Boulet, Marc Brunel, (参考訳) 干渉画像から不規則な粗粒子の形状を再構成する畳み込みニューラルネットワーク(CNN)を開発した。 CNNは、残りのブロックモジュールを持つUNETアーキテクチャに基づいている。 このデータベースは、DMD(Digital Micromirror Device)でプログラムされた完全に知られた擬似粒子によって生成された実験パターンを用いて構築されている。 CNNは、AUSTRALスーパーコンピュータ(ノルマンディーのCRIANN)を用いて、18000の実験的干渉画像に基づいて訓練されている。 CNNは、セントロ対称(スティック、クロス、デンドライト)と非セントロ対称(T、Y、L)の粒子で試験される。 プログラムされた粒子のサイズと3次元配向はランダムである。 異なる形状はCNNによって精度良く再構成される。 3つの角度から見ると、3つの再構成された顔からの粒子の3次元再構成をさらに行うことができる。

We have developed a convolutional neural network (CNN) to reconstruct the shape of irregular rough particles from their interferometric images. The CNN is based on a UNET architecture with residual block modules. The database has been constructed using the experimental patterns generated by perfectly known pseudo-particles programmed on a Digital Micromirror Device (DMD) and under laser illumination. The CNN has been trained on a basis of 18000 experimental interferometric images using the AUSTRAL super computer (at CRIANN in Normandy). The CNN is tested in the case of centrosymmetric (stick, cross, dendrite) and non-centrosymmetric (like T, Y or L) particles. The size and the 3D orientation of the programmed particles are random. The different shapes are reconstructed by the CNN with good accuracy. Using three angles of view, the 3D reconstruction of particles from three reconstructed faces can be further done.
翻訳日:2024-08-19 04:49:14 公開日:2024-07-19
# 実環境におけるHDマップQoSに対するマルチエージェントアプローチによるカバレッジ認識と強化学習

Coverage-aware and Reinforcement Learning Using Multi-agent Approach for HD Map QoS in a Realistic Environment ( http://arxiv.org/abs/2408.03329v1 )

ライセンス: Link先を確認
Jeffrey Redondo, Zhenhui Yuan, Nauman Aslam, Juan Zhang, (参考訳) オフロードプロセスを最適化する効果的な方法の1つは、送信時間を最小化することである。 これはVehicular Adhoc Network(VANET)において特に当てはまり、車両は定期的に更新を必要とするハイデフィニション(HD)マップデータを頻繁にダウンロードしてアップロードする。 これは、レイテンシとスループットの要求が無線システムによって保証されなければならないことを意味する。 これを実現するため、IEEE802.11pの調整可能なコンパクションウィンドウ(CW)割り当て戦略が多くの研究者によって検討されている。 それでも、それらの実装は、常に望ましいとは限らない既存の標準の変更を要求する。 そこで本研究では,アプリケーション層で動作するQ-Learningアルゴリズムを提案する。 さらに、任意の無線ネットワークにデプロイすることで、互換性の問題を軽減することができる。 このソリューションは、Deep Q Network(DQN)やActor-Criticアルゴリズムと比較して、比較的少ない最適化条件で、より良いネットワーク性能を示す。 シングルエージェントのセットアップと比較して高いパフォーマンスを示すマルチエージェントのセットアップでモデルを評価しながら、同じことが観察される。

One effective way to optimize the offloading process is by minimizing the transmission time. This is particularly true in a Vehicular Adhoc Network (VANET) where vehicles frequently download and upload High-definition (HD) map data which requires constant updates. This implies that latency and throughput requirements must be guaranteed by the wireless system. To achieve this, adjustable contention windows (CW) allocation strategies in the standard IEEE802.11p have been explored by numerous researchers. Nevertheless, their implementations demand alterations to the existing standard which is not always desirable. To address this issue, we proposed a Q-Learning algorithm that operates at the application layer. Moreover, it could be deployed in any wireless network thereby mitigating the compatibility issues. The solution has demonstrated a better network performance with relatively fewer optimization requirements as compared to the Deep Q Network (DQN) and Actor-Critic algorithms. The same is observed while evaluating the model in a multi-agent setup showing higher performance compared to the single-agent setup.
翻訳日:2024-08-19 04:49:14 公開日:2024-07-19
# 線形力学系をスイッチングするガウス過程を用いた潜在ニューラルダイナミクスのモデル化

Modeling Latent Neural Dynamics with Gaussian Process Switching Linear Dynamical Systems ( http://arxiv.org/abs/2408.03330v1 )

ライセンス: Link先を確認
Amber Hu, David Zoltowski, Aditya Nair, David Anderson, Lea Duncker, Scott Linderman, (参考訳) 神経集団の集団活動がどのように計算や行動に関係しているかを理解することは神経科学の重要な目標である。 この目的のために、低次元潜在力学の観点から高次元のニューラル時系列を記述する統計学的手法は、ニューラルシステムの特徴付けにおいて基本的な役割を担っている。 しかし、成功した方法を構成するものは、(1)複雑な非線形力学を捉えるのに十分な表現力を持つべき方法、(2)より単純な線形モデルによってのみ保証される解釈可能性の概念を維持すべき方法である。 本稿では,ガウス過程スイッチング線形力学系 (gpSLDS) の2つの目的をバランスさせるアプローチを開発する。 本手法は, 非線形力学をガウス過程(GP-SDEs)で記述した確率微分方程式を用いて, 潜在状態の進化をモデル化する。 そこで我々は, 線形力学系 (rSLDS) のリカレントスイッチングと同様に, 線形力学をスムーズに補間し, フレキシブルかつ解釈可能な, 動的に表現するカーネル関数を提案する。 本手法は, 離散状態境界近傍の力学における人工振動など, rSLDS の重要な制限を解消するとともに, 力学の後方不確かさを推定する。 本モデルに適合させるために,従来のGP-SDE適合手法と比較してカーネルハイパーパラメータの推定精度を向上させる改良された学習目標を利用する。 2つの神経科学実験で記録された合成データとデータに本手法を適用し,rSLDSと比較して良好な性能を示した。

Understanding how the collective activity of neural populations relates to computation and ultimately behavior is a key goal in neuroscience. To this end, statistical methods which describe high-dimensional neural time series in terms of low-dimensional latent dynamics have played a fundamental role in characterizing neural systems. Yet, what constitutes a successful method involves two opposing criteria: (1) methods should be expressive enough to capture complex nonlinear dynamics, and (2) they should maintain a notion of interpretability often only warranted by simpler linear models. In this paper, we develop an approach that balances these two objectives: the Gaussian Process Switching Linear Dynamical System (gpSLDS). Our method builds on previous work modeling the latent state evolution via a stochastic differential equation whose nonlinear dynamics are described by a Gaussian process (GP-SDEs). We propose a novel kernel function which enforces smoothly interpolated locally linear dynamics, and therefore expresses flexible -- yet interpretable -- dynamics akin to those of recurrent switching linear dynamical systems (rSLDS). Our approach resolves key limitations of the rSLDS such as artifactual oscillations in dynamics near discrete state boundaries, while also providing posterior uncertainty estimates of the dynamics. To fit our models, we leverage a modified learning objective which improves the estimation accuracy of kernel hyperparameters compared to previous GP-SDE fitting approaches. We apply our method to synthetic data and data recorded in two neuroscience experiments and demonstrate favorable performance in comparison to the rSLDS.
翻訳日:2024-08-19 04:39:15 公開日:2024-07-19
# LaMAGIC:アナログ集積回路のための言語モデルに基づくトポロジー生成

LaMAGIC: Language-Model-based Topology Generation for Analog Integrated Circuits ( http://arxiv.org/abs/2407.18269v1 )

ライセンス: Link先を確認
Chen-Chia Chang, Yikang Shan, Shaoze Fan, Jing Li, Shun Zhang, Ningyuan Cao, Yiran Chen, Xin Zhang, (参考訳) 電子工学と電気工学の分野では、現代的な応用の複雑さとカスタマイズされた要求を考えると、アナログ回路の自動化がますます不可欠になっている。 しかし、既存の手法では、回路トポロジを設計するために多くのシミュレーションイテレーションを必要とする探索ベースのアルゴリズムしか開発していない。 この目的のために, 教師付き微調整を利用して自動アナログ回路設計を行う言語モデルに基づくトポロジ生成モデルであるLaMAGICを紹介する。 LaMAGICは、カスタム仕様から最適化された回路設計を単一のパスで効率的に生成できる。 本手法は,回路の様々な入力および出力の定式化の精密な開発と解析を含む。 これらの定式化は、アナログ回路をグラフとして表すという課題に効果的に対処するために、回路の標準表現を保証し、LMの自己回帰的な性質と整合することができる。 実験結果から,LaMAGICは0.01の厳格な許容条件下で最大96\%の成功率を達成した。 また、LaMAGICのスケーラビリティと適応性についても検討し、より複雑な回路上でその性能をテストする。 本研究は, 浮動小数点入力を用いた隣接行列を用いた回路定式化の有効性が向上し, 複雑な回路設計に適合することが示唆された。 この研究は、グラフ生成における言語モデルの可能性を示すだけでなく、自動アナログ回路設計における将来の探索のための基盤となる枠組みを構築する。

In the realm of electronic and electrical engineering, automation of analog circuit is increasingly vital given the complexity and customized requirements of modern applications. However, existing methods only develop search-based algorithms that require many simulation iterations to design a custom circuit topology, which is usually a time-consuming process. To this end, we introduce LaMAGIC, a pioneering language model-based topology generation model that leverages supervised finetuning for automated analog circuit design. LaMAGIC can efficiently generate an optimized circuit design from the custom specification in a single pass. Our approach involves a meticulous development and analysis of various input and output formulations for circuit. These formulations can ensure canonical representations of circuits and align with the autoregressive nature of LMs to effectively addressing the challenges of representing analog circuits as graphs. The experimental results show that LaMAGIC achieves a success rate of up to 96\% under a strict tolerance of 0.01. We also examine the scalability and adaptability of LaMAGIC, specifically testing its performance on more complex circuits. Our findings reveal the enhanced effectiveness of our adjacency matrix-based circuit formulation with floating-point input, suggesting its suitability for handling intricate circuit designs. This research not only demonstrates the potential of language models in graph generation, but also builds a foundational framework for future explorations in automated analog circuit design.
翻訳日:2024-08-05 01:35:56 公開日:2024-07-19
# ブロックチェーンにおけるポスト量子暗号を目指して I:理論暗号と量子情報理論の基礎的考察

Towards A Post-Quantum Cryptography in Blockchain I: Basic Review on Theoretical Cryptography and Quantum Information Theory ( http://arxiv.org/abs/2407.18966v1 )

ライセンス: Link先を確認
Tatsuru Kikuchi, (参考訳) 近年、量子コンピュータの発明は革命的であり、さまざまな分野、特に従来の暗号ブロックチェーンにおいて、革新的な課題をもたらしており、市場の暗号通貨の多くにとって本当のスレッドになる可能性がある。 つまり、ブロックチェーンにおける量子抵抗を達成するために、量子抵抗暗号とも呼ばれるポスト量子暗号を実装することを考えるのは避けられない。

Recently, the invention of quantum computers was so revolutionary that they bring transformative challenges in a variety of fields, especially for the traditional cryptographic blockchain, and it may become a real thread for most of the cryptocurrencies in the market. That is, it becomes inevitable to consider to implement a post-quantum cryptography, which is also referred to as quantum-resistant cryptography, for attaining quantum resistance in blockchains.
翻訳日:2024-08-05 01:06:22 公開日:2024-07-19
# チャネルワイドマグニチュードの均質化は脳波分類モデルにどのように影響するか?

How Homogenizing the Channel-wise Magnitude Can Enhance EEG Classification Model? ( http://arxiv.org/abs/2407.20247v1 )

ライセンス: Link先を確認
Huyen Ngo, Khoi Do, Duong Nguyen, Viet Dung Nguyen, Lan Dang, (参考訳) 脳波脳波図における重要な課題は、現在のデータ表現が複数の電極信号を含み、データ冗長性と支配的なリード情報をもたらすという事実にある。 しかし、脳波分類に関する広範な研究は、基礎となる問題に対処することなく、モデルアーキテクチャの設計に焦点を当てている。 さもなくば、EEGのデータ前処理に対処する際、顕著なギャップがあり、ディープラーニング(DL)プロセスのかなりの計算オーバーヘッドにつながります。 これらの問題を踏まえて、我々はEEGデータ前処理にシンプルながら効果的なアプローチを提案する。 提案手法はまず,チャネル間のバイアスを軽減するために,逆チャネルワイド・マグニチュード均質化(ICWMH)により脳波データを符号化画像に変換する。 次に,脳波符号化画像とスキップ接続を組み合わせたエッジ検出手法を適用し,構造情報と不変情報を保存しながら,データの最も重要な遷移を強調する。 これにより、巨大なDLネットワークを使わずに、脳波学習プロセスを改善することができる。 実験により,現在のベースラインよりも有意に改善できることが判明した。

A significant challenge in the electroencephalogram EEG lies in the fact that current data representations involve multiple electrode signals, resulting in data redundancy and dominant lead information. However extensive research conducted on EEG classification focuses on designing model architectures without tackling the underlying issues. Otherwise, there has been a notable gap in addressing data preprocessing for EEG, leading to considerable computational overhead in Deep Learning (DL) processes. In light of these issues, we propose a simple yet effective approach for EEG data pre-processing. Our method first transforms the EEG data into an encoded image by an Inverted Channel-wise Magnitude Homogenization (ICWMH) to mitigate inter-channel biases. Next, we apply the edge detection technique on the EEG-encoded image combined with skip connection to emphasize the most significant transitions in the data while preserving structural and invariant information. By doing so, we can improve the EEG learning process efficiently without using a huge DL network. Our experimental evaluations reveal that we can significantly improve (i.e., from 2% to 5%) over current baselines.
翻訳日:2024-08-05 00:46:38 公開日:2024-07-19
# 心疾患分類課題における不均衡問題の再考

Revisiting the Disequilibrium Issues in Tackling Heart Disease Classification Tasks ( http://arxiv.org/abs/2407.20249v1 )

ライセンス: Link先を確認
Thao Hoang, Linh Nguyen, Khoi Do, Duong Nguyen, Viet Dung Nguyen, (参考訳) 心臓病の分類の分野では、2つの主要な障害が生じる。 第一に、既存の心電図(ECG)データセットは、様々なモードにまたがる不均衡とバイアスを一貫して示している。 第2に、これらの時系列データは様々なリード信号で構成されており、畳み込みニューラルネットワーク(CNN)が高出力のものに過度に適合するようになり、ディープラーニング(DL)プロセスのパフォーマンスが低下する。 さらに、不均衡なデータセットに直面する場合、そのような高次元データのパフォーマンスは過度に適合する可能性がある。 現在の取り組みは、これらの明らかな課題にもかかわらず、新しいアーキテクチャを設計することでDLモデルを向上することに集中しており、心臓病の分類の進歩を妨げているように思われる。 これらの障害に対処するため,本提案手法では,分類タスクを強化するための2つの単純かつ直接的な手法を提案する。 高次元問題に対処するために、信号符号化画像にチャネルワイド・マグニチュード等化器(CME)を用いる。 このアプローチは、特徴データ範囲の冗長性を低減し、データセットの変更を強調します。 同時に、データの不均衡を緩和する逆重対数損失(Inverted Weight Logarithmic Loss, IWL)を提案する。 IWL損失を適用すると、最先端モデル(SOTA)の精度はCPSC2018データセットで最大5%向上する。 IWLと組み合わせたCMEは、他のベースラインモデルの分類結果を5%から10%に上回っている。

In the field of heart disease classification, two primary obstacles arise. Firstly, existing Electrocardiogram (ECG) datasets consistently demonstrate imbalances and biases across various modalities. Secondly, these time-series data consist of diverse lead signals, causing Convolutional Neural Networks (CNNs) to become overfitting to the one with higher power, hence diminishing the performance of the Deep Learning (DL) process. In addition, when facing an imbalanced dataset, performance from such high-dimensional data may be susceptible to overfitting. Current efforts predominantly focus on enhancing DL models by designing novel architectures, despite these evident challenges, seemingly overlooking the core issues, therefore hindering advancements in heart disease classification. To address these obstacles, our proposed approach introduces two straightforward and direct methods to enhance the classification tasks. To address the high dimensionality issue, we employ a Channel-wise Magnitude Equalizer (CME) on signal-encoded images. This approach reduces redundancy in the feature data range, highlighting changes in the dataset. Simultaneously, to counteract data imbalance, we propose the Inverted Weight Logarithmic Loss (IWL) to alleviate imbalances among the data. When applying IWL loss, the accuracy of state-of-the-art models (SOTA) increases up to 5% in the CPSC2018 dataset. CME in combination with IWL also surpasses the classification results of other baseline models from 5% to 10%.
翻訳日:2024-08-05 00:46:38 公開日:2024-07-19
# リーマン幾何学に基づくEEGアプローチ:文献レビュー

Riemannian Geometry-Based EEG Approaches: A Literature Review ( http://arxiv.org/abs/2407.20250v1 )

ライセンス: Link先を確認
Imad Eddine Tibermacine, Samuele Russo, Ahmed Tibermacine, Abdelaziz Rabehi, Bachir Nail, Kamel Kadri, Christian Napoli, (参考訳) 脳-コンピュータインタフェース(BCI)の復号化におけるリーマン幾何学の応用は、その単純さ、精度、レジリエンスと、世界的BCIコンペティションにおける重要な成果によって証明された伝達学習の適性から、急速に注目されている。 本稿では,BCIにおける脳波信号デコーディングを強化するために,深層学習とリーマン幾何学の統合の最近の進歩を概観する。 脳波信号に固有の非ユークリッドデータ構造の取り扱いを改善するために、ディープラーニングを利用した現代的なアプローチを比較した。 これらの手法は、ノイズ感度、非定常性、長い校正時間といった従来の課題に対処するだけでなく、新しい分類手法や信号処理技術を導入して、これらの制約を大幅に削減する方法について論じる。 さらに, 多様体上の特徴追跡, マルチタスク学習, 特徴抽出, 伝達学習など, 実践的実装と理論的拡張に焦点を当て, 多様体学習とリーマン分類における今後の研究方向について検討する。 このレビューは、理論研究と実世界の応用のギャップを埋めることを目的としており、洗練された数学的アプローチをアクセス可能とし、BCIの強化に有効にすることを目的としている。

The application of Riemannian geometry in the decoding of brain-computer interfaces (BCIs) has swiftly garnered attention because of its straightforwardness, precision, and resilience, along with its aptitude for transfer learning, which has been demonstrated through significant achievements in global BCI competitions. This paper presents a comprehensive review of recent advancements in the integration of deep learning with Riemannian geometry to enhance EEG signal decoding in BCIs. Our review updates the findings since the last major review in 2017, comparing modern approaches that utilize deep learning to improve the handling of non-Euclidean data structures inherent in EEG signals. We discuss how these approaches not only tackle the traditional challenges of noise sensitivity, non-stationarity, and lengthy calibration times but also introduce novel classification frameworks and signal processing techniques to reduce these limitations significantly. Furthermore, we identify current shortcomings and propose future research directions in manifold learning and riemannian-based classification, focusing on practical implementations and theoretical expansions, such as feature tracking on manifolds, multitask learning, feature extraction, and transfer learning. This review aims to bridge the gap between theoretical research and practical, real-world applications, making sophisticated mathematical approaches accessible and actionable for BCI enhancements.
翻訳日:2024-08-05 00:46:38 公開日:2024-07-19
# メタマテリアルユニットの不確実性を考慮したディープラーニングフレームワークに基づくロバスト設計最適化

An Uncertainty-aware Deep Learning Framework-based Robust Design Optimization of Metamaterial Units ( http://arxiv.org/abs/2407.20251v1 )

ライセンス: Link先を確認
Zihan Wang, Anindya Bhaduri, Hongyi Xu, Liping Wang, (参考訳) メカニカルメタマテリアルは、伝統的な天然材料の範囲を超えて、その異常な機械的特性によって区別される、革新的な人工構造物のクラスを表している。 深層生成モデルの使用は、メタマテリアルユニットの設計においてますます人気が高まっている。 深層生成モデルを使用することの有効性は、複雑な入力データを単純化された低次元の潜在空間に圧縮する能力と、この空間内でサンプリングすることで新しい最適設計を作成できることにある。 しかし,データ間隔によるモデル不確実性の影響や,データ固有のランダム性による入力データ不確実性の影響を考慮に入れない。 これにより、システムの不確実性に対して高い感度で、望ましくない構造が生成される可能性がある。 この問題に対処するため,メタマテリアルユニットの設計において,新たな不確実性を考慮したディープラーニングフレームワークに基づくロバスト設計手法を提案する。 提案手法は,ディープラーニングフレームワークの確率的性質を利用して,サロゲートに基づく設計最適化に付随するアレタリックおよびエピステマティックな不確かさを定量化する。 提案手法は,高性能なメタマテリアルユニットを高信頼性で設計できることを示す。 提案手法の有効性を示すために, 単目的設計最適化問題と多目的設計最適化問題を提案する。 得られた最適ロバスト設計は、トポロジー最適化法から得られた設計と、システム内の不確実性を明示的に考慮しない決定論的ディープラーニングフレームワークに基づく設計最適化から得られた設計とを比較して検証する。

Mechanical metamaterials represent an innovative class of artificial structures, distinguished by their extraordinary mechanical characteristics, which are beyond the scope of traditional natural materials. The use of deep generative models has become increasingly popular in the design of metamaterial units. The effectiveness of using deep generative models lies in their capacity to compress complex input data into a simplified, lower-dimensional latent space, while also enabling the creation of novel optimal designs through sampling within this space. However, the design process does not take into account the effect of model uncertainty due to data sparsity or the effect of input data uncertainty due to inherent randomness in the data. This might lead to the generation of undesirable structures with high sensitivity to the uncertainties in the system. To address this issue, a novel uncertainty-aware deep learning framework-based robust design approach is proposed for the design of metamaterial units with optimal target properties. The proposed approach utilizes the probabilistic nature of the deep learning framework and quantifies both aleatoric and epistemic uncertainties associated with surrogate-based design optimization. We demonstrate that the proposed design approach is capable of designing high-performance metamaterial units with high reliability. To showcase the effectiveness of the proposed design approach, a single-objective design optimization problem and a multi-objective design optimization problem are presented. The optimal robust designs obtained are validated by comparing them to the designs obtained from the topology optimization method as well as the designs obtained from a deterministic deep learning framework-based design optimization where none of the uncertainties in the system are explicitly considered.
翻訳日:2024-08-05 00:46:38 公開日:2024-07-19
# ロバストチャート成分認識によるチャート質問応答の改善

Advancing Chart Question Answering with Robust Chart Component Recognition ( http://arxiv.org/abs/2407.21038v1 )

ライセンス: Link先を確認
Hanwen Zheng, Sijia Wang, Chris Thomas, Lifu Huang, (参考訳) チャート理解は、チャートの多様で複雑な形状のため、機械学習モデルに重大な課題をもたらす。 既存のマルチモーダル手法は、これらの視覚的特徴を見落としたり、チャート質問応答(ChartQA)に効果的に統合できない場合が多い。 そこで我々はChartformerを紹介した。これはチャートコンポーネントの認識を強化し、バー、ライン、パイ、タイトル、伝説、軸といったコンポーネントを正確に識別し分類することで、チャートコンポーネントの認識を強化する統合フレームワークである。 さらに,Chartformerによって符号化されたチャート特徴を与えられた質問と融合させる新しいQDCA(QDCAt)機構を提案する。 大規模な実験により、提案手法はチャートコンポーネント認識およびチャートQAタスクにおいて、それぞれ3.2%のmAPと15.4%の精度で改善された。 これらの結果は,様々なアプリケーションにまたがる詳細な視覚データ解釈のためのソリューションの頑健さを裏付けるものである。

Chart comprehension presents significant challenges for machine learning models due to the diverse and intricate shapes of charts. Existing multimodal methods often overlook these visual features or fail to integrate them effectively for chart question answering (ChartQA). To address this, we introduce Chartformer, a unified framework that enhances chart component recognition by accurately identifying and classifying components such as bars, lines, pies, titles, legends, and axes. Additionally, we propose a novel Question-guided Deformable Co-Attention (QDCAt) mechanism, which fuses chart features encoded by Chartformer with the given question, leveraging the question's guidance to ground the correct answer. Extensive experiments demonstrate that the proposed approaches significantly outperform baseline models in chart component recognition and ChartQA tasks, achieving improvements of 3.2% in mAP and 15.4% in accuracy, respectively. These results underscore the robustness of our solution for detailed visual data interpretation across various applications.
翻訳日:2024-08-05 00:36:46 公開日:2024-07-19
# Schur変換のための実用的な量子アルゴリズム

A Practical Quantum Algorithm for the Schur Transform ( http://arxiv.org/abs/1709.07119v5 )

ライセンス: Link先を確認
William M. Kirby, Frederick W. Strauch, (参考訳) 量子シュア変換のための効率的な量子アルゴリズムについて述べる。 シュール変換は、標準計算基底をユニタリ群と対称群の既約表現からなる基底にマッピングする量子コンピュータ上の演算である。 我々はBacon, Chuang, Harrowのアルゴリズムを単純化し、拡張し、新しい実用的な構造と鋭い理論的および実用的な分析を提供する。 我々のアルゴリズムは、$n$ qubits 上の Schur 変換を $O\left(n^4\log\left(\frac{n}{\epsilon}\right)\right)$ Clifford+T のフォールトトレラントゲートの演算子に分解し、正確に $2\lfloor\log_2(n)\rfloor-1$ ancillary qubits を使用する。 我々は qubit アルゴリズムを拡張して、次元 $d$ の $n$ qudits を $O\left(d^{1+p}n^{3d}\log^p\left(\frac{d n}{\epsilon}\right)\right)$プリミティブ作用素を任意の普遍ゲート集合から$p\approx3.97$ に分解する。

We describe an efficient quantum algorithm for the quantum Schur transform. The Schur transform is an operation on a quantum computer that maps the standard computational basis to a basis composed of irreducible representations of the unitary and symmetric groups. We simplify and extend the algorithm of Bacon, Chuang, and Harrow, and provide a new practical construction as well as sharp theoretical and practical analyses. Our algorithm decomposes the Schur transform on $n$ qubits into $O\left(n^4\log\left(\frac{n}{\epsilon}\right)\right)$ operators in the Clifford+T fault-tolerant gate set and uses exactly $2\lfloor\log_2(n)\rfloor-1$ ancillary qubits. We extend our qubit algorithm to decompose the Schur transform on $n$ qudits of dimension $d$ into $O\left(d^{1+p}n^{3d}\log^p\left(\frac{d n}{\epsilon}\right)\right)$ primitive operators from any universal gate set, for $p\approx3.97$.
翻訳日:2024-07-28 18:55:51 公開日:2024-07-19
# ブロックチェーンのトリレンマの定量化 - Algorand,Ethereum 2.0などの比較分析

Quantifying the Blockchain Trilemma: A Comparative Analysis of Algorand, Ethereum 2.0, and Beyond ( http://arxiv.org/abs/2407.14335v1 )

ライセンス: Link先を確認
Yihang Fu, Mingwei Jing, Jiaolun Zhou, Peilin Wu, Ye Wang, Luyao Zhang, Chuang Hu, (参考訳) ブロックチェーン技術はデジタル経済とメタバースにとって不可欠であり、分散金融から仮想資産へのアプリケーションをサポートする。 しかしながら、そのポテンシャルは、分散化、セキュリティ、スケーラビリティのバランスを必要とする"Blockchain Trilemma"によって制約されている。 本研究では、これらの重要な指標に対して、2つの主要な実証実証(PoS)システムであるAlgorandとEthereum 2.0を評価し、比較する。 本研究は,分散化を計測し,トランザクションデータによるスケーラビリティを評価し,潜在的な脆弱性を特定してセキュリティを評価するために,既存の指標を解釈する。 実世界のデータを利用することで、各プラットフォームの戦略を構造化された方法で分析し、トリレンマ問題に対処する上での有効性を理解する。 この結果は各プラットフォームの強みを強調し、他のシステムに適用可能な主要なブロックチェーン特性を評価するための一般的な方法論を提案する。 この研究は、ブロックチェーン技術の理解と、将来のデジタル経済へのその影響を前進させる。 データとコードはGitHubでオープンソースとして公開されている。

Blockchain technology is essential for the digital economy and metaverse, supporting applications from decentralized finance to virtual assets. However, its potential is constrained by the "Blockchain Trilemma," which necessitates balancing decentralization, security, and scalability. This study evaluates and compares two leading proof-of-stake (PoS) systems, Algorand and Ethereum 2.0, against these critical metrics. Our research interprets existing indices to measure decentralization, evaluates scalability through transactional data, and assesses security by identifying potential vulnerabilities. Utilizing real-world data, we analyze each platform's strategies in a structured manner to understand their effectiveness in addressing trilemma challenges. The findings highlight each platform's strengths and propose general methodologies for evaluating key blockchain characteristics applicable to other systems. This research advances the understanding of blockchain technologies and their implications for the future digital economy. Data and code are available on GitHub as open source.
翻訳日:2024-07-26 18:18:09 公開日:2024-07-19
# 企業経営のための自律型人工知能システムの開発

Development of Autonomous Artificial Intelligence Systems for Corporate Management ( http://arxiv.org/abs/2407.17588v1 )

ライセンス: Link先を確認
Anna Romanova, (参考訳) 本稿では,企業経営のための自律型人工知能システムの開発について論じる。 コーポレート・ディレクターの役割は、「芸術的」な人ではなく「自然的」な人によって執行するために法制化された数少ないものの1つである。 取締役会のレベルでなされた経営決定の完全自動化のためのシステム開発のための主要な前提条件は、企業法、機械学習、非差別性、透明性、および決定と適用されたアルゴリズムのアカウンタビリティに関する規則の遵守の分野において形成されている。 自主取締役」の法人法に関する基本的な方法論は、既に開発されており、法学の代表者の間では拒絶されていない。 しかし、法人法を改正して「自主取締役」を効果的に導入するためには、さらなる広範な研究の必要性は否めない。 実際には、マネジメント決定の自動化には、トップマネジメントのレベルでの2つの主要な選択肢があり、取締役会は、デジタルコマンドセンターまたは別々の機能の自動化である。 人工知能システムは、非差別、透明性、説明責任を「自然な」ディレクターと同じ厳格な要件に従わなければならない。 特定の段階では、自律システムは、人的資本が不足している国、地域、企業にとって効果的なツールであり、そのような国や企業が世界市場で競争する機会を平等化または追加する。

The article discusses development of autonomous artificial intelligence systems for corporate management. The function of a corporate director is still one of the few that are legislated for execution by a "natural" rather than an "artificial" person. The main prerequisites for development of systems for full automation of management decisions made at the level of a board of directors are formed in the field of corporate law, machine learning, and compliance with the rules of non-discrimination, transparency, and accountability of decisions made and algorithms applied. The basic methodological approaches in terms of corporate law for the "autonomous director" have already been developed and do not get rejection among representatives of the legal sciences. However, there is an undeniable need for further extensive research in order to amend corporate law to effectively introduce "autonomous directors". In practice, there are two main options of management decisions automation at the level of top management and a board of directors: digital command centers or automation of separate functions. Artificial intelligence systems will be subject to the same strict requirements for non-discrimination, transparency, and accountability as "natural" directors. At a certain stage, autonomous systems can be an effective tool for countries, regions, and companies with a shortage of human capital, equalizing or providing additional chances for such countries and companies to compete on the global market.
翻訳日:2024-07-26 16:09:00 公開日:2024-07-19
# マイクロサービスの環境サステナビリティを改善するためのアーキテクチャ戦略: 迅速なレビュー

Architectural Tactics to Improve the Environmental Sustainability of Microservices: A Rapid Review ( http://arxiv.org/abs/2407.16706v1 )

ライセンス: Link先を確認
Xingwen Xiao, (参考訳) マイクロサービスは、スケーラビリティ、保守性、アジャイル開発を必要とするソフトウェアをデプロイすることに関して、業界で採用されている一般的なアーキテクチャスタイルです。 業界におけるマイクロサービスシステムの持続可能性向上に対する需要が高まっている。 この素早いレビューは、22のピアレビュー研究を集め、マイクロサービスの環境持続可能性を改善するためのアーキテクチャ戦略を合成する。 動作可能な方法で提示され、持続可能性の側面と状況に応じて分類される6つの戦術をリストアップする。 持続可能性の側面には、エネルギー効率、炭素効率、資源効率が含まれており、エネルギー効率と炭素効率は研究の初期段階にある。 サーバレスプラットフォームや分散ネットワークなどを含むコンテキスト分類は、特定の環境で使用可能な戦術の特定に役立ちます。 さらに,これらの手法を採用した後の最適化の証拠が,測定単位や統計手法のようにどのように提示されるか,また,このレビューが今後の研究と産業実践者の関心に反映されるように,実験が一般的に設定されるかを示す。 さらに,本研究の不十分さについて検討し,他の研究者や業界に洞察を提供することを期待する。

Microservices are a popular architectural style adopted by the industry when it comes to deploying software that requires scalability, maintainability, and agile development. There is an increasing demand for improving the sustainability of microservice systems in the industry. This rapid review gathers 22 peer-reviewed studies and synthesizes architectural tactics that improve the environmental sustainability of microservices from them. We list 6 tactics that are presented in an actionable way and categorized according to their sustainability aspects and context. The sustainability aspects include energy efficiency, carbon efficiency, and resource efficiency, among which resource efficiency is the most researched one while energy efficiency and carbon efficiency are still in the early stage of study. The context categorization, including serverless platforms, decentralized networks, etc., helps to identify the tactics that we can use in a specific setting. Additionally, we present how the evidence of optimization after adopting these tactics is presented, like the measurement unit and statistical methods, and how experiments are generally set up so that this review is both instructive for our future study and our industrial practitioners' interest. We further study the insufficiencies of the current study and hope to provide insight for other researchers and the industry.
翻訳日:2024-07-25 17:52:45 公開日:2024-07-19
# CRMSP: クラスリバランシングとマージされたセマンティック擬似ラベルによる鍵情報抽出のための半教師付きアプローチ

CRMSP: A Semi-supervised Approach for Key Information Extraction with Class-Rebalancing and Merged Semantic Pseudo-Labeling ( http://arxiv.org/abs/2407.15873v1 )

ライセンス: Link先を確認
Qi Zhang, Yonghong Song, Pengcheng Guo, Yangyang Hui, (参考訳) 半教師付き学習を応用して人力とコストを節約するキー情報抽出(Key Information extract)の分野では,完全教師付き手法を用いた文書データのトレーニングには,労働集約的な手作業のアノテーションが必要であるため,需要が高まっている。 SSLをKIEに適用する主な課題は,(1)長期分布におけるテールクラスの信頼性の過小評価,(2)クラス内コンパクト性とクラス間分離性を達成することの難しさである。 これらの課題に対処するため、我々は、クラス・リバランシングと統合セマンティック・擬似ラベル(CRMSP)によるKIEのための、新しい半教師付きアプローチを提案する。 第一に、CRP(Class-Rebalancing Pseudo-Labeling)モジュールは擬似ラベルの再バランスを緩和し、テールクラスに注意を向ける。 次に,Merged Semantic Pseudo-Labeling (MSP) モジュールを提案し,Merged Prototypes (MP) にサンプルを割り当てることで,ラベルなしデータのテール特徴をクラスタリングする。 さらに,MSPに特有な新たなコントラスト損失を設計した。 3つのよく知られたベンチマークの大規模な実験結果は、CRMSPが最先端のパフォーマンスを達成していることを示している。 注目すべきなのは、CRMSPはCORDの最先端よりも3.24%のf1スコアの改善を実現していることだ。

There is a growing demand in the field of KIE (Key Information Extraction) to apply semi-supervised learning to save manpower and costs, as training document data using fully-supervised methods requires labor-intensive manual annotation. The main challenges of applying SSL in the KIE are (1) underestimation of the confidence of tail classes in the long-tailed distribution and (2) difficulty in achieving intra-class compactness and inter-class separability of tail features. To address these challenges, we propose a novel semi-supervised approach for KIE with Class-Rebalancing and Merged Semantic Pseudo-Labeling (CRMSP). Firstly, the Class-Rebalancing Pseudo-Labeling (CRP) module introduces a reweighting factor to rebalance pseudo-labels, increasing attention to tail classes. Secondly, we propose the Merged Semantic Pseudo-Labeling (MSP) module to cluster tail features of unlabeled data by assigning samples to Merged Prototypes (MP). Additionally, we designed a new contrastive loss specifically for MSP. Extensive experimental results on three well-known benchmarks demonstrate that CRMSP achieves state-of-the-art performance. Remarkably, CRMSP achieves 3.24% f1-score improvement over state-of-the-art on the CORD.
翻訳日:2024-07-24 21:44:53 公開日:2024-07-19
# ニューラルネットワーク圧縮のためのShapley Pruning

Shapley Pruning for Neural Network Compression ( http://arxiv.org/abs/2407.15875v1 )

ライセンス: Link先を確認
Kamil Adamczewski, Yawei Li, Luc van Gool, (参考訳) ニューラルネットワークプルーニングは、様々なアプローチを持つリッチフィールドである。 そこで本研究では,既存プルーニングの概念であるLeft-one-out pruningやOracle pruningを結合して,畳み込みニューラルネットワークの圧縮をターゲットとした,より一般的なShapley値ベースのフレームワークを構築することを提案する。 この研究は、Shapley値を利用するための実用的な応用を可能にするため、Shapley値近似を示し、ニューラルネットワーク圧縮の費用対効果の観点から比較分析を行う。 提案されたランクは、オラクルのランクである新しいベンチマークに対して評価される。 広範に実験した結果,提案した規範的ランキングとその近似は実効性を示し,最先端のネットワーク圧縮が得られた。

Neural network pruning is a rich field with a variety of approaches. In this work, we propose to connect the existing pruning concepts such as leave-one-out pruning and oracle pruning and develop them into a more general Shapley value-based framework that targets the compression of convolutional neural networks. To allow for practical applications in utilizing the Shapley value, this work presents the Shapley value approximations, and performs the comparative analysis in terms of cost-benefit utility for the neural network compression. The proposed ranks are evaluated against a new benchmark, Oracle rank, constructed based on oracle sets. The broad experiments show that the proposed normative ranking and its approximations show practical results, obtaining state-of-the-art network compression.
翻訳日:2024-07-24 21:44:53 公開日:2024-07-19
# 医療におけるブロックチェーン: フレア州立病院における電子医療記録のためのHyperledger Fabricの実装

Blockchain in Healthcare: Implementing Hyperledger Fabric for Electronic Health Records at Frere Provincial Hospital ( http://arxiv.org/abs/2407.15876v1 )

ライセンス: Link先を確認
Abayomi Agbeyangi, Olukayode Oki, Aphelele Mgidi, (参考訳) 医療システムは、相互運用性、データセキュリティ、アクセシビリティといった課題に世界規模で対応しつづけているため、新興テクノロジーの統合は不可欠である。 本稿では,南アフリカ東ケープ州フレア病院における電子健康記録(EHR)管理のためのブロックチェーン技術,特にHyperledger Fabricの実装について検討する。 医療情報システムにブロックチェーンを統合することのメリットと課題について検討する。 Hyperledger Fabricのモジュールアーキテクチャは、ステークホルダ間のEHRの保存、管理、共有のための、セキュアで透明で分散化されたプラットフォームを構築するために使用される。 この研究は、ケーススタディとデータ収集手法を、観察と非公式な質問を通じて統合し、現在の記録管理手法と課題を理解するための具体的な目的を用いている。 この方法は実践的な洞察を与え、そのアプローチを検証する。 この結果は、厳格な調査と分析に枠を組んだ医療の変革において、ブロックチェーンが果たす役割を示している。 本研究は, 電子カルテ管理の課題に対処するため, 先進的な解決策を模索する医療機関に対して, より広範な意味を持つものである。 最終的にこの研究は、医療設定におけるブロックチェーン技術の変革の可能性を強調し、センシティブな患者のデータ管理における信頼性、セキュリティ、効率性を促進する。

As healthcare systems worldwide continue to grapple with the challenges of interoperability, data security, and accessibility, integrating emerging technologies becomes imperative. This paper investigates the implementation of blockchain technology, specifically Hyperledger Fabric, for Electronic Health Records (EHR) management at Frere Hospital in the Eastern Cape province of South Africa. The paper examines the benefits and challenges of integrating blockchain into healthcare information systems. Hyperledger Fabric's modular architecture is harnessed to create a secure, transparent, and decentralized platform for storing, managing, and sharing EHRs among stakeholders. The study used a mixed-methods approach, integrating case studies and data collection methods through observation and informal questions, with the specific goal of understanding current record management methods and challenges. This method offers practical insights and validates the approach. The result demonstrates the role of blockchain in transforming healthcare, framed within a rigorous exploration and analysis. The findings of this study have broader implications for healthcare institutions seeking advanced solutions to address the persistent challenges in electronic health record management. Ultimately, the research underscores the transformative potential of blockchain technology in healthcare settings, fostering trust, security, and efficiency in the management of sensitive patient data.
翻訳日:2024-07-24 21:44:53 公開日:2024-07-19
# テンソル入力を持つガウス過程モデルと3Dプリントアンテナの設計への応用

Gaussian Process Model with Tensorial Inputs and Its Application to the Design of 3D Printed Antennas ( http://arxiv.org/abs/2407.15877v1 )

ライセンス: Link先を確認
Xi Chen, Yashika Sharma, Hao Helen Zhang, Xin Hao, Qiang Zhou, (参考訳) 時間消費シミュレータを用いたシミュレーションに基づくエンジニアリング設計では、ガウス過程(GP)モデルが高速エミュレータとして広く使われ、設計最適化プロセスが高速化されている。 最もよく使われる形式では、GPの入力は設計パラメータの単純なリストである。 添加物製造(3Dプリンティングとも呼ばれる)の急速な発展に伴い、2D/3D空間情報を用いた設計入力は、例えば、不均一材料における画素/ボクセルと物質分布の隣り合う関係など、いくつかの応用において一般的になる。 このような空間情報は、3Dプリントの設計に欠かせないものであり、平方指数やMat\'ernのような共通カーネルを持つ既存のGPモデルに組み込むのは難しい。 本研究では,GPカーネルに一般化された距離測度を組み込む手法を提案し,フリーフォーム3Dプリントデザインの空間情報をGPフレームワークに組み込む手法を提案する。 提案手法は,3次元プリントオブジェクトに対して,設計実験やベイズ最適化を含むGPに基づく最適化など,GPサロゲートに基づくシミュレーション最適化から利用できる多数のツールを活用するための複雑な設計問題を実現する。 提案手法の特性について検討し,その性能を3次元プリントアンテナの数値例で示す。 データセットは、https://github.com/xichennn/GP_dataset.comで公開されている。

In simulation-based engineering design with time-consuming simulators, Gaussian process (GP) models are widely used as fast emulators to speed up the design optimization process. In its most commonly used form, the input of GP is a simple list of design parameters. With rapid development of additive manufacturing (also known as 3D printing), design inputs with 2D/3D spatial information become prevalent in some applications, for example, neighboring relations between pixels/voxels and material distributions in heterogeneous materials. Such spatial information, vital to 3D printed designs, is hard to incorporate into existing GP models with common kernels such as squared exponential or Mat\'ern. In this work, we propose to embed a generalized distance measure into a GP kernel, offering a novel and convenient technique to incorporate spatial information from freeform 3D printed designs into the GP framework. The proposed method allows complex design problems for 3D printed objects to take advantage of a plethora of tools available from the GP surrogate-based simulation optimization such as designed experiments and GP-based optimizations including Bayesian optimization. We investigate the properties of the proposed method and illustrate its performance by several numerical examples of 3D printed antennas. The dataset is publicly available at: https://github.com/xichennn/GP_dataset.
翻訳日:2024-07-24 21:44:53 公開日:2024-07-19
# 非正規性下におけるベイズ半教師付き多カテゴリー分類

Bayesian Semi-supervised Multi-category Classification under Nonparanormality ( http://arxiv.org/abs/2001.03798v3 )

ライセンス: Link先を確認
Rui Zhu, Shuvrarghya Ghosh, Subhashis Ghosal, (参考訳) セミ教師付き学習はラベル付きデータとラベルなしデータの両方を使用するモデルトレーニング手法である。 本稿では,任意のカテゴリ分類問題に適用可能なベイズ半教師付き学習アルゴリズムを提案する。 半教師付き環境でラベル付きデータを使用する場合、ラベルがランダムに欠落していると仮定する。 データに$K$クラスがあると仮定する。 観測ベクトルの各成分に共通な未知の変換を適用した後、それらの真のクラスラベルに依存する多変量正規分布を$K$で従うと仮定する。 関数はB-スプライン級数で拡張され、係数に前もって加算される。 我々は、係数の通常の事前を考慮し、正規性と識別可能性の制約を満たすために値を制約する。 ガウス分布の精度行列は、前に共役ウィッシュアートを与えられ、その平均は、以前に不適切な一様を与える。 結果として得られる後部は、まだ条件付き共役であり、データ増強技術によって支援されたギブスサンプリング装置が採用できる。 シミュレーション実験では,提案手法と他のいくつかの方法との比較を行った。 乳がんの診断と信号の分類に関する実際のデータセットにも本手法を適用した。 提案手法は,様々なケースにおいて予測精度が向上している。

Semi-supervised learning is a model training method that uses both labeled and unlabeled data. This paper proposes a fully Bayes semi-supervised learning algorithm that can be applied to any multi-category classification problem. We assume the labels are missing at random when using unlabeled data in a semi-supervised setting. Suppose we have $K$ classes in the data. We assume that the observations follow $K$ multivariate normal distributions depending on their true class labels after some common unknown transformation is applied to each component of the observation vector. The function is expanded in a B-splines series, and a prior is added to the coefficients. We consider a normal prior on the coefficients and constrain the values to meet the normality and identifiability constraints requirement. The precision matrices of the Gaussian distributions are given a conjugate Wishart prior, while the means are given the improper uniform prior. The resulting posterior is still conditionally conjugate, and the Gibbs sampler aided by a data-augmentation technique can thus be adopted. An extensive simulation study compares the proposed method with several other available methods. The proposed method is also applied to real datasets on diagnosing breast cancer and classification of signals. We conclude that the proposed method has a better prediction accuracy in various cases.
翻訳日:2024-07-24 06:25:22 公開日:2024-07-19
# ロスランドスケープには特異点があります

There is a Singularity in the Loss Landscape ( http://arxiv.org/abs/2201.06964v2 )

ライセンス: Link先を確認
Mark Lowell, (参考訳) ニューラルネットワークが広く採用されているにもかかわらず、トレーニングのダイナミクスはあまり理解されていない。 実験により、データセットのサイズが大きくなるにつれて、損失の勾配の大きさが無界となる点が形成されることを示した。 勾配降下は、パラメータ空間におけるこの特異点に近いネットワークを急速に引き起こし、その近くでさらなる訓練が行われる。 この特異性は、安定性のエッジのトレーニングやトップ部分空間における勾配の集中といった、ニューラルネットワーク損失関数のヘシアンで最近観測された様々な現象を説明する。 ネットワークが特異点に近づくと、上位部分空間は勾配の大部分を構成するにもかかわらず、学習にはほとんど寄与しない。

Despite the widespread adoption of neural networks, their training dynamics remain poorly understood. We show experimentally that as the size of the dataset increases, a point forms where the magnitude of the gradient of the loss becomes unbounded. Gradient descent rapidly brings the network close to this singularity in parameter space, and further training takes place near it. This singularity explains a variety of phenomena recently observed in the Hessian of neural network loss functions, such as training on the edge of stability and the concentration of the gradient in a top subspace. Once the network approaches the singularity, the top subspace contributes little to learning, even though it constitutes the majority of the gradient.
翻訳日:2024-07-24 06:25:22 公開日:2024-07-19
# インスツルメンタル時系列による因果関係の同定 -第4報と過去の訂正-

Identifying Causal Effects using Instrumental Time Series: Nuisance IV and Correcting for the Past ( http://arxiv.org/abs/2203.06056v3 )

ライセンス: Link先を確認
Nikolaj Thams, Rikke Søndergaard, Sebastian Weichwald, Jonas Peters, (参考訳) 機器変数(IV)回帰は観測データから因果効果を推定するための機器に依存している。 ベクトル自己回帰(VAR)プロセスのような時系列モデルにおけるIV回帰を考察する。 i.d.テクニックの直接的な適用は、過去に依存性を正しく調整しなかったため、一般的には矛盾する。 本稿では,時系列データにおける因果関係を一貫したパラメトリック推定に利用できる方程式の同定手法を提案する。 ある方法では、余剰なニュアンス共変量を用いて識別可能性を得る(i.d.の場合でさえ興味のあるアイデア)。 さらに我々は, ニュアンスIV法や他のIV法を時系列に原則的に適用できるグラフ境界化フレームワークを提案する。 我々の手法は、VAR(p)プロセスのホールドを証明したグローバルマルコフプロパティのバージョンを利用する。 VAR(1) プロセスでは、ヨルダン形式に関連する識別可能性条件を証明し、i.d. の場合のよく知られたランク条件と異なる(例えば、共変量ほど多くの楽器を必要としない)。 我々は,その一貫性を証明し,その因果効果が分布一般化にどのように用いられるかを示す。 シミュレーション実験は、我々の理論結果を裏付ける。 使用可能なPythonコードを提供します。

Instrumental variable (IV) regression relies on instruments to infer causal effects from observational data with unobserved confounding. We consider IV regression in time series models, such as vector auto-regressive (VAR) processes. Direct applications of i.i.d. techniques are generally inconsistent as they do not correctly adjust for dependencies in the past. In this paper, we outline the difficulties that arise due to time structure and propose methodology for constructing identifying equations that can be used for consistent parametric estimation of causal effects in time series data. One method uses extra nuisance covariates to obtain identifiability (an idea that can be of interest even in the i.i.d. case). We further propose a graph marginalization framework that allows us to apply nuisance IV and other IV methods in a principled way to time series. Our methods make use of a version of the global Markov property, which we prove holds for VAR(p) processes. For VAR(1) processes, we prove identifiability conditions that relate to Jordan forms and are different from the well-known rank conditions in the i.i.d. case (they do not require as many instruments as covariates, for example). We provide methods, prove their consistency, and show how the inferred causal effect can be used for distribution generalization. Simulation experiments corroborate our theoretical results. We provide ready-to-use Python code.
翻訳日:2024-07-24 06:25:22 公開日:2024-07-19
# BiomedGPT:視覚・言語・マルチモーダルタスクのための統一的で汎用的なバイオメディカル生成事前学習トランス

BiomedGPT: A Unified and Generalist Biomedical Generative Pre-trained Transformer for Vision, Language, and Multimodal Tasks ( http://arxiv.org/abs/2305.17100v3 )

ライセンス: Link先を確認
Kai Zhang, Rong Zhou, Eashan Adhikarla, Zhiling Yan, Yixin Liu, Jun Yu, Zhengliang Liu, Xun Chen, Brian D. Davison, Hui Ren, Jing Huang, Chen Chen, Yuyin Zhou, Sunyang Fu, Wei Liu, Tianming Liu, Xiang Li, Yong Chen, Lifang He, James Zou, Quanzheng Li, Hongfang Liu, Lichao Sun, (参考訳) 特定のタスクやモダリティのために設計された伝統的なバイオメディカル人工知能(AI)モデルは、現実の展開において限られた柔軟性を示し、総合的な情報を利用するのに苦労する。 汎用AIは、さまざまなデータタイプを解釈し、さまざまなニーズに合ったアウトプットを生成するという汎用性のために、これらの制限に対処する可能性を秘めている。 しかし、既存のバイオメディカル・ジェネリストのAIソリューションは、典型的には重く、研究者、実践者、患者に閉鎖的なソースである。 本稿では,様々なバイオメディカルタスクを遂行できるジェネラリストとして設計された,世界初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。 BiomedGPTは、コンピューティングフレンドリーなモデルスケールを維持しながら、25実験中16実験で最先端の結果を達成した。 また,放射線学的質問応答,レポート生成,要約におけるバイオメディカルGPTの能力を評価するために人体評価を行った。 BiomedGPTは、質問に対する回答の3.8%の低いエラー率、複雑な放射線学のレポートを書く際のエラー率8.3%の満足度、そして人間の専門家にほぼ同等の選好スコアを持つ競争的要約能力を示す。 本手法は, 多様なデータを用いた効果的なトレーニングが, 診断とワークフロー効率を向上させるために, より実践的なバイオメディカルAIに繋がることを示す。

Traditional biomedical artificial intelligence (AI) models, designed for specific tasks or modalities, often exhibit limited flexibility in real-world deployment and struggle to utilize holistic information. Generalist AI holds the potential to address these limitations due to its versatility in interpreting different data types and generating tailored outputs for diverse needs. However, existing biomedical generalist AI solutions are typically heavyweight and closed source to researchers, practitioners, and patients. Here, we propose BiomedGPT, the first open-source and lightweight vision-language foundation model, designed as a generalist capable of performing various biomedical tasks. BiomedGPT achieved state-of-the-art results in 16 out of 25 experiments while maintaining a computing-friendly model scale. We also conducted human evaluations to assess the capabilities of BiomedGPT in radiology visual question answering, report generation, and summarization. BiomedGPT exhibits robust prediction ability with a low error rate of 3.8% in question answering, satisfactory performance with an error rate of 8.3% in writing complex radiology reports, and competitive summarization ability with a nearly equivalent preference score to human experts. Our method demonstrates that effective training with diverse data can lead to more practical biomedical AI for improving diagnosis and workflow efficiency.
翻訳日:2024-07-24 05:56:27 公開日:2024-07-19
# Augment then Smooth: 認証されたロバスト性で差別的プライバシを再定義する

Augment then Smooth: Reconciling Differential Privacy with Certified Robustness ( http://arxiv.org/abs/2306.08656v2 )

ライセンス: Link先を確認
Jiapeng Wu, Atiyeh Ashari Ghomi, David Glukhov, Jesse C. Cresswell, Franziska Boenisch, Nicolas Papernot, (参考訳) マシンラーニングモデルは、トレーニングデータのプライバシに対する攻撃や、モデルの精度を危険にさらす敵例など、信頼を損なう可能性のあるさまざまな攻撃の影響を受けやすい。 異なるプライバシーと認証された堅牢性は、これら2つの脅威にそれぞれ対処するための効果的なフレームワークであり、それぞれが将来的な保証を提供する。 しかし, 標準偏差プライベートモデルトレーニングは, 信頼性の高いロバスト性保証を提供するには不十分であることを示す。 実際、1つのシステムにおける差分プライバシーと認証された堅牢性を組み合わせることは簡単ではない。 本研究では,ランダム化スムーシングを標準偏差モデルトレーニングに統合することにより,プライバシとロバスト性の両方の保証を同時に実現する,シンプルで効果的なDP-CERTを提案する。 先行研究と比較すると、DP-CERTはCIFAR10と同じ差分プライバシー保証に対する認証精度を最大2.5%向上させる。 深度パーサンブル計量分析により、より大きな証明可能なラジイはより小さな局所的なリプシッツ定数と相関し、DP-CERTは他の微分プライベートな訓練方法と比較して効果的にリプシッツ定数を減少させることを示した。 コードはgithub.com/layer6ailabs/dp-certで入手できる。

Machine learning models are susceptible to a variety of attacks that can erode trust, including attacks against the privacy of training data, and adversarial examples that jeopardize model accuracy. Differential privacy and certified robustness are effective frameworks for combating these two threats respectively, as they each provide future-proof guarantees. However, we show that standard differentially private model training is insufficient for providing strong certified robustness guarantees. Indeed, combining differential privacy and certified robustness in a single system is non-trivial, leading previous works to introduce complex training schemes that lack flexibility. In this work, we present DP-CERT, a simple and effective method that achieves both privacy and robustness guarantees simultaneously by integrating randomized smoothing into standard differentially private model training. Compared to the leading prior work, DP-CERT gives up to a 2.5% increase in certified accuracy for the same differential privacy guarantee on CIFAR10. Through in-depth persample metric analysis, we find that larger certifiable radii correlate with smaller local Lipschitz constants, and show that DP-CERT effectively reduces Lipschitz constants compared to other differentially private training methods. The code is available at github.com/layer6ailabs/dp-cert.
翻訳日:2024-07-24 05:56:27 公開日:2024-07-19
# Marginal Pseudo-likelihood を用いたガウス図形モデルの大規模ベイズ構造学習

Large-scale Bayesian Structure Learning for Gaussian Graphical Models using Marginal Pseudo-likelihood ( http://arxiv.org/abs/2307.00127v3 )

ライセンス: Link先を確認
Reza Mohammadi, Marit Schoonhoven, Lucas Vogels, S. Ilker Birbil, (参考訳) ガウスのグラフィカルモデルを学習するためのベイズ的手法は、モデルの不確実性に対処し、事前の知識を組み込む包括的なフレームワークを提供する。 その理論的な強みにもかかわらず、ベイズ法の適用性はしばしば計算的要求、特に数千の変数を含む現代の文脈によって制約される。 この問題を解決するために,マルコフ連鎖モンテカルロ (MCMC) 探索アルゴリズムを導入する。 提案したMCMCに基づく探索アルゴリズムは,計算の難解な正規化定数と反復的精度行列サンプリングの複雑さを回避するために,境界擬似リフレーション手法を用いる。 これらのアルゴリズムは、1000変数の大規模問題であっても、標準コンピュータ上でわずか数分で信頼性の高い結果を提供できる。 さらに,本提案手法は,全後部グラフ空間を探索することにより,モデルの不確かさを効果的に解決する。 グラフリカバリの整合性を確立し,より広範なシミュレーション研究により,提案したアルゴリズム,特に大規模スパースグラフは,計算効率と精度でベイズ的手法より優れていることが示された。 また,ヒトおよびマウスの遺伝子発現研究における中・大規模応用における本手法の有用性について述べる。 新しいアプローチをサポートする実装は、RパッケージのBDgraphから入手できる。

Bayesian methods for learning Gaussian graphical models offer a comprehensive framework that addresses model uncertainty and incorporates prior knowledge. Despite their theoretical strengths, the applicability of Bayesian methods is often constrained by computational demands, especially in modern contexts involving thousands of variables. To overcome this issue, we introduce two novel Markov chain Monte Carlo (MCMC) search algorithms with a significantly lower computational cost than leading Bayesian approaches. Our proposed MCMC-based search algorithms use the marginal pseudo-likelihood approach to bypass the complexities of computing intractable normalizing constants and iterative precision matrix sampling. These algorithms can deliver reliable results in mere minutes on standard computers, even for large-scale problems with one thousand variables. Furthermore, our proposed method efficiently addresses model uncertainty by exploring the full posterior graph space. We establish the consistency of graph recovery, and our extensive simulation study indicates that the proposed algorithms, particularly for large-scale sparse graphs, outperform leading Bayesian approaches in terms of computational efficiency and accuracy. We also illustrate the practical utility of our methods on medium and large-scale applications from human and mice gene expression studies. The implementation supporting the new approach is available through the R package BDgraph.
翻訳日:2024-07-24 05:46:42 公開日:2024-07-19
# CacheGen: KVキャッシュ圧縮と高速大規模言語モデルのストリーミング

CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving ( http://arxiv.org/abs/2310.07240v6 )

ライセンス: Link先を確認
Yuhan Liu, Hanchen Li, Yihua Cheng, Siddhant Ray, Yuyang Huang, Qizheng Zhang, Kuntai Du, Jiayi Yao, Shan Lu, Ganesh Ananthanarayanan, Michael Maire, Henry Hoffmann, Ari Holtzman, Junchen Jiang, (参考訳) 大きな言語モデル(LLM)が複雑なタスクをこなすにつれて、その入力はドメイン知識を組み込んだ長いコンテキストで補われます。 しかし、LLMがコンテキスト全体を処理するまで何も生成できないため、長いコンテキストを使うことは難しい。 異なる入力間でコンテキストのKVキャッシュを再利用することで、コンテキスト処理の遅延を低減できるが、ネットワーク上の大きなテンソルを含むKVキャッシュをフェッチすることで、ネットワーク上のネットワーク遅延が増大する可能性がある。 CacheGenは、LLMシステムのための高速なコンテキストローディングモジュールである。 まず、CacheGenはカスタムのテンソルエンコーダを使用し、KVキャッシュの分散特性を利用して、KVキャッシュをよりコンパクトなビットストリーム表現にエンコードし、デコードオーバーヘッドを無視して帯域幅を節約する。 第二に、CacheGenはKVキャッシュの異なる部分の圧縮レベルに適応して、低コンテキストローディング遅延と高生成品質を維持するために、利用可能な帯域幅の変化に対処する。 % 利用可能な帯域幅が減少すると、CacheGenはコンテクストの一部の圧縮レベルを上げたり、KVキャッシュをオンザフライで再計算する。 一般的なLLMとデータセットでCacheGenをテストします。 KVキャッシュを再利用した最近のシステムと比較すると、CacheGenはKVキャッシュのサイズを3.5-4.3xに減らし、LLMの応答品質に無視できない影響を与えながら、フェッチと処理のコンテキストを3.2-3.7xに減らした。 私たちのコードは以下の通りです。

As large language models (LLMs) take on complex tasks, their inputs are supplemented with longer contexts that incorporate domain knowledge. Yet using long contexts is challenging, as nothing can be generated until the whole context is processed by the LLM. While the context-processing delay can be reduced by reusing the KV cache of a context across different inputs, fetching the KV cache, which contains large tensors, over the network can cause high extra network delays. CacheGen is a fast context-loading module for LLM systems. First, CacheGen uses a custom tensor encoder, leveraging KV cache's distributional properties to encode a KV cache into more compact bitstream representations with negligible decoding overhead, to save bandwidth usage. Second, CacheGen adapts the compression level of different parts of a KV cache to cope with changes in available bandwidth, in order to maintain low context-loading delay and high generation quality. % When available bandwidth drops, CacheGen may raise the compression level for a part of the context or recompute its KV cache on the fly. We test CacheGen on popular LLMs and datasets. Compared to the recent systems that reuse the KV cache, CacheGen reduces the KV cache size by 3.5-4.3x and the total delay in fetching and processing contexts by 3.2-3.7x with negligible impact on the LLM response quality. Our code is at: https://github.com/UChi-JCL/CacheGen.
翻訳日:2024-07-24 05:36:51 公開日:2024-07-19
# 強弱誘導による視覚言語モデル固有の知識と教師なし領域適応の組合せ

Combining inherent knowledge of vision-language models with unsupervised domain adaptation through strong-weak guidance ( http://arxiv.org/abs/2312.04066v3 )

ライセンス: Link先を確認
Thomas Westfechtel, Dexuan Zhang, Tatsuya Harada, (参考訳) 教師なしドメイン適応(UDA)は、ラベル付きソースデータセットを活用して、その知識を類似しているが異なるターゲットデータセットに転送することで、データのラベル付けという面倒な作業を克服しようとする。 一方、現在の視覚言語モデルは驚くべきゼロショット予測能力を示している。 本研究では,UDAを通して得られた知識と視覚言語モデル固有の知識を組み合わせる。 我々は、ゼロショット予測を用いて、ソースとターゲットデータセットの整列を支援する、強弱誘導学習スキームを導入する。 強力なガイダンスを得るために、ターゲットデータセットの最も確実なサンプルでソースデータセットを拡張します。 また,弱い指導法として知識蒸留損失を用いる。 強いガイダンスはハードラベルを使用するが、ターゲットデータセットからの最も確実な予測にのみ適用される。 逆に、弱いガイダンスはデータセット全体に適用されるが、ソフトラベルを使用する。 弱いガイダンスは、ゼロショット予測をシフトした)知識蒸留損失として実装される。 提案手法は,視覚言語モデルへの迅速な適応手法の利点を補完するものである。 我々は3つのベンチマーク(OfficeHome、VisDA、DomainNet)で実験とアブレーションを行い、最先端の手法より優れています。 我々のアブレーション研究は、アルゴリズムの様々な構成要素の貢献をさらに証明している。

Unsupervised domain adaptation (UDA) tries to overcome the tedious work of labeling data by leveraging a labeled source dataset and transferring its knowledge to a similar but different target dataset. Meanwhile, current vision-language models exhibit remarkable zero-shot prediction capabilities. In this work, we combine knowledge gained through UDA with the inherent knowledge of vision-language models. We introduce a strong-weak guidance learning scheme that employs zero-shot predictions to help align the source and target dataset. For the strong guidance, we expand the source dataset with the most confident samples of the target dataset. Additionally, we employ a knowledge distillation loss as weak guidance. The strong guidance uses hard labels but is only applied to the most confident predictions from the target dataset. Conversely, the weak guidance is employed to the whole dataset but uses soft labels. The weak guidance is implemented as a knowledge distillation loss with (shifted) zero-shot predictions. We show that our method complements and benefits from prompt adaptation techniques for vision-language models. We conduct experiments and ablation studies on three benchmarks (OfficeHome, VisDA, and DomainNet), outperforming state-of-the-art methods. Our ablation studies further demonstrate the contributions of different components of our algorithm.
翻訳日:2024-07-24 05:16:54 公開日:2024-07-19
# アモルファス酸化物トンネル接合部の交換バイアスによる焼鈍

Alternating Bias Assisted Annealing of Amorphous Oxide Tunnel Junctions ( http://arxiv.org/abs/2401.07415v3 )

ライセンス: Link先を確認
David P. Pappas, Mark Field, Cameron Kopas, Joel A. Howard, Xiqiao Wang, Ella Lachman, Lin Zhou, Jinsu Oh, Kameshwar Yadavalli, Eyob A. Sete, Andrew Bestwick, Matthew J. Kramer, Joshua Y. Mutus, (参考訳) 熱酸化したアモルファスアルミニウム-酸化物トンネル接合の電気的特性を制御的に調整する変換手法を実証する。 従来の試験装置を用いて、加熱されたトンネル障壁に交互にバイアスを加えることで、室温抵抗の70%を超える巨大化を実現することができる。 抵抗変化の速度は強い温度依存性を示し、サブミクロン系では接合サイズに依存しない。 そのトンネル特性をmK温度で測定するために,この交互バイアス補助焼鈍法(ABAA)で処理したトランスモンクビット接合を特徴付ける。 測定された周波数は、シフト抵抗と臨界電流の間のアンベガオカー・バラトフ関係に従う。 さらに, これらの研究は, 未処理試料と比較して, 共振器および非共振器系欠陥の顕著な低減とともに, $\approx 2 \times10^{-6}$の次数による接合分散損失の低減を示す。 高分解能TEMによるイメージングでは、バリアは依然として非晶質であり、未処理の接合に対するアルミニウムの配向がより均一に分布していることが示されている。 この新しいアプローチは、アモルファスな酸化アルミニウムや、現代の電子機器で使われている多くの金属絶縁体-金属構造に依存する幅広いデバイスに広く適用されることが期待されている。

We demonstrate a transformational technique for controllably tuning the electrical properties of fabricated thermally oxidized amorphous aluminum-oxide tunnel junctions. Using conventional test equipment to apply an alternating bias to a heated tunnel barrier, giant increases in the room temperature resistance, greater than 70%, can be achieved. The rate of resistance change is shown to be strongly temperature-dependent, and is independent of junction size in the sub-micron regime. In order to measure their tunneling properties at mK temperatures, we characterized transmon qubit junctions treated with this alternating-bias assisted annealing (ABAA) technique. The measured frequencies follow the Ambegaokar-Baratoff relation between the shifted resistance and critical current. Further, these studies show a reduction of junction-contributed loss on the order of $\approx 2 \times10^{-6}$, along with a significant reduction in resonant- and off-resonant-two level system defects when compared to untreated samples. Imaging with high-resolution TEM shows that the barrier is still predominantly amorphous with a more uniform distribution of aluminum coordination across the barrier relative to untreated junctions. This new approach is expected to be widely applicable to a broad range of devices that rely on amorphous aluminum oxide, as well as the many other metal-insulator-metal structures used in modern electronics.
翻訳日:2024-07-24 03:02:44 公開日:2024-07-19
# CARFF:3次元シーン予測のための条件付き自動符号化放射場

CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting ( http://arxiv.org/abs/2401.18075v2 )

ライセンス: Link先を確認
Jiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas Rhinehart, Rowan McAllister, Joseph Gonzalez, (参考訳) CARFFは,過去の観測から得られた未来の3Dシーンを予測する手法である。 提案手法は,2次元エゴ中心の画像を3次元潜在シーン構成上の分布にマッピングし,時間経過による仮想シーンの進化を予測する。 我々の潜伏者は3次元シーンモデルを表現するためにグローバルニューラルネットワーク場(NeRF)を条件にしており、説明可能な予測と簡単な下流計画を可能にしている。 このアプローチは世界をPOMDPとしてモデル化し、環境状態や力学における不確実性の複雑なシナリオを考察する。 具体的には,2段階のPose-Conditional-VAEとNeRFを用いて3次元表現を学習し,混合密度ネットワークを用いた遅延シーン表現の自動回帰予測を行う。 我々は,CARLA運転シミュレータを用いたシナリオにおける本手法の有用性を実証する。CARFFは,閉塞を含む複雑なマルチエージェント自律運転シナリオにおいて,効率的な軌跡と並行性計画を可能にする。

We propose CARFF, a method for predicting future 3D scenes given past observations. Our method maps 2D ego-centric images to a distribution over plausible 3D latent scene configurations and predicts the evolution of hypothesized scenes through time. Our latents condition a global Neural Radiance Field (NeRF) to represent a 3D scene model, enabling explainable predictions and straightforward downstream planning. This approach models the world as a POMDP and considers complex scenarios of uncertainty in environmental states and dynamics. Specifically, we employ a two-stage training of Pose-Conditional-VAE and NeRF to learn 3D representations, and auto-regressively predict latent scene representations utilizing a mixture density network. We demonstrate the utility of our method in scenarios using the CARLA driving simulator, where CARFF enables efficient trajectory and contingency planning in complex multi-agent autonomous driving scenarios involving occlusions.
翻訳日:2024-07-24 02:50:43 公開日:2024-07-19
# 膨張環における異常カシミール効果

Anomalous Casimir effect in an expanding ring ( http://arxiv.org/abs/2402.08610v3 )

ライセンス: Link先を確認
Baptiste Bermond, Adolfo G. Grushin, David Carpentier, (参考訳) カシミール効果は真空の量子的性質のマクロ的な証拠である。 環上では、真空エネルギーに対する有限サイズ補正をもたらす。 本研究では、この真空のエネルギーと圧力が、環の半径が十分に速く大きくなると、さらに大きく補正されることを示す。 この効果は、環の半径の増加によって引き起こされる時空曲率に由来する共形異常の顕在化である。 この異常な動的カシミール効果は、環のサイズを増大させるのに必要な作業によって測定可能であり、時間とともに非単調になる。

The Casimir effect is a macroscopic evidence of the quantum nature of the vacuum. On a ring, it leads to a finite size correction to the vacuum energy. In this work, we show that this vacuum's energy and pressure acquire additional, sizable corrections, when the ring's radius is increased fast enough, an experimentally accessible model of an expanding universe. This effect is distinct from the dynamical Casimir effect: it is a manifestation of the conformal anomaly, originating from the spacetime curvature induced by the increase of the ring's radius. This anomalous dynamical Casimir effect is measurable through the work necessary to increase the ring size, which becomes non-monotonous in time.
翻訳日:2024-07-24 02:50:43 公開日:2024-07-19
# 物質波の2次元アレイによる多軸慣性センシング

Multi-axis inertial sensing with 2D arrays of matter waves ( http://arxiv.org/abs/2403.08762v2 )

ライセンス: Link先を確認
K. Stolzenberg, C. Struckmann, S. Bode, R. Li, A. Herbst, V. Vollenkemper, D. Thomas, E. M. Rasel, N. Gaaloul, D. Schlippert, (参考訳) 原子干渉計は慣性力の精密測定ツールである。 しかし、通常は1つの感度軸に制限されており、その後の測定や修正後の測定によってのみ、高精度な多次元センシングが可能である。 本稿では,Bose-Einstein Condensates (BEC) の2次元アレイ配置について紹介する。 1.6mm^2の3 x 3 BECアレイを配置し、回転参照ミラーの角速度と加速度の測定を行い、重力、勾配、高次微分によって誘導される線形加速度egを計測した。 我々は,長基線あるいは衛星原子間干渉計における大規模因子を有する干渉計において,本手法の感度の向上を期待する。 本研究は, 簡易な高精度多軸慣性センシングの道を開くとともに, 3次元波面解析へのさらなる応用を構想する。

Atom interferometers are an exquisite measurement tool for inertial forces. However, they are commonly limited to one single sensitive axis, allowing high-precision multi-dimensional sensing only through subsequent or postcorrected measurements. Here, we introduce a novel 2D-array-arrangement of Bose-Einstein Condensates (BEC) initialized utilizing time-averaged optical potentials for simultaneous multi-axis inertial sensing. Deploying a 3 x 3 BEC array covering 1.6 mm^2, we perform measurements of angular velocity and acceleration of a rotating reference mirror, as well as a linear acceleration, e.g., induced by gravity, gradients, and higher order derivatives. We anticipate increased sensitivity of our method in interferometers with large scale factors in long-baseline or satellite atom interferometry. Our work paves the way for simple high-precision multi-axis inertial sensing and we envision further applications, e.g., for three-dimensional wave front characterization.
翻訳日:2024-07-24 02:21:06 公開日:2024-07-19
# MSI-NeRF: 一般化可能なニューラルラジアンス場を用いた多球画像による視線合成とオムニ奥行きのリンク

MSI-NeRF: Linking Omni-Depth with View Synthesis through Multi-Sphere Image aided Generalizable Neural Radiance Field ( http://arxiv.org/abs/2403.10840v2 )

ライセンス: Link先を確認
Dongyu Yan, Guanyu Huang, Fengyu Quan, Haoyao Chen, (参考訳) 魚眼カメラを用いたパノラマ観察は、仮想現実(VR)とロボットの知覚において重要である。 しかし、従来の方法で合成されたパノラマ画像は深度情報がなく、VRアプリケーションでは3自由度(3DoF)回転レンダリングしか提供できない。 魚眼カメラの視差情報を完全に保存し,活用するために,深層学習の全方位深度推定と新しいビュー合成を組み合わせたMSI-NeRFを導入する。 入力画像の特徴抽出とワープにより,コストボリュームとして多面体画像を構築する。 さらに空間点と補間された3次元特徴ベクトルを入力とし、全方位深度推定と6DoFビュー合成を同時に実現できる暗黙の放射場を構築する。 深度推定タスクから知識を活用すれば,ソースビューの監督のみでシーンの外観を学習することができる。 新規なターゲットビューは必要とせず、既存のパノラマ深度推定データセットを便利にトレーニングすることができる。 ネットワークには,4つの画像のみを用いて未知のシーンを効率的に再構築する一般化機能がある。 実験結果から,本手法は,深度推定と新しいビュー合成の両タスクにおいて,既存の手法よりも優れていることがわかった。

Panoramic observation using fisheye cameras is significant in virtual reality (VR) and robot perception. However, panoramic images synthesized by traditional methods lack depth information and can only provide three degrees-of-freedom (3DoF) rotation rendering in VR applications. To fully preserve and exploit the parallax information within the original fisheye cameras, we introduce MSI-NeRF, which combines deep learning omnidirectional depth estimation and novel view synthesis. We construct a multi-sphere image as a cost volume through feature extraction and warping of the input images. We further build an implicit radiance field using spatial points and interpolated 3D feature vectors as input, which can simultaneously realize omnidirectional depth estimation and 6DoF view synthesis. Leveraging the knowledge from depth estimation task, our method can learn scene appearance by source view supervision only. It does not require novel target views and can be trained conveniently on existing panorama depth estimation datasets. Our network has the generalization ability to reconstruct unknown scenes efficiently using only four images. Experimental results show that our method outperforms existing methods in both depth estimation and novel view synthesis tasks.
翻訳日:2024-07-24 02:21:06 公開日:2024-07-19
# Bell-CHSH不等式とユニタリ作用素

Bell-CHSH inequality and unitary operators ( http://arxiv.org/abs/2403.15276v2 )

ライセンス: Link先を確認
M. S. Guimaraes, I. Roditi, S. P. Sorella, (参考訳) 単位演算子はベル-CHSH不平等の違反を調べるために使用される。 古典的境界と量子的境界の両方に影響を及ぼす変化が解明される。 期待値が実数である特定の種類のユニタリ作用素の関連性が指摘される。 これらの作用素に対して、古典的および量子的境界はそれぞれ 2$ と $2\sqrt{2}$ で与えられる。 例えば、相対論的量子場論における実スカラー場に対するワイルユニタリ作用素について論じる。

Unitary operators are employed to investigate the violation of the Bell-CHSH inequality. The ensuing modifications affecting both classical and quantum bounds are elucidated. The relevance of a particular class of unitary operators whose expectation values are real is pointed out. For these operators, the classical and quantum bounds remain unaltered, being given, respectively, by $2$ and $2\sqrt{2}$. As an example, the Weyl unitary operators for a real scalar field in relativistic Quantum Field Theory are discussed.
翻訳日:2024-07-24 02:11:12 公開日:2024-07-19
# 変圧器による感情検出 : 比較検討

Emotion Detection with Transformers: A Comparative Study ( http://arxiv.org/abs/2403.15454v3 )

ライセンス: Link先を確認
Mahdi Rezapour, (参考訳) 本研究では,テキストデータを用いた感情分類におけるトランスフォーマーモデルの適用について検討する。 我々は、異なる変圧器の変種を用いて、感情データセットを用いて、事前訓練されたトランスフォーマーモデルを訓練し、評価する。 また、トランス層の微調整、層の訓練性、テキストデータの事前処理など、モデルの性能に影響を及ぼす要因についても分析する。 解析の結果,句読解や停止語といった一般的な手法は,モデルの性能を損なうことが判明した。 これは、トランスフォーマーの強みがテキスト内のコンテキスト関係を理解することにあるためかもしれない。 句読点や停止語といった要素は、それでも感情や強調を伝達し、それらを取り除くことで、この文脈を混乱させる可能性がある。

In this study, we explore the application of transformer-based models for emotion classification on text data. We train and evaluate several pre-trained transformer models, on the Emotion dataset using different variants of transformers. The paper also analyzes some factors that in-fluence the performance of the model, such as the fine-tuning of the transformer layer, the trainability of the layer, and the preprocessing of the text data. Our analysis reveals that commonly applied techniques like removing punctuation and stop words can hinder model performance. This might be because transformers strength lies in understanding contextual relationships within text. Elements like punctuation and stop words can still convey sentiment or emphasis and removing them might disrupt this context.
翻訳日:2024-07-24 02:11:12 公開日:2024-07-19
# CrossScore: マルチビューイメージ評価とスコーリングを目指して

CrossScore: Towards Multi-View Image Evaluation and Scoring ( http://arxiv.org/abs/2404.14409v3 )

ライセンス: Link先を確認
Zirui Wang, Wenjing Bian, Omkar Parkhi, Yuheng Ren, Victor Adrian Prisacariu, (参考訳) 本稿では,画像評価環境のギャップを効果的に埋める新しいクロスリファレンス画像品質評価手法を提案する。SSIMなどの全参照指標,NIQEなどのノン参照指標,FIDなどの一般参照指標,CLIPScoreなどのマルチモーダル参照指標など,確立された評価スキームの配列を補完する。 ニューラルネットワークをNVS最適化のクロスアテンション機構とユニークなデータ収集パイプラインで利用することにより,地上の真理参照を必要とせず,正確な画像品質評価を可能にする。 クエリ画像を同一シーンの複数のビューと比較することにより、新しいビュー合成(NVS)における既存のメトリクスの限界と、直接参照画像が利用できないようなタスクに対処する。 実験結果から,本手法は実測値SSIMと密接に相関するが,真理参照は不要であることがわかった。

We introduce a novel cross-reference image quality assessment method that effectively fills the gap in the image assessment landscape, complementing the array of established evaluation schemes -- ranging from full-reference metrics like SSIM, no-reference metrics such as NIQE, to general-reference metrics including FID, and Multi-modal-reference metrics, e.g., CLIPScore. Utilising a neural network with the cross-attention mechanism and a unique data collection pipeline from NVS optimisation, our method enables accurate image quality assessment without requiring ground truth references. By comparing a query image against multiple views of the same scene, our method addresses the limitations of existing metrics in novel view synthesis (NVS) and similar tasks where direct reference images are unavailable. Experimental results show that our method is closely correlated to the full-reference metric SSIM, while not requiring ground truth references.
翻訳日:2024-07-24 01:51:11 公開日:2024-07-19
# ImplicitAVE: インプシット属性値抽出のためのオープンソースデータセットとマルチモーダルLCMベンチマーク

ImplicitAVE: An Open-Source Dataset and Multimodal LLMs Benchmark for Implicit Attribute Value Extraction ( http://arxiv.org/abs/2404.15592v2 )

ライセンス: Link先を確認
Henry Peng Zou, Vinay Samuel, Yue Zhou, Weizhi Zhang, Liancheng Fang, Zihe Song, Philip S. Yu, Cornelia Caragea, (参考訳) 既存の属性値抽出(AVE)データセットは、暗黙の属性を無視しながら、明示的な属性値に重点を置いている。 これらの制限に対処するため、暗黙的な属性値抽出のための最初の公開マルチモーダルデータセットであるImplicitAVEを提案する。 MAVEデータセットからソースされたImplicitAVEは、暗黙のAVEとマルチモダリティを含むように慎重にキュレーションされ、結果として5つのドメインにわたる68kトレーニングと1.6kテストデータの洗練されたデータセットが生成される。 また,マルチモーダル大言語モデル(MLLM)を暗黙AVEに適用し,ImplicitAVEデータセット上でMLLMの包括的なベンチマークを確立する。 11種類のMLLMを持つ最近の6つのMLLMは、さまざまな設定で評価されており、暗黙的な値抽出がMLLMにとって難しい課題であることを示している。 この研究の貢献には、ImplicitAVEの開発とリリース、暗黙のAVEのための様々なMLLMの探索とベンチマークが含まれ、貴重な洞察と将来の研究方向性を提供する。 データセットとコードはhttps://github.com/HenryPengZou/ImplicitAVEで入手できる。

Existing datasets for attribute value extraction (AVE) predominantly focus on explicit attribute values while neglecting the implicit ones, lack product images, are often not publicly available, and lack an in-depth human inspection across diverse domains. To address these limitations, we present ImplicitAVE, the first, publicly available multimodal dataset for implicit attribute value extraction. ImplicitAVE, sourced from the MAVE dataset, is carefully curated and expanded to include implicit AVE and multimodality, resulting in a refined dataset of 68k training and 1.6k testing data across five domains. We also explore the application of multimodal large language models (MLLMs) to implicit AVE, establishing a comprehensive benchmark for MLLMs on the ImplicitAVE dataset. Six recent MLLMs with eleven variants are evaluated across diverse settings, revealing that implicit value extraction remains a challenging task for MLLMs. The contributions of this work include the development and release of ImplicitAVE, and the exploration and benchmarking of various MLLMs for implicit AVE, providing valuable insights and potential future research directions. Dataset and code are available at https://github.com/HenryPengZou/ImplicitAVE
翻訳日:2024-07-24 01:51:11 公開日:2024-07-19
# 非認知的スキル学習のための社会生活シミュレーション

Social Life Simulation for Non-Cognitive Skills Learning ( http://arxiv.org/abs/2405.00273v2 )

ライセンス: Link先を確認
Zihan Yan, Yaohong Xiang, Yun Huang, (参考訳) 非認知的スキルは、個人的および社会的生活の幸福のために不可欠であり、そのようなスキル開発は物語に基づく技術(例えば、ストーリーテリング)によって支えられる。 生成型AIはインタラクティブでロールプレイングなストーリーテリングを可能にするが、非認知的スキル学習のための社会生活シミュレーションにおいてAIをどのように利用しているかは、ほとんど分かっていない。 さらに、この文脈における自己認識の認識と能力に対するAIメンターシップの利点は、大半が未熟である。 この目的のために,大規模な言語モデル(LLM)によって実現された対話型プラットフォームであるSimulife++を紹介した。 このシステムでは、ユーザーは主人公として行動し、1つまたは複数のAIベースのキャラクターをさまざまな社会的シナリオで作り出すことができる。 特に,人間-AIインタラクションを,傍観者として行動するSage Agentを含む人間-AI-AIコラボレーションに拡張し,反射を促進するための非認知的スキルの観点から,選択や会話に関するいくつかの視点とガイダンスをユーザに提供する。 対象内ユーザ調査では,Sage Agentを併用すると,モチベーション,自己認識,レジリエンス,対処に対するリフレクションのレベルが有意に高くなり,物語の移動体験が向上することが明らかとなった。 さらに,Sage Agentが非認知的スキルの反映を促進し,社会的コミュニケーションと意思決定能力を高め,Simulife++のユーザエクスペリエンスを向上する上で重要な役割を担っていることを,定性的に示唆した。 Sage Agentとユーザ間の複数のサポート関係も報告された。 我々は、物語的ソリューションにおける生成AIの適用と、より広い社会的文脈における非認知的スキル開発におけるSage Agentの将来の可能性にデザイン上の意味を提供する。

Non-cognitive skills are crucial for personal and social life well-being, and such skill development can be supported by narrative-based (e.g., storytelling) technologies. While generative AI enables interactive and role-playing storytelling, little is known about how users engage with and perceive the use of AI in social life simulation for non-cognitive skills learning. Additionally, the benefits of AI mentorship on self-reflection awareness and ability in this context remain largely underexplored. To this end, we introduced Simulife++, an interactive platform enabled by a large language model (LLM). The system allows users to act as protagonists, creating stories with one or multiple AI-based characters in diverse social scenarios. In particular, we expanded the Human-AI interaction to a Human-AI-AI collaboration by including a Sage Agent, who acts as a bystander, providing users with some perspectives and guidance on their choices and conversations in terms of non-cognitive skills to promote reflection. In a within-subject user study, our quantitative results reveal that, when accompanied by Sage Agent, users exhibit significantly higher levels of reflection on motivation, self-perceptions, and resilience & coping, along with an enhanced experience of narrative transportation. Additionally, our qualitative findings suggest that Sage Agent plays a crucial role in promoting reflection on non-cognitive skills, enhancing social communication and decision-making performance, and improving overall user experience within Simulife++. Multiple supportive relationships between Sage Agent and users were also reported. We offer design implications for the application of generative AI in narrative solutions and the future potential of Sage Agent for non-cognitive skill development in broader social contexts.
翻訳日:2024-07-24 01:41:25 公開日:2024-07-19
# 多重バンド非エルミート系の隠れゼロモードと位相

Hidden zero modes and topology of multiband non-Hermitian systems ( http://arxiv.org/abs/2405.09728v2 )

ライセンス: Link先を確認
K. Monkman, J. Sirker, (参考訳) 有限一次元非エルミート系において、零モードの数は必ずしも系の位相を反映しない。 これはバルク境界対応の分解として知られており、これらの系におけるエッジモードの位相的保護に関する誤解を引き起こしている。 ここでは、この分解が起こる理由と、それが典型的に隠れたゼロモード、非常に長寿命なゼロエネルギー励起をもたらすことを示し、これは固有値スペクトルの代わりに特異値を考えるときにのみ明らかである。 さらに、ハミルトニアン$H$を持つ有限マルチバンド非エルミート系において、保護零点の個数を風数$H$と正しく関連付けるために、一般的には随伴する$H^\dagger$とは別の反射ハミルトニアン$\tilde H$を考える必要があることを指摘した。

In a finite one-dimensional non-Hermitian system, the number of zero modes does not necessarily reflect the topology of the system. This is known as the breakdown of the bulk-boundary correspondence and has lead to misconceptions about the topological protection of edge modes in such systems. Here we show why this breakdown does occur and that it typically results in hidden zero modes, extremely long-lived zero energy excitations, which are only revealed when considering the singular value instead of the eigenvalue spectrum. We point out, furthermore, that in a finite multiband non-Hermitian system with Hamiltonian $H$, one needs to consider also the reflected Hamiltonian $\tilde H$, which is in general distinct from the adjoint $H^\dagger$, to properly relate the number of protected zeroes to the winding number of $H$.
翻訳日:2024-07-24 01:31:23 公開日:2024-07-19
# 回答セットプログラミングによるLCMベースのストーリー生成の誘導と多様化

Guiding and Diversifying LLM-Based Story Generation via Answer Set Programming ( http://arxiv.org/abs/2406.00554v2 )

ライセンス: Link先を確認
Phoebe J. Wang, Max Kreminski, (参考訳) インストラクションチューニングされた大規模言語モデル(LLM)は、オープンエンドのユーザ要求に応答してストーリーを生成することができるが、結果として得られるストーリーは多様性に制限される傾向がある。 より古いシンボリックなストーリー生成アプローチ(プランニングなど)は、より多様なプロットアウトラインを生成することができるが、手書きのキャラクターアクションテンプレートの固定セットを再結合するストーリーだけに限られる。 これらのアプローチの強みを組み合わせて、弱点を軽減できますか? 本稿では,高レベルかつ抽象的な高レベルなストーリー構造仕様(ASP)を用いて実装された高レベルなストーリー構造(高レベルなストーリー構造)を用いて,LCMベースのストーリー生成をガイドし,多様化させることを提案する。 セマンティックな類似性分析により,本手法が無指導のLLMよりも多様なストーリを生成することを示すとともに,コードの抜粋を通じて,完全なストーリープランニングよりもASPベースのアウトライン生成のコンパクト性と柔軟性の向上を実証する。

Instruction-tuned large language models (LLMs) are capable of generating stories in response to open-ended user requests, but the resulting stories tend to be limited in their diversity. Older, symbolic approaches to story generation (such as planning) can generate substantially more diverse plot outlines, but are limited to producing stories that recombine a fixed set of hand-engineered character action templates. Can we combine the strengths of these approaches while mitigating their weaknesses? We propose to do so by using a higher-level and more abstract symbolic specification of high-level story structure -- implemented via answer set programming (ASP) -- to guide and diversify LLM-based story generation. Via semantic similarity analysis, we demonstrate that our approach produces more diverse stories than an unguided LLM, and via code excerpts, we demonstrate the improved compactness and flexibility of ASP-based outline generation over full-fledged narrative planning.
翻訳日:2024-07-24 01:21:37 公開日:2024-07-19
# 拡散モデルを用いたレイアウト非依存のシーンテキスト画像合成

Layout-Agnostic Scene Text Image Synthesis with Diffusion Models ( http://arxiv.org/abs/2406.01062v4 )

ライセンス: Link先を確認
Qilong Zhangli, Jindong Jiang, Di Liu, Licheng Yu, Xiaoliang Dai, Ankit Ramchandani, Guan Pang, Dimitris N. Metaxas, Praveen Krishnan, (参考訳) 拡散モデルは画像生成の質を著しく向上させてきたが、それらの画像内のテキストを正確かつ整合的にレンダリングする能力は依然として大きな課題である。 従来の拡散に基づくシーンテキスト生成法は、中間レイアウト出力に依存して制限されるのが一般的である。 この依存はしばしば、レイアウト生成フェーズの決定論的性質から生じる固有の制限として、テキストスタイルやフォントの制限された多様性をもたらす。 これらの課題に対処するために、SceneTextGenは、事前に定義されたレイアウトステージの必要性を回避するために特別に設計された、拡散ベースの新しいモデルである。 そうすることで、SceneTextGenはテキストのより自然で多様な表現を促進する。 文字レベルのインスタンスセグメンテーションモデルと単語レベルのスポッティングモデルを組み合わせることで、不要なテキスト生成とマイナーな文字不正確な問題に対処する。 本手法の有効性は,標準拡散法とテキスト固有法を比較検討し,異なる公開視覚テキストデータセット間で生成した画像に対する文字認識率の向上を示すことで検証した。

While diffusion models have significantly advanced the quality of image generation their capability to accurately and coherently render text within these images remains a substantial challenge. Conventional diffusion-based methods for scene text generation are typically limited by their reliance on an intermediate layout output. This dependency often results in a constrained diversity of text styles and fonts an inherent limitation stemming from the deterministic nature of the layout generation phase. To address these challenges this paper introduces SceneTextGen a novel diffusion-based model specifically designed to circumvent the need for a predefined layout stage. By doing so SceneTextGen facilitates a more natural and varied representation of text. The novelty of SceneTextGen lies in its integration of three key components: a character-level encoder for capturing detailed typographic properties coupled with a character-level instance segmentation model and a word-level spotting model to address the issues of unwanted text generation and minor character inaccuracies. We validate the performance of our method by demonstrating improved character recognition rates on generated images across different public visual text datasets in comparison to both standard diffusion based methods and text specific methods.
翻訳日:2024-07-24 01:21:37 公開日:2024-07-19
# トランスフォーマーには何があるのか? すべての注意が必要なわけではない

What Matters in Transformers? Not All Attention is Needed ( http://arxiv.org/abs/2406.15786v3 )

ライセンス: Link先を確認
Shwai He, Guoheng Sun, Zheyu Shen, Ang Li, (参考訳) Transformerベースの大規模言語モデル(LLM)のスケーリングは、様々なタスクで有望なパフォーマンスを示している。 しかし、これはまた、現実のデプロイメントに挑戦する、冗長な構造も導入している。 LLMの冗長性はある程度認識されているが、MLPやアテンション層など、異なるモジュール間の冗長性の多様性は未調査である。 本研究では、類似度に基づくメトリクスを用いて、ブロック、MLP、アテンション層を含むトランスフォーマー内の異なるモジュール間の異なる冗長性について検討する。 この計量は、冗長構造が入力と非常によく似た出力を生成するという前提で機能する。 驚いたことに、アテンション層は他の主流アーキテクチャと区別するためにはアテンション層が不可欠であるが、多くのアテンション層が過剰に高い類似性を示し、性能を劣化させることなく安全に切断できることが判明し、メモリと計算コストの削減につながった。 さらに,アテンション層とMLP層を共同でドロップする手法を提案し,性能向上と低下率の向上を実現した。 Llama-3-70Bは注目層の半分を刈っても同等の性能を維持している。 我々の発見は将来のネットワークアーキテクチャ設計に貴重な洞察を与えてくれる。 コードは: \url{https://github.com/Shwai-He/LLM-Drop} でリリースされる。

Scaling Transformer-based large language models (LLMs) has demonstrated promising performance across various tasks. However, it also introduces redundant structures, posing challenges for real-world deployment. Despite some recognition of redundancy in LLMs, the variability of redundancy across different modules, such as MLP and Attention layers, is under-explored. In this work, we investigate the varying redundancy across different modules within Transformers, including Blocks, MLP, and Attention layers, using a similarity-based metric. This metric operates on the premise that redundant structures produce outputs highly similar to their inputs. Surprisingly, while attention layers are essential for transformers and distinguish them from other mainstream architectures, we found that a large proportion of attention layers exhibit excessively high similarity and can be safely pruned without degrading performance, leading to reduced memory and computation costs. Additionally, we further propose a method that jointly drops Attention and MLP layers, achieving improved performance and dropping ratios. Extensive experiments demonstrate the effectiveness of our methods, e.g., Llama-3-70B maintains comparable performance even after pruning half of the attention layers. Our findings provide valuable insights for future network architecture design. The code is released at: \url{https://github.com/Shwai-He/LLM-Drop}.
翻訳日:2024-07-24 00:52:06 公開日:2024-07-19
# ReLU層のインジェクティビティ:フレーム理論からの展望

Injectivity of ReLU-layers: Perspectives from Frame Theory ( http://arxiv.org/abs/2406.15856v2 )

ライセンス: Link先を確認
Peter Balazs, Martin Ehler, Daniel Haider, (参考訳) インジェクティビティ(英: Injectivity)とは、情報を失うことなく、その出力からあらゆる入力を完全に再構成できるマッピングの定義特性である。 ハードしきい値を設定することで、ReLU関数は自然にこの性質を阻害し、ニューラルネットワークにおけるReLU層のインジェクティビティ解析を、まだ完全に解決されていない挑戦的かつ興味深いタスクにする。 本稿では,この問題にアプローチするためのフレーム理論的視点を確立する。 主な目的は、ReLU層の注入挙動の最も一般的な特徴を、これら3つの成分のすべての観点から明らかにすることである。 重量; 重量; 重量; 重量 (二)偏見、及び 三 データが引き出される領域 実用的応用に焦点を合わせながら、我々は有界領域への注意を制限し、与えられた重みとデータ領域に対する最大バイアスを数値的に近似する2つの方法を提案する。 これらの手法はこれらの領域におけるReLU層の注入性について十分な条件を提供し、ReLU層の情報損失を研究するための新しい実践的手法を提供する。 最後に、フレーム理論から双対性の概念に基づく明示的な再構成公式を導出する。

Injectivity is the defining property of a mapping that ensures no information is lost and any input can be perfectly reconstructed from its output. By performing hard thresholding, the ReLU function naturally interferes with this property, making the injectivity analysis of ReLU-layers in neural networks a challenging yet intriguing task that has not yet been fully solved. This article establishes a frame theoretic perspective to approach this problem. The main objective is to develop the most general characterization of the injectivity behavior of ReLU-layers in terms of all three involved ingredients: (i) the weights, (ii) the bias, and (iii) the domain where the data is drawn from. Maintaining a focus on practical applications, we limit our attention to bounded domains and present two methods for numerically approximating a maximal bias for given weights and data domains. These methods provide sufficient conditions for the injectivity of a ReLU-layer on those domains and yield a novel practical methodology for studying the information loss in ReLU layers. Finally, we derive explicit reconstruction formulas based on the duality concept from frame theory.
翻訳日:2024-07-24 00:52:06 公開日:2024-07-19
# 制限のないWebをアンタングする:多言語登録の自動識別

Untangling the Unrestricted Web: Automatic Identification of Multilingual Registers ( http://arxiv.org/abs/2406.19892v2 )

ライセンス: Link先を確認
Erik Henriksson, Amanda Myntti, Anni Eskelinen, Selcen Erten-Johansson, Saara Hellström, Veronika Laippala, (参考訳) 本稿では16言語にわたるWebベースデータセットにおけるレジスタの自動識別のためのディープラーニングモデルについて検討する。 コーパスや計算言語学に欠かせない Web スケールデータセットの内容を理解するためには,Web レジスタやジャンルの同定が不可欠である。 最近の進歩にもかかわらず、ノイズの多い無制限のWebにおけるレジスタ分類器のポテンシャルは、特に多言語設定において、ほとんど探索されていないままである。 本論文で新たに紹介したMultilingual CORE corporaは,Web全体をカバーするように設計された25のレジスタの詳細な階層的な分類法を付加した16の言語を含む,さまざまなディープラーニングモデルを用いて実験を行った。 分類器は, 比較的複雑なレジスタ分類法を用いて, 競合性能が可能であることを示すマルチラベル手法を用いて, 最先端の結果を得る。 しかし、全てのモデルが約80%のF1スコアで性能天井に到達し、これはWebレジスタの非離散性と、いくつかの文書をラベル付けする際固有の不確実性に起因する。 あいまいな例を抽出することにより、モデル性能を90%以上に向上させる。 さらに、多言語モデルは単言語モデルよりも一貫して優れており、特に少ないトレーニング例と少ないレジスタを持つ言語に便益がある。 ゼロショット設定はパフォーマンスを平均7%削減するが、これらのドロップは特定のレジスタや言語と相関しない。 その代わり、レジスタは言語間で驚くほど似ています。

This article explores deep learning models for the automatic identification of registers - text varieties such as news reports and discussion forums - in web-based datasets across 16 languages. Identifying web registers, or genres, is crucial for understanding the content of web-scale datasets, which have become essential in corpus and computational linguistics. Despite recent advances, the full potential of register classifiers in the noisy, unrestricted web remains largely unexplored, particularly in multilingual settings. We experiment with various deep learning models using the Multilingual CORE corpora, newly introduced in this article, which includes 16 languages annotated with a detailed, hierarchical taxonomy of 25 registers designed to cover the entire web. Our classifiers achieve state-of-the-art results using a multi-label approach, demonstrating that competitive performance is possible using a relatively complex register taxonomy. However, all models hit a performance ceiling at approximately 80% F1 score, which we attribute to the non-discrete nature of web registers and the inherent uncertainty in labeling some documents. By pruning ambiguous examples, we enhance model performance to over 90%. Additionally, multilingual models consistently outperform monolingual ones, especially benefiting languages with fewer training examples and smaller registers. Although a zero-shot setting reduces performance by an average of 7%, these drops are not correlated with specific registers or languages. Instead, we find that registers are surprisingly similar across languages.
翻訳日:2024-07-24 00:42:21 公開日:2024-07-19
# ランダム化アルゴリズムのハイパーパラメータ最適化:ランダム特徴のケーススタディ

Hyperparameter Optimization for Randomized Algorithms: A Case Study for Random Features ( http://arxiv.org/abs/2407.00584v2 )

ライセンス: Link先を確認
Oliver R. A. Dunbar, Nicholas H. Nelsen, Maya Mutic, (参考訳) ランダム化アルゴリズムは計算複雑性を減らすために確率性を利用する。 1つの重要な例は、ガウス過程回帰(GPR)を加速するランダム特徴回帰(RFR)である。 RFRは、確率分布から隠れた重みとバイアスをサンプリングするランダムニューラルネットワークと未知の関数を近似する。 最終的な出力層だけがデータに適合する。 RFRのようなランダム化アルゴリズムでは、サンプリング分布を特徴付けるハイパーパラメータは性能に大きな影響を及ぼすが、サンプルから直接はアクセスできない。 これにより、標準(段階的な)最適化ツールによるハイパーパラメータの最適化が不可能になる。 GPRのベイズ的アイデアに触発されて、ベクトル値のランダムな特徴のハイパーパラメータチューニングに適したランダムな目的関数を導入する。 目的はアンサンブル・カルマン・インバージョン(EKI)で最小化される。 EKIは、高次元にスケーラブルで、目的関数のランダム性に頑健な勾配のない粒子ベース最適化器である。 2つの大域感度分析、カオス力学系の統合、大気圧力学からのベイズ逆問題の解法である。 RFRのためのEKIベースのアルゴリズムの成功は、他のランダム化アルゴリズムで生じるハイパーパラメータの自動最適化の可能性を示している。

Randomized algorithms exploit stochasticity to reduce computational complexity. One important example is random feature regression (RFR) that accelerates Gaussian process regression (GPR). RFR approximates an unknown function with a random neural network whose hidden weights and biases are sampled from a probability distribution. Only the final output layer is fit to data. In randomized algorithms like RFR, the hyperparameters that characterize the sampling distribution greatly impact performance, yet are not directly accessible from samples. This makes optimization of hyperparameters via standard (gradient-based) optimization tools inapplicable. Inspired by Bayesian ideas from GPR, this paper introduces a random objective function that is tailored for hyperparameter tuning of vector-valued random features. The objective is minimized with ensemble Kalman inversion (EKI). EKI is a gradient-free particle-based optimizer that is scalable to high-dimensions and robust to randomness in objective functions. A numerical study showcases the new black-box methodology to learn hyperparameter distributions in several problems that are sensitive to the hyperparameter selection: two global sensitivity analyses, integrating a chaotic dynamical system, and solving a Bayesian inverse problem from atmospheric dynamics. The success of the proposed EKI-based algorithm for RFR suggests its potential for automated optimization of hyperparameters arising in other randomized algorithms.
翻訳日:2024-07-24 00:42:21 公開日:2024-07-19
# エッジ上のヴィジュアルトランスフォーマーにレイテンシ-ワークロード非Linearitiesを活用する

Pruning One More Token is Enough: Leveraging Latency-Workload Non-Linearities for Vision Transformers on the Edge ( http://arxiv.org/abs/2407.05941v2 )

ライセンス: Link先を確認
Nick John Eliopoulos, Purvish Jajal, James Davis, Gaowen Liu, George K. Thiravathukal, Yung-Hsiang Lu, (参考訳) 本稿では,エッジデバイスに視覚変換器を効率よく展開する方法を検討する。 最近の手法では、トークンを除去またはマージすることで、トランスフォーマーニューラルネットワークのレイテンシを小さくする。 しかし、これらのメソッドはエッジデバイスのデプロイメントを念頭に設計されていない。 jtheyは、レイテンシとワークロードのトレンドに関する情報を活用して、効率を改善する。 まず、特定のワークロードサイズに対して、レイテンシーとワークロードサイズの関係が非線形であることを示す。 我々はこの関係をトークンプルーニングスケジュールの作成とみなす。 第2に、このスケジュールを利用したトレーニング不要なトークンプルーニング手法を実証する。 単一のバッチ推論では、ベースラインに対してレイテンシが18.6~30.3%向上する一方で、9%削減できることを示す。 デバイス間での同様のレイテンシ(5.2%)では78.6%-84.5%のImageNet1K精度が達成され、最先端のToken Mergingは45.8%-85.4%に達した。

This paper investigates how to efficiently deploy vision transformers on edge devices. Recent methods reduce the latency of transformer neural networks by removing or merging tokens, with small accuracy degradation. However, these methods are not designed with edge device deployment in mind: jthey do not leverage information about the latency vs. workload trends to improve efficiency. First, we show the latency-workload size relationship is nonlinear for certain workload sizes. We consider this relationship to create a token pruning schedule. Second, we demonstrate a training-free, token pruning method utilizing this schedule. We show that for single batch inference, other methods increase latency by 18.6-30.3% with respect to baseline, while we can reduce it by 9%. For similar latency (within 5.2%) across devices we achieve 78.6%-84.5% ImageNet1K accuracy, while the state-of-the-art, Token Merging, achieves 45.8%-85.4%.
翻訳日:2024-07-24 00:31:58 公開日:2024-07-19
# ディープフェイク生成と検出のタグ・オブ・ウォー

The Tug-of-War Between Deepfake Generation and Detection ( http://arxiv.org/abs/2407.06174v2 )

ライセンス: Link先を確認
Hannah Lee, Changyeon Lee, Kevin Farhat, Lin Qiu, Steve Geluso, Aerin Kim, Oren Etzioni, (参考訳) マルチモーダル生成モデルは急速に進化し、現実的なビデオやオーディオの生成が急増し、エキサイティングな可能性だけでなく深刻なリスクももたらされる。 ディープフェイク動画は、偽情報を拡散したり、不正なコンテンツを作ったりする際に悪用される可能性があるため、特に注目を集めている。 本研究は, ディープフェイク映像の生成と検出の両面を考察し, 潜在的虐待に対する効果的な対策の必要性を強調した。 本稿では、GANや拡散モデルといった最先端技術を活用して、リアルなフェイクビデオを生成する、顔交換、再現、オーディオ駆動アニメーションなど、現在のディープフェイク生成技術の概要について概観する。 さらに,映像や音声信号間の不整合を識別する高度なアルゴリズムの展開から,映像と映像を区別するために設計された様々な検出手法を分析した。 これらの検出手法の有効性は、トレーニングと評価に使用されるデータセットの多様性と品質に大きく依存している。 本稿では,検出精度と一般化性を高めるために,頑健で多種多様で頻繁に更新されるコレクションの重要性を強調し,ディープフェイクデータセットの進化について論じる。 ディープフェイクが真のコンテンツと区別しにくくなるにつれ、世代技術に追従できる高度な検出技術の開発が不可欠である。 我々は、ディープフェイクのクリエーターと検出器の「綱引き」における積極的なアプローチを提唱し、継続的な研究協力の必要性、評価指標の標準化、包括的なベンチマークの作成を強調します。

Multimodal generative models are rapidly evolving, leading to a surge in the generation of realistic video and audio that offers exciting possibilities but also serious risks. Deepfake videos, which can convincingly impersonate individuals, have particularly garnered attention due to their potential misuse in spreading misinformation and creating fraudulent content. This survey paper examines the dual landscape of deepfake video generation and detection, emphasizing the need for effective countermeasures against potential abuses. We provide a comprehensive overview of current deepfake generation techniques, including face swapping, reenactment, and audio-driven animation, which leverage cutting-edge technologies like GANs and diffusion models to produce highly realistic fake videos. Additionally, we analyze various detection approaches designed to differentiate authentic from altered videos, from detecting visual artifacts to deploying advanced algorithms that pinpoint inconsistencies across video and audio signals. The effectiveness of these detection methods heavily relies on the diversity and quality of datasets used for training and evaluation. We discuss the evolution of deepfake datasets, highlighting the importance of robust, diverse, and frequently updated collections to enhance the detection accuracy and generalizability. As deepfakes become increasingly indistinguishable from authentic content, developing advanced detection techniques that can keep pace with generation technologies is crucial. We advocate for a proactive approach in the "tug-of-war" between deepfake creators and detectors, emphasizing the need for continuous research collaboration, standardization of evaluation metrics, and the creation of comprehensive benchmarks.
翻訳日:2024-07-24 00:31:58 公開日:2024-07-19
# ビジョンランゲージモデルの効率的な一般化のための量子化プロンプト

Quantized Prompt for Efficient Generalization of Vision-Language Models ( http://arxiv.org/abs/2407.10704v2 )

ライセンス: Link先を確認
Tianxiang Hao, Xiaohan Ding, Juexiao Feng, Yuhong Yang, Hui Chen, Guiguang Ding, (参考訳) 過去数年間、CLIPのような大規模で事前訓練された視覚言語モデルは、様々な分野で大きな成功を収めてきた。 当然、このような巨大なトレーニング済みモデルの豊富な知識を下流のタスクやデータセットに転送する方法は、ホットなトピックになります。 下流への適応において、最も難しい問題は過度な適合と破滅的な忘れ込みであり、それによってモデルが現在のデータに過度に集中し、より重要なドメイン一般知識を失う可能性がある。 既存の作品では、古典的な正規化技術を使って問題を解決している。 ソリューションがますます複雑化するにつれて、ストレージと推論のコストは、緊急に対処する必要がある重要な問題でもある。 本稿では,適切なランダムノイズが過度な適合や破滅的な忘れを抑えるという観察から始める。 次に、量子化誤差をノイズの一種とみなし、非常に効率的かつ効果的である視覚言語モデルを正規化するための量子化を探索する。 さらに, モデルの一般化能力を向上させるために, 最小コストで特殊化能力を維持しながら, プロンプトにおける重量分布の特性を深く分析し, 量子化モジュール設計のいくつかの原理を結論付け, それらの原理に従うことで, 競争力のあるベースラインを創出する。 提案手法は, 軽量な特性のため, 極めて資源に制限のあるデバイスに適応できるため, 極めて効率的である。 提案手法は,MaPLeなどの既存手法と実効的に統合可能であり,ストレージオーバーヘッドを低減しつつ精度を向上し,より強力で汎用性の高い方法である。 11個のデータセットに対する大規模な実験は、我々の手法の優れた優位性を十分に示している。 コードはhttps://github.com/beyondhtx/QPrompt.comで入手できる。

In the past few years, large-scale pre-trained vision-language models like CLIP have achieved tremendous success in various fields. Naturally, how to transfer the rich knowledge in such huge pre-trained models to downstream tasks and datasets becomes a hot topic. During downstream adaptation, the most challenging problems are overfitting and catastrophic forgetting, which can cause the model to overly focus on the current data and lose more crucial domain-general knowledge. Existing works use classic regularization techniques to solve the problems. As solutions become increasingly complex, the ever-growing storage and inference costs are also a significant problem that urgently needs to be addressed. While in this paper, we start from an observation that proper random noise can suppress overfitting and catastrophic forgetting. Then we regard quantization error as a kind of noise, and explore quantization for regularizing vision-language model, which is quite efficiency and effective. Furthermore, to improve the model's generalization capability while maintaining its specialization capacity at minimal cost, we deeply analyze the characteristics of the weight distribution in prompts, conclude several principles for quantization module design and follow such principles to create several competitive baselines. The proposed method is significantly efficient due to its inherent lightweight nature, making it possible to adapt on extremely resource-limited devices. Our method can be fruitfully integrated into many existing approaches like MaPLe, enhancing accuracy while reducing storage overhead, making it more powerful yet versatile. Extensive experiments on 11 datasets shows great superiority of our method sufficiently. Code is available at https://github.com/beyondhtx/QPrompt.
翻訳日:2024-07-24 00:12:27 公開日:2024-07-19
# 3Qubit Toffoli-Hadamard回路の音場と完全等式理論

A Sound and Complete Equational Theory for 3-Qubit Toffoli-Hadamard Circuits ( http://arxiv.org/abs/2407.11152v2 )

ライセンス: Link先を確認
Matthew Amy, Neil J. Ross, Scott Wesley, (参考訳) Toffoli-Hadamard ゲート集合 $\{ X, CX, CCX, H \}$ 上の3量子量子回路に対して、音と完全方程式理論を与える。 すなわち、3つの量子ビット上のトフォリ・ハダマール回路間の真の方程式の集まりを導入し、そのような回路間の他の真の方程式を導出するのに十分である。 この方程式論を得るために、まずトフォリ-$K$ゲート集合 $\{ X, CX, CCX, K \}$ 上の回路を考える。 Toffoli-Hadamard と Toffoli-$K$ ゲート集合は似ているが、それらは正確に3つのキュービットで決定的に異なる。 実際、この場合、前者は作用素の無限群を生成し、後者はよく知られた$E_8$格子の自己同型有限群を生成する。 この事実と格子の自己同型群の理論を利用して、トフォリ=K$回路の健全かつ完全な方程式の集合を得る。 次に、この方程式理論をトフォリ・ハダード回路に拡張し、トフォリ・ハダード作用素上のLi と al の以前の仕事を活用する。

We give a sound and complete equational theory for 3-qubit quantum circuits over the Toffoli-Hadamard gate set $\{ X, CX, CCX, H \}$. That is, we introduce a collection of true equations among Toffoli-Hadamard circuits on three qubits that is sufficient to derive any other true equation between such circuits. To obtain this equational theory, we first consider circuits over the Toffoli-$K$ gate set $\{ X, CX, CCX, K \}$, where $K=H\otimes H$. The Toffoli-Hadamard and Toffoli-$K$ gate sets appear similar, but they are crucially different on exactly three qubits. Indeed, in this case, the former generates an infinite group of operators, while the latter generates the finite group of automorphisms of the well-known $E_8$ lattice. We take advantage of this fact, and of the theory of automorphism groups of lattices, to obtain a sound and complete collection of equations for Toffoli-$K$ circuits. We then extend this equational theory to one for Toffoli-Hadamard circuits by leveraging prior work of Li et al. on Toffoli-Hadamard operators.
翻訳日:2024-07-24 00:12:27 公開日:2024-07-19
# 視覚制御型義手

Vision Controlled Sensorized Prosthetic Hand ( http://arxiv.org/abs/2407.12807v2 )

ライセンス: Link先を確認
Md Abdul Baset Sarker, Juan Pablo S. Sola, Aaron Jones, Evan Laing, Ernesto Sola-Thomas, Masudul H. Imtiaz, (参考訳) 本稿では, 自然手の性能, 機能, 外観, 快適性を再現することを目的とした, 視覚対応義手について述べる。 設計目標は、ほとんどトレーニングを必要とせず、ユーザフレンドリーなインターフェースを備えた、アクセス可能な代替手段を作ることだった。 メカニカルハンドはカメラと組み込みプロセッサを使って、これらのタスクの多くを実行します。 インターフェースされた圧力センサは、圧力フィードバックを取得し、オブジェクトを安全に把握するために使用され、加速度計はジェスチャーを検出してオブジェクトを解放するために使用される。 現在のEMGベースの設計とは異なり、プロトタイプの手はパーソナライズされたトレーニングを必要としない。 本論文では,設計の詳細,トレードオフ,結果,および次のイテレーションについて述べる。

This paper presents a sensorized vision-enabled prosthetic hand aimed at replicating a natural hand's performance, functionality, appearance, and comfort. The design goal was to create an accessible substitution with a user-friendly interface requiring little to no training. Our mechanical hand uses a camera and embedded processors to perform most of these tasks. The interfaced pressure sensor is used to get pressure feedback and ensure a safe grasp of the object; an accelerometer is used to detect gestures and release the object. Unlike current EMG-based designs, the prototyped hand does not require personalized training. The details of the design, trade-offs, results, and informing the next iteration are presented in this paper.
翻訳日:2024-07-23 22:03:21 公開日:2024-07-19
# テキスト分類のための大規模言語モデルを用いたデータ生成:実証事例

Data Generation Using Large Language Models for Text Classification: An Empirical Case Study ( http://arxiv.org/abs/2407.12813v2 )

ライセンス: Link先を確認
Yinheng Li, Rogerio Bonatti, Sara Abdali, Justin Wagle, Kazuhito Koishida, (参考訳) 近年,Large Language Models (LLMs) を用いてモデルトレーニングのための合成データの生成が盛んに行われている。 LLMはリアルなトレーニングデータを生成することができるが、データ生成の有効性は、プロンプトの選択、タスクの複雑さ、生成したデータの質、量、多様性など、さまざまな要因に影響を受けている。 本研究では,テキスト分類タスクにおける合成データの利用にのみ焦点をあてる。 具体的には、合成データに基づいて訓練された自然言語理解(NLU)モデルを用いて、異なる生成手法による合成データの質を評価する。 この研究は、これらの要因の影響を実証分析し、データ生成の実践を改善するためのレコメンデーションを提供する。

Using Large Language Models (LLMs) to generate synthetic data for model training has become increasingly popular in recent years. While LLMs are capable of producing realistic training data, the effectiveness of data generation is influenced by various factors, including the choice of prompt, task complexity, and the quality, quantity, and diversity of the generated data. In this work, we focus exclusively on using synthetic data for text classification tasks. Specifically, we use natural language understanding (NLU) models trained on synthetic data to assess the quality of synthetic data from different generation approaches. This work provides an empirical analysis of the impact of these factors and offers recommendations for better data generation practices.
翻訳日:2024-07-23 22:03:21 公開日:2024-07-19
# Google Play Storeにおけるモバイルアプリのメタモルフィズムの検出と評価

Detecting and Characterising Mobile App Metamorphosis in Google Play Store ( http://arxiv.org/abs/2407.14565v1 )

ライセンス: Link先を確認
D. Denipitiyage, B. Silva, K. Gunathilaka, S. Seneviratne, A. Mahanti, A. Seneviratne, S. Chawla, (参考訳) アプリ市場は、デベロッパーにとって非常に競争力があり、ダイナミックな環境へと進化してきた。 従来のアプリライフサイクルには、機能拡張とイシュー解決のためのインクリメンタルなアップデートが含まれているが、いくつかのアプリは、ユースケースや市場の位置決めにおいて大きな変革を経ることで、この標準から逸脱している。 この現象を「アプリ変態」と定義する。 本稿では,新しいマルチモーダル検索手法を提案し,この手法を用いて5年前に行われたGoogle Play Storeの2つのスナップショットを分析した。 本手法は, 再生, 再ブランド, 再購入など, 様々な形態変化のシナリオを解明し, 包括的特徴付けを可能にする。 これらのトランスフォーメーションは、私たちが定義した成功スコア(例えば、平均的なトップアプリよりも約11.3%優れたリブランドされたアプリ)に基づいて、アプリ開発者にとって成功として登録できるかもしれませんが、隠れたセキュリティとプライバシのリスクに光を当て、技術に精通したエンドユーザにも影響を与えます。

App markets have evolved into highly competitive and dynamic environments for developers. While the traditional app life cycle involves incremental updates for feature enhancements and issue resolution, some apps deviate from this norm by undergoing significant transformations in their use cases or market positioning. We define this previously unstudied phenomenon as 'app metamorphosis'. In this paper, we propose a novel and efficient multi-modal search methodology to identify apps undergoing metamorphosis and apply it to analyse two snapshots of the Google Play Store taken five years apart. Our methodology uncovers various metamorphosis scenarios, including re-births, re-branding, re-purposing, and others, enabling comprehensive characterisation. Although these transformations may register as successful for app developers based on our defined success score metric (e.g., re-branded apps performing approximately 11.3% better than an average top app), we shed light on the concealed security and privacy risks that lurk within, potentially impacting even tech-savvy end-users.
翻訳日:2024-07-23 21:53:36 公開日:2024-07-19
# オペレーティングシステムと人工知能:システムレビュー

Operating System And Artificial Intelligence: A Systematic Review ( http://arxiv.org/abs/2407.14567v1 )

ライセンス: Link先を確認
Yifan Zhang, Xinkui Zhao, Jianwei Yin, Lufei Zhang, Zuoning Chen, (参考訳) テクノロジーのダイナミックな状況において、人工知能(AI)とオペレーティング・システム(OS)の融合はイノベーションの重要な領域として現れている。 我々の調査は、AIとOSの共生関係に焦点を当て、AI駆動のツールがOSのパフォーマンス、セキュリティ、効率を高める方法を強調し、OSの進歩はより洗練されたAIアプリケーションを促進する。 メモリ管理やプロセススケジューリング,侵入検出など,OSの機能最適化に使用されるさまざまなAI技術について検討する。 同時に、リソース割り当てからデータ処理に至るまで、効果的なAIアプリケーション実行を可能にする重要なサービスとインフラを提供する上でのOSの役割を分析します。 この記事は、この領域における課題と今後の方向性にも言及し、OSフレームワークにおけるセキュアで効率的なAI統合の重要性を強調している。 ケーススタディと最近の開発状況を調べることで、私たちのレビューはAI-OS統合の現状を包括的に概観し、次世代のコンピューティング技術を形作ることの重要性を浮き彫りにしている。 最後に、我々はIntelligent OSの有望な展望を探求し、革新的なOSアーキテクチャがいかに画期的な機会の道を開くかだけでなく、AIがこれらの次世代OSの発展にどのように貢献するかについても検討する。

In the dynamic landscape of technology, the convergence of Artificial Intelligence (AI) and Operating Systems (OS) has emerged as a pivotal arena for innovation. Our exploration focuses on the symbiotic relationship between AI and OS, emphasizing how AI-driven tools enhance OS performance, security, and efficiency, while OS advancements facilitate more sophisticated AI applications. We delve into various AI techniques employed to optimize OS functionalities, including memory management, process scheduling, and intrusion detection. Simultaneously, we analyze the role of OS in providing essential services and infrastructure that enable effective AI application execution, from resource allocation to data processing. The article also addresses challenges and future directions in this domain, emphasizing the imperative of secure and efficient AI integration within OS frameworks. By examining case studies and recent developments, our review provides a comprehensive overview of the current state of AI-OS integration, underscoring its significance in shaping the next generation of computing technologies. Finally, we explore the promising prospects of Intelligent OSes, considering not only how innovative OS architectures will pave the way for groundbreaking opportunities but also how AI will significantly contribute to advancing these next-generation OSs.
翻訳日:2024-07-23 21:53:36 公開日:2024-07-19
# SQLfuse: 総合的なLLMシナジーによるテキストとSQLのパフォーマンス向上

SQLfuse: Enhancing Text-to-SQL Performance through Comprehensive LLM Synergy ( http://arxiv.org/abs/2407.14568v1 )

ライセンス: Link先を確認
Tingkai Zhang, Chaoyu Chen, Cong Liao, Jun Wang, Xudong Zhao, Hang Yu, Jianchao Wang, Jianguo Li, Wenhui Shi, (参考訳) テキストからSQLへの変換は重要なイノベーションであり、複雑なSQLから直感的な自然言語クエリへの移行を単純化する。 GPT-3.5やGPT-4のようなLarge Language Models(LLM)の台頭はこの分野を大きく進歩させ、自然言語の理解を改善し、ニュアンスなSQL文を生成する能力を提供している。 しかし、Text-to-SQL アプリケーションにおけるオープンソース LLM の可能性はまだ未定であり、多くのフレームワークは、特に複雑なデータベースクエリの処理や反復的な改善のためのフィードバックの導入において、その全機能を活用することができない。 これらの制限に対処するため,本稿では,オープンソースのLLMを,テキストからSQLへの翻訳の精度とユーザビリティを高めるための一連のツールに統合した,堅牢なシステムであるSQLfuseを紹介する。 SQLfuseにはスキーママイニング、スキーマリンク、SQL生成、SQL批判モジュールという4つのモジュールがある。 Ant GroupによるSpider Leaderboardとデプロイメントのリードパフォーマンスを実証したSQLfuseでは、さまざまなビジネスコンテキストにおけるオープンソースのLLMの実践的メリットを紹介している。

Text-to-SQL conversion is a critical innovation, simplifying the transition from complex SQL to intuitive natural language queries, especially significant given SQL's prevalence in the job market across various roles. The rise of Large Language Models (LLMs) like GPT-3.5 and GPT-4 has greatly advanced this field, offering improved natural language understanding and the ability to generate nuanced SQL statements. However, the potential of open-source LLMs in Text-to-SQL applications remains underexplored, with many frameworks failing to leverage their full capabilities, particularly in handling complex database queries and incorporating feedback for iterative refinement. Addressing these limitations, this paper introduces SQLfuse, a robust system integrating open-source LLMs with a suite of tools to enhance Text-to-SQL translation's accuracy and usability. SQLfuse features four modules: schema mining, schema linking, SQL generation, and a SQL critic module, to not only generate but also continuously enhance SQL query quality. Demonstrated by its leading performance on the Spider Leaderboard and deployment by Ant Group, SQLfuse showcases the practical merits of open-source LLMs in diverse business contexts.
翻訳日:2024-07-23 21:53:36 公開日:2024-07-19
# ハンドクラフトフィルターはAI生成画像の寄与に役立つか?

Are handcrafted filters helpful for attributing AI-generated images? ( http://arxiv.org/abs/2407.14570v1 )

ライセンス: Link先を確認
Jialiang Li, Haoyue Wang, Sheng Li, Zhenxing Qian, Xinpeng Zhang, Athanasios V. Vasilakos, (参考訳) 近年、画像生成モデルが多数提案されており、偽画像を生成するための人工知能(AI)技術の誤用が懸念されている。 AI生成画像の属性として、既存のスキームは通常、モデル指紋を学ぶためにディープニューラルネットワーク(DNN)を設計し、訓練する。 本稿では,AIが生成する画像の属性について,以下の2つの疑問に答えることを目的とする。 1)指紋学習を容易にする手作りフィルタを設計することは可能か? そして 2)手作りフィルタを組み込んだ後、トレーニングデータの量を減らすにはどうすればいいのか? まず,様々な方向から微妙な指紋を抽出できるMHF(Multi-Directional High-Pass Filter)を提案する。 そこで本研究では,MHFとランダム初期化フィルタの両方を考慮した指向性拡張特徴学習ネットワーク(DEFL)を提案する。 DEFLの出力はセマンティックな特徴と融合してコンパクトな指紋を生成する。 異なるモデル間でコンパクトな指紋識別を可能にするために,DECをチューニングするためのDual-Margin Contrastive (DMC)損失を提案する。 最後に,画像属性に対する参照型指紋分類手法を提案する。 実験結果から,AI生成画像の属性化にMHFを使うことは確かに有用であることがわかった。 提案手法の性能は,訓練に少量の画像しか必要としない,クローズドセットとオープンセットの両方のイメージ属性に対して,最先端の手法よりも大幅に向上する。

Recently, a vast number of image generation models have been proposed, which raises concerns regarding the misuse of these artificial intelligence (AI) techniques for generating fake images. To attribute the AI-generated images, existing schemes usually design and train deep neural networks (DNNs) to learn the model fingerprints, which usually requires a large amount of data for effective learning. In this paper, we aim to answer the following two questions for AI-generated image attribution, 1) is it possible to design useful handcrafted filters to facilitate the fingerprint learning? and 2) how we could reduce the amount of training data after we incorporate the handcrafted filters? We first propose a set of Multi-Directional High-Pass Filters (MHFs) which are capable to extract the subtle fingerprints from various directions. Then, we propose a Directional Enhanced Feature Learning network (DEFL) to take both the MHFs and randomly-initialized filters into consideration. The output of the DEFL is fused with the semantic features to produce a compact fingerprint. To make the compact fingerprint discriminative among different models, we propose a Dual-Margin Contrastive (DMC) loss to tune our DEFL. Finally, we propose a reference based fingerprint classification scheme for image attribution. Experimental results demonstrate that it is indeed helpful to use our MHFs for attributing the AI-generated images. The performance of our proposed method is significantly better than the state-of-the-art for both the closed-set and open-set image attribution, where only a small amount of images are required for training.
翻訳日:2024-07-23 21:53:36 公開日:2024-07-19
# 畳み込みニューラルネットワーク-双方向ゲートリカレントユニットを最適化した角付きトカゲアルゴリズムに基づくクラウドコンピューティングにおけるエネルギー消費の回帰予測アルゴリズム

Regression prediction algorithm for energy consumption regression in cloud computing based on horned lizard algorithm optimised convolutional neural network-bidirectional gated recurrent unit ( http://arxiv.org/abs/2407.14575v1 )

ライセンス: Link先を確認
Feiyang Li, Zinan Cao, Qixuan Yu, Yulu Gong, Xirui Tang, (参考訳) 本稿では,畳み込みニューラルネットワーク-双方向Gated Recurrent Unitの角付きトカゲ最適化アルゴリズムに基づいて,データ回帰アルゴリズムを最適化し,クラウドコンピューティングのエネルギー消費予測を行った。 まず,CPU,使用量,メモリ使用量,ネットワークトラフィック,電力消費量,実行回数,実行時間,エネルギー効率のスピアマン相関解析により,消費電力がエネルギー効率と正の相関関係を持つのに対して,CPU使用量はエネルギー効率と正の相関関係にあることがわかった。 実験では,ランダム森林モデルと,角化トカゲ最適化アルゴリズムに基づく最適化モデルを導入し,その結果,ランダム林モデルと比較して最適化アルゴリズムがより良い予測結果が得られることを示した。 具体的には、最適化アルゴリズムの平均二乗誤差(MSE)はランダム森林モデルよりも0.01小さく、平均絶対誤差(MAE)はランダム森林よりも0.01小さい。 その結果, 最適化アルゴリズムはエネルギー効率の予測において, より正確かつ確実な性能を発揮することがわかった。 この研究結果は、クラウドコンピューティングシステムのエネルギー効率を改善するための新しいアイデアと方法を提供する。 この研究は、クラウドコンピューティング分野の応用範囲を広げるだけでなく、システムのエネルギー使用効率を向上させるための強力な支援も提供する。

For this paper, a prediction study of cloud computing energy consumption was conducted by optimising the data regression algorithm based on the horned lizard optimisation algorithm for Convolutional Neural Networks-Bi-Directional Gated Recurrent Units. Firstly, through Spearman correlation analysis of CPU, usage, memory usage, network traffic, power consumption, number of instructions executed, execution time and energy efficiency, we found that power consumption has the highest degree of positive correlation with energy efficiency, while CPU usage has the highest degree of negative correlation with energy efficiency. In our experiments, we introduced a random forest model and an optimisation model based on the horned lizard optimisation algorithm for testing, and the results show that the optimisation algorithm has better prediction results compared to the random forest model. Specifically, the mean square error (MSE) of the optimisation algorithm is 0.01 smaller than that of the random forest model, and the mean absolute error (MAE) is 0.01 smaller than that of the random forest.3 The results of the combined metrics show that the optimisation algorithm performs more accurately and reliably in predicting energy efficiency. This research result provides new ideas and methods to improve the energy efficiency of cloud computing systems. This research not only expands the scope of application in the field of cloud computing, but also provides a strong support for improving the energy use efficiency of the system.
翻訳日:2024-07-23 21:53:36 公開日:2024-07-19
# CNNと修正VGG16モデルを用いた感情認識のための伝達学習の比較検討

A Comparative Study of Transfer Learning for Emotion Recognition using CNN and Modified VGG16 Models ( http://arxiv.org/abs/2407.14576v1 )

ライセンス: Link先を確認
Samay Nathani, (参考訳) 感情認識は人間の相互作用の重要な側面である。 この話題は人工知能の分野で大きな注目を集めた。 本研究では,2つのデータセット(FER2013とAffectNet)にわたる感情認識タスクに対する畳み込みニューラルネットワーク(CNN)と修正VGG16モデルの性能について検討する。 我々の目的は、感情の同定におけるこれらのモデルの有効性と、異なるより広いデータセットに一般化する能力を測定することである。 以上の結果から,2つのモデルがFER2013データセット上で妥当な性能を達成し,改良VGG16モデルが精度をわずかに向上したことが明らかとなった。 Affect-Netデータセットで評価すると、両方のモデルのパフォーマンスが低下し、修正VGG16モデルはCNNを上回っ続けている。 本研究は、感情認識におけるデータセットの多様性の重要性を強調し、マルチモーダルなアプローチの探索やより包括的なデータセットの開発など、オープンな問題と今後の研究方向性について議論する。

Emotion recognition is a critical aspect of human interaction. This topic garnered significant attention in the field of artificial intelligence. In this study, we investigate the performance of convolutional neural network (CNN) and Modified VGG16 models for emotion recognition tasks across two datasets: FER2013 and AffectNet. Our aim is to measure the effectiveness of these models in identifying emotions and their ability to generalize to different and broader datasets. Our findings reveal that both models achieve reasonable performance on the FER2013 dataset, with the Modified VGG16 model demonstrating slightly increased accuracy. When evaluated on the Affect-Net dataset, performance declines for both models, with the Modified VGG16 model continuing to outperform the CNN. Our study emphasizes the importance of dataset diversity in emotion recognition and discusses open problems and future research directions, including the exploration of multi-modal approaches and the development of more comprehensive datasets.
翻訳日:2024-07-23 21:53:36 公開日:2024-07-19
# 弱測定を用いた閉時間曲線の量子状態トモグラフィ

Quantum state tomography on closed timelike curves using weak measurements ( http://arxiv.org/abs/2407.14577v1 )

ライセンス: Link先を確認
Lachlan G. Bishop, Fabio Costa, Timothy C. Ralph, (参考訳) 与えられた量子時間移動の処方は、必ずヒルベルト空間を閉時間曲線(CTC)上の時間違反(CV)系に与える。 しかしながら、Deutschの処方薬(D-CTCs)とポストセレクトテレポーテーション(P-CTCs)の2つのモデルでは、CVシステムは異なる扱いがなされている。 この区別をさらに探求するため,各CVシステムに状態の操作的概念を割り当てる手法を提案する。 これは状態トモグラフィと弱い測定の組み合わせによって達成され、後者は自己整合性の概念をそのままにしておくのに不可欠である。 この手法により、D-CTCの予測を検証でき、さらに重要なことは、P-CTC上のシステムに状態を割り当てることである。 時系列参照入力とユニタリ相互作用の任意の組み合わせについて、P-CTC上の一意状態の復元が常に可能であることを示し、選択された根尖側頭葉パラドックスの文脈におけるいくつかの具体例を示す。 また、この状態がP-CTC処方薬自体の分析から引き起こされる可能性を示し、D-CTCによって予測されるCV状態と比較した。

Any given prescription of quantum time travel necessarily endows a Hilbert space to the chronology-violating (CV) system on the closed timelike curve (CTC). However, under the two foremost models, Deutsch's prescription (D-CTCs) and postselected teleportation (P-CTCs), the CV system is treated very differently: D-CTCs assign a definite form to the state on this system, while P-CTCs do not. To further explore this distinction, we present a methodology by which an operational notion of state may be assigned to their respective CV systems. This is accomplished via a conjunction of state tomography and weak measurements, with the latter being essential in leaving any notions of self-consistency intact. With this technique, we are able to verify the predictions of D-CTCs and, perhaps more significantly, operationally assign a state to the system on the P-CTC. We show that, for any given combination of chronology-respecting input and unitary interaction, it is always possible to recover the unique state on the P-CTC, and we provide a few specific examples in the context of select archetypal temporal paradoxes. We also demonstrate how this state may be derived from analysis of the P-CTC prescription itself, and we explore how it compares to its counterpart in the CV state predicted by D-CTCs.
翻訳日:2024-07-23 21:53:36 公開日:2024-07-19
# 量子電磁場によるスピン重ね合わせ状態のデコヒーレンス

Decoherence of spin superposition state caused by a quantum electromagnetic field ( http://arxiv.org/abs/2407.14581v1 )

ライセンス: Link先を確認
Kensuke Gallock-Yoshimura, Yuuki Sugiyama, Akira Matsumura, Kazuhiro Yamamoto, (参考訳) 本研究では、ミンコフスキー時空における相対論的量子電磁場の存在下で、空間的に重畳された電気的中性スピン-$\frac12$粒子のデコヒーレンスについて検討する。 スピン磁場結合によるデコヒーレンスを, 重畳軌道の各分岐に沿った2点相関関数から生じる局所的デコヒーレンスと, 重畳軌道間の相関関数から生じる非局所的デコヒーレンスに分類できることを示した。 これらの効果は位相減衰と振幅減衰と関連している。 また、量子場が熱状態で準備されている場合、デコヒーレンスは磁場温度とともに単調に増大することを示した。

In this study, we investigate the decoherence of a spatially superposed electrically neutral spin-$\frac12$ particle in the presence of a relativistic quantum electromagnetic field in Minkowski spacetime. We demonstrate that decoherence due to the spin-magnetic field coupling can be categorized into two distinct factors: local decoherence, originating from the two-point correlation functions along each branch of the superposed trajectories, and nonlocal decoherence, which arises from the correlation functions between the two superposed trajectories. These effects are linked to phase damping and amplitude damping. We also show that if the quantum field is prepared in a thermal state, decoherence monotonically increases with the field temperature.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# ホログラフィーにおけるスポッフィングエンタングルメント

Spoofing Entanglement in Holography ( http://arxiv.org/abs/2407.14589v1 )

ライセンス: Link先を確認
Netta Engelhardt, Åsmund Folkestad, Adam Levine, Evita Verheijden, Lisa Yang, (参考訳) ホーキング放射の明確な性質は、非常に低い絡み合いを持つ状態が高度に混合した状態であることであり、この性質はスプーフィング絡みと呼ばれる量子計算現象によって捉えられる。 AdS/CFTにおける2種類の絡み合いスプーファーのジオメトリゼーション(いわゆるEFI対と擬似絡み合い状態アンサンブル)について検討する。 半古典的なバルク双対を持つ(強化されたバージョンの) EFI ペアが Python の Lunch を持つことを示す。 Pythonのランチは事象の地平線の背後にある必要があるので、ブラックホールは半古典的極限における絡み合いの排他的重力源である。 最後に、半古典的バルク双対を持つ擬アンタングル状態アンサンブルの候補例として、正則擬ランドーム状態の現存する構成を用いる。

A defining property of Hawking radiation is that states with very low entanglement masquerade as highly mixed states; this property is captured by a quantum computational phenomenon known as spoofing entanglement. Motivated by the potential implications for black hole information and the emergence of spacetime connectivity, as well as possible applications of spoofing entanglement, we investigate the geometrization of two types of entanglement spoofers in AdS/CFT: so-called EFI pairs and pseudoentangled state ensembles. We show that (a strengthened version of) EFI pairs with a semiclassical bulk dual have a Python's Lunch; the maximally mixed state over the pseudoentangled state ensemble likewise features a Python's Lunch. Since a Python's Lunch must lie behind an event horizon, we find that black holes are the exclusive gravitational source of entanglement spoofing in the semiclassical limit. Finally, we use an extant construction of holographic pseudorandom states to yield a candidate example of a pseudoentangled state ensemble with a semiclassical bulk dual.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# エキシトン-ポラリトン凝縮体における量子センシング

Quantum sensing in an exciton-polariton condensate ( http://arxiv.org/abs/2407.14590v1 )

ライセンス: Link先を確認
Jorge Chávez-Carlos, Daniela Garrido-Ramírez, A. J. Vega Carmona, Victor S. Batista, Francisco Pérez-Bernal, Carlos A. Trallero-Herrero, M. A. Bastarrachea-Magnani, Lea F. Santos, (参考訳) 臨界系の極端感度は、量子センシングと弱い信号検出を改善するために研究されている。 量子位相遷移(QPT)臨界点における基底状態の性質のエネルギーギャップの閉鎖と急激な変化は、量子フィッシャー情報のようなパラメータ推定の指標を強化する。 ここでは、システムがQPTを欠いているとしても、励起状態の量子相転移(ESQPT)が存在するため、量子フィッシャー情報は増幅可能であることを示す。 これは、量子計算のプラットフォームとして提案されたエクシトン・ポラリトン凝縮体の低いスペクトルを記述する光駆動型無調波量子発振器モデルに対して示される。 古典的極限において、ESQPTは双曲点の出現に変換され、ESQPTの近傍のエネルギー準位のクラスタリングと対応する固有状態の構造が変化し、システムの高感度化を正当化する。 本研究は, 励起子-偏光子系における非古典的量子臨界現象と潜在的な実験的応用との相関性を示す。

The extreme sensitivity of critical systems has been explored to improve quantum sensing and weak signal detection. The closing of the energy gap and abrupt change in the nature of the ground state at a quantum phase transition (QPT) critical point enhance indicators of parameter estimation, such as the quantum Fischer information. Here, we show that even if the system lacks a QPT, the quantum Fischer information can still be amplified due to the presence of an excited-state quantum phase transition (ESQPT). This is shown for a light-driven anharmonic quantum oscillator model that describes the low-lying spectrum of an exciton-polariton condensate proposed as a platform for quantum computation. In the classical limit, the ESQPT translates into the emergence of a hyperbolic point that explains the clustering of the energy levels at the vicinity of the ESQPT and the changed structure of the corresponding eigenstates, justifying the enhanced sensitivity of the system. Our study showcases the relationship between non-conventional quantum critical phenomena and quantum sensing with potential experimental applications in exciton-polariton systems.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# DanceQ:数保存ベースのための高性能ライブラリ

DanceQ: High-performance library for number conserving bases ( http://arxiv.org/abs/2407.14591v1 )

ライセンス: Link先を確認
Robin Schäfer, David J. Luitz, (参考訳) 量子多体問題の複雑性は、システムのサイズとともに指数関数的にスケールするので、有限サイズのスケーリング分析は極めて難しい課題である。 これは波動関数の完全な表現に基づく方法に特に当てはまるが、これは単に巨大なヒルベルト空間次元を受け入れて、ハミルトニアンの基底状態を見つけるための線型代数演算(例えば、線型代数演算)を実行するだけである。 もし系が、退化スペクトルを持つ作用素がハミルトニアンと可換であるような基礎対称性を満たすなら、それはブロック対角化され、追加の簿記を犠牲にして複雑さを減少させることができる。 もっとも基本的なレベルでは、クリロフ空間技術(ランツォスアルゴリズムのような)に必要なもので、任意のブロック波動関数を持つハミルトニアンブロックの行列ベクトル積をメモリに保持することなく実装する必要がある。 この演算の効率的な実装には、ブロックの基底の正準順序付けにおける任意の基底ベクトルの位置の計算が必要である。 ここでは、粒子数保存の問題に現れる$U(1)$対称性に対して、この問題に対するエレガントで強力な多次元的アプローチを示す。 分割並列アルゴリズムは複数のサブシステムを用いており、従って従来の手法を一般化してスケーラブルにする。 提案アルゴリズムの理論的プレゼンテーションに加えて,DanceQ は柔軟でモダンなヘッダのみの C++20 実装で,与えられた粒子数セクターの任意の基底状態を https://DanceQ.gitlab.io/danceq の下でオープンソースソフトウェアとして操作し,列挙し,マップする。

The complexity of quantum many-body problems scales exponentially with the size of the system, rendering any finite size scaling analysis a formidable challenge. This is particularly true for methods based on the full representation of the wave function, where one simply accepts the enormous Hilbert space dimensions and performs linear algebra operations, e.g., for finding the ground state of the Hamiltonian. If the system satisfies an underlying symmetry where an operator with degenerate spectrum commutes with the Hamiltonian, it can be block-diagonalized, thus reducing the complexity at the expense of additional bookkeeping. At the most basic level, required for Krylov space techniques (like the Lanczos algorithm) it is necessary to implement a matrix-vector product of a block of the Hamiltonian with arbitrary block-wavefunctions, potentially without holding the Hamiltonian block in memory. An efficient implementation of this operation requires the calculation of the position of an arbitrary basis vector in the canonical ordering of the basis of the block. We present here an elegant and powerful, multi-dimensional approach to this problem for the $U(1)$ symmetry appearing in problems with particle number conservation. Our divide-and-conquer algorithm uses multiple subsystems and hence generalizes previous approaches to make them scalable. In addition to the theoretical presentation of our algorithm, we provide DanceQ, a flexible and modern - header only - C++20 implementation to manipulate, enumerate, and map to its index any basis state in a given particle number sector as open source software under https://DanceQ.gitlab.io/danceq.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# ESCAPE:アウト・オブ・ディストリビューション3次元人文推定のためのエネルギーに基づく適応的適応補正

ESCAPE: Energy-based Selective Adaptive Correction for Out-of-distribution 3D Human Pose Estimation ( http://arxiv.org/abs/2407.14605v1 )

ライセンス: Link先を確認
Luke Bidulka, Mohsen Gholami, Jiannan Zheng, Martin J. McKeown, Z. Jane Wang, (参考訳) 近年のヒトのポーズ推定(HPE)の進歩にもかかわらず、アウト・オブ・ディストリビューション(OOD)データの一般化は難しい問題である。 従来の研究では、推論時にネットワークパラメータを精細化することで、テスト領域のギャップを埋めるテスト時間適応(TTA)が提案されていたが、グランドトルースアノテーションが欠如しているため、既存の手法は推論時間を1桁以上増加させるのが一般的である。 私たちはそれを観察する 1) すべての試験時間サンプルがOODであるわけではなく、 2) 遠位キーポイント(毛髪,足首)ではHPE誤差が有意に大きい。 そこで本研究では,OODデータに対するコストの高いTTAを保ちながら,ほとんどのデータに対して高速なフォワードパス補正を施した,軽量な補正および選択的適応フレームワークであるESCAPEを提案する。 自由エネルギー関数は、入力データからOODサンプルを分離するために導入され、遠位キーポイント上の事前学習されたバックボーンHPE予測の誤差を推定するために、補正ネットワークが訓練される。 OODサンプルでは、第2の「逆」ネットワークを介して、遠位キーポイントと近位キーポイント(ショルダー、ヒップ)の制約を利用して、修正ネットワークを更新するための新しい自己整合適応損失を提案する。 ESCAPEは、5つの人気のあるHPEモデルの遠位MPJPEを最大7%まで改善し、2つの人気のあるHPEベンチマークの最先端結果を実現し、既存の適応手法よりもはるかに高速である。

Despite recent advances in human pose estimation (HPE), poor generalization to out-of-distribution (OOD) data remains a difficult problem. While previous works have proposed Test-Time Adaptation (TTA) to bridge the train-test domain gap by refining network parameters at inference, the absence of ground-truth annotations makes it highly challenging and existing methods typically increase inference times by one or more orders of magnitude. We observe that 1) not every test time sample is OOD, and 2) HPE errors are significantly larger on distal keypoints (wrist, ankle). To this end, we propose ESCAPE: a lightweight correction and selective adaptation framework which applies a fast, forward-pass correction on most data while reserving costly TTA for OOD data. The free energy function is introduced to separate OOD samples from incoming data and a correction network is trained to estimate the errors of pretrained backbone HPE predictions on the distal keypoints. For OOD samples, we propose a novel self-consistency adaptation loss to update the correction network by leveraging the constraining relationship between distal keypoints and proximal keypoints (shoulders, hips), via a second ``reverse" network. ESCAPE improves the distal MPJPE of five popular HPE models by up to 7% on unseen data, achieves state-of-the-art results on two popular HPE benchmarks, and is significantly faster than existing adaptation methods.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# 検索型大規模言語モデルにおける辞書データベースの精度向上

Adversarial Databases Improve Success in Retrieval-based Large Language Models ( http://arxiv.org/abs/2407.14609v1 )

ライセンス: Link先を確認
Sean Wu, Michael Koo, Li Yo Kao, Andy Black, Lesley Blum, Fabien Scalzo, Ira Kurtz, (参考訳) オープンソースのLLMは、微調整のチャットボットとして大きな可能性を示し、多くの既存のベンチマークを推理し、超越する堅牢な能力を示している。 Retrieval-Augmented Generation (RAG) は、外部知識データベースを活用することで、モデルが明示的に訓練されていないタスクにおけるLLMのパフォーマンスを改善する技術である。 多くの研究が、関連する背景情報からなるベクトルデータセットを使用する場合、下流タスクをよりうまく達成するためのRAGの有効性を実証している。 この文脈において、敵対的背景情報を利用すれば、RAGベースのアプローチが成功すれば、その結果に非存在的あるいは否定的な影響を及ぼすであろうと、この分野の人々は暗黙的に仮定している。 この仮定に対処するため、我々は、RAGが腎学の医学分野における多重選択質問(MCQ)に答えることの成功を改善するために、いくつかのオープンソースのLCMを試験した。 従来の研究とは異なり、RAGが関連する背景データベースと敵対的背景データベースの両方を利用した場合の効果を検討した。 Llama 3、Phi-3、Mixtral 8x7b、Zephyr$\beta$、Gemma 7B Instructなど、オープンソースのLLMをゼロショットRAGパイプラインでセットアップしました。 敵対的な情報ソースとして、聖書からのテキストとランダムワードの生成したデータベースを用いて比較を行った。 我々のデータによると、オープンソースLSMのほとんどは、関連する情報ベクトルデータベースを組み込む際に、期待通り、多点検定の成功を向上している。 しかし、驚くべきことに、敵対的な聖書のテキストは多くのLLMの成功を著しく改善し、ランダムな単語のテキストでさえ、いくつかのモデルのテストテイク能力を改善した。 要約して,本研究は,RAGに基づくLCMの成功を改善するために,敵対的情報データセットの対極的能力を初めて示すものである。

Open-source LLMs have shown great potential as fine-tuned chatbots, and demonstrate robust abilities in reasoning and surpass many existing benchmarks. Retrieval-Augmented Generation (RAG) is a technique for improving the performance of LLMs on tasks that the models weren't explicitly trained on, by leveraging external knowledge databases. Numerous studies have demonstrated the effectiveness of RAG to more successfully accomplish downstream tasks when using vector datasets that consist of relevant background information. It has been implicitly assumed by those in the field that if adversarial background information is utilized in this context, that the success of using a RAG-based approach would be nonexistent or even negatively impact the results. To address this assumption, we tested several open-source LLMs on the ability of RAG to improve their success in answering multiple-choice questions (MCQ) in the medical subspecialty field of Nephrology. Unlike previous studies, we examined the effect of RAG in utilizing both relevant and adversarial background databases. We set up several open-source LLMs, including Llama 3, Phi-3, Mixtral 8x7b, Zephyr$\beta$, and Gemma 7B Instruct, in a zero-shot RAG pipeline. As adversarial sources of information, text from the Bible and a Random Words generated database were used for comparison. Our data show that most of the open-source LLMs improve their multiple-choice test-taking success as expected when incorporating relevant information vector databases. Surprisingly however, adversarial Bible text significantly improved the success of many LLMs and even random word text improved test taking ability of some of the models. In summary, our results demonstrate for the first time the countertintuitive ability of adversarial information datasets to improve the RAG-based LLM success.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# 電界応答による分子・材料のキャビティボルンオッペンハイマー近似

Cavity-Born Oppenheimer Approximation for Molecules and Materials via Electric Field Response ( http://arxiv.org/abs/2407.14613v1 )

ライセンス: Link先を確認
John Bonini, Iman Ahmadabadi, Johannes Flick, (参考訳) 本稿では,光キャビティの光子モードに結合した分子および固体のビブロ・ポラリトンおよびフォノン・ポラリトンスペクトルを計算するためのab initio法を提案する。 キャビティ・フォトンモードと核・電子自由度の両方の相互作用をキャビティ・オッペンハイマー近似(CBOA)のレベルで処理すると、標準密度汎関数摂動理論(DFPT)の実装で容易に利用できる電場や核変位に対する物質応答の観点でスペクトルを表現できることを実証した。 この枠組みでは、余剰電子構造計算を必要とせずに、様々な空洞パラメータに対する結果を得ることができ、幅広いパラメータの効率的な計算が可能となる。 さらに、このアプローチは、ビブロ・ポラリトン計算に参入する偏光性やボルンの有効電荷など、より親しみやすい空洞非依存の分子電場応答特性の観点から、結果をより容易に解釈することができる。 バルク絶縁系の対応する電界応答特性を用いて、2次元(2D)絶縁体の点フォノン-ポラリトンスペクトルを$\Gamma$を得ることができる。 キャビティ結合分子および2次元結晶系の選択結果を示し, 本手法を実証した。

We present an ab initio method for computing vibro-polariton and phonon-polariton spectra of molecules and solids coupled to the photon modes of optical cavities. We demonstrate that if interactions of cavity photon modes with both nuclear and electronic degrees of freedom are treated on the level of the cavity Born-Oppenheimer approximation (CBOA), spectra can be expressed in terms of the matter response to electric fields and nuclear displacements which are readily available in standard density functional perturbation theory (DFPT) implementations. In this framework, results over a range of cavity parameters can be obtained without the need for additional electronic structure calculations, enabling efficient calculations on a wide range of parameters. Furthermore, this approach enables results to be more readily interpreted in terms of the more familiar cavity-independent molecular electric field response properties, such as polarizability and Born effective charges which enter into the vibro-polariton calculation. Using corresponding electric field response properties of bulk insulating systems, we are also able to obtain $\Gamma$ point phonon-polariton spectra of two dimensional (2D) insulators. Results for a selection of cavity-coupled molecular and 2D crystal systems are presented to demonstrate the method.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# リスクスコアとしての言語モデルの評価

Evaluating language models as risk scores ( http://arxiv.org/abs/2407.14614v1 )

ライセンス: Link先を確認
André F. Cruz, Moritz Hardt, Celestine Mendler-Dünner, (参考訳) 現在の質問回答ベンチマークは主に、実現可能な予測タスクの正確性に焦点を当てている。 質問と回答キーを条件に、最も可能性の高いトークンは、基礎的な真実と一致しているか? このようなベンチマークは、結果の不確実性を定量化する言語モデルの能力を評価するのに失敗する。 本研究では,非実現不可能な予測タスクのリスクスコアとして,言語モデルの利用に焦点を当てる。 我々は,大規模言語モデルを用いてリスクスコアを体系的に生成するソフトウェアパッケージであるフォークテキストを導入し,それらをベンチマーク予測タスクと比較した。 具体的には、このパッケージは、人気のある表形式のデータベンチマークにインスパイアされたUS Censusデータ製品から自然言語タスクを導出する。 フレキシブルなAPIにより、28の国勢調査機能から任意のタスクを構築でき、その値が即時補完ペアにマップされる。 我々は,最近の16大言語モデルに関する実証的な知見を網羅し,リスクスコア,キャリブレーション曲線,多様な評価指標を検証し,フォークテキストの有用性を実証する。 ゼロショットリスク・ソアは広く誤解されている一方で高い予測信号を持つことがわかった: ベースモデルは結果の不確実性を過大評価し、インストラクションチューニングされたモデルは不確実性を過小評価し、過大なリスクスコアを生成する。

Current question-answering benchmarks predominantly focus on accuracy in realizable prediction tasks. Conditioned on a question and answer-key, does the most likely token match the ground truth? Such benchmarks necessarily fail to evaluate language models' ability to quantify outcome uncertainty. In this work, we focus on the use of language models as risk scores for unrealizable prediction tasks. We introduce folktexts, a software package to systematically generate risk scores using large language models, and evaluate them against benchmark prediction tasks. Specifically, the package derives natural language tasks from US Census data products, inspired by popular tabular data benchmarks. A flexible API allows for any task to be constructed out of 28 census features whose values are mapped to prompt-completion pairs. We demonstrate the utility of folktexts through a sweep of empirical insights on 16 recent large language models, inspecting risk scores, calibration curves, and diverse evaluation metrics. We find that zero-shot risk sores have high predictive signal while being widely miscalibrated: base models overestimate outcome uncertainty, while instruction-tuned models underestimate uncertainty and generate over-confident risk scores.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# 深層学習による2次元非同時X線アンギオグラフィー投影による3次元冠状動脈再建

Deep Learning-based 3D Coronary Tree Reconstruction from Two 2D Non-simultaneous X-ray Angiography Projections ( http://arxiv.org/abs/2407.14616v1 )

ライセンス: Link先を確認
Yiying Wang, Abhirup Banerjee, Robin P. Choudhury, Vicente Grau, (参考訳) 心臓血管疾患(CVD)は、世界中で最も多い死因である。 CVDの診断において,侵襲的X線冠動脈造影(ICA)は最も重要な画像モダリティの1つである。 ICAは一般的に2Dプロジェクションしか取得しないため、冠動脈の3D幾何学は解釈が困難であり、2つのプロジェクションから3Dの冠状樹を再構築する必要がある。 最先端のアプローチでは、重要な手動の相互作用が必要であり、非同時投射間の非剛性心臓と呼吸の動きを補正することはできない。 本研究では,新しいディープラーニングパイプラインを提案する。 我々は,非剛性運動を暗黙的に補償するために,勾配ペナルティ,潜伏畳み込みトランスフォーマー層,ダイナミックヘビ畳み込み批判を施したWasserstein条件生成対向ネットワークを利用する。 冠動脈造影CT (CCTA) からの投影を模擬し, 実非同時ICA投影による3次元冠状動脈再建の一般化を実現した。 CCTAデータセットと実ICAデータセットの両方で提案したモデルを,Chamfer L1距離とともに検証するために,アプリケーション固有の評価指標を組み込んだ。 その結果, 血管のトポロジー保存, 特徴の回復, ICAデータ生成の一般化能力において, 本モデルの有効性が示された。 我々の知る限りでは、この研究は、深層学習を活用して2つの実際の非同時X線血管造影法による3次元冠状動脈再建を実現する最初の研究である。

Cardiovascular diseases (CVDs) are the most common cause of death worldwide. Invasive x-ray coronary angiography (ICA) is one of the most important imaging modalities for the diagnosis of CVDs. ICA typically acquires only two 2D projections, which makes the 3D geometry of coronary vessels difficult to interpret, thus requiring 3D coronary tree reconstruction from two projections. State-of-the-art approaches require significant manual interactions and cannot correct the non-rigid cardiac and respiratory motions between non-simultaneous projections. In this study, we propose a novel deep learning pipeline. We leverage the Wasserstein conditional generative adversarial network with gradient penalty, latent convolutional transformer layers, and a dynamic snake convolutional critic to implicitly compensate for the non-rigid motion and provide 3D coronary tree reconstruction. Through simulating projections from coronary computed tomography angiography (CCTA), we achieve the generalisation of 3D coronary tree reconstruction on real non-simultaneous ICA projections. We incorporate an application-specific evaluation metric to validate our proposed model on both a CCTA dataset and a real ICA dataset, together with Chamfer L1 distance. The results demonstrate the good performance of our model in vessel topology preservation, recovery of missing features, and generalisation ability to real ICA data. To the best of our knowledge, this is the first study that leverages deep learning to achieve 3D coronary tree reconstruction from two real non-simultaneous x-ray angiography projections.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# SOREL: スペクトルリスク最小化のための確率的アルゴリズム

SOREL: A Stochastic Algorithm for Spectral Risks Minimization ( http://arxiv.org/abs/2407.14618v1 )

ライセンス: Link先を確認
Yuze Ge, Rujun Jiang, (参考訳) スペクトルリスクは、機械学習、特に実世界の意思決定において、モデルの平均パフォーマンスだけでなく、幅広い応用がある。 実験的なリスクと同じ重みではなく、異なるサンプルポイントの損失に異なる重みを割り当てることで、平均的なパフォーマンスと最悪のパフォーマンスの間にモデルのパフォーマンスを配置することができる。 本稿では,スペクトルリスク最小化のための収束保証付き確率勾配に基づく最初のアルゴリズムであるSORELを提案する。 従来のアルゴリズムでは、スペクトルリスクを円滑にするため、スペクトルリスクに対する収束保証が欠如しているため、強い凹面関数を加えることをしばしば検討していた。 理論的には、我々のアルゴリズムは、$\epsilon$の観点で$\widetilde{O}(1/\sqrt{\epsilon})$に近い最適率を達成することを証明している。 実際のデータセットの実験では、我々のアルゴリズムは実行時とサンプルの複雑さの両方で、ほとんどの場合、既存のアルゴリズムよりも優れています。

The spectral risk has wide applications in machine learning, especially in real-world decision-making, where people are not only concerned with models' average performance. By assigning different weights to the losses of different sample points, rather than the same weights as in the empirical risk, it allows the model's performance to lie between the average performance and the worst-case performance. In this paper, we propose SOREL, the first stochastic gradient-based algorithm with convergence guarantees for the spectral risk minimization. Previous algorithms often consider adding a strongly concave function to smooth the spectral risk, thus lacking convergence guarantees for the original spectral risk. We theoretically prove that our algorithm achieves a near-optimal rate of $\widetilde{O}(1/\sqrt{\epsilon})$ in terms of $\epsilon$. Experiments on real datasets show that our algorithm outperforms existing algorithms in most cases, both in terms of runtime and sample complexity.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# 複数カメラからのグループ再識別に関する研究

The Research of Group Re-identification from Multiple Cameras ( http://arxiv.org/abs/2407.14620v1 )

ライセンス: Link先を確認
Hao Xiao, (参考訳) オブジェクトの再識別は、視覚的監視において重要性を増す。 既存の研究の多くは、複数のカメラから個人を再識別することに焦点を当てているが、グループ再識別(Re-ID)の適用はめったに議論されていない。 歩行者検出,特徴抽出,グラフモデル構築,グラフマッチングを含むプロセスとして,グループ再識別を再定義する。 グループ再識別は、従来の再識別タスクにおいて、視点や人間のポーズのバリエーションに干渉されるだけでなく、グループレイアウトの変更やグループメンバーのバリエーションの課題にも悩まされているため、非常に難しい。 以上の課題に対処するために,グループ内の多粒度情報を活用してグループ再同定を容易にする手法を提案する。 まず,グループ内の多粒度オブジェクト(人・人・サブグループ)の特徴を導出する多粒度Re-IDプロセスを導入する。 さらに,マルチオーダーマッチング方式を導入する。 各グループの代表者/人-サブグループを適応的に選択し、これらのグループ/人-サブグループからの多粒度情報を統合してグループワイドマッチングを得るため、グループ間のより信頼性の高いマッチングスコアを達成する。 各種データセットに対する実験結果から,本手法の有効性が示された。

Object re-identification is of increasing importance in visual surveillance. Most existing works focus on re-identify individual from multiple cameras while the application of group re-identification (Re-ID) is rarely discussed. We redefine Group Re-identification as a process which includes pedestrian detection, feature extraction, graph model construction, and graph matching. Group re-identification is very challenging since it is not only interfered by view-point and human pose variations in the traditional re-identification tasks, but also suffered from the challenges in group layout change and group member variation. To address the above challenges, this paper introduces a novel approach which leverages the multi-granularity information inside groups to facilitate group re-identification. We first introduce a multi-granularity Re-ID process, which derives features for multi-granularity objects (people/people-subgroups) in a group and iteratively evaluates their importances during group Re-ID, so as to handle group-wise misalignments due to viewpoint change and group dynamics. We further introduce a multi-order matching scheme. It adaptively selects representative people/people-subgroups in each group and integrates the multi-granularity information from these people/people-subgroups to obtain group-wise matching, hence achieving a more reliable matching score between groups. Experimental results on various datasets demonstrate the effectiveness of our approach.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# BOND:N-Best-of-N蒸留によるLCMの調整

BOND: Aligning LLMs with Best-of-N Distillation ( http://arxiv.org/abs/2407.14622v1 )

ライセンス: Link先を確認
Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret, Nino Vieillard, Alexandre Ramé, Bobak Shariari, Sarah Perrin, Abe Friesen, Geoffrey Cideron, Sertan Girgin, Piotr Stanczyk, Andrea Michi, Danila Sinopalnikov, Sabela Ramos, Amélie Héliou, Aliaksei Severyn, Matt Hoffman, Nikola Momchev, Olivier Bachem, (参考訳) 人間のフィードバックからの強化学習(RLHF)は、最先端の大規模言語モデルにおける品質と安全性の重要な要因である。 しかし、驚くほど単純で強い推論時間戦略は、N候補の中で最高の世代を選択するベスト・オブ・Nサンプリングである。 本稿では,Best-of-N Distillation (BOND)を提案する。これは,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。 具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。 我々は,モード被覆動作とモード探索動作のバランスをとるために,ジェフリース発散(前方KLと後方KLの線形結合)を用い,移動アンカーを効率よく利用した反復的な定式化を導出する。 本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。 BONDによるGemmaポリシーの調整は、いくつかのベンチマークの結果を改善することで、他のRLHFアルゴリズムよりも優れている。

Reinforcement learning from human feedback (RLHF) is a key driver of quality and safety in state-of-the-art large language models. Yet, a surprisingly simple and strong inference-time strategy is Best-of-N sampling that selects the best generation among N candidates. In this paper, we propose Best-of-N Distillation (BOND), a novel RLHF algorithm that seeks to emulate Best-of-N but without its significant computational overhead at inference time. Specifically, BOND is a distribution matching algorithm that forces the distribution of generations from the policy to get closer to the Best-of-N distribution. We use the Jeffreys divergence (a linear combination of forward and backward KL) to balance between mode-covering and mode-seeking behavior, and derive an iterative formulation that utilizes a moving anchor for efficiency. We demonstrate the effectiveness of our approach and several design choices through experiments on abstractive summarization and Gemma models. Aligning Gemma policies with BOND outperforms other RLHF algorithms by improving results on several benchmarks.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# 自己スーパービジョンニューラルネットワークを用いたメラノーマ診断の適応 : 異なる手法の有効性の評価

Advancing Melanoma Diagnosis with Self-Supervised Neural Networks: Evaluating the Effectiveness of Different Techniques ( http://arxiv.org/abs/2407.14628v1 )

ライセンス: Link先を確認
Srivishnu Vusirikala, Suraj Rajendran, (参考訳) メラノーマパッチを分類するために訓練された深層学習モデルの精度を向上させるための自己監督の可能性を検討する。 回転予測、パッチ予測の欠如、汚職除去といった様々な自己超越的手法を実装し、畳み込みニューラルネットワークの性能への影響を評価した。 予備的な結果は、自己超越法がモデルの精度に肯定的な影響を与えることを示唆している。 本研究は, モデル性能向上における汚損除去法の有効性を顕著に示すものである。 観測可能な改善にもかかわらず、自己教師型モデルにはさらなる拡張の可能性があり、よりエポックなトレーニングやデータセットの拡張を通じて達成可能であると結論付けている。 我々は、Bootstrap Your Own Latent(BYOL)のような他のセルフスーパービジョン手法や、今後の研究における対照的な学習を探求し、リソース集約性によるコスト対効果のトレードオフを強調することを提案する。 この結果は,深層学習モデルのメラノーマ検出能力を増強する上での自己監督の約束を裏付けるものである。

We investigate the potential of self-supervision in improving the accuracy of deep learning models trained to classify melanoma patches. Various self-supervision techniques such as rotation prediction, missing patch prediction, and corruption removal were implemented and assessed for their impact on the convolutional neural network's performance. Preliminary results suggest a positive influence of self-supervision methods on the model's accuracy. The study notably demonstrates the efficacy of the corruption removal method in enhancing model performance. Despite observable improvements, we conclude that the self-supervised models have considerable potential for further enhancement, achievable through training over more epochs or expanding the dataset. We suggest exploring other self-supervision methods like Bootstrap Your Own Latent (BYOL) and contrastive learning in future research, emphasizing the cost-benefit trade-off due to their resource-intensive nature. The findings underline the promise of self-supervision in augmenting melanoma detection capabilities of deep learning models.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# 乳がん予測のための学習ヒューリスティック手法に基づく2つの新しい特徴選択法:包括的分析

Two new feature selection methods based on learn-heuristic techniques for breast cancer prediction: A comprehensive analysis ( http://arxiv.org/abs/2407.14631v1 )

ライセンス: Link先を確認
Kamyab Karimi, Ali Ghodratnama, Reza Tavakkoli-Moghaddam, (参考訳) 乳がんは原因不明のため予防できない。 しかし、早期診断は患者の回復率を高める。 機械学習(ML)は、コストと時間を削減しつつ、医療運用における治療結果を改善するために利用することができる。 本研究では,帝国主義競争アルゴリズム (ICA) とバットアルゴリズム (BA) を併用した2種類の特徴選択手法を提案する。 本研究は, 診断モデルの効率を向上し, 臨床医師がこれまでよりもはるかに正確かつ信頼性の高い意思決定を行えるよう包括的分析を行うことを目的とする。 K-アネレスト隣人、サポートベクターマシン、決定木、ネイブベイズ、AdaBoost、線形判別分析、ランダム森林、ロジスティック回帰、人工ニューラルネットワークなどが採用されている。 本稿では,ICA(WFSIC)とBA(WFSB)を別々に用いたラッパー特徴選択を用いた評価手法とMLアルゴリズムの特異な統合を適用した。 分類器の性能について,提案手法を2つ比較した。 また,文献調査で報告した診断モデルと過去の研究結果を比較検討した。 ウィスコンシン州の乳がん診断データセットを用いて実験を行った。 その結果, BA を 99.12 % の精度で使用するフレームワークは, ICA やそれ以前の研究をはるかに上回っていることがわかった。 さらに、BAに基づくFSのアプローチにおけるRF分類器は、最良のモデルとして現れ、その基準に関して他よりも優れている。 さらに,本研究は,データセット次元を最大90%まで削減し,診断モデルの性能を99パーセント以上向上する上で,我々の技術が果たす役割を明らかにした。 さらに,ほとんどのMLモデルで選択されたFS手法により得られた最適データセットよりも重要な特徴が示された。

Breast cancer is not preventable because of its unknown causes. However, its early diagnosis increases patients' recovery chances. Machine learning (ML) can be utilized to improve treatment outcomes in healthcare operations while diminishing costs and time. In this research, we suggest two novel feature selection (FS) methods based upon an imperialist competitive algorithm (ICA) and a bat algorithm (BA) and their combination with ML algorithms. This study aims to enhance diagnostic models' efficiency and present a comprehensive analysis to help clinical physicians make much more precise and reliable decisions than before. K-nearest neighbors, support vector machine, decision tree, Naive Bayes, AdaBoost, linear discriminant analysis, random forest, logistic regression, and artificial neural network are some of the methods employed. This paper applied a distinctive integration of evaluation measures and ML algorithms using the wrapper feature selection based on ICA (WFSIC) and BA (WFSB) separately. We compared two proposed approaches for the performance of the classifiers. Also, we compared our best diagnostic model with previous works reported in the literature survey. Experimentations were performed on the Wisconsin diagnostic breast cancer dataset. Results reveal that the proposed framework that uses the BA with an accuracy of 99.12\%, surpasses the framework using the ICA and most previous works. Additionally, the RF classifier in the approach of FS based on BA emerges as the best model and outperforms others regarding its criteria. Besides, the results illustrate the role of our techniques in reducing the dataset dimensions up to 90\% and increasing the performance of diagnostic models by over 99\%. Moreover, the result demonstrates that there are more critical features than the optimum dataset obtained by proposed FS approaches that have been selected by most ML models.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# 情報健康-情報空間におけるリスク低減に向けて

Informational Health --Toward the Reduction of Risks in the Information Space ( http://arxiv.org/abs/2407.14634v1 )

ライセンス: Link先を確認
Fujio Toriumi, Tatsuhiko Yamamoto, (参考訳) 現代の情報社会は、インターネットの出現や、WEB 2.0のようなその後の発展の影響を顕著に受けており、情報空間との人間的相互作用を根本的に変えた情報利用の爆発的な増加を見せている。 この変革は情報への前例のないアクセスを促進するだけでなく、特に2016年アメリカ合衆国大統領選挙や新型コロナウイルス(COVID-19)のパンデミックといった重要な出来事における「フェイクニュース」の拡散によって顕著な課題も引き起こしている。 後者の出来事は、事実的内容と非事実的内容の区別を困難にし、公衆の健康反応を複雑化し、民主的プロセスにリスクを課す「非ファデミック」の危険性を浮き彫りにした。 これらの課題に応えて,食事習慣と情報消費の類似性を図った「情報健康」の概念を紹介した。 バランスの取れた食事が健康に不可欠であるのと同じように、健康な情報環境を維持するためには、よく考えられたヌード行動が不可欠である、と氏は主張する。 本稿では,リテラシー教育,メタ情報可視化,情報健康評価の3つの方法を提案する。 これらの戦略は、ユーザやプラットフォームが情報エコシステムを効果的にナビゲートし、拡張することを目的としています。 長期的な情報豊かさに焦点をあてて、より持続可能な情報消費モデルへのパラダイムシフトを提唱し、現在の注目経済に固有の社会的リスクに対処する必要性を強調した。

The modern information society, markedly influenced by the advent of the internet and subsequent developments such as WEB 2.0, has seen an explosive increase in information availability, fundamentally altering human interaction with information spaces. This transformation has facilitated not only unprecedented access to information but has also raised significant challenges, particularly highlighted by the spread of ``fake news'' during critical events like the 2016 U.S. presidential election and the COVID-19 pandemic. The latter event underscored the dangers of an ``infodemic,'' where the large amount of information made distinguishing between factual and non-factual content difficult, thereby complicating public health responses and posing risks to democratic processes. In response to these challenges, this paper introduces the concept of ``informational health,'' drawing an analogy between dietary habits and information consumption. It argues that just as balanced diets are crucial for physical health, well-considered nformation behavior is essential for maintaining a healthy information environment. This paper proposes three strategies for fostering informational health: literacy education, visualization of meta-information, and informational health assessments. These strategies aim to empower users and platforms to navigate and enhance the information ecosystem effectively. By focusing on long-term informational well-being, we highlight the necessity of addressing the social risks inherent in the current attention economy, advocating for a paradigm shift towards a more sustainable information consumption model.
翻訳日:2024-07-23 21:43:34 公開日:2024-07-19
# 量子場理論と量子力学の融合:ベル-CHSH不等式

Gluing together Quantum Field Theory and Quantum Mechanics: a look at the Bell-CHSH inequality ( http://arxiv.org/abs/2407.14636v1 )

ライセンス: Link先を確認
M. S. Guimaraes, I. Roditi, S. P. Sorella, (参考訳) 相対論的スカラー量子場の真空状態におけるベル-CHSH不等式はヒルベルト空間 ${\cal H} \otimes {\cal H}_{AB}$ を用いて再検討される。 エルミート的場依存二コトミック作用素の構成はベル-CHSH不等式と同様に考案された。 不等式の一部を$AB$で計算すると、量子場のベル-CHSH相関関数は自然にユニタリワイル作用素から現れる。 さらに、スカラー場と一対の量子ビット間の相互作用を考慮に入れたJaynes-Cummings型ハミルトン法を導入し、スカラー場の真空状態におけるベル-CHSH不等式に対する量子補正を摂動理論において二階まで評価する。

The Bell-CHSH inequality in the vacuum state of a relativistic scalar quantum field is revisited by making use of the Hilbert space ${\cal H} \otimes {\cal H}_{AB}$, where ${\cal H}$ and ${\cal H}_{AB}$ stand, respectively, for the Hilbert space of the scalar field and of a generic bipartite quantum mechanical system. The construction of Hermitian, field-dependent, dichotomic operators is devised as well as the Bell-CHSH inequality. Working out the $AB$ part of the inequality, the resulting Bell-CHSH correlation function for the quantum field naturally emerges from unitary Weyl operators. Furthermore, introducing a Jaynes-Cummings type Hamiltonian accounting for the interaction between the scalar field and a pair of qubits, the quantum corrections to the Bell-CHSH inequality in the vacuum state of the scalar field are evaluated till the second order in perturbation theory.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# CVE-LLM : 大規模言語モデルを用いた医療機器産業における脆弱性の自動評価

CVE-LLM : Automatic vulnerability evaluation in medical device industry using large language models ( http://arxiv.org/abs/2407.14640v1 )

ライセンス: Link先を確認
Rikhiya Ghosh, Oladimeji Farri, Hans-Martin von Stockhausen, Martin Schmitt, George Marica Vasile, (参考訳) 医療業界は現在、何百万人もの個人に影響を及ぼすサイバーセキュリティ攻撃の前例のない波を経験している。 毎月数千の脆弱性の発見により、医療機器の脆弱性評価プロセスの自動化を推進し、迅速な緩和努力を促進する必要性が高まっている。 生成型AIシステムは様々な産業に革命をもたらし、自動化と効率の向上のための例外のない機会を提供している。 本稿では,医療機器産業における脆弱性の自動評価のための,脆弱性の歴史的評価から学ぶために,LLM(Large Language Models)を利用したソリューションを提案する。 このアプローチは単一のメーカーのポートフォリオ内で適用され、既存のセキュリティ姿勢やコントロールを含むデバイス特性を考慮している。 本論文の主な貢献は3倍である。 まず、産業的な文脈で脆弱性言語モデル(LM)を訓練するためのベストプラクティスを詳細に検証する。 第二に、脆弱性評価における言語モデルの有効性に関する総合的な比較と洞察に富んだ分析結果を示す。 最後に、脆弱性評価プロセスを迅速化する新しいヒューマン・イン・ザ・ループ・フレームワークを提案する。

The healthcare industry is currently experiencing an unprecedented wave of cybersecurity attacks, impacting millions of individuals. With the discovery of thousands of vulnerabilities each month, there is a pressing need to drive the automation of vulnerability assessment processes for medical devices, facilitating rapid mitigation efforts. Generative AI systems have revolutionized various industries, offering unparalleled opportunities for automation and increased efficiency. This paper presents a solution leveraging Large Language Models (LLMs) to learn from historical evaluations of vulnerabilities for the automatic assessment of vulnerabilities in the medical devices industry. This approach is applied within the portfolio of a single manufacturer, taking into account device characteristics, including existing security posture and controls. The primary contributions of this paper are threefold. Firstly, it provides a detailed examination of the best practices for training a vulnerability Language Model (LM) in an industrial context. Secondly, it presents a comprehensive comparison and insightful analysis of the effectiveness of Language Models in vulnerability assessment. Finally, it proposes a new human-in-the-loop framework to expedite vulnerability evaluation processes.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# 複数選択による微分プライバシー

Differential Privacy with Multiple Selections ( http://arxiv.org/abs/2407.14641v1 )

ライセンス: Link先を確認
Ashish Goel, Zhihao Jiang, Aleksandra Korolova, Kamesh Munagala, Sahasrajit Sarmasarkar, (参考訳) 感性のある機能を持つユーザがサーバから異なるプライベートな方法でレコメンデーションを得るような設定について検討する。 本稿では,サーバが複数のレコメンデーションを送信し,ユーザがそれぞれのプライベート機能に最もよく合うものを選択できるような'multi-selection'アーキテクチャを提案する。 ユーザ特徴が無限直線上の一次元であり、精度測定値が w.r.t ある増加関数 $\mathfrak{h}(.)$ であるとき、差分プライバシーを満たす最適なメカニズムを正確に特徴づける。 最適なメカニズムの仕様には、ユーザがプライベートな値に追加するノイズの分布と、応答として送信する結果のセットを決定するためにサーバが使用するアルゴリズムの両方が含まれており、Laplaceが最適なノイズ分布であることを示す。 さらに、この最適メカニズムは、関数 $\mathfrak{h}(.)$ が恒等関数であるときに返される結果の数に逆比例する誤差をもたらすことを示す。

We consider the setting where a user with sensitive features wishes to obtain a recommendation from a server in a differentially private fashion. We propose a ``multi-selection'' architecture where the server can send back multiple recommendations and the user chooses one from these that matches best with their private features. When the user feature is one-dimensional -- on an infinite line -- and the accuracy measure is defined w.r.t some increasing function $\mathfrak{h}(.)$ of the distance on the line, we precisely characterize the optimal mechanism that satisfies differential privacy. The specification of the optimal mechanism includes both the distribution of the noise that the user adds to its private value, and the algorithm used by the server to determine the set of results to send back as a response and further show that Laplace is an optimal noise distribution. We further show that this optimal mechanism results in an error that is inversely proportional to the number of results returned when the function $\mathfrak{h}(.)$ is the identity function.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# 状況条件付き大規模言語モデルに対する人間解釈型対人プロンプト攻撃

Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context ( http://arxiv.org/abs/2407.14644v1 )

ライセンス: Link先を確認
Nilanjana Das, Edward Raff, Manas Gaur, (参考訳) 敵攻撃を用いた大規模言語モデル(LLM)の脆弱性テストに関するこれまでの研究は、主に非感覚的なプロンプトインジェクションに焦点を当てており、手動または自動化されたレビュー(例:バイトエントロピー)で簡単に検出できる。 しかし,無害な人為的な悪質なプロンプトの探索はいまだに限られている。 本研究では,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換する方法について検討する。 これにより,攻撃の実行にはLSMのみを用いることで,勾配を使わずに接尾辞変換を行えます。 我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。 状況はIMDBデータセットから抽出され、プロンプトは数発のチェーン・オブ・シークレットプロンプトに従って定義される。 当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。 多くのLSMに対して、1回の試みで攻撃が発生し、これらの攻撃がLSM間で伝達されることが判明した。 コードへのリンクは \url{https://anonymous.4open.science/r/Situation-Driven-Adversarial-Attacks-7BB1/README.md} で公開されている。

Previous research on testing the vulnerabilities in Large Language Models (LLMs) using adversarial attacks has primarily focused on nonsensical prompt injections, which are easily detected upon manual or automated review (e.g., via byte entropy). However, the exploration of innocuous human-understandable malicious prompts augmented with adversarial injections remains limited. In this research, we explore converting a nonsensical suffix attack into a sensible prompt via a situation-driven contextual re-writing. This allows us to show suffix conversion without any gradients, using only LLMs to perform the attacks, and thus better understand the scope of possible risks. We combine an independent, meaningful adversarial insertion and situations derived from movies to check if this can trick an LLM. The situations are extracted from the IMDB dataset, and prompts are defined following a few-shot chain-of-thought prompting. Our approach demonstrates that a successful situation-driven attack can be executed on both open-source and proprietary LLMs. We find that across many LLMs, as few as 1 attempt produces an attack and that these attacks transfer between LLMs. The link to our code is available at \url{https://anonymous.4open.science/r/Situation-Driven-Adversarial-Attacks-7BB1/README.md}.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# 分散大規模言語モデルトレーニングと推論の性能モデリングとワークロード解析

Performance Modeling and Workload Analysis of Distributed Large Language Model Training and Inference ( http://arxiv.org/abs/2407.14645v1 )

ライセンス: Link先を確認
Joyjit Kundu, Wenzhe Guo, Ali BanaGozar, Udari De Alwis, Sourav Sengupta, Puneet Gupta, Arindam Mallik, (参考訳) 大規模言語モデル (LLMs) の計算需要が絶え間なく増大している将来的なシステム設計は、間違いなく今日の世界で重要な問題である。 本稿では、計算、メモリサブシステム、ネットワーク、および様々な並列化戦略(モデル並列、データ並列、パイプライン並列、シーケンス並列)を正確に検討する分析フレームワークを用いて、分散LLMトレーニングと推論の一般的な性能モデリング手法とワークロード分析を提案する。 文献や関連する業界ベンダ(NVIDIAなど)の公開データを使って、パフォーマンス予測を検証します。 分散トレーニングにおいて、異なるアクティベーション再計算法におけるLCMのメモリフットプリントを調査し、A100からB200(NVIDIAのスケーリングトレンドに忠実に追随した35倍のスピードアップ)の巨大なパフォーマンス向上の背後にある重要な要因を解明し、また、異なる技術ノード(12nmから1nm)で設計スペース探索を行い、ロジック、メモリ、ネットワークスケーリングがパフォーマンスに与える影響を調査する。 推論のために、異なるGPUシステムの行列乗算レベルで異なる演算の計算とメモリバウンダリを解析し、さらにDRAMメモリ技術のスケーリングが推論遅延に与える影響について検討する。 モデリングフレームワークを利用することで、LLMトレーニングと技術スケーリングによる推論の両方のパフォーマンスボトルネックの進化を明らかにし、LLMトレーニングと推論のための将来のシステムを設計するための洞察を提供する。

Aligning future system design with the ever-increasing compute needs of large language models (LLMs) is undoubtedly an important problem in today's world. Here, we propose a general performance modeling methodology and workload analysis of distributed LLM training and inference through an analytical framework that accurately considers compute, memory sub-system, network, and various parallelization strategies (model parallel, data parallel, pipeline parallel, and sequence parallel). We validate our performance predictions with published data from literature and relevant industry vendors (e.g., NVIDIA). For distributed training, we investigate the memory footprint of LLMs for different activation re-computation methods, dissect the key factors behind the massive performance gain from A100 to B200 ($\sim$ 35x speed-up closely following NVIDIA's scaling trend), and further run a design space exploration at different technology nodes (12 nm to 1 nm) to study the impact of logic, memory, and network scaling on the performance. For inference, we analyze the compute versus memory boundedness of different operations at a matrix-multiply level for different GPU systems and further explore the impact of DRAM memory technology scaling on inference latency. Utilizing our modeling framework, we reveal the evolution of performance bottlenecks for both LLM training and inference with technology scaling, thus, providing insights to design future systems for LLM training and inference.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# グローブボックス環境における協調組立のための人間ロボット協調データセットの収集

The Collection of a Human Robot Collaboration Dataset for Cooperative Assembly in Glovebox Environments ( http://arxiv.org/abs/2407.14649v1 )

ライセンス: Link先を確認
Shivansh Sharma, Mathew Huang, Sanat Nair, Alan Wen, Christina Petlowany, Juston Moore, Selma Wanna, Mitch Pryor, (参考訳) 産業4.0は、製造プロセスの近代化のための変革的ソリューションとしてAIを導入した。 その後継者であるIndustrial 5.0は、AI駆動製造ソリューションを導く協力者や専門家として人間を想定している。 これらの技術を開発するには、協調的な組み立て中にシーン、特に手の位置を安全かつリアルタイムに識別できるアルゴリズムが必要である。 かなりの努力が手作業のセグメンテーションのためのデータセットをキュレートしてきたが、ほとんどは住宅や商業ドメインに焦点を当てている。 産業環境をターゲットとした既存のデータセットは、主に合成データに依存しており、実世界の運用に効果的に移行しないことを実証する。 さらに、これらのデータセットは安全なコラボレーションに不可欠な不確実性推定を欠いている。 これらのギャップに対処するため、HAGS: Hand and Glove Segmentation Datasetを提示します。 このデータセットは、産業用ロボットコラボレーションシナリオにおける手動と手袋のセグメンテーションに向けたアプリケーションを構築する上で、1200の難しい例を提供するとともに、グリーンスクリーン拡張によって構築された配布外画像を評価し、ML分類器の堅牢性を決定する。 既存の手法を評価するために,最先端のリアルタイムセグメンテーションモデルについて検討する。 私たちのデータセットとベースラインは、 https://dataverse.tdl.org/dataset.xhtml? persistentId=doi:10.18738/T8/85R7KQ and https://github.com/UTNuclearRoboticsPublic/assembly_glovebox_dataset

Industry 4.0 introduced AI as a transformative solution for modernizing manufacturing processes. Its successor, Industry 5.0, envisions humans as collaborators and experts guiding these AI-driven manufacturing solutions. Developing these techniques necessitates algorithms capable of safe, real-time identification of human positions in a scene, particularly their hands, during collaborative assembly. Although substantial efforts have curated datasets for hand segmentation, most focus on residential or commercial domains. Existing datasets targeting industrial settings predominantly rely on synthetic data, which we demonstrate does not effectively transfer to real-world operations. Moreover, these datasets lack uncertainty estimations critical for safe collaboration. Addressing these gaps, we present HAGS: Hand and Glove Segmentation Dataset. This dataset provides 1200 challenging examples to build applications toward hand and glove segmentation in industrial human-robot collaboration scenarios as well as assess out-of-distribution images, constructed via green screen augmentations, to determine ML-classifier robustness. We study state-of-the-art, real-time segmentation models to evaluate existing methods. Our dataset and baselines are publicly available: https://dataverse.tdl.org/dataset.xhtml?persistentId=doi:10.18738/T8/85R7KQ and https://github.com/UTNuclearRoboticsPublic/assembly_glovebox_dataset.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# 電子商取引検索結果ページにおける個人ラベル商品のグリッド型配置の検討

Auditing the Grid-Based Placement of Private Label Products on E-commerce Search Result Pages ( http://arxiv.org/abs/2407.14650v1 )

ライセンス: Link先を確認
Siddharth D Jaiswal, Abhisek Dash, Nitika Shroff, Yashwanth Babu Vunnam, Saptarshi Ghosh, Animesh Mukherjee, (参考訳) 電子商取引プラットフォームは、顧客と生産者/販売者という2つの重要な利害関係者のニーズと生活を支援する。 `search'システムのような複数のアルゴリズムシステムは、顧客と生産者を関連アイテムで結びつけることによって、これらの利害関係者間の相互作用を仲介する。 検索結果には 一 プラットフォーム自体が製造・販売するプライベートラベル(PL)製品 二 広告付き/スポンサー付及び有機的ポジションの第三者製品 本稿では、インドで運営されている2大eコマースプラットフォームであるAmazon.inとFlipkartのeコマース検索結果におけるPL製品のプロモーションの程度を体系的に定量化する。この2つのプラットフォームで検索結果のスナップショットを分析して、最初のSERPでPLのプロモーションを高く評価する(約15%のPLがAmazonの最初のSERPで宣伝されている)。 両プラットフォームの製品配置戦略が,文献に提案されている既存のユーザ注意戦略に適合していることが判明した。 最後に,収集したデータから得られた知見を補うため,Amazon Mechanical Turkの68名の参加者を対象に調査を行った。 われわれの調査のクリックパターンは、ユーザーがAmazonの検索結果でPL製品に対応する位置に置かれている商品を強くクリックすることを好んでいることを示しているが、Flipkartではそれほど強くない。 クリックスルーレートは、2次元レイアウトにおける理論的に根拠付けられたユーザ注意分布パターンに従っている。

E-commerce platforms support the needs and livelihoods of their two most important stakeholders -- customers and producers/sellers. Multiple algorithmic systems, like ``search'' systems mediate the interactions between these stakeholders by connecting customers to producers with relevant items. Search results include (i) private label (PL) products that are manufactured/sold by the platform itself, as well as (ii) third-party products on advertised / sponsored and organic positions. In this paper, we systematically quantify the extent of PL product promotion on e-commerce search results for the two largest e-commerce platforms operating in India -- Amazon.in and Flipkart. By analyzing snapshots of search results across the two platforms, we discover high PL promotion on the initial result pages (~ 15% PLs are advertised on the first SERP of Amazon). Both platforms use different strategies to promote their PL products, such as placing more PLs on the advertised positions -- while Amazon places them on the first, middle, and last rows of the search results, Flipkart places them on the first two positions and the (entire) last column of the search results. We discover that these product placement strategies of both platforms conform with existing user attention strategies proposed in the literature. Finally, to supplement the findings from the collected data, we conduct a survey among 68 participants on Amazon Mechanical Turk. The click pattern from our survey shows that users strongly prefer to click on products placed at positions that correspond to the PL products on the search results of Amazon, but not so strongly on Flipkart. The click-through rate follows previously proposed theoretically grounded user attention distribution patterns in a two-dimensional layout.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# 医療ファウンデーションモデルにおける高周波成分表現の改善

Improving Representation of High-frequency Components for Medical Foundation Models ( http://arxiv.org/abs/2407.14651v1 )

ライセンス: Link先を確認
Yuetan Chu, Yilan Zhang, Zhongyi Han, Changchun Yang, Longxi Zhou, Gongning Luo, Xin Gao, (参考訳) ファンデーションモデルは、様々な下流タスクにまたがる顕著な一般化性に対して、近年大きな注目を集めている。 しかし、これらのモデルは高周波成分と微細な詳細を表現する上で大きな限界を示すことが示されている。 多くの医療画像のタスクにおいて、そのような情報の正確な表現は、本質的に複雑な解剖学的構造、サブ視覚的特徴、複雑な境界によって重要である。 その結果、一般的な基礎モデルの限定的な表現は、これらのタスクの大幅な性能低下や失敗をもたらす可能性がある。 これらの課題に対処するため、周波数適応型表現オートエンコーダ(Frepa)という新しい事前学習戦略を提案する。 高周波マスキングと低周波摂動と対向学習を組み合わせることで、Frepaはエンコーダに画像埋め込みにおける高周波成分を効果的に表現し保存することを奨励する。 さらに,Musked Autoencoder アプローチを ViT を超えて Swin Transformer や畳み込みネットワークなどの他のアーキテクチャに拡張する,革新的なヒストグラム等化画像マスキング戦略を導入する。 そこで我々はFrepaを9つの医療モダリティにまたがって開発し、2D画像と3Dボリュームデータの両方に対して32の下流タスクで検証する。 微調整なしでは、Frepaは他の自己教師付き事前訓練方法よりも優れており、場合によってはタスク固有の訓練されたモデルを超えている。 この改善は、網膜血管セグメンテーションにおけるDSCの最大15%増加、肺結節検出におけるIoUの最大7%増加など、細かな細部を含むタスクにおいて特に重要である。 さらなる実験により、Frepaは埋め込みにおいて優れた高周波表現と保存を可能にし、より一般化された普遍的な医用画像基盤モデルを開発する可能性を示している。

Foundation models have recently attracted significant attention for their impressive generalizability across diverse downstream tasks. However, these models are demonstrated to exhibit great limitations in representing high-frequency components and fine-grained details. In many medical imaging tasks, the precise representation of such information is crucial due to the inherently intricate anatomical structures, sub-visual features, and complex boundaries involved. Consequently, the limited representation of prevalent foundation models can result in significant performance degradation or even failure in these tasks. To address these challenges, we propose a novel pretraining strategy, named Frequency-advanced Representation Autoencoder (Frepa). Through high-frequency masking and low-frequency perturbation combined with adversarial learning, Frepa encourages the encoder to effectively represent and preserve high-frequency components in the image embeddings. Additionally, we introduce an innovative histogram-equalized image masking strategy, extending the Masked Autoencoder approach beyond ViT to other architectures such as Swin Transformer and convolutional networks. We develop Frepa across nine medical modalities and validate it on 32 downstream tasks for both 2D images and 3D volume data. Without fine-tuning, Frepa can outperform other self-supervised pretraining methods and, in some cases, even surpasses task-specific trained models. This improvement is particularly significant for tasks involving fine-grained details, such as achieving up to a +15% increase in DSC for retina vessel segmentation and a +7% increase in IoU for lung nodule detection. Further experiments quantitatively reveal that Frepa enables superior high-frequency representations and preservation in the embeddings, underscoring its potential for developing more generalized and universal medical image foundation models.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# OASIS:オフライン型安全強化学習のための条件分布形成

OASIS: Conditional Distribution Shaping for Offline Safe Reinforcement Learning ( http://arxiv.org/abs/2407.14653v1 )

ライセンス: Link先を確認
Yihang Yao, Zhepeng Cen, Wenhao Ding, Haohong Lin, Shiqi Liu, Tingnan Zhang, Wenhao Yu, Ding Zhao, (参考訳) オフライン安全な強化学習(RL)は、事前コンパイルされたデータセットを使用して制約を満たすポリシーをトレーニングすることを目的としている。 現在のほとんどの手法は、不完全なデモンストレーションと望ましい安全と報奨のパフォーマンスのミスマッチに苦慮している。 本稿では、これらの限界を克服するために、オフライン安全なRLの新しいパラダイムであるOASIS(cOnditionAl diStributIon Shaping)を紹介する。 OASISは条件付き拡散モデルを使用してオフラインデータセットを合成し、データ分散を有益なターゲットドメインに向けて形成する。 本手法は, オフライン安全なRLトレーニングに有効なデータ利用と正規化技術を用いて, 安全制約を遵守する。 公開ベンチマークとさまざまなデータセットに関する総合的な評価は、オフラインセーフなRLエージェントが安全性の制約を満たしつつ高いリワード動作を達成する上で、OASISの優位性を示し、確立されたベースラインを上回っている。 さらに、OASISは高いデータ効率と堅牢性を示しており、特に安全性が不可欠で高品質なデモンストレーションが不十分なタスクにおいて、現実世界のアプリケーションに適している。

Offline safe reinforcement learning (RL) aims to train a policy that satisfies constraints using a pre-collected dataset. Most current methods struggle with the mismatch between imperfect demonstrations and the desired safe and rewarding performance. In this paper, we introduce OASIS (cOnditionAl diStributIon Shaping), a new paradigm in offline safe RL designed to overcome these critical limitations. OASIS utilizes a conditional diffusion model to synthesize offline datasets, thus shaping the data distribution toward a beneficial target domain. Our approach makes compliance with safety constraints through effective data utilization and regularization techniques to benefit offline safe RL training. Comprehensive evaluations on public benchmarks and varying datasets showcase OASIS's superiority in benefiting offline safe RL agents to achieve high-reward behavior while satisfying the safety constraints, outperforming established baselines. Furthermore, OASIS exhibits high data efficiency and robustness, making it suitable for real-world applications, particularly in tasks where safety is imperative and high-quality demonstrations are scarce.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# LORTSAR:スケルトンに基づく行動認識のための低域変換器

LORTSAR: Low-Rank Transformer for Skeleton-based Action Recognition ( http://arxiv.org/abs/2407.14655v1 )

ライセンス: Link先を確認
Soroush Oraki, Harry Zhuang, Jie Liang, (参考訳) 骨格に基づく行動認識のための最先端のトランスフォーマーベースモデルの複雑さは、計算効率と資源利用の点で大きな課題となっている。 本稿では,Singular Value Decomposition (SVD) を用いて,これらの事前学習モデルのモデルサイズを効果的に削減し,精度を保ちながら資源消費を最小限に抑えることを目的とする。 LORTSAR (Low-Rank Transformer for Skeleton-based Action Recognition) は,モデル圧縮による潜在的な精度劣化を補うための微調整ステップも備えており,2つの主要なトランスフォーマーベースモデルである"Hyperformer"と"STEP-CATFormer"に適用できる。 NTU RGB+D" と "NTU RGB+D 120" のデータセットによる実験結果から,認識精度の劣化や性能向上などにより,モデルパラメータの大幅な削減が可能であることが示唆された。 これは、SVDと圧縮後の微調整を組み合わせることでモデル効率が向上し、人間の行動認識におけるより持続的で軽量で高性能な技術への道が開けることを確認する。

The complexity of state-of-the-art Transformer-based models for skeleton-based action recognition poses significant challenges in terms of computational efficiency and resource utilization. In this paper, we explore the application of Singular Value Decomposition (SVD) to effectively reduce the model sizes of these pre-trained models, aiming to minimize their resource consumption while preserving accuracy. Our method, LORTSAR (LOw-Rank Transformer for Skeleton-based Action Recognition), also includes a fine-tuning step to compensate for any potential accuracy degradation caused by model compression, and is applied to two leading Transformer-based models, "Hyperformer" and "STEP-CATFormer". Experimental results on the "NTU RGB+D" and "NTU RGB+D 120" datasets show that our method can reduce the number of model parameters substantially with negligible degradation or even performance increase in recognition accuracy. This confirms that SVD combined with post-compression fine-tuning can boost model efficiency, paving the way for more sustainable, lightweight, and high-performance technologies in human action recognition.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# 新しい軽量ハイブリッドグラフ畳み込みニューラルネットワーク -- オブジェクト検出推論を用いたシーン分類のためのCNNスキーム

A New Lightweight Hybrid Graph Convolutional Neural Network -- CNN Scheme for Scene Classification using Object Detection Inference ( http://arxiv.org/abs/2407.14658v1 )

ライセンス: Link先を確認
Ayman Beghdadi, Azeddine Beghdadi, Mohib Ullah, Faouzi Alaya Cheikh, Malik Mallem, (参考訳) シーン理解は、自動運転車、インテリジェントなビデオ監視、ロボット工学など、いくつかのハイレベルコンピュータビジョンアプリケーションにおいて重要な役割を果たす。 しかし、コンピュータビジョンフレームワークのシーンコンテキスト適応性を確保するために、屋内/屋外シーン分類のためのソリューションがあまりにも少なすぎる。 オブジェクト検出モデルのアドオンとして,最初の軽量ハイブリッドグラフ畳み込みニューラルネットワーク(LH-GCNN)-CNNフレームワークを提案する。 提案手法では,CNNオブジェクト検出モデルの出力を用いて,観測シーンの意味的および幾何学的内容を表すコヒーレントGCNNを生成する。 自然シーンに適用した本手法は,従来のCNN手法よりも少ないパラメータを必要としながら,多数の異なるシーンを含むCOCO由来のデータセットにおいて,シーン分類の効率を90%以上向上させる。 科学コミュニティの利益のために、ソースコードを公開します。 https://github.com/Aymanbegh/Hybrid-GCNN-CNN。

Scene understanding plays an important role in several high-level computer vision applications, such as autonomous vehicles, intelligent video surveillance, or robotics. However, too few solutions have been proposed for indoor/outdoor scene classification to ensure scene context adaptability for computer vision frameworks. We propose the first Lightweight Hybrid Graph Convolutional Neural Network (LH-GCNN)-CNN framework as an add-on to object detection models. The proposed approach uses the output of the CNN object detection model to predict the observed scene type by generating a coherent GCNN representing the semantic and geometric content of the observed scene. This new method, applied to natural scenes, achieves an efficiency of over 90\% for scene classification in a COCO-derived dataset containing a large number of different scenes, while requiring fewer parameters than traditional CNN methods. For the benefit of the scientific community, we will make the source code publicly available: https://github.com/Aymanbegh/Hybrid-GCNN-CNN.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# ニューラルネットワークにおける関係構成:調査と行動への呼びかけ

Relational Composition in Neural Networks: A Survey and Call to Action ( http://arxiv.org/abs/2407.14662v1 )

ライセンス: Link先を確認
Martin Wattenberg, Fernanda B. Viégas, (参考訳) 多くのニューラルネットは、データを「機能ベクトル」の線形結合として表現しているように見える。 これらのベクトルを発見するアルゴリズムは、近年顕著な成功を収めている。 しかし、ニューラルネットワークが特徴ベクトルをどのように組み合わせて、より複雑な関係を表現するかという、関係性の構成を理解することなく、この成功は不完全である、と我々は論じる。 本稿では,本手法が解釈可能な特徴の探索にどのように影響するかを予備分析すると共に,これまでに提案されてきた様々な関係メカニズムのガイド付きツアーについて述べる。 ニューラルネットワークが構造化データの表現方法を決定するのに役立つかもしれない。

Many neural nets appear to represent data as linear combinations of "feature vectors." Algorithms for discovering these vectors have seen impressive recent success. However, we argue that this success is incomplete without an understanding of relational composition: how (or whether) neural nets combine feature vectors to represent more complicated relationships. To facilitate research in this area, this paper offers a guided tour of various relational mechanisms that have been proposed, along with preliminary analysis of how such mechanisms might affect the search for interpretable features. We end with a series of promising areas for empirical research, which may help determine how neural networks represent structured data.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# F_1$Score Suboptimal for Cybersecurity Models? $C_{score}$の紹介

Is $F_1$ Score Suboptimal for Cybersecurity Models? Introducing $C_{score}$, a Cost-Aware Alternative for Model Assessment ( http://arxiv.org/abs/2407.14664v1 )

ライセンス: Link先を確認
Manish Marwah, Asad Narayanan, Stephen Jou, Martin Arlitt, Maria Pospelova, (参考訳) 機械学習分類器、すなわち偽陽性と偽陰性に関する誤差のコストは等しくなく、応用に依存している。 例えば、サイバーセキュリティアプリケーションでは、攻撃を検知しないコストは、攻撃として良心的な活動をマークすることとは大きく異なる。 ハイパーパラメータチューニングやモデル選択など、機械学習モデル構築時のさまざまな設計選択により、データサイエンティストはこの2つのエラー間でトレードオフを行うことができる。 しかし、モデルの精度とリコールの観点から定義される$F_1$ scoreのような、モデル品質を評価するために一般的に使用される指標のほとんどは、これらのエラーを等しく扱い、ユーザがこれらのエラーの実際のコストに対して最適化することが困難である。 本稿では,モデル評価と選択のためにF_1$スコアを置き換える,精度とリコールに基づく新しいコスト対応メトリック,$C_{score}$を提案する。 これには、偽陽性と偽陰性を扱うコストの相違を考慮したコスト比が含まれる。 我々は、新しいコストメトリックを導出し、特徴付けし、それを$F_1$スコアと比較する。 さらに,この指標を,複数コスト比で5つのサイバーセキュリティ関連データセットのしきい値設定に用いた。 その結果、平均的なコスト削減率は49%であった。

The cost of errors related to machine learning classifiers, namely, false positives and false negatives, are not equal and are application dependent. For example, in cybersecurity applications, the cost of not detecting an attack is very different from marking a benign activity as an attack. Various design choices during machine learning model building, such as hyperparameter tuning and model selection, allow a data scientist to trade-off between these two errors. However, most of the commonly used metrics to evaluate model quality, such as $F_1$ score, which is defined in terms of model precision and recall, treat both these errors equally, making it difficult for users to optimize for the actual cost of these errors. In this paper, we propose a new cost-aware metric, $C_{score}$ based on precision and recall that can replace $F_1$ score for model evaluation and selection. It includes a cost ratio that takes into account the differing costs of handling false positives and false negatives. We derive and characterize the new cost metric, and compare it to $F_1$ score. Further, we use this metric for model thresholding for five cybersecurity related datasets for multiple cost ratios. The results show an average cost savings of 49%.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# 単一セル単一スパイク分解能におけるニューラルダイナミクスのための「ユニバーサルトランスレータ」を目指して

Towards a "universal translator" for neural dynamics at single-cell, single-spike resolution ( http://arxiv.org/abs/2407.14668v1 )

ライセンス: Link先を確認
Yizi Zhang, Yanchen Wang, Donato Jimenez-Beneto, Zixuan Wang, Mehdi Azabou, Blake Richards, Olivier Winter, The International Brain Laboratory, Eva Dyer, Liam Paninski, Cole Hurwitz, (参考訳) 神経科学の研究は過去10年間で大きな進歩を遂げてきましたが、脳の理解は断片化され、断片化され続けています。 本研究では、複数の脳領域にまたがる多様なタスクを解くことができるニューラルスパイクデータのための第1の基盤モデルを構築する。 そこで本研究では,異なる時間ステップ,ニューロン,脳領域にまたがる神経活動のマスクアウトと再構築を交互に行う,集団活動の自己教師型モデリング手法を提案する。 本研究のアプローチを評価するため,48種の動物を対象にした同じ脳位置をターゲットとした神経画素記録と実験セッションからなる,国際脳研究所反復サイトデータセットを用いて,教師なしおよび教師なしの予測タスクを設計した。 予測タスクには、単一ニューロンとリージョンレベルのアクティビティ予測、前方予測、行動復号が含まれる。 我々のマルチタスク・マスキング(MtM)アプローチは、現在最先端の人口モデルの性能を大幅に向上させ、マルチタスク学習を可能にすることを実証する。 また、複数の動物を訓練することにより、モデルが見えない動物に一般化する能力を向上させることができ、単一セルの単一スパイク解像度で脳の基礎モデルを構築する道を開くことができることを示した。

Neuroscience research has made immense progress over the last decade, but our understanding of the brain remains fragmented and piecemeal: the dream of probing an arbitrary brain region and automatically reading out the information encoded in its neural activity remains out of reach. In this work, we build towards a first foundation model for neural spiking data that can solve a diverse set of tasks across multiple brain areas. We introduce a novel self-supervised modeling approach for population activity in which the model alternates between masking out and reconstructing neural activity across different time steps, neurons, and brain regions. To evaluate our approach, we design unsupervised and supervised prediction tasks using the International Brain Laboratory repeated site dataset, which is comprised of Neuropixels recordings targeting the same brain locations across 48 animals and experimental sessions. The prediction tasks include single-neuron and region-level activity prediction, forward prediction, and behavior decoding. We demonstrate that our multi-task-masking (MtM) approach significantly improves the performance of current state-of-the-art population models and enables multi-task learning. We also show that by training on multiple animals, we can improve the generalization ability of the model to unseen animals, paving the way for a foundation model of the brain at single-cell, single-spike resolution.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# DefTesPY: Python LanguageによるTesla企業のデータモデリングと分析を強化したサイバーディフェンスモデル

DefTesPY: Cyber defense model with enhanced data modeling and analysis for Tesla company via Python Language ( http://arxiv.org/abs/2407.14671v1 )

ライセンス: Link先を確認
Naresh Kshetri, Irin Sultana, Mir Mehedi Rahman, Darshana Shah, (参考訳) 自動車や企業に対するサイバー攻撃は、新しい技術や防衛モデルでサイバー犯罪に対処する準備が整っているため、増え続けている。 サイバーディフェンス(サイバーディフェンス、英: Cyber Defense)は、企業、政府機関、その他の知覚可能なネットワークに対する活動、重要なインフラ保護、情報保証に応答するコンピュータネットワーク防御機構である。 サイバー防衛は、インフラや情報が漏洩しないように、攻撃や脅威をタイムリーに防止し、検出し、対応することに焦点を当てている。 サイバー脅威の量と複雑さの増大に伴い、多くの企業は機密情報や資産を保護するためにサイバー防衛を必要としている。 我々は,異なるレベルのファイアウォール,侵入検知システム(IDS),他の保護手法と独立あるいは組み合わせて設置可能な侵入防止システム(IPS)を用いて,攻撃者行動を制御することができる。 Tesla(テスラ)は、アメリカ合衆国テキサス州オースティンにあるクリーンエネルギー・自動車会社である。 Teslaの最近のデータ漏洩は、2015年から2022年にかけて2万3000件以上の内部ファイルを暴露した元従業員2人を指摘し、7万5000人以上が影響を受けた。 この研究では、サイバー防衛モデルとピソンを用いたデータモデリングとデータ分析をTesla社の調査で強調する。 我々は、これまでTesla社のサイバー攻撃やサイバー犯罪に遭遇したデータモデリングとデータ分析を強化した防衛モデルDefTesPYを提案してきた。

Several types of cyber-attacks on automobiles and business firms keep on rising as we are preparing to counter cybercrimes with several new technologies and defense models. Cyber defense (also, counter intelligence) is a computer network defense mechanism that involves response to activities, critical infrastructure protection, and information assurance for corporations, government bodies, and other conceivable networks. Cyber defense focuses on preventing, detecting, and responding to assaults or threats in a timely manner so that no infrastructure or information is compromised. With the increasing volume and complexity of cyber threats, most companies need cyber defense to protect sensitive information and assets. We can control attacker actions by utilizing firewalls at different levels, an intrusion detection system (IDS), with the intrusion prevention system (IPS) which can be installed independently or in combination with other protection approaches. Tesla is an American clean energy and automotive company in Austin, Texas, USA. The recent data breach at Tesla affected over 75,000 individuals as the company pinpoints two former employees as the offender revealing more than 23,000 internal files from 2015 to 2022. In this work, we will emphasize data modeling and data analysis using cyber defense model and python with a survey of the Tesla company. We have proposed a defense model, DefTesPY, with enhanced data modeling and data analysis based on the encountered cyber-attacks and cybercrimes for Tesla company till date.
翻訳日:2024-07-23 21:33:49 公開日:2024-07-19
# 可解おもちゃ模型における量子特異点

Quantum singularities in a solvable toy model ( http://arxiv.org/abs/2407.14672v1 )

ライセンス: Link先を確認
Miloslav Znojil, (参考訳) 基本的な例では、古典物理学の特異点(宇宙論においてビッグバンによってサンプリングされる)が量子化後に必ずしも外される必要はないことが示されている。 量子特異点の役割は、加藤の例外点スペクトル退化(英語版)と呼ばれるものである。

Via elementary examples it is demonstrated that the singularities of classical physics (sampled by the Big Bang in cosmology) need not necessarily get smeared out after quantization. It is proposed that the role of quantum singularities can be played by the so called Kato's exceptional-point spectral degeneracies.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# 自己監督型微視的認識のための合成データからの識別的特徴の学習について

On Learning Discriminative Features from Synthesized Data for Self-Supervised Fine-Grained Visual Recognition ( http://arxiv.org/abs/2407.14676v1 )

ライセンス: Link先を確認
Zihu Wang, Lingqiao Liu, Scott Ricardo Figueroa Weston, Samuel Tian, Peng Li, (参考訳) 自己監督学習(SSL)は、様々なタスクにわたる視覚的表現を取得するための顕著なアプローチとなっているが、その細粒度視覚認識(FGVR)への応用は、カテゴリ間の微妙な違いを区別する複雑なタスクによって挑戦されている。 これを解決するために、FGVRに不可欠な重要な差別的特徴を抽出するSSLの能力を高める新しい戦略を導入する。 このアプローチは、SSL中にFGVRにとって重要な差別的特徴に焦点を合わせるために、合成データペアを作成する。 まず、SSLの損失によって引き起こされたGrad-CAMによって重要でないと見なされる、分散度の低い特徴と、データを効果的に分離できない特徴の2つの主要な基準を用いて、差別的でない特徴を識別することから始める。 次に、差別的特徴を保ちながら、これらの非差別的特徴に摂動を導入する。 デコーダを用いて、摂動ベクトルと原特徴ベクトルの両方から画像を再構成し、データペアを作成する。 エンコーダは、このような生成されたデータ対に基づいて訓練され、識別的特徴に着目しながら非識別的次元のバリエーションに不変となり、FGVRタスクにおけるモデルの性能を向上させる。 提案手法の有望なFGVR性能を多種多様なデータセットで広範囲に評価することで実証する。

Self-Supervised Learning (SSL) has become a prominent approach for acquiring visual representations across various tasks, yet its application in fine-grained visual recognition (FGVR) is challenged by the intricate task of distinguishing subtle differences between categories. To overcome this, we introduce an novel strategy that boosts SSL's ability to extract critical discriminative features vital for FGVR. This approach creates synthesized data pairs to guide the model to focus on discriminative features critical for FGVR during SSL. We start by identifying non-discriminative features using two main criteria: features with low variance that fail to effectively separate data and those deemed less important by Grad-CAM induced from the SSL loss. We then introduce perturbations to these non-discriminative features while preserving discriminative ones. A decoder is employed to reconstruct images from both perturbed and original feature vectors to create data pairs. An encoder is trained on such generated data pairs to become invariant to variations in non-discriminative dimensions while focusing on discriminative features, thereby improving the model's performance in FGVR tasks. We demonstrate the promising FGVR performance of the proposed approach through extensive evaluation on a wide variety of datasets.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# プルーニングと知識蒸留によるコンパクト言語モデル

Compact Language Models via Pruning and Knowledge Distillation ( http://arxiv.org/abs/2407.14679v1 )

ライセンス: Link先を確認
Saurav Muralidharan, Sharath Turuvekere Sreenivas, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov, (参考訳) 異なるデプロイメントスケールとサイズをターゲットにした大規模言語モデル(LLM)は、現在、各変種をスクラッチからトレーニングすることで作成されている。 本稿では,既存のLLMを刈り取って,元のトレーニングデータの分数 (3%) で再トレーニングすることが,反復的かつ完全なリトレーニングの代替となるかを検討する。 本研究は, LLMの深度, 幅, 注目度, MLP プルーニングと知識蒸留に基づく再訓練を組み合わせ, 各軸のプルーニング戦略, 軸の組合せ, 蒸留方法, 最適圧縮アーキテクチャに到達するための探索手法の詳細な検討を通じて, それらのベストプラクティスに到達した。 このガイドを用いて,LLMのネモトロン4ファミリーを2~4倍の係数で圧縮し,様々な言語モデリングタスクにおいて同様の大きさのモデルと比較する。 提案手法を用いて,すでにトレーニング済みの15Bモデルから8Bおよび4Bモデルを抽出するには,スクラッチからトレーニングするよりも,モデル毎のトレーニングトークンを最大40倍削減する必要がある。 ミニトロンモデルは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%向上し、Mistral 7B、Gemma 7B、Llama-3 8Bといった他のコミュニティモデルと互換性があり、文献による最先端の圧縮技術よりも優れている。 私たちはHuggingfaceをベースとしたMinitronモデルウェイトをオープンソースで公開しています。

Large language models (LLMs) targeting different deployment scales and sizes are currently produced by training each variant from scratch; this is extremely compute-intensive. In this paper, we investigate if pruning an existing LLM and then re-training it with a fraction (<3%) of the original training data can be a suitable alternative to repeated, full retraining. To this end, we develop a set of practical and effective compression best practices for LLMs that combine depth, width, attention and MLP pruning with knowledge distillation-based retraining; we arrive at these best practices through a detailed empirical exploration of pruning strategies for each axis, methods to combine axes, distillation strategies, and search techniques for arriving at optimal compressed architectures. We use this guide to compress the Nemotron-4 family of LLMs by a factor of 2-4x, and compare their performance to similarly-sized models on a variety of language modeling tasks. Deriving 8B and 4B models from an already pretrained 15B model using our approach requires up to 40x fewer training tokens per model compared to training from scratch; this results in compute cost savings of 1.8x for training the full model family (15B, 8B, and 4B). Minitron models exhibit up to a 16% improvement in MMLU scores compared to training from scratch, perform comparably to other community models such as Mistral 7B, Gemma 7B and Llama-3 8B, and outperform state-of-the-art compression techniques from the literature. We have open-sourced Minitron model weights on Huggingface, with corresponding supplementary material including example code available on GitHub.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# 世界規模のローカライゼーションのための効率的な量子ユークリッド類似アルゴリズム

An Efficient Quantum Euclidean Similarity Algorithm for Worldwide Localization ( http://arxiv.org/abs/2407.14680v1 )

ライセンス: Link先を確認
Ahmed Shokry, Moustafa Youssef, (参考訳) フィンガープリント技術は、その精度、特に無線チャネルノイズの存在により、ローカライズに広く用いられている。 しかし, フィンガープリント技術は, 世界規模でこのようなシステムを実装する場合, かなりの保存時間と実行時間を必要とする。 本稿では,ワイヤレスローカライゼーションシステムのための効率的な量子ユークリッド類似性アルゴリズムを提案する。 提案した量子アルゴリズムは、古典的な量子化システムや最先端の量子化システムと比較して、ストレージ空間と実行時間の両方の観点から、指数関数的に改善された複雑性を提供する。 基本的な考え方は、受信した信号強度(RSS)ベクトルを異なる位置の指紋ベクトルに絡めて、すべての指紋位置と平行に類似性計算を行うことである。 我々は、量子指紋の作成方法、量子粒子におけるRSS測定のエンコード方法、そして最後に、オンラインRSS測定と指紋とのユークリッド類似性を計算するための量子アルゴリズムを提示する。 実際のIBM量子マシンを用いた実検層におけるアルゴリズムの実装と評価により、従来のフィンガープリント技術や最先端の量子ローカライゼーション技術と比較して、時間と空間の両方で指数関数的に拡張された推定位置を正確に取得できることが確認された。

Fingerprinting techniques are widely used for localization because of their accuracy, especially in the presence of wireless channel noise. However, the fingerprinting techniques require significant storage and running time, which is a concern when implementing such systems on a global worldwide scale. In this paper, we propose an efficient quantum Euclidean similarity algorithm for wireless localization systems. The proposed quantum algorithm offers exponentially improved complexity compared to its classical counterpart and even the state-of-the-art quantum localization systems, in terms of both storage space and running time. The basic idea is to entangle the test received signal strength (RSS) vector with the fingerprint vectors at different locations and perform the similarity calculation in parallel to all fingerprint locations. We give the details of how to construct the quantum fingerprint, how to encode the RSS measurements in quantum particles, and finally; present the quantum algorithm for calculating the Euclidean similarity between the online RSS measurements and the fingerprint ones. Implementation and evaluation of our algorithm in a real testbed using a real IBM quantum machine as well as a simulation for a larger testbed confirm its ability to correctly obtain the estimated location with an exponential enhancement in both time and space compared to the traditional classical fingerprinting techniques and the state-of-the-art quantum localization techniques.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# 価値の内在化 - 社会的報酬から学び、一般化する

Value Internalization: Learning and Generalizing from Social Reward ( http://arxiv.org/abs/2407.14681v1 )

ライセンス: Link先を確認
Frieda Rong, Max Kleiman-Weiner, (参考訳) 社会的報酬は人間の行動を形成する。 発達中、介護者は学習者の振る舞いを文化的に整合した目標と価値へと導く。 介護者がいなくなったら、これらの行動はいかにして持続し、一般化し、学習者は自律的に続けなければならないか。 本稿では、社会的フィードバックが社会的報酬を利用できない場合に内部報酬を生成する内部社会報酬モデル(ISR)を訓練する価値内在化モデルを提案する。 実証シミュレーションにより、ISRモデルによりエージェントが非学習的な社会的行為を防ぎ、アウト・オブ・ディストリビューションタスクにおける一般化を可能にすることを示す。 ISRにおける「リワードハッキング」に類似した、不完全な内部化の意義を特徴付ける。 さらに,本モデルは,マルチエージェント環境下での社会的行動の内在化を示す。 私たちの研究は、人間が価値を獲得し、一般化する方法を理解するための基盤を提供し、AIと人間の価値を合わせるための洞察を提供する。

Social rewards shape human behavior. During development, a caregiver guides a learner's behavior towards culturally aligned goals and values. How do these behaviors persist and generalize when the caregiver is no longer present, and the learner must continue autonomously? Here, we propose a model of value internalization where social feedback trains an internal social reward (ISR) model that generates internal rewards when social rewards are unavailable. Through empirical simulations, we show that an ISR model prevents agents from unlearning socialized behaviors and enables generalization in out-of-distribution tasks. We characterize the implications of incomplete internalization, akin to "reward hacking" on the ISR. Additionally, we show that our model internalizes prosocial behavior in a multi-agent environment. Our work provides a foundation for understanding how humans acquire and generalize values and offers insights for aligning AI with human values.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# 自動走行システムによる大面積緊急ロックダウン

Large-Area Emergency Lockdowns with Automated Driving Systems ( http://arxiv.org/abs/2407.14683v1 )

ライセンス: Link先を確認
Noah Goodall, (参考訳) 1960年代後半の暴動、雪のイベント中の旅行禁止、ボストン・マラソン爆破事件の犯人捜索中の2013年の避難所の「ロックダウン」まで、個人車両の移動に関する地域ごとの規制は、アメリカ合衆国では長い歴史がある。 ロックダウンには膨大なリソースを必要とするため、時間やスコープが制限されることが多い。 自動運転システムの導入により、政府は無線通信を妨害したり、デジタル地図に道路閉鎖を傍受したり、全ての交通制御装置に従うために車両のプログラミングを利用したり、車両開発者と調整したりすることで、大規模ロックダウンを迅速かつ安価に実施することができる。 将来の車両は従来の制御を欠く可能性がある。 旅行制限が実施しやすくなると、政府はより頻繁に、より長い期間にわたって、より広い範囲で実施することができる。 本稿では、ほとんどの運転が高度に自動化されている場合に、ロックダウンの実践的、法的、倫理的意味を考察し、ロックダウンポリシーの開発のためのガイダンスを提供する。

Region-wide restrictions on personal vehicle travel have a long history in the United States, from riot curfews in the late 1960s, to travel bans during snow events, to the 2013 shelter-in-place "lockdown" during the search for the perpetrator of the Boston Marathon bombing. Because lockdowns require tremendous resources to enforce, they are often limited in duration or scope. The introduction of automated driving systems may allow governments to quickly and cheaply effect large-area lockdowns by jamming wireless communications, spoofing road closures on digital maps, exploiting a vehicle's programming to obey all traffic control devices, or coordinating with vehicle developers. Future vehicles may lack conventional controls, rendering them undrivable by the public. As travel restrictions become easier to implement, governments may enforce them more frequently, over longer durations and wider areas. This article explores the practical, legal, and ethical implications of lockdowns when most driving is highly automated, and provides guidance for the development of lockdown policies.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# Data Poisoning: 電力グリッドのレジリエンスに対する見落とされがちな脅威

Data Poisoning: An Overlooked Threat to Power Grid Resilience ( http://arxiv.org/abs/2407.14684v1 )

ライセンス: Link先を確認
Nora Agah, Javad Mohammadi, Alex Aved, David Ferris, Erika Ardiles Cruz, Philip Morrone, (参考訳) 動的データ駆動アプリケーションシステムの複雑さが増大するにつれて、レジリエンスの維持がますます困難になる。 例えば、電力グリッドのレジリエンスの維持は、(再生可能出力のような)確率変数の増加や、グリッドに不確実性をもたらす極端な気象イベントによって、ますます複雑化している。 現在の最適化手法はこの複雑さの増大に対応するのに苦労している。 これにより、グリッドを操作するために使用されるデータ駆動手法への関心が高まり、サイバー攻撃に対する脆弱性が高まった。 一般的に議論されているそのような破壊の1つは、システム操作を「操作する」ために、侵入者が入力データに小さな摂動を加えようとする対向的破壊である。 ここ数年、敵の訓練や電力系統の破壊に関する研究が盛んに行われている。 本稿では,これらの応用について概説する。特に,最も一般的な敵対的破壊(脱毒・毒殺)について概説する。 本総説では, 送電網に適用した場合の脱毒研究と脱毒研究のギャップについて概説する。 これは、モデルトレーニングが安全であるという基本的な前提のためであり、研究された破壊の第一のタイプである回避的破壊につながっている。 最後に、データ中毒の介入の影響を調べ、電力グリッドのレジリエンスをいかに危険にさらすかを示す。

As the complexities of Dynamic Data Driven Applications Systems increase, preserving their resilience becomes more challenging. For instance, maintaining power grid resilience is becoming increasingly complicated due to the growing number of stochastic variables (such as renewable outputs) and extreme weather events that add uncertainty to the grid. Current optimization methods have struggled to accommodate this rise in complexity. This has fueled the growing interest in data-driven methods used to operate the grid, leading to more vulnerability to cyberattacks. One such disruption that is commonly discussed is the adversarial disruption, where the intruder attempts to add a small perturbation to input data in order to "manipulate" the system operation. During the last few years, work on adversarial training and disruptions on the power system has gained popularity. In this paper, we will first review these applications, specifically on the most common types of adversarial disruptions: evasion and poisoning disruptions. Through this review, we highlight the gap between poisoning and evasion research when applied to the power grid. This is due to the underlying assumption that model training is secure, leading to evasion disruptions being the primary type of studied disruption. Finally, we will examine the impacts of data poisoning interventions and showcase how they can endanger power grid resilience.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# ケーススタディを用いた産業実践者への責任あるAIの教育

Using Case Studies to Teach Responsible AI to Industry Practitioners ( http://arxiv.org/abs/2407.14686v1 )

ライセンス: Link先を確認
Julia Stoyanovich, Rodrigo Kreis de Paula, Armanda Lewis, Chloe Zheng, (参考訳) 責任AI(Responsible AI、RAI)とは、AIの設計、開発、使用を社会的に持続可能なものにする科学と実践である。 当然、産業実践者は、RAIの目標を達成するための集団能力において決定的な役割を担います。 残念ながら、RAIを実践者に教えるための教育資料と効果的な方法論をまだ統合していない。 本稿では,対話型ケーススタディを用いて,RAIの組織的・実践的エンゲージメントと先進的な学習を実現する,新たな利害関係者優先型教育手法を提案する。 当社は国際技術企業であるMetaとパートナーシップを結び、社内の多様なオーディエンスにRAIワークショップを共同開発し提供します。 評価の結果,ワークショップの参加者は,作業にRAIを適用することに対する理解とモチベーションに肯定的な変化があることが示唆された。

Responsible AI (RAI) is the science and the practice of making the design, development, and use of AI socially sustainable: of reaping the benefits of innovation while controlling the risks. Naturally, industry practitioners play a decisive role in our collective ability to achieve the goals of RAI. Unfortunately, we do not yet have consolidated educational materials and effective methodologies for teaching RAI to practitioners. In this paper, we propose a novel stakeholder-first educational approach that uses interactive case studies to achieve organizational and practitioner -level engagement and advance learning of RAI. We discuss a partnership with Meta, an international technology company, to co-develop and deliver RAI workshops to a diverse audience within the company. Our assessment results indicate that participants found the workshops engaging and reported a positive shift in understanding and motivation to apply RAI to their work.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# Quantum Data Breach: 信頼できない量子クラウドによるトレーニングデータセットの再利用

Quantum Data Breach: Reusing Training Dataset by Untrusted Quantum Clouds ( http://arxiv.org/abs/2407.14687v1 )

ライセンス: Link先を確認
Suryansh Upadhyay, Swaroop Ghosh, (参考訳) 量子コンピューティング(QC)は、マシンラーニングやセキュリティ、ヘルスケアといった分野に革命をもたらす可能性がある。 量子機械学習(QML)は将来性のある分野として登場し、量子コンピュータを用いた学習アルゴリズムを強化している。 しかし、QMLモデルは、高いトレーニングコストと広範なトレーニング時間のために、利益のターゲットとなっている。 量子資源の不足と長い待ち時間により、この課題はさらに悪化する。 さらに、QMLプロバイダはモデルをホストし、モデルを公開し、データをトレーニングするために、サードパーティの量子クラウドに依存する場合もある。 QML-as-a-Service(QMLaaS)が普及するにつれて、サードパーティの量子クラウドへの依存は重大な脅威となる。 本稿では,量子雲の敵がトレーニング中にQMLモデルのホワイトボックスアクセスを使用して,ラベルとともに状態準備回路(トレーニングデータを含む)を抽出できることを示す。 抽出したトレーニングデータは、クローンモデルをトレーニングするために再利用したり、利益のために販売することができる。 本稿では,誤りラベルを抽出し,修正するための一連の手法を提案する。 結果は、$\approx$90\%ラベルを正しく抽出できることを示している。 逆抽出データに基づいてトレーニングされた同じモデルは、約$\approx$90\%の精度を達成する。 この脅威を軽減するため,ラベル難読化のためのマスクラベル/クラスの提案とコスト関数の変更を行い,逆ラベル予測の精度を$$\approx$70\%削減する。

Quantum computing (QC) has the potential to revolutionize fields like machine learning, security, and healthcare. Quantum machine learning (QML) has emerged as a promising area, enhancing learning algorithms using quantum computers. However, QML models are lucrative targets due to their high training costs and extensive training times. The scarcity of quantum resources and long wait times further exacerbate the challenge. Additionally, QML providers may rely on a third-party quantum cloud for hosting the model, exposing the models and training data. As QML-as-a-Service (QMLaaS) becomes more prevalent, reliance on third party quantum clouds can pose a significant threat. This paper shows that adversaries in quantum clouds can use white-box access of the QML model during training to extract the state preparation circuit (containing training data) along with the labels. The extracted training data can be reused for training a clone model or sold for profit. We propose a suite of techniques to prune and fix the incorrect labels. Results show that $\approx$90\% labels can be extracted correctly. The same model trained on the adversarially extracted data achieves approximately $\approx$90\% accuracy, closely matching the accuracy achieved when trained on the original data. To mitigate this threat, we propose masking labels/classes and modifying the cost function for label obfuscation, reducing adversarial label prediction accuracy by $\approx$70\%.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# 双曲格子イジングモデルにおける境界相関関数のホログラフィー解析

Holographic analysis of boundary correlation functions for the hyperbolic-lattice Ising model ( http://arxiv.org/abs/2407.14689v1 )

ライセンス: Link先を確認
Kouichi Okunishi, Tomotoshi Nishino, (参考訳) 双曲格子イジングモデルの境界スピン相関関数をホログラムの観点から解析する。 コーナー-トランスファー-行列再正規化群 (CTMRG) 法を用いて, 境界相関関数が準周期発振によるパワー-ロー減衰を示すのに対して, バルク相関関数は常に指数関数的に減衰することを示した。 境界相関関数のスケーリング次元は, バルク相関経路と外縁境界に沿った距離との幾何学的関係に基づいて, 双曲格子に固有の背景曲率とバルク相関長の組合せによりよく説明できることがわかった。 また,CTMRGにおける結合寸法の切断効果について検討し,境界スピン相関の長距離挙動を小さい結合寸法でも正確に記述することを示した。 対照的に、ソート距離の挙動は、その精度を急速に低下させる。

We analyze boundary spin correlation functions of the hyperbolic-lattice Ising model from the holographic point of view. Using the corner-transfer-matrix renormalization group (CTMRG) method, we demonstrate that the boundary correlation function exhibits power-law decay with quasi-periodic oscillation, while the bulk correlation function always decays exponentially. On the basis of the geometric relation between the bulk correlation path and distance along the outer edge boundary, we find that scaling dimensions for the boundary correlation function can be well explained by the combination of the bulk correlation length and background curvatures inherent to the hyperbolic lattice. We also investigate the cutoff effect of the bond dimension in CTMRG, revealing that the long-distance behavior of the boundary spin correlation is accurately described even with a small bond dimension. In contrast, the sort-distance behavior rapidly loses its accuracy.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# 2017年から2021年までのコンピュータサイエンスにおけるCNPq奨学金研究者の生産性プロファイル

Productivity profile of CNPq scholarship researchers in computer science from 2017 to 2021 ( http://arxiv.org/abs/2407.14690v1 )

ライセンス: Link先を確認
Marcelo Keese Albertini, André Ricardo Backes, (参考訳) プロダクティビティ・イン・リサーチ(Productivity in Research, PQ)は、CNPq (Brazilian National Council for Scientific and Technological Development) によって授与される奨学金である。 この奨学金は、いくつかの選ばれた学部の研究者が、それぞれの分野における科学的生産、卓越した技術、革新について認識することを目的としている。 本研究は,コンピュータサイエンス分野の185人の研究者を対象に,前回のPQ選択通知においてPQ奨学金が付与された研究成果について評価した。 それぞれの教授の生産性を評価するため,2017年から2021年までの5年間に,学術雑誌や会議(完全版)に掲載された論文について検討した。 私たちは量と品質の両面から生産性を分析した。 また, 国, 大学, 研究施設にまたがる分布と, 共著者ネットワークの評価を行った。

Productivity in Research (PQ) is a scholarship granted by CNPq (Brazilian National Council for Scientific and Technological Development). This scholarship aims to recognize a few selected faculty researchers for their scientific production, outstanding technology and innovation in their respective areas of knowledge. In the present study, we evaluated the scientific production of the 185 researchers in the Computer Science area granted with PQ scholarship in the last PQ selection notice. To evaluate the productivity of each professor, we considered papers published in scientific journals and conferences (complete works) in a five years period (from 2017 to 2021). We analyzed the productivity in terms of both quantity and quality. We also evaluated its distribution over the country, universities and research facilities, as well as, the co-authorship network produced.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# PXPモデルにおける量子多体傷の安定性

Stability of quantum many-body scars on PXP model ( http://arxiv.org/abs/2407.14691v1 )

ライセンス: Link先を確認
Alessandra Chioquetta, Raphael Campos Drumond, (参考訳) 摂動下での量子多体傷の安定性についてPXPモデルを用いて検討した。 我々は、状態の進化を監視し、リバイバルを特定するために、忠実度と平均相関を数値的に計算する。 その結果, PXP傷の絡み合いのエントロピーは, 非常に小さな摂動に対して既に熱状態に期待されているものに対して, 非常に敏感であることがわかった。 一方、傷跡と重なる状態の復活など他の傷痕は、顕著な堅牢性を示している。 また,傷跡と重なり合い,一貫した回復を示す初期状態に対する軽微な乱れの影響について検討した。 解析の結果,鎖の「凍結」や持続的な振動,熱化過程の促進など,異なる種類の乱れが顕著に異なる挙動を誘導できることが判明した。

We investigate the stability of quantum many-body scars under perturbations, within the PXP model. We numerically compute the fidelity and average correlations to monitor the state evolution and to identify revivals. The results indicate that, on the one hand, the entanglement entropy of PXP scars exhibit great sensitivity, in the sense that their profile approaches the ones expected for thermal states already for very small perturbations. On the other hand, other scar signatures, such as the revivals of states having large overlap with scars, show remarkable robustness. Additionally, we examined the effects of minor disturbances on initial states that previously exhibited high overlap with scars and consistent revivals. Our analysis revealed that different types of disturbances can induce markedly different behaviors, such as partially "freezing" the chain, leading to sustained oscillations, or accelerating the process of thermalization.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# データサイエンス、機械学習、強化学習のためのRとPythonのコードの総合ガイド

A Comprehensive Guide to Combining R and Python code for Data Science, Machine Learning and Reinforcement Learning ( http://arxiv.org/abs/2407.14695v1 )

ライセンス: Link先を確認
Alejandro L. García Navarro, Nataliia Koneva, Alfonso Sánchez-Macián, José Alberto Hernández, (参考訳) Pythonはその有効性と広範なライブラリのため、機械学習、人工知能、データエンジニアリングの分野で広く普及している。 Rは、統計分析と可視化において、依然として支配的な言語である。 しかし、一部のライブラリは時代遅れになり、機能とパフォーマンスが制限されている。 ユーザはこれら2つのプログラミング言語を組み合わせることで、Pythonの高度な機械学習とAI機能とRの堅牢な統計パッケージを併用することができる。 本稿では,Python を R から呼び出すために R のreticulate パッケージを利用することについて検討する。 いくつかのハローワールドコードスニペットで、機械学習、ディープラーニング、強化学習プロジェクトを構築するために、PythonのScikit-learn、pytorch、OpenAIのジムライブラリを簡単に実行する方法をデモします。

Python has gained widespread popularity in the fields of machine learning, artificial intelligence, and data engineering due to its effectiveness and extensive libraries. R, on its side, remains a dominant language for statistical analysis and visualization. However, certain libraries have become outdated, limiting their functionality and performance. Users can use Python's advanced machine learning and AI capabilities alongside R's robust statistical packages by combining these two programming languages. This paper explores using R's reticulate package to call Python from R, providing practical examples and highlighting scenarios where this integration enhances productivity and analytical capabilities. With a few hello-world code snippets, we demonstrate how to run Python's scikit-learn, pytorch and OpenAI gym libraries for building Machine Learning, Deep Learning, and Reinforcement Learning projects easily.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# 量子ワークフォースイニシアチブにおける学生参加の検討

Investigating Student Participation in Quantum Workforce Initiatives ( http://arxiv.org/abs/2407.14698v1 )

ライセンス: Link先を確認
Michael B. Bennett, Joan É. Arrow, Sasha Novack, Noah D. Finkelstein, (参考訳) 量子科学の焦点が、基礎研究から応用量子技術の開発と実装へとシフトするにつれ、堅牢で多様な量子労働力を求める声が高まっている。 しかし、R1の文脈以外での労働準備活動の参加者の設計と影響についてはほとんど研究されていない。 コロラド州に本拠を置く量子教育・ワークフォース開発プログラム2校の学生を対象に,大学生R1設定と分散コミュニティ設定の学生にインタビューを行い,主に2年制大学の学生に提供した。 これらのインタビューの分析を通じて,2つのプログラムにおける学生の参加目標,量子科学の先進的および一般意識,キャリアへの関心,キャリア軌道のフレーミングといった点において,学生間の差異を明らかにすることができた。 学生の双方がプログラム参加の恩恵を報告している一方で、学生の異なるニーズと状況が、量子教育の文脈設計と労働力の取り組みを、急成長する量子労働力の株式と代表権の問題として、両プログラムの多様化を知らしめている点を強調した。

As the focus of quantum science shifts from basic research to development and implementation of applied quantum technology, calls for a robust, diverse quantum workforce have increased. However, little research has been done on the design and impact on participants of workforce preparation efforts outside of R1 contexts. In order to begin to answer the question of how program design can or should attend to the needs and interests of diverse groups of students, we performed interviews with students from two Colorado-based quantum education/workforce development programs, one in an undergraduate R1 setting and one in a distributed community setting and serving students largely from two-year colleges. Through analysis of these interviews, we were able to highlight differences between the student populations in the two programs in terms of participation goals, prior and general awareness of quantum science, and career interest and framing of career trajectories. While both groups of students reported benefits from program participation, we highlight the ways in which students' different needs and contexts have informed divergent development of the two programs, framing contextual design of quantum education and workforce efforts as an issue of equity and representation for the burgeoning quantum workforce.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# Composerのアシスタント2:細粒度ユーザ制御による対話型マルチトラックMIDIインフィル

Composer's Assistant 2: Interactive Multi-Track MIDI Infilling with Fine-Grained User Control ( http://arxiv.org/abs/2407.14700v1 )

ライセンス: Link先を確認
Martin E. Malandro, (参考訳) 本稿では,REAPERデジタルオーディオワークステーションにおいて,対話型人-コンピュータ合成システムであるComposer's Assistant 2を紹介する。 当社の作業では,コンストラクタのアシスタントシステム(トラック計測レベルでシンボリック音楽のマルチトラックインフィルを行う)を改良し,ユーザがシステム出力をきめ細かな制御を行うようにした。 本研究で導入された制御には、2種類のリズミカルコンディショニング制御、水平および垂直のノートオンセット密度制御、複数種類のピッチ制御、リズミカル関心制御が含まれる。 我々は、これらの制御を実装し、システムのバックボーンとして機能するために、T5ライクなトランスフォーマーモデルを訓練する。 これらの制御により、元のシステムよりも客観的なメトリクスが劇的に改善される。 また,我々のモデルがコントロールの意味をいかによく理解しているかを考察し,本システムと協調して構成される実際の音楽と音楽の間に有意な違いを見出さないリスニング研究を行う。 我々は、ソースコード、事前訓練されたモデル、REAPERスクリプトからなる完全なシステムをリリースする。

We introduce Composer's Assistant 2, a system for interactive human-computer composition in the REAPER digital audio workstation. Our work upgrades the Composer's Assistant system (which performs multi-track infilling of symbolic music at the track-measure level) with a wide range of new controls to give users fine-grained control over the system's outputs. Controls introduced in this work include two types of rhythmic conditioning controls, horizontal and vertical note onset density controls, several types of pitch controls, and a rhythmic interest control. We train a T5-like transformer model to implement these controls and to serve as the backbone of our system. With these controls, we achieve a dramatic improvement in objective metrics over the original system. We also study how well our model understands the meaning of our controls, and we conduct a listening study that does not find a significant difference between real music and music composed in a co-creative fashion with our system. We release our complete system, consisting of source code, pretrained models, and REAPER scripts.
翻訳日:2024-07-23 21:23:47 公開日:2024-07-19
# 語彙的意味の動的ニューラルモデルにおける言語理解の文脈的調節

Contextual modulation of language comprehension in a dynamic neural model of lexical meaning ( http://arxiv.org/abs/2407.14701v1 )

ライセンス: Link先を確認
Michael C. Stern, Maria M. Piñango, (参考訳) 本稿では,語彙的意味の動的ニューラルモデルを提案し,その挙動予測を実験的に検証する。 本稿では、英語の語彙項目「have」をテストケースとして用いて、その多義性に焦点をあてて、モデルのアーキテクチャと振舞いを実証する。 モデルでは、'have' は2つの連続的な概念的次元、連結性と制御非対称性によって定義される意味空間にマッピングされ、以前は言語の概念的システムをパラメータ化するために提案されていた。 マッピングは、語彙項目を表すニューラルノードと概念次元を表すニューラルフィールドとの結合としてモデル化される。 語彙的知識は安定した結合パターンとしてモデル化されるが、リアルタイム語彙的意味検索は意味的解釈や読みに対応する準安定状態間のニューラルアクティベーションパターンの運動としてモデル化される。 モデルシミュレーションは、(1)語彙意味解釈の文脈的変調と(2)この変調の大きさの個人的変動という、以前に報告された2つの経験的観察を捉えている。 シミュレーションはまた、文読解時間と受理性との関係は文脈的に調節されるべきである、という新たな予測を生成する。 自己評価読影判定と受理性判定を組み合わせた実験は、過去の結果を再現し、新しいモデル予測を確認する。 単語の多くの関連する意味は、連続的な意味論の解釈を支配する神経集団の非線形力学から生じるメタスタブルなニューラルアクティベーション状態である。

We propose and computationally implement a dynamic neural model of lexical meaning, and experimentally test its behavioral predictions. We demonstrate the architecture and behavior of the model using as a test case the English lexical item 'have', focusing on its polysemous use. In the model, 'have' maps to a semantic space defined by two continuous conceptual dimensions, connectedness and control asymmetry, previously proposed to parameterize the conceptual system for language. The mapping is modeled as coupling between a neural node representing the lexical item and neural fields representing the conceptual dimensions. While lexical knowledge is modeled as a stable coupling pattern, real-time lexical meaning retrieval is modeled as the motion of neural activation patterns between metastable states corresponding to semantic interpretations or readings. Model simulations capture two previously reported empirical observations: (1) contextual modulation of lexical semantic interpretation, and (2) individual variation in the magnitude of this modulation. Simulations also generate a novel prediction that the by-trial relationship between sentence reading time and acceptability should be contextually modulated. An experiment combining self-paced reading and acceptability judgments replicates previous results and confirms the new model prediction. Altogether, results support a novel perspective on lexical polysemy: that the many related meanings of a word are metastable neural activation states that arise from the nonlinear dynamics of neural populations governing interpretation on continuous semantic dimensions.
翻訳日:2024-07-23 21:14:02 公開日:2024-07-19
# 自然言語を超えた信頼性の高い推論

Reliable Reasoning Beyond Natural Language ( http://arxiv.org/abs/2407.11373v2 )

ライセンス: Link先を確認
Nasim Borazjanizadeh, Steven T. Piantadosi, (参考訳) 言語能力にもかかわらず、Large Language Model (LLM) はしばしば、信頼性と柔軟に推論する能力の限界を示す。 そこで本稿では,問題文からすべての関連情報を論理コード文として抽出・エンコードし,論理プログラム言語(Prolog)を用いて明示的帰納的推論の反復計算を行うニューロシンボリックアプローチを提案する。 提案手法は,標準的な数学的推論ベンチマークであるGSM8kと,BIG-benchデータセットからのNavigateデータセット上でのLCMの性能を大幅に向上させる。 さらに,LLMの次のトークン予測パラダイムの欠点を目標とし,複雑な非線形推論を必要とするが,解くための基本的な算術的スキルのみを必要とする,55のユニークな単語問題からなる新しいデータセットであるNon-Linear Reasoning (NLR)データセットを導入する。 以上の結果から,Prologの統合により,最上級言語モデル(GPT4を含む)でもテキストのみを用いて解けないNLRデータセット上でのLLMの高性能化が可能であることが示唆された。

Despite their linguistic competence, Large Language models (LLMs) often exhibit limitations in their ability to reason reliably and flexibly. To address this, we propose a neurosymbolic approach that prompts LLMs to extract and encode all relevant information from a problem statement as logical code statements, and then use a logic programming language (Prolog) to conduct the iterative computations of explicit deductive reasoning. Our approach significantly enhances the performance of LLMs on the standard mathematical reasoning benchmark, GSM8k, and the Navigate dataset from the BIG-bench dataset. Additionally, we introduce a novel dataset, the Non-Linear Reasoning (NLR) dataset, consisting of 55 unique word problems that target the shortcomings of the next token prediction paradigm of LLMs and require complex non-linear reasoning but only basic arithmetic skills to solve. Our findings demonstrate that the integration of Prolog enables LLMs to achieve high performance on the NLR dataset, which even the most advanced language models (including GPT4) fail to solve using text only.
翻訳日:2024-07-23 11:30:02 公開日:2024-07-19
# 産業規模でのAI支援SQLオーサリング

AI-Assisted SQL Authoring at Industry Scale ( http://arxiv.org/abs/2407.13280v2 )

ライセンス: Link先を確認
Chandra Maddila, Negar Ghorbani, Kosay Jabre, Vijayaraghavan Murali, Edwin Kim, Parth Thakkar, Nikolay Pavlovich Laptev, Olivia Harman, Diana Hsu, Rui Abreu, Peter C. Rigby, (参考訳) SqlComposeは、データ分析ドメインに生成AIを提供する。 SQLは宣言的であり、形式的なテーブルスキーマを持ち、しばしば非線形で書かれる。 これらの課題に対処し、各問題の重要性を示す一連のモデルを開発する。 まず、Metaでオフラインテストを実行するための内部SQLベンチマークを開発します。 我々はPublic Llamaモデルの性能を評価する。 BLEUスコアは, それぞれ53%, 24%であった。 このパフォーマンスは命令型言語に関する以前の作業と一致している。 次に、内部データとデータベーススキーマにLlamaを微調整します。 SqlComposeSAはBLEUスコアでLlamaを16ポイント上回っている。 SQLは、しばしば複数のサブクエリーと非シークエンシャルな方法で書かれる。 SqlComposeFIMは、完了すべき行の前後のコンテキストを認識している。 このフィリング・ザ・ミドルモデルはSqlComposeFIMを35ポイント上回る。 また、モデルが正しいテーブル名を取得する頻度を計測し、SqlComposeFIMは75%の時間でこれを行うことができる。 科学的な研究とは別に、SqlComposeFIMもMetaで公開しています。 SqlComposeは、データサイエンティストやソフトウェアエンジニアを含む10万以上のユーザが毎週使用しており、1%未満のユーザがSqlComposeを無効にしている。 ユーザからのフィードバックを使ってSqlComposeを改善します。 興味深いポジティブなテーマは、退屈で反復的なSQL句の完成、定型的なコーディングの提案、難しいSQL構文を覚える必要性の排除である。 最も顕著な否定的なテーマは、SqlComposeFIMのリリースで減少しているテーブルとカラム名幻覚である。 SqlComposeモデルは、より小さい(7bnと13bn)にもかかわらず、パブリックおよび内部のLLMよりも一貫して優れており、より小さなスペシャリストモデルの方がより大きな汎用モデルより優れたことを早期に示している。

SqlCompose brings generative AI into the data analytics domain. SQL is declarative, has formal table schemas, and is often written in a non-linear manner. We address each of these challenges and develop a set of models that shows the importance of each problem. We first develop an internal SQL benchmark to perform offline tests at Meta. We evaluate how well the Public Llama model performs. We attain a BLEU score of 53% and 24% for single- and multi-line predictions, respectively. This performance is consistent with prior works on imperative languages. We then fine-tune Llama on our internal data and database schemas. SqlComposeSA substantially outperforms Llama by 16 percentage points on BLEU score. SQL is often written with multiple sub queries and in a non-sequential manner. We develop SqlComposeFIM which is aware of the context before and after the line(s) that need to be completed. This fill-in-the-middle model outperform SqlComposeFIM by 35 percentage points. We also measure how often the models get the correct table names, and SqlComposeFIM is able to do this 75% of the time. Aside from our scientific research, we also roll out SqlComposeFIM at Meta. SqlCompose is used on a weekly basis by over 10k users including data scientists and software engineers, less than 1% of users have disabled SqlCompose. We use the feedback from users to improve SqlCompose. Interesting positive themes include completing tedious or repetitive SQL clauses, suggesting boilerplate coding, and help in eliminate the need to remember difficult SQL syntax. The most significant negative themes was table and column name hallucinations, which has been reduced with the release of SqlComposeFIM. The SqlCompose models consistently outperform public and internal LLMs, despite being smaller (7 bn and 13 bn), which provides early indications that smaller specialist models can outperform larger general purpose models.
翻訳日:2024-07-23 11:30:02 公開日:2024-07-19
# KL規則化のミソスを補正する:Chi-Squared Preference Optimizationによる過度な最適化を伴わない直アライメント

Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization ( http://arxiv.org/abs/2407.13399v2 )

ライセンス: Link先を確認
Audrey Huang, Wenhao Zhan, Tengyang Xie, Jason D. Lee, Wen Sun, Akshay Krishnamurthy, Dylan J. Foster, (参考訳) 人間からのフィードバックからの強化学習(RLHF)のような言語モデルアライメント手法は、言語モデル機能に顕著な進歩をもたらしたが、既存の手法は、アライメントプロセスの過程で言語モデルプレートの質が低下したり劣化したりする過最適化と呼ばれる現象によって、広く観察されている現象によって制限されている。 過度な最適化は、しばしば不正確な報酬モデルによる過度な適合によるもので、オンラインデータ収集によって緩和できるが、多くの設定では実現不可能である。 既存のオフラインアライメントアルゴリズムは、データを最大限に活用しているか、サンプル効率をさらに向上できるのか? オフラインアライメントのための新しいアルゴリズムである$\chi^2$-Preference Optimization(\chi$PO)でこの問題に対処する。 $\chi$POは、直接選好最適化(DPO; Rafailov et al , 2023)の1行の変更であり、DPOの目的の対数リンク関数を変更することのみを含む。 この最小限の変更にもかかわらず、$\chi$PO は KL-正規化よりも効果的に不確実性を定量化する $\chi^2$-divergence -- を正規化することで不確実性に直面したペシミズムの原則を暗黙的に実装している。 $\chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとしては初めてのものとなる。

Language model alignment methods, such as reinforcement learning from human feedback (RLHF), have led to impressive advances in language model capabilities, but existing techniques are limited by a widely observed phenomenon known as overoptimization, where the quality of the language model plateaus or degrades over the course of the alignment process. Overoptimization is often attributed to overfitting to an inaccurate reward model, and while it can be mitigated through online data collection, this is infeasible in many settings. This raises a fundamental question: Do existing offline alignment algorithms make the most of the data they have, or can their sample-efficiency be improved further? We address this question with a new algorithm for offline alignment, $\chi^2$-Preference Optimization ($\chi$PO). $\chi$PO is a one-line change to Direct Preference Optimization (DPO; Rafailov et al., 2023), which only involves modifying the logarithmic link function in the DPO objective. Despite this minimal change, $\chi$PO implicitly implements the principle of pessimism in the face of uncertainty via regularization with the $\chi^2$-divergence -- which quantifies uncertainty more effectively than KL-regularization -- and provably alleviates overoptimization, achieving sample-complexity guarantees based on single-policy concentrability -- the gold standard in offline reinforcement learning. $\chi$PO's simplicity and strong guarantees make it the first practical and general-purpose offline alignment algorithm that is provably robust to overoptimization.
翻訳日:2024-07-23 11:30:02 公開日:2024-07-19
# 証券貸出市場における動的価格設定:エージェント・レンダー・ポートフォリオの収益最適化への応用

Dynamic Pricing in Securities Lending Market: Application in Revenue Optimization for an Agent Lender Portfolio ( http://arxiv.org/abs/2407.13687v2 )

ライセンス: Link先を確認
Jing Xu, Yung-Cheng Hsu, William Biscarri, (参考訳) 証券貸付は金融市場構造の重要な部分であり、エージェント・貸し手は長期の機関投資家が貸付手数料と引き換えに短期の売り手に証券を貸し出すのを助ける。 市場のエージェント・貸し手は、できるだけ高いレートで証券を貸し出すことで収益を最適化しようとしている。 通常、このレートはハードコードされたビジネスルールまたは標準的な教師付き機械学習モデルによって設定される。 これらのアプローチはスケールが難しく、市場の状況の変化に適応できないことが多い。 中央集権的なリミット・オーダー・ブックを持つ伝統的な証券取引所とは異なり、証券貸出市場は、エージェント・貸し手や借り手が合意された価格で取引できる電子商取引市場と同様に組織されている。 この類似性から、電子商取引における動的価格問題に対処する典型的な手法は、証券融資市場において有効である可能性が示唆されている。 証券貸出市場では,既存の文脈的バンディットの枠組みをうまく活用できることが示されている。 実履歴データをオフラインで評価することにより、コンテキスト的バンディットアプローチは、総収益の少なくとも15%以上の典型的なアプローチを一貫して上回り得ることを示す。

Securities lending is an important part of the financial market structure, where agent lenders help long term institutional investors to lend out their securities to short sellers in exchange for a lending fee. Agent lenders within the market seek to optimize revenue by lending out securities at the highest rate possible. Typically, this rate is set by hard-coded business rules or standard supervised machine learning models. These approaches are often difficult to scale and are not adaptive to changing market conditions. Unlike a traditional stock exchange with a centralized limit order book, the securities lending market is organized similarly to an e-commerce marketplace, where agent lenders and borrowers can transact at any agreed price in a bilateral fashion. This similarity suggests that the use of typical methods for addressing dynamic pricing problems in e-commerce could be effective in the securities lending market. We show that existing contextual bandit frameworks can be successfully utilized in the securities lending market. Using offline evaluation on real historical data, we show that the contextual bandit approach can consistently outperform typical approaches by at least 15% in terms of total revenue generated.
翻訳日:2024-07-23 11:30:02 公開日:2024-07-19
# 混合畳み込みと相互融合による高精度カモフラージュ物体検出に向けて

Towards Accurate Camouflaged Object Detection with Mixture Convolution and Interactive Fusion ( http://arxiv.org/abs/2101.05687v3 )

ライセンス: Link先を確認
Geng Chen, Xinrui Chen, Bo Dong, Mingchen Zhuge, Yongxiong Wang, Hongbo Bi, Jian Chen, Peng Wang, Yanning Zhang, (参考訳) カモフラージュされた物体検出(COD)は、近ごろコンピュータビジョンの分野で研究が進められている。 実際、深層学習に基づくCODの成功は、主に2つの重要な要因によって決定される。 一 豊かな文脈情報を提供する非常に大きな受容領域、及び (II) 正確なCODのために, リッチな多レベル特徴を集約した有効核融合戦略。 そこで本研究では,大規模な受容場と効果的な特徴融合を統合フレームワークに統合した,新しい深層学習型CODアプローチを提案する。 具体的には、バックボーンネットワークからまずマルチレベル特徴を抽出する。 得られた特徴は、複数の非対称な畳み込み層と2つの拡張畳み込み層を利用して、大きな受容場からリッチなコンテキスト特徴を抽出する、提案された二重ブランチ混合畳み込みモジュールに供給される。 最後に、特殊設計の多層インタラクティブフュージョンモジュールを用いて特徴を融合させ、各モジュールは、効果的な特徴フュージョンのための機能相互作用とともに、アテンション機構を用いる。 提案手法は,大規模な受容場からのリッチなコンテキスト情報を集約する,効果的な融合戦略により,カモフラージュされた物体を検出する。 これらの設計はすべてCODの要件を満たしており、カモフラージュされた物体の正確な検出を可能にしている。 広範に使用されているベンチマークデータセットに対する広範囲な実験により、我々の手法は正確なキャモフラージュされたオブジェクトを検出でき、最先端の手法よりも優れていることが示された。

Camouflaged object detection (COD), which aims to identify the objects that conceal themselves into the surroundings, has recently drawn increasing research efforts in the field of computer vision. In practice, the success of deep learning based COD is mainly determined by two key factors, including (i) A significantly large receptive field, which provides rich context information, and (ii) An effective fusion strategy, which aggregates the rich multi-level features for accurate COD. Motivated by these observations, in this paper, we propose a novel deep learning based COD approach, which integrates the large receptive field and effective feature fusion into a unified framework. Specifically, we first extract multi-level features from a backbone network. The resulting features are then fed to the proposed dual-branch mixture convolution modules, each of which utilizes multiple asymmetric convolutional layers and two dilated convolutional layers to extract rich context features from a large receptive field. Finally, we fuse the features using specially-designed multilevel interactive fusion modules, each of which employs an attention mechanism along with feature interaction for effective feature fusion. Our method detects camouflaged objects with an effective fusion strategy, which aggregates the rich context information from a large receptive field. All of these designs meet the requirements of COD well, allowing the accurate detection of camouflaged objects. Extensive experiments on widely-used benchmark datasets demonstrate that our method is capable of accurately detecting camouflaged objects and outperforms the state-of-the-art methods.
翻訳日:2024-07-23 02:37:22 公開日:2024-07-19
# ソースフリーセマンティックセグメンテーションのためのカリキュラム型自己学習手法

A Curriculum-style Self-training Approach for Source-Free Semantic Segmentation ( http://arxiv.org/abs/2106.11653v5 )

ライセンス: Link先を確認
Yuxi Wang, Jian Liang, Zhaoxiang Zhang, (参考訳) ソースのないドメイン適応は近年急速に発展しており、十分に訓練されたソースモデルはソースデータではなくターゲットドメインに適応し、プライバシの懸念や知的財産権保護の可能性を秘めている。 しかし、この困難な問題設定では、事前のドメイン適応手法における多くの特徴アライメント技術は実現不可能である。 そこで我々は、固有のドメイン不変な特徴学習を探索し、ソースフリーなドメイン適応セマンティックセマンティックセグメンテーションのためのカリキュラムスタイルの自己学習手法を提案する。 特に,カリキュラムスタイルのエントロピー最小化手法を導入し,学習したソースモデルと対象データとを適合させた暗黙の知識を探索する。 次に,学習方法に従って負の擬似ラベルと正の擬似ラベルを利用する,補完的なカリキュラムスタイルの自己学習によってセグメンテーションネットワークを訓練する。 不確実性の高い負の擬似ラベルは、正しいラベルでは識別できないが、確実に欠落しているクラスを示すことができる。 さらに、情報伝達方式を用いて、対象領域内のドメイン内不一致をさらに低減し、ドメイン適応フィールドの標準的な後処理方法として機能させることができる。 さらに,提案手法を,より難解なブラックボックス・ソース・モデル・シナリオに拡張する。 大規模な実験により,本手法は,合成・現実・悪条件の両方のデータセットに対して,ソースフリーなセマンティックセマンティックセグメンテーションタスクに対して,最先端の性能が得られることが検証された。 コードとそれに対応するトレーニングされたモデルは、 \url{https://github.com/yxiwang/ATP} でリリースされる。

Source-free domain adaptation has developed rapidly in recent years, where the well-trained source model is adapted to the target domain instead of the source data, offering the potential for privacy concerns and intellectual property protection. However, a number of feature alignment techniques in prior domain adaptation methods are not feasible in this challenging problem setting. Thereby, we resort to probing inherent domain-invariant feature learning and propose a curriculum-style self-training approach for source-free domain adaptive semantic segmentation. In particular, we introduce a curriculum-style entropy minimization method to explore the implicit knowledge from the source model, which fits the trained source model to the target data using certain information from easy-to-hard predictions. We then train the segmentation network by the proposed complementary curriculum-style self-training, which utilizes the negative and positive pseudo labels following the curriculum-learning manner. Although negative pseudo-labels with high uncertainty cannot be identified with the correct labels, they can definitely indicate absent classes. Moreover, we employ an information propagation scheme to further reduce the intra-domain discrepancy within the target domain, which could act as a standard post-processing method for the domain adaptation field. Furthermore, we extend the proposed method to a more challenging black-box source model scenario where only the source model's predictions are available. Extensive experiments validate that our method yields state-of-the-art performance on source-free semantic segmentation tasks for both synthetic-to-real and adverse conditions datasets. The code and corresponding trained models are released at \url{https://github.com/yxiwang/ATP}.
翻訳日:2024-07-23 02:31:08 公開日:2024-07-19
# 偏見・格差・公平性の因果的基礎

Causal foundations of bias, disparity and fairness ( http://arxiv.org/abs/2207.13665v3 )

ライセンス: Link先を確認
V. A. Traag, L. Waltman, (参考訳) 性別や人種的偏見などの偏見の研究は、社会科学や行動科学において重要なトピックである。 しかし、この文献は必ずしもその概念を明確に定義しているわけではない。 バイアスの定義は曖昧であるか、まったく提供されないことが多い。 偏見を正確に研究するには、偏見の明確な概念を持つことが重要である。 偏見を不当な直接的な因果効果として定義することを提案する。 偏差という概念をバイアスを含む直接的あるいは間接的な因果効果として定義することを提案する。 提案した定義は、より厳密で体系的な方法でバイアスと格差を研究するために使用することができる。 我々は、偏見と格差の定義を、人工知能文学で導入された公平性の様々な基準と比較する。 さらに、我々の定義が差別とどのように関連しているかについても論じる。 我々は、科学における性別バイアスと警察射撃における人種バイアスに焦点を当てた2つのケーススタディにおいて、偏見と格差の定義を説明する。 提案した定義は、偏見と格差の研究の因果的複雑さのより良い評価に寄与することを目的としている。 また、こうした研究の政策への影響に関する理解を深めていくことを願っている。

The study of biases, such as gender or racial biases, is an important topic in the social and behavioural sciences. However, the literature does not always clearly define the concept. Definitions of bias are often ambiguous or not provided at all. To study biases in a precise manner, it is important to have a well-defined concept of bias. We propose to define bias as a direct causal effect that is unjustified. We propose to define the closely related concept of disparity as a direct or indirect causal effect that includes a bias. Our proposed definitions can be used to study biases and disparities in a more rigorous and systematic way. We compare our definitions of bias and disparity with various criteria of fairness introduced in the artificial intelligence literature. In addition, we discuss how our definitions relate to discrimination. We illustrate our definitions of bias and disparity in two case studies, focusing on gender bias in science and racial bias in police shootings. Our proposed definitions aim to contribute to a better appreciation of the causal intricacies of studies of biases and disparities. We hope that this will also promote an improved understanding of the policy implications of such studies.
翻訳日:2024-07-23 02:31:08 公開日:2024-07-19
# ベル不等式最適化ツールセットとしてのテンソルネットワークの熱帯収縮

Tropical contraction of tensor networks as a Bell inequality optimization toolset ( http://arxiv.org/abs/2208.02798v2 )

ライセンス: Link先を確認
Mengyao Hu, Jordi Tura, (参考訳) ベル不等式の古典的境界を見つけることは、関連するテンソルネットワークの縮約として自然に枠付けられるが、トロピカル代数では和が最小に置き換わり、積が算術的な加算に置き換わる。 提案手法は,マルチパーティイトシナリオとバイパートイトシナリオの両方において,複数の結果を伴うパラダイム的な例で説明する。 本稿では,この手法がいくつかの変換不変系の熱力学限界にどのように拡張されるかを示し,熱帯固有値の概念と古典的粒子単位の古典的境界との関係を,熱帯再正規化法の固定点として確立する。

We show that finding the classical bound of broad families of Bell inequalities can be naturally framed as the contraction of an associated tensor network, but in tropical algebra, where the sum is replaced by the minimum and the product is replaced by the arithmetic addition. We illustrate our method with paradigmatic examples both in the multipartite scenario and the bipartite scenario with multiple outcomes. We showcase how the method extends into the thermodynamic limit for some translationally invariant systems and establish a connection between the notions of tropical eigenvalue and the classical bound per particle as a fixed point of a tropical renormalization procedure.
翻訳日:2024-07-23 02:31:08 公開日:2024-07-19
# クロスモダリティ・クロスドメイン知識伝達による教師なしスパイク深さ推定

Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer ( http://arxiv.org/abs/2208.12527v3 )

ライセンス: Link先を確認
Jiaming Liu, Qizhe Zhang, Xiaoqi Li, Jianing Li, Guanqun Wang, Ming Lu, Tiejun Huang, Shanghang Zhang, (参考訳) ニューロモルフィックスパイクデータは、高速度運動のぼかしによる課題を緩和することにより、自律運転において有望な可能性を示唆している。 しかし, スパイク深度推定ネットワークの訓練には, 画素単位のタスクに対する空間情報の不足と, 時間的に集中的なスパイクストリームに対するペア深度ラベルの達成が困難という2つの側面がある。 そこで我々は,スパイク深度推定をサポートするためにオープンソースのRGBデータを導入し,そのアノテーションと空間情報を活用する。 モダリティとデータの分散に固有の違いがあるため、オープンソースのRGBからの転送学習を直接ターゲットスパイクデータに適用することは困難である。 この目的のために、シミュレーションされたメディアソーススパイクデータを導入し、教師なしスパイク深さ推定を実現するクロスモダリティクロスドメイン(BiCross)フレームワークを提案する。 具体的には、スパイク指向の不確実性を利用して、両モードの独特な強みを保ちながら、総合的なモダリティ間知識伝達を容易にするために、粗大な知識蒸留(CFKD)アプローチを設計する。 そこで本研究では,信頼度の高い画素単位の擬似ラベルを抽出し,学生モデルのドメインシフトを緩和し,ターゲットスパイクデータの誤り蓄積を回避する自己補正型教師・学生(SCTS)機構を提案する。 BiCrossの有効性を検証するため,Synthetic to Real,Extreme Weather,Scene Changing,Real Spikeの4つのシナリオについて広範な実験を行った。 提案手法は,RGB指向の教師なし深度推定法と比較して,最先端(SOTA)性能を実現する。 コードとデータセット:https://github.com/Theia-4869/BiCross

Neuromorphic spike data, an upcoming modality with high temporal resolution, has shown promising potential in autonomous driving by mitigating the challenges posed by high-velocity motion blur. However, training the spike depth estimation network holds significant challenges in two aspects: sparse spatial information for pixel-wise tasks and difficulties in achieving paired depth labels for temporally intensive spike streams. Therefore, we introduce open-source RGB data to support spike depth estimation, leveraging its annotations and spatial information. The inherent differences in modalities and data distribution make it challenging to directly apply transfer learning from open-source RGB to target spike data. To this end, we propose a cross-modality cross-domain (BiCross) framework to realize unsupervised spike depth estimation by introducing simulated mediate source spike data. Specifically, we design a Coarse-to-Fine Knowledge Distillation (CFKD) approach to facilitate comprehensive cross-modality knowledge transfer while preserving the unique strengths of both modalities, utilizing a spike-oriented uncertainty scheme. Then, we propose a Self-Correcting Teacher-Student (SCTS) mechanism to screen out reliable pixel-wise pseudo labels and ease the domain shift of the student model, which avoids error accumulation in target spike data. To verify the effectiveness of BiCross, we conduct extensive experiments on four scenarios, including Synthetic to Real, Extreme Weather, Scene Changing, and Real Spike. Our method achieves state-of-the-art (SOTA) performances, compared with RGB-oriented unsupervised depth estimation methods. Code and dataset: https://github.com/Theia-4869/BiCross
翻訳日:2024-07-23 02:31:08 公開日:2024-07-19
# 量子絡み合いの前提条件としての文脈性

Contextuality as a Precondition for Quantum Entanglement ( http://arxiv.org/abs/2209.09942v2 )

ライセンス: Link先を確認
Martin Plávala, Otfried Gühne, (参考訳) 量子理論は、情報処理タスクのリソースとして考えられるいくつかの現象を特徴としている。 これらの効果のいくつか、例えば絡み合いは、異なるパーティ間で量子状態が分散される非局所的なシナリオで生じる。 他の現象、例えば文脈性(英語版)は、量子状態が準備され、次に測定の順序に従うと観測できる。 我々は、非局所的なシナリオとシーケンシャルなシナリオを接続し、異なるリソース間の親密な接続を提供するために、ロバストなリモート状態準備を使用します。 その結果, コンテクストの不等式を検証・測定するための不等式をエンタングルメントテストに変換することができ, さらに, 新規なコンテクストの不等式を設計するために, エンタングルメント証人を用いることが可能となった。

Quantum theory features several phenomena which can be considered as resources for information processing tasks. Some of these effects, such as entanglement, arise in a nonlocal scenario, where a quantum state is distributed between different parties. Other phenomena, such as contextuality, can be observed if quantum states are prepared and then subjected to sequences of measurements. We use robust remote state preparation to connect the nonlocal and sequential scenarios and provide an intimate connection between different resources: We prove that entanglement in a nonlocal scenario can arise only if there is preparation and measurement contextuality in the corresponding sequential scenario and that the absence of entanglement implies the absence of contextuality. As a direct consequence, our result allows us to translate any inequality for testing preparation and measurement contextuality into an entanglement test; in addition, entanglement witnesses can be used to design novel contextuality inequalities.
翻訳日:2024-07-23 02:31:08 公開日:2024-07-19
# Kerr効果と自己支援機構を用いた3自由度超絡み合うベル状態の完全解析

Complete analysis of hyperentangled Bell state in three degrees of freedom using Kerr effect and self-assisted mechanism ( http://arxiv.org/abs/2211.03113v2 )

ライセンス: Link先を確認
Zhi Zeng, (参考訳) 偏光と2つの長手運動量自由度を持つ光子系の完全多角形ベル状態解析 (HBSA) を, 弱いクロスカー非線形性, 線形光学素子, 単一光子検出器を用いて効率よく行う。 3つのDOFにおける64個の超絡み合うベル状態の識別過程において、自己支援機構が組み込まれており、我々のスキームはシンプルで実現可能である。 さらに,この完全HBSA方式の3つのDOFにおけるフォトニックハイパーアングルメントに基づく高容量量子通信プロトコルへの応用についても検討した。

We present an efficient scheme for the complete hyperentangled Bell state analysis (HBSA) of photon system with polarization and two longitudinal momentum degrees of freedom (DOFs), resorting to weak cross-Kerr nonlinearity, linear optical elements and single photon detectors. In the process of distinguishing the 64 hyperentangled Bell states in three DOFs, the self-assisted mechanism is embedded, which makes our scheme simple and realizable. Moreover, we have discussed the applications of this complete HBSA scheme for high-capacity quantum communication protocols that are based on photonic hyperentanglement in three DOFs.
翻訳日:2024-07-23 02:31:08 公開日:2024-07-19
# 界面ピコ秒およびナノ秒量子光パルス

Interfacing picosecond and nanosecond quantum light pulses ( http://arxiv.org/abs/2211.05112v2 )

ライセンス: Link先を確認
Filip Sośnicki, Michał Mikołajczyk, Ali Golestani, Michał Karpiński, (参考訳) 光は重要な情報キャリアであり、通信ファイバーネットワークを通じて世界中の高速データ伝送を可能にする。 この情報転送能力は、単一の光子 -- フライングキュービット -- に符号化することで、量子情報(QI)の送信にまで拡張することができる。 しかし、様々なQI処理プラットフォームは、非常に異なる時間スケールで動作する。 原子媒体中のQI処理ユニットはナノ秒からマイクロ秒のタイムスケールで動作し、ピコ秒のタイムスケールで高速な量子通信は、タイムスケールまたはそれに対応するスペクトル線幅のオーダーによって効率的にリンクできない。 本研究では、このギャップを埋めるために、複雑な高帯域電気光学位相変調を用いた大面積時間レンズを開発する。 我々は、量子光パルスのコヒーレントで決定論的スペクトル帯域圧縮を2桁以上、高効率で示す。 これは、これまで独立して開発されてきた超高速・準連続波実験プラットフォームをリンクすることで、大規模ハイブリッドQI処理を容易にする。

Light is a key information carrier, enabling worldwide high-speed data transmission through a telecommunication fibre network. This information-carrying capacity can be extended to transmitting quantum information (QI) by encoding it in single photons -- flying qubits. However, various QI-processing platforms operate at vastly different timescales. QI-processing units in atomic media, operating within nanosecond to microsecond timescales, and high-speed quantum communication, at picosecond timescales, cannot be efficiently linked due to orders of magnitude mismatch in the timescales or, correspondingly, spectral linewidths. In this work, we develop a large-aperture time lens using complex high-bandwidth electro-optic phase modulation to bridge this gap. We demonstrate coherent, deterministic spectral bandwidth compression of quantum light pulses by more than two orders of magnitude with high efficiency. It will facilitate large-scale hybrid QI-processing by linking the ultrafast and quasi-continuous-wave experimental platforms, which until now, to a large extent, have been developing independently.
翻訳日:2024-07-23 02:31:08 公開日:2024-07-19
# オンライン非確率制御入門

Introduction to Online Nonstochastic Control ( http://arxiv.org/abs/2211.09619v3 )

ライセンス: Link先を確認
Elad Hazan, Karan Singh, (参考訳) 本文は、動的システムの制御における新たなパラダイムと、オンライン非確率的制御と呼ばれる微分可能強化学習を紹介する。 新しいアプローチでは、オンライン凸最適化と凸緩和の手法を適用し、最適かつ堅牢な制御における古典的設定の保証を証明可能な新しい方法を得る。 オンラインの非確率的制御と他のフレームワークの主な違いは、目的である。 確率的雑音を仮定する最適制御、ロバスト制御、その他の制御手法において、目的はオフラインの最適戦略と相容れない実行を行うことである。 オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。 したがって、最適ポリシーは優先順位を定義しない。 むしろ目標は、ベンチマーククラスのポリシーから見て、最高のポリシーに対して低い後悔をすることにある。 本研究の目的は,オンライン凸最適化の意思決定フレームワークをアルゴリズム手法として活用することである。 得られた手法は反復的な数学的最適化アルゴリズムに基づいており、有限時間後悔と計算複雑性の保証を伴っている。

This text presents an introduction to an emerging paradigm in control of dynamical systems and differentiable reinforcement learning called online nonstochastic control. The new approach applies techniques from online convex optimization and convex relaxations to obtain new methods with provable guarantees for classical settings in optimal and robust control. The primary distinction between online nonstochastic control and other frameworks is the objective. In optimal control, robust control, and other control methodologies that assume stochastic noise, the goal is to perform comparably to an offline optimal strategy. In online nonstochastic control, both the cost functions as well as the perturbations from the assumed dynamical model are chosen by an adversary. Thus the optimal policy is not defined a priori. Rather, the target is to attain low regret against the best policy in hindsight from a benchmark class of policies. This objective suggests the use of the decision making framework of online convex optimization as an algorithmic methodology. The resulting methods are based on iterative mathematical optimization algorithms, and are accompanied by finite-time regret and computational complexity guarantees.
翻訳日:2024-07-23 02:31:08 公開日:2024-07-19
# 協調的に持続するレジリエント・コンセンサス

Resilient Consensus Sustained Collaboratively ( http://arxiv.org/abs/2302.02325v5 )

ライセンス: Link先を確認
Junchao Chen, Suyash Gupta, Alberto Sonnino, Lefteris Kokoris-Kogias, Mohammad Sadoghi, (参考訳) ブロックチェーン技術を中心に構築された分散システムは、クライアントに不変の台帳を約束する。 彼らは、Proof-of-Stake(PoS)またはByzantine Fault-Tolerant(BFT)コンセンサスプロトコルを実行するレプリカ間でコンセンサスを行った後、台帳にトランザクションを追加する。 残念ながら、これらのプロトコルは、レプリカの秘密鍵にアクセスする敵が台帳を書き換えることができるような長距離攻撃に直面している。 一つの解決策は、各コミットブロックに別のコンセンサス、Proof-of-Work(PoW)コンセンサスを強制することである。 本稿では、既存のPoS/BFTブロックチェーンを長距離攻撃から保護し、マイナが競争するよりも協力することを要求する、Power-of-Collaboration(PoC)プロトコルの設計を提案する。 PoCは公平性と説明責任を保証し、基盤となるシステムのスループットをわずかに低下させる。

Decentralized systems built around blockchain technology promise clients an immutable ledger. They add a transaction to the ledger after it undergoes consensus among the replicas that run a Proof-of-Stake (PoS) or Byzantine Fault-Tolerant (BFT) consensus protocol. Unfortunately, these protocols face a long-range attack where an adversary having access to the private keys of the replicas can rewrite the ledger. One solution is forcing each committed block from these protocols to undergo another consensus, Proof-of-Work(PoW) consensus; PoW protocol leads to wastage of computational resources as miners compete to solve complex puzzles. In this paper, we present the design of our Power-of-Collaboration (PoC) protocol, which guards existing PoS/BFT blockchains against long-range attacks and requires miners to collaborate rather than compete. PoC guarantees fairness and accountability and only marginally degrades the throughput of the underlying system.
翻訳日:2024-07-23 02:31:08 公開日:2024-07-19
# グラウンド・ディノ:オープンセットオブジェクト検出のためのグラウンド・プレトレーニングによるDINOとの結婚

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection ( http://arxiv.org/abs/2303.05499v5 )

ライセンス: Link先を確認
Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Qing Jiang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, (参考訳) そこで本稿では,TransformerをベースとしたDINOと事前学習を併用し,カテゴリ名や参照表現などの入力によって任意の物体を検出可能な,Grounding DINOと呼ばれるオープンセットオブジェクト検出器を提案する。 オープンセットオブジェクト検出の鍵となる解決策は、オープンセットの概念一般化のためのクローズドセット検出器に言語を導入することである。 言語と視覚のモダリティを効果的に融合するために, 閉集合検出器を3つの位相に分割し, 機能拡張器, 言語誘導クエリ選択, モダリティ間融合のためのクロスモダリティデコーダを含む密接な融合解を提案する。 従来の研究は,新しいカテゴリにおけるオープンセットオブジェクト検出を主に評価する一方で,属性で指定したオブジェクトに対する表現理解の参照についても評価する。 DINOはCOCO、LVIS、ODinW、RefCOCO/+/gのベンチマークを含む3つの設定で非常によく機能する。 グラウンディングDINOはCOCO検出ゼロショット転送ベンチマーク(つまりCOCOからのトレーニングデータなしで)で52.5ドルのAPを達成している。 ODinWゼロショットベンチマークでは、平均26.1ドルAPで新記録を樹立した。 コードは \url{https://github.com/IDEA-Research/GroundingDINO} で入手できる。

In this paper, we present an open-set object detector, called Grounding DINO, by marrying Transformer-based detector DINO with grounded pre-training, which can detect arbitrary objects with human inputs such as category names or referring expressions. The key solution of open-set object detection is introducing language to a closed-set detector for open-set concept generalization. To effectively fuse language and vision modalities, we conceptually divide a closed-set detector into three phases and propose a tight fusion solution, which includes a feature enhancer, a language-guided query selection, and a cross-modality decoder for cross-modality fusion. While previous works mainly evaluate open-set object detection on novel categories, we propose to also perform evaluations on referring expression comprehension for objects specified with attributes. Grounding DINO performs remarkably well on all three settings, including benchmarks on COCO, LVIS, ODinW, and RefCOCO/+/g. Grounding DINO achieves a $52.5$ AP on the COCO detection zero-shot transfer benchmark, i.e., without any training data from COCO. It sets a new record on the ODinW zero-shot benchmark with a mean $26.1$ AP. Code will be available at \url{https://github.com/IDEA-Research/GroundingDINO}.
翻訳日:2024-07-23 02:30:53 公開日:2024-07-19
# BERTモデルを用いたツイートの位置推定

Geolocation Predicting of Tweets Using BERT-Based Models ( http://arxiv.org/abs/2303.07865v3 )

ライセンス: Link先を確認
Kateryna Lutsai, Christoph H. Lampert, (参考訳) 本研究の目的は、ツイート/ユーザ位置情報予測タスクの解決と、テキストビッグデータのジオタグ化のための柔軟な方法論を提供することである。 提案手法はニューラルネットワークを用いて自然言語処理(NLP)を行い,その位置を座標対(経度,緯度)と2次元ガウス混合モデル(GMM)として推定する。 提案モデルの範囲は、トレーニング済みの双方向エンコーダ表現(BERT)をベースモデルとして、Twitterデータセット上で微調整されている。 パフォーマンスメトリクスは、世界中のレベルで30km未満の中央値エラーを示し、ツイートの内容とメタデータコンテキストのテキスト特徴に基づいてトレーニングされ評価されたモデルに対する米国レベルのデータセットでは15km未満である。 ソースコードとデータはhttps://github.com/K4TEL/geo-twitter.gitで公開されています。

This research is aimed to solve the tweet/user geolocation prediction task and provide a flexible methodology for the geotagging of textual big data. The suggested approach implements neural networks for natural language processing (NLP) to estimate the location as coordinate pairs (longitude, latitude) and two-dimensional Gaussian Mixture Models (GMMs). The scope of proposed models has been finetuned on a Twitter dataset using pretrained Bidirectional Encoder Representations from Transformers (BERT) as base models. Performance metrics show a median error of fewer than 30 km on a worldwide-level, and fewer than 15 km on the US-level datasets for the models trained and evaluated on text features of tweets' content and metadata context. Our source code and data are available at https://github.com/K4TEL/geo-twitter.git
翻訳日:2024-07-23 00:35:58 公開日:2024-07-19
# RCA: 視覚的帰納的推論のための条件付き適応

RCA: Region Conditioned Adaptation for Visual Abductive Reasoning ( http://arxiv.org/abs/2303.10428v4 )

ライセンス: Link先を確認
Hao Zhang, Yeo Keat Ee, Basura Fernando, (参考訳) 視覚誘発推論は、視覚的な観察のためにおそらく説明することを目的としている。 凍結したCLIPに局所的な視覚的手がかりから説明を推論する機能を持たせるハイブリッドパラメータ効率の良い微調整手法である、単純で効果的な領域条件適応を提案する。 私たちは ``local hints'' と ``global contexts'' を CLIP モデルの視覚的プロンプトに細粒度と粗粒度を別々にエンコードする。 アダプタは下流タスクのための微調整CLIPモデルに使用され、トレーニング可能なクエリと凍結したCLIPモデルのキープロジェクションでアテンションマップの焦点を直接制御する新しいアテンションアダプタを設計する。 最後に,視覚的特徴をリテラル記述と可視的説明の特徴に反映させるために,コントラスト損失を修正した新しいモデルを訓練する。 この損失により、CLIPは知覚と推論能力の両方を維持することができる。 シャーロックの視覚誘導推論ベンチマークの実験では、RCAは以前のSOTAをはるかに上回り、リーダーボード(例えば、人間Acc: RCA 31.74 \textit{vs} CPT-CLIP 29.58, higher =better)にランク付けしている。 我々はまた、RCAがRefCOCOのような局所的な知覚ベンチマークに一般化可能であることを検証する。 私たちはこのプロジェクトを、textit{\color{magenta}{\url{https://github.com/LUNAProject22/RPA}}}でオープンソース化しました。

Visual abductive reasoning aims to make likely explanations for visual observations. We propose a simple yet effective Region Conditioned Adaptation, a hybrid parameter-efficient fine-tuning method that equips the frozen CLIP with the ability to infer explanations from local visual cues. We encode ``local hints'' and ``global contexts'' into visual prompts of the CLIP model separately at fine and coarse-grained levels. Adapters are used for fine-tuning CLIP models for downstream tasks and we design a new attention adapter, that directly steers the focus of the attention map with trainable query and key projections of a frozen CLIP model. Finally, we train our new model with a modified contrastive loss to regress the visual feature simultaneously toward features of literal description and plausible explanations. The loss enables CLIP to maintain both perception and reasoning abilities. Experiments on the Sherlock visual abductive reasoning benchmark show that the RCA significantly outstands previous SOTAs, ranking the \nth{1} on the leaderboards (e.g., Human Acc: RCA 31.74 \textit{vs} CPT-CLIP 29.58, higher =better). We also validate the RCA is generalizable to local perception benchmarks like RefCOCO. We open-source our project at \textit{\color{magenta}{\url{https://github.com/LUNAProject22/RPA}}}.
翻訳日:2024-07-23 00:35:58 公開日:2024-07-19
# シンメトリバイマニュアルマニピュレーションのための学習型適応コンプライアンス手法

A Learning-based Adaptive Compliance Method for Symmetric Bi-manual Manipulation ( http://arxiv.org/abs/2303.15262v2 )

ライセンス: Link先を確認
Yuxue Cao, Wenbo Zhao, Shengjie Wang, Xiang Zheng, Wenke Ma, Zhaolei Wang, Tao Zhang, (参考訳) シンメトリバイマニュアル操作は、その強力な負荷容量のため、軌道上での操作において必須のスキルである。 従来の作業では、操作の安定性を維持するためにコンプライアンス制御を適用していた。 しかし、従来の手法では、運動計画とコンプライアンス制御を2つの別々のモジュールと見なしており、これは、外力や乱れの存在下での所望の軌道とインピーダンスパラメータの同時変化と矛盾する可能性がある。 さらに、これら2つのモジュールの併用には、専門家がパラメータを手動で調整する必要がある。 適応性を高めつつ高い効率性を実現するために,対称的双方向操作の効率性と堅牢性を向上させる学習ベース適応コンプライアンスアルゴリズム(LAC)を提案する。 具体的には、所望の軌道生成とインピーダンスパラメータ調整を統合し、矛盾を緩和し効率を向上させる。 第2に、LSTMネットワークを用いた集中型アクター・クライブフレームワークを導入し、力状態の事前処理を行い、バイマニュアル操作の同期性を向上させる。 両腕ペグ・イン・ホール組立実験において,本手法は最適性とロバスト性の観点から,ベースラインアルゴリズムよりも優れていた。

Symmetric bi-manual manipulation is an essential skill in on-orbit operations due to its potent load capacity. Previous works have applied compliant control to maintain the stability of manipulations. However, traditional methods have viewed motion planning and compliant control as two separate modules, which can lead to conflicts with the simultaneous change of the desired trajectory and impedance parameters in the presence of external forces and disturbances. Additionally, the joint usage of these two modules requires experts to manually adjust parameters. To achieve high efficiency while enhancing adaptability, we propose a novel Learning-based Adaptive Compliance algorithm (LAC) that improves the efficiency and robustness of symmetric bi-manual manipulation. Specifically, the algorithm framework integrates desired trajectory generation and impedance-parameter adjustment under a unified framework to mitigate contradictions and improve efficiency. Second, we introduce a centralized Actor-Critic framework with LSTM networks preprocessing the force states, enhancing the synchronization of bi-manual manipulation. When evaluated in dual-arm peg-in-hole assembly experiments, our method outperforms baseline algorithms in terms of optimality and robustness.
翻訳日:2024-07-23 00:35:58 公開日:2024-07-19
# 条件付き生成モデルはおそらくロバストである:ベイズ逆問題に対するポイントワイズ保証

Conditional Generative Models are Provably Robust: Pointwise Guarantees for Bayesian Inverse Problems ( http://arxiv.org/abs/2303.15845v3 )

ライセンス: Link先を確認
Fabian Altekrüger, Paul Hagemann, Gabriele Steidl, (参考訳) 条件生成モデルはベイズ逆問題後部からサンプリングするための非常に強力なツールとなった。 古典ベイズ文学では、過去の測度と、観測の摂動を含む負の対数類似度の両方の摂動に関して、後方測度がかなり頑丈であることが知られている。 しかし、我々の知る限り、観測の摂動に関する条件生成モデルの堅牢性はまだ研究されていない。 本稿では,適切な条件付き生成モデルが単一観測に対して頑健な結果をもたらすことを初めて証明する。

Conditional generative models became a very powerful tool to sample from Bayesian inverse problem posteriors. It is well-known in classical Bayesian literature that posterior measures are quite robust with respect to perturbations of both the prior measure and the negative log-likelihood, which includes perturbations of the observations. However, to the best of our knowledge, the robustness of conditional generative models with respect to perturbations of the observations has not been investigated yet. In this paper, we prove for the first time that appropriately learned conditional generative models provide robust results for single observations.
翻訳日:2024-07-23 00:35:58 公開日:2024-07-19
# 高次元におけるKochen-Specker文脈集合の生成 : 次元にスケールしない次元アップスケーリングとその応用

Generation of Kochen-Specker contextual sets in higher dimensions by dimensional upscaling whose complexity does not scale with dimension and their applications ( http://arxiv.org/abs/2305.08267v3 )

ライセンス: Link先を確認
Mladen Pavicic, Mordecai Waegell, (参考訳) 近年、文脈集合、特にKochen-Specker (KS) 集合の高次元での取り扱いは、理論的にも実験的にも、ますます注目されている。 しかし、それらの生成法は多様であり、一般にすべての次元や指数複雑性に当てはまらない。 そこで我々は,次元を拡大しない次元アップスケーリング法を設計する。 原理の証明として、最大27次元空間で管理可能なサイズのKSマスター集合を生成し、32次元以上に達することを示す。 これらのマスター集合から、より小さなKS集合の総数を得る。 より高次元のKS集合を扱う3種類の応用について論じる。 我々は、非同型 KS 集合の大きな族を利用する量子情報処理における KS 集合の他の応用を予想する。

Recently, handling of contextual sets, in particular Kochen-Specker (KS) sets, in higher dimensions has been given an increasing attention, both theoretically and experimentally. However, methods of their generation are diverse, not generally applicable in every dimension, and of exponential complexity. Therefore, we design a dimensional upscaling method, whose complexity does not scale with dimension. As a proof of principle we generate manageable-sized KS master sets in up to 27 dimensional spaces and show that well over 32 dimensions can be reached. From these master sets we obtain an ample number of smaller KS sets. We discuss three kinds of applications that work with KS sets in higher dimensions. We anticipate other applications of KS sets for quantum information processing that make use of large families of nonisomorphic KS sets.
翻訳日:2024-07-23 00:35:58 公開日:2024-07-19
# 個人差分潜流拡散モデル

Differentially Private Latent Diffusion Models ( http://arxiv.org/abs/2305.15759v5 )

ライセンス: Link先を確認
Michael F. Liu, Saiyue Lyu, Margarita Vinaroz, Mijung Park, (参考訳) 拡散モデル (DM) は高品質な画像を生成するために最も広く使われている生成モデルの一つである。 しかし、近年の論文では、DMは画像生成装置の最もプライベートな形態であり、DMから訓練画像の相当数の複製を抽出することで、DMが画像生成装置の最もプライベートな形態であることを指摘している。 DMの既存のプライバシー強化技術は、残念ながら、優れたプライバシーユーティリティトレードオフを提供していない。 本稿では,DEM(textit{Latent} Diffusion Models)を採用することにより,DP(差分プライバシ)を用いたDMの現状を改善することを目的とする。 LDMは、高次元の画素を低次元の潜在表現にマッピングする強力な事前学習オートエンコーダを備えており、DMをより効率的に高速に訓練することができる。 LDM全体を微調整する代わりに、DP-SGDでLDMのモジュールの$\textit{attention}$だけを微調整し、トレーニング可能なパラメータの数を約90\%削減し、より優れたプライバシーと精度のトレードオフを実現します。 提案手法により,DP保証付きテキストプロンプトに条件付き現実的な高次元画像(256x256)を生成することができる。 提案手法は,高画質のDP画像を生成するため,より強力で訓練効率のよい差分DMをトレーニングするための有望な方向を提供する。 私たちのコードはhttps://anonymous.4open.science/r/DP-LDM-4525で利用可能です。

Diffusion models (DMs) are one of the most widely used generative models for producing high quality images. However, a flurry of recent papers points out that DMs are least private forms of image generators, by extracting a significant number of near-identical replicas of training images from DMs. Existing privacy-enhancing techniques for DMs, unfortunately, do not provide a good privacy-utility tradeoff. In this paper, we aim to improve the current state of DMs with differential privacy (DP) by adopting the \textit{Latent} Diffusion Models (LDMs). LDMs are equipped with powerful pre-trained autoencoders that map the high-dimensional pixels into lower-dimensional latent representations, in which DMs are trained, yielding a more efficient and fast training of DMs. Rather than fine-tuning the entire LDMs, we fine-tune only the $\textit{attention}$ modules of LDMs with DP-SGD, reducing the number of trainable parameters by roughly $90\%$ and achieving a better privacy-accuracy trade-off. Our approach allows us to generate realistic, high-dimensional images (256x256) conditioned on text prompts with DP guarantees, which, to the best of our knowledge, has not been attempted before. Our approach provides a promising direction for training more powerful, yet training-efficient differentially private DMs, producing high-quality DP images. Our code is available at https://anonymous.4open.science/r/DP-LDM-4525.
翻訳日:2024-07-23 00:35:58 公開日:2024-07-19
# 低資源言語におけるLLMの民主化 : 言語論的多言語化による英語支配能力の活用

Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts ( http://arxiv.org/abs/2306.11372v2 )

ライセンス: Link先を確認
Xuan-Phi Nguyen, Sharifah Mahani Aljunied, Shafiq Joty, Lidong Bing, (参考訳) 大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。 しかし、低リソース言語では、そのような手書きの例を入手することは依然として困難であり、教師なしの技術が必要かもしれない。 さらに、LLMの有能な生成能力は、高リソース言語でのみ観察されるが、非表現言語における性能は、事前学習データの不均衡により低下する。 教師付きデータを持たない低リソース言語にLLMの能力を引き出すため,多種多様な高リソース言語から合成例を合成し,LLMが任意の言語から英語に翻訳するように促すことを提案する。 これらのプロンプトは、ターゲット言語でタスクを実行するための言語内例を作成するために使用される。 我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。 また,本手法から生成したデータに対して7Bモデルを微調整することで,175Bモデルと競合することを示す。 非英語翻訳タスクでは、多くの低リソース言語で最大3chrF++による教師あり命令よりも優れています。 ゼロショット多言語要約の評価では, 最大4 ROUGE-L, GPT-4が好適である。

Large language models (LLMs) are known to effectively perform tasks by simply observing few exemplars. However, in low-resource languages, obtaining such hand-picked exemplars can still be challenging, where unsupervised techniques may be necessary. Moreover, competent generative capabilities of LLMs are observed only in high-resource languages, while their performances among under-represented languages fall behind due to pre-training data imbalance. To elicit LLMs' ability onto low-resource languages without any supervised data, we propose to assemble synthetic exemplars from a diverse set of high-resource languages to prompt the LLMs to translate from any language into English. These prompts are then used to create intra-lingual exemplars to perform tasks in the target languages. Our unsupervised prompting method performs on par with supervised few-shot learning in LLMs of different sizes for translations between English and 13 Indic and 21 African low-resource languages. We also show that fine-tuning a 7B model on data generated from our method helps it perform competitively with a 175B model. In non-English translation tasks, our method even outperforms supervised prompting by up to 3 chrF++ in many low-resource languages. When evaluated on zero-shot multilingual summarization, our method surpasses other English-pivoting baselines by up to 4 ROUGE-L and is also favored by GPT-4.
翻訳日:2024-07-23 00:35:58 公開日:2024-07-19
# 制御可能な多様性を伴うシーケンスレコメンデーション:表現の退化と多様性

Sequential Recommendation with Controllable Diversification: Representation Degeneration and Diversity ( http://arxiv.org/abs/2306.11986v2 )

ライセンス: Link先を確認
Ziwei Fan, Zhiwei Liu, Hao Peng, Philip S. Yu, (参考訳) シークエンシャルレコメンデーション(SR)は、動的ユーザ好みをモデル化し、低次元(シークエンスとアイテム埋め込みスペース)のジョイント潜在空間において、シークエンスとアイテム間の親和性として次のイテム予測を生成する。 シーケンスとアイテムの表現は、ユーザ/イテムのロングテール分布による表現退化の問題に悩まされ、テールユーザ/アイテムは、潜在空間における狭いコーンとして区別不能に分散される。 表現退化問題は,既存のSR手法における推奨多様性の欠如の根本原因であり,ユーザの潜在的探索を損なうとともに,エコー室の問題をさらに悪化させるものである,と我々は主張する。 本研究では,まず,表現退化と推薦多様性の関係を明らかにする。 次に,新たなSingular sPectrum sMoothing regularization for Recommendation (SPMRec)を提案する。 提案したスムーズな正規化は, 多様性代理である特異値曲線の下での面積を最大化することにより, 退化を緩和する。 本研究では,SPMRecの優位性を示すために,4つのベンチマークデータセットを用いて実験を行い,提案した特異スペクトルの平滑化が推薦性能と多様性のバランスを同時に制御可能であることを示す。

Sequential recommendation (SR) models the dynamic user preferences and generates the next-item prediction as the affinity between the sequence and items, in a joint latent space with low dimensions (i.e., the sequence and item embedding space). Both sequence and item representations suffer from the representation degeneration issue due to the user/item long-tail distributions, where tail users/ items are indistinguishably distributed as a narrow cone in the latent space. We argue that the representation degeneration issue is the root cause of insufficient recommendation diversity in existing SR methods, impairing the user potential exploration and further worsening the echo chamber issue. In this work, we first disclose the connection between the representation degeneration and recommendation diversity, in which severer representation degeneration indicates lower recommendation diversity. We then propose a novel Singular sPectrum sMoothing regularization for Recommendation (SPMRec), which acts as a controllable surrogate to alleviate the degeneration and achieve the balance between recommendation diversity and performance. The proposed smoothing regularization alleviates the degeneration by maximizing the area under the singular value curve, which is also the diversity surrogate. We conduct experiments on four benchmark datasets to demonstrate the superiority of SPMRec, and show that the proposed singular spectrum smoothing can control the balance of recommendation performance and diversity simultaneously.
翻訳日:2024-07-23 00:35:58 公開日:2024-07-19
# クロスバリデーション(クロスバリデーション)は、騒音推定の統計的アプローチ

Cross-Validation Is All You Need: A Statistical Approach To Label Noise Estimation ( http://arxiv.org/abs/2306.13990v2 )

ライセンス: Link先を確認
Jianan Chen, Vishwesh Ramanathan, Tony Xu, Anne L. Martel, (参考訳) マシンラーニングモデルは、ノイズラベルの存在下でトレーニングされた場合、パフォーマンスが低下する。 これは、サバイバル予測のような医療タスクでは特に問題であり、通常は明確な解決策がほとんどない高ラベルノイズの複雑さに直面している。 そこで我々はモンテカルロ実験を設計し,その変動がラベルノイズによって引き起こされることを示す。 そこで本研究では,より頻度の低いクロスバリデーション結果に寄与するサンプルをピンポイントすることで,ノイズを効果的に識別する新しい2つのラベルノイズ検出アルゴリズムを提案する。 モデル選択に頑健なパラメータフリーラベルノイズ検出アルゴリズムであるReCoV(Repeated Cross-Validation)を導入する。 我々はさらに、ディープラーニングアプリケーションに適した、より堅牢で、よりトラクタブルで効率的なReCoVの亜種であるfastReCoVを開発した。 実験により,ReCoVとfastReCoVは,未解決のサバイバル分析を含む多種多様なモダリティ,モデル,タスクにおいて,最先端のラベルノイズ検出性能を実現することを示す。 私たちのコードとデータはhttps://github.com/GJiananChen/ReCoV.comで公開されています。

Machine learning models experience deteriorated performance when trained in the presence of noisy labels. This is particularly problematic for medical tasks, such as survival prediction, which typically face high label noise complexity with few clear-cut solutions. Inspired by the large fluctuations across folds in the cross-validation performance of survival analyses, we design Monte-Carlo experiments to show that such fluctuation could be caused by label noise. We propose two novel and straightforward label noise detection algorithms that effectively identify noisy examples by pinpointing the samples that more frequently contribute to inferior cross-validation results. We first introduce Repeated Cross-Validation (ReCoV), a parameter-free label noise detection algorithm that is robust to model choice. We further develop fastReCoV, a less robust but more tractable and efficient variant of ReCoV suitable for deep learning applications. Through extensive experiments, we show that ReCoV and fastReCoV achieve state-of-the-art label noise detection performance in a wide range of modalities, models and tasks, including survival analysis, which has yet to be addressed in the literature. Our code and data are publicly available at https://github.com/GJiananChen/ReCoV.
翻訳日:2024-07-23 00:35:58 公開日:2024-07-19
# LOAF-M2L:Singable Melody-to-Lyric Generationのための単語とフォルマッティングの連成学習

LOAF-M2L: Joint Learning of Wording and Formatting for Singable Melody-to-Lyric Generation ( http://arxiv.org/abs/2307.02146v2 )

ライセンス: Link先を確認
Longshen Ou, Xichu Ma, Ye Wang, (参考訳) これまでのメロディ-歌詞生成研究の努力にもかかわらず、生成した歌詞と旋律の間には大きな相違点があり、出力の発声性に悪影響を及ぼす。 本稿では,メロディ・トゥ・リリック・トレーニング中にwOrding and Formattingを共同で学習することで,歌いやすい歌詞を生成する新しいアプローチで,歌いやすさのギャップを埋める。 一般ドメイン事前訓練後,提案手法はテキストのみの大規模歌詞コーパスから長さ認識を得る。 次に,メロディと歌詞の関係に関する音楽学的研究から,メロディから歌詞への訓練において,モデルがメロディの詳細な形式要件を学習できるようにする新たな目的を提案する。 本モデルでは,テキストの流速を犠牲にすることなく,行数および行数に対する絶対精度が3.75%,21.44%向上した。 さらに,本モデルでは,最新のメロディ-歌詞生成モデルと比較して,音楽と歌詞の互換性と主観的評価における全体的な品質が63.92%,74.18%向上していることを示し,フォーマッティング学習の重要性を強調した。

Despite previous efforts in melody-to-lyric generation research, there is still a significant compatibility gap between generated lyrics and melodies, negatively impacting the singability of the outputs. This paper bridges the singability gap with a novel approach to generating singable lyrics by jointly Learning wOrding And Formatting during Melody-to-Lyric training. After general-domain pretraining, our proposed model acquires length awareness first from a large text-only lyric corpus. Then, we introduce a new objective informed by musicological research on the relationship between melody and lyrics during melody-to-lyric training, which enables the model to learn the fine-grained format requirements of the melody. Our model achieves 3.75% and 21.44% absolute accuracy gains in the outputs' number-of-line and syllable-per-line requirements compared to naive fine-tuning, without sacrificing text fluency. Furthermore, our model demonstrates a 63.92% and 74.18% relative improvement of music-lyric compatibility and overall quality in the subjective evaluation, compared to the state-of-the-art melody-to-lyric generation model, highlighting the significance of formatting learning.
翻訳日:2024-07-23 00:35:58 公開日:2024-07-19
# 個人フェデレーションデータ分析のためのサンプリング可能な匿名アグリゲーション

Samplable Anonymous Aggregation for Private Federated Data Analysis ( http://arxiv.org/abs/2307.15017v2 )

ライセンス: Link先を確認
Kunal Talwar, Shan Wang, Audra McMillan, Vojta Jina, Vitaly Feldman, Pansy Bansal, Bailey Basile, Aine Cahill, Yi Sheng Chan, Mike Chatzidakis, Junye Chen, Oliver Chick, Mona Chitnis, Suman Ganta, Yusuf Goren, Filip Granqvist, Kristine Guo, Frederic Jacobs, Omid Javidbakht, Albert Liu, Richard Low, Dan Mascenik, Steve Myers, David Park, Wonhee Park, Gianni Parsa, Tommy Pauly, Christian Priebe, Rehan Rishi, Guy Rothblum, Michael Scaria, Linmao Song, Congzheng Song, Karl Tarbe, Sebastian Vogt, Luke Winstrom, Shundong Zhou, (参考訳) 我々は、各デバイスがプライベートデータを保持する際に、プライベート統計とプライベートフェデレーション学習のためのスケーラブルなプロトコルを設計する問題について再考する。 局所的に微分されたプライベートアルゴリズムは、ほとんど信頼を必要としないが、(おそらく)実用性に制限がある。 中央的に微分されたプライベートアルゴリズムは、はるかに優れたユーティリティを実現することができるが、信頼できるキュレーターを必要とする。 このギャップは単純な暗号プリミティブの設計と実装に大きな関心を惹き付けており、中央サーバーを信頼することなく、中央的なユーティリティ保証を可能にする。 最初のコントリビューションは、複数のよく使われるアルゴリズムの効率的な実装を可能にする新しいプリミティブを提案し、それに関連する強力な信頼前提を必要とせずに、中央設定のそれに近いプライバシ会計を可能にすることです。 初期の研究で提案された {\em Shuffling} と {\em aggregate} プリミティブは、いくつかのアルゴリズムでこれを可能にするが、プリミティブとして重要な制限を持つ。 入力のランダムなサブセットの集合を計算し、それが様々な基本的なタスクに対してより優れたプライバシーとユーティリティのトレードオフをもたらすことを示す。 次に,このプリミティブを実装し,提案システムに対するセキュリティ解析を行うシステムアーキテクチャを提案する。 我々の設計では、付加的な秘密共有と匿名化と認証インフラを組み合わせています。

We revisit the problem of designing scalable protocols for private statistics and private federated learning when each device holds its private data. Locally differentially private algorithms require little trust but are (provably) limited in their utility. Centrally differentially private algorithms can allow significantly better utility but require a trusted curator. This gap has led to significant interest in the design and implementation of simple cryptographic primitives, that can allow central-like utility guarantees without having to trust a central server. Our first contribution is to propose a new primitive that allows for efficient implementation of several commonly used algorithms, and allows for privacy accounting that is close to that in the central setting without requiring the strong trust assumptions it entails. {\em Shuffling} and {\em aggregation} primitives that have been proposed in earlier works enable this for some algorithms, but have significant limitations as primitives. We propose a {\em Samplable Anonymous Aggregation} primitive, which computes an aggregate over a random subset of the inputs and show that it leads to better privacy-utility trade-offs for various fundamental tasks. Secondly, we propose a system architecture that implements this primitive and perform a security analysis of the proposed system. Our design combines additive secret-sharing with anonymization and authentication infrastructures.
翻訳日:2024-07-23 00:35:58 公開日:2024-07-19
# どの変圧器を好むか:視覚変換器の効率の比較分析

Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers ( http://arxiv.org/abs/2308.09372v3 )

ライセンス: Link先を確認
Tobias Christian Nauen, Sebastian Palacio, Federico Raue, Andreas Dengel, (参考訳) トランスフォーマーにおける自己注意は、2次計算の複雑さのために高い計算コストが伴うが、言語や視覚における問題に対処する上での有効性は、その効率を高めることを目的とした広範な研究を引き起こしている。 しかし、複数の入力領域にまたがる多様な実験条件は、報告された結果のみに基づく公正な比較を防止し、モデル選択の課題を提起する。 このようなコンパラビリティのギャップに対処するため、画像分類のための45モデル以上の大規模ベンチマークを行い、精度、速度、メモリ使用量などの重要な効率面を評価した。 我々のベンチマークは、効率指向変換器の標準化されたベースラインを提供する。 最適モデルのバウンダリであるParetoフロントに基づいて結果を分析する。 驚くべきことに、他のモデルの方が効率的という主張にもかかわらず、ViTはParetoを複数のメトリクスで最適に保っている。 我々は,ハイブリッドアテンション-CNNモデルにおいて,メモリとパラメータの効率が著しく向上することが観察された。 さらに,本ベンチマークでは,高分解能画像よりも高次モデルの方が高効率であることが示唆された。 総合的な評価により,我々は,効率的なトランスフォーマーの選択や開発を行う際の情報的意思決定を容易にし,実践者や研究者に集中的なリソースを提供する。

Self-attention in Transformers comes with a high computational cost because of their quadratic computational complexity, but their effectiveness in addressing problems in language and vision has sparked extensive research aimed at enhancing their efficiency. However, diverse experimental conditions, spanning multiple input domains, prevent a fair comparison based solely on reported results, posing challenges for model selection. To address this gap in comparability, we perform a large-scale benchmark of more than 45 models for image classification, evaluating key efficiency aspects, including accuracy, speed, and memory usage. Our benchmark provides a standardized baseline for efficiency-oriented transformers. We analyze the results based on the Pareto front -- the boundary of optimal models. Surprisingly, despite claims of other models being more efficient, ViT remains Pareto optimal across multiple metrics. We observe that hybrid attention-CNN models exhibit remarkable inference memory- and parameter-efficiency. Moreover, our benchmark shows that using a larger model in general is more efficient than using higher resolution images. Thanks to our holistic evaluation, we provide a centralized resource for practitioners and researchers, facilitating informed decisions when selecting or developing efficient transformers.
翻訳日:2024-07-23 00:35:58 公開日:2024-07-19
# GKGNet:マルチラベル画像認識のためのグループK-Nearest Neighborに基づくグラフ畳み込みネットワーク

GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition ( http://arxiv.org/abs/2308.14378v3 )

ライセンス: Link先を確認
Ruijie Yao, Sheng Jin, Lumin Xu, Wang Zeng, Wentao Liu, Chen Qian, Ping Luo, Ji Wu, (参考訳) マルチラベル画像認識(MLIR)は、ラベルと画像領域の間の複雑な関係をモデル化しながら、単一のイメージ内で複数のオブジェクトラベルを予測することを目的とした課題である。 畳み込みニューラルネットワークと視覚変換器は、ピクセルやパッチの正規グリッドとして画像を処理することに成功しているが、これらの表現は不規則で不連続な領域をキャプチャするのに最適である。 本稿では,グループK-アネレス近傍のグラフ畳み込みネットワーク (GKGNet) を初めて提案し, セマンティックラベルの埋め込みと画像パッチの接続を柔軟で統一されたグラフ構造でモデル化する。 異なるオブジェクトのスケール分散に対処し、複数の視点から情報を取得するために、動的グラフ構築とメッセージパッシングのためのグループKGCNモジュールを提案する。 実験により,GKGNetは,MS-COCOデータセットやVOC2007データセットといった挑戦的なマルチラベルデータセットに対して,計算コストを大幅に削減して,最先端の性能を実現することを示した。 コードはhttps://github.com/jin-s13/GKGNetで入手できる。

Multi-Label Image Recognition (MLIR) is a challenging task that aims to predict multiple object labels in a single image while modeling the complex relationships between labels and image regions. Although convolutional neural networks and vision transformers have succeeded in processing images as regular grids of pixels or patches, these representations are sub-optimal for capturing irregular and discontinuous regions of interest. In this work, we present the first fully graph convolutional model, Group K-nearest neighbor based Graph convolutional Network (GKGNet), which models the connections between semantic label embeddings and image patches in a flexible and unified graph structure. To address the scale variance of different objects and to capture information from multiple perspectives, we propose the Group KGCN module for dynamic graph construction and message passing. Our experiments demonstrate that GKGNet achieves state-of-the-art performance with significantly lower computational costs on the challenging multi-label datasets, i.e., MS-COCO and VOC2007 datasets. Codes are available at https://github.com/jin-s13/GKGNet.
翻訳日:2024-07-23 00:35:58 公開日:2024-07-19
# MS23D:マルチスケール意味的特徴点を用いた3次元物体検出手法による3次元特徴層の構築

MS23D: : A 3D Object Detection Method Using Multi-Scale Semantic Feature Points to Construct 3D Feature Layer ( http://arxiv.org/abs/2308.16518v7 )

ライセンス: Link先を確認
Yongxin Shao, Aihong Tan, Binrui Wang, Tianhong Yan, Zhetao Sun, Yiyang Zhang, Jiaxin Liu, (参考訳) LiDAR点雲は、三次元空間における物体の動きと姿勢を効果的に描写することができる。 多くの研究では、点雲の酸化による3次元物体の検出が達成されている。 しかし、自律運転のシナリオでは、点雲の空間性と空洞性は、ボキセルベースの方法にいくつかの困難をもたらす。 点雲の広がりは、物体の幾何学的特徴を記述するのを困難にしている。 点雲の空洞性は、3次元特徴の集約に困難をもたらす。 我々はMS23Dと呼ばれる2段階の3Dオブジェクト検出フレームワークを提案する。 1) マルチブランチからのボクセル特徴点を用いた3次元特徴層の構築手法を提案する。 異なる分岐からのボクセル特徴点を用いて,よりリッチなセマンティック特徴を持つ比較的コンパクトな3D特徴層を構築する。 さらに, 距離重み付きサンプリング手法を提案し, ダウンサンプリングによる前景点の損失を低減し, 3次元特徴層がより多くの前景点を保持することができるようにした。 2) 点雲の空洞化に反応して, 物体の遠心点と深度特徴点とのオフセットを予測し, 物体の遠心点にできるだけ接近させる。 これにより、これらの特徴点と豊富な意味的特徴の集約が可能になる。 浅層からの特徴点については、物体の幾何学的特徴を記述するために、物体の表面に保持する。 提案手法の有効性を,KITTIデータセットとONCEデータセットの両方で評価した。

LiDAR point clouds can effectively depict the motion and posture of objects in three-dimensional space. Many studies accomplish the 3D object detection by voxelizing point clouds. However, in autonomous driving scenarios, the sparsity and hollowness of point clouds create some difficulties for voxel-based methods. The sparsity of point clouds makes it challenging to describe the geometric features of objects. The hollowness of point clouds poses difficulties for the aggregation of 3D features. We propose a two-stage 3D object detection framework, called MS23D. (1) We propose a method using voxel feature points from multi-branch to construct the 3D feature layer. Using voxel feature points from different branches, we construct a relatively compact 3D feature layer with rich semantic features. Additionally, we propose a distance-weighted sampling method, reducing the loss of foreground points caused by downsampling and allowing the 3D feature layer to retain more foreground points. (2) In response to the hollowness of point clouds, we predict the offsets between deep-level feature points and the object's centroid, making them as close as possible to the object's centroid. This enables the aggregation of these feature points with abundant semantic features. For feature points from shallow-level, we retain them on the object's surface to describe the geometric features of the object. To validate our approach, we evaluated its effectiveness on both the KITTI and ONCE datasets.
翻訳日:2024-07-23 00:26:14 公開日:2024-07-19
# 多モード自己教師型学習における共通表現と特異表現の分離

Decoupling Common and Unique Representations for Multimodal Self-supervised Learning ( http://arxiv.org/abs/2309.05300v3 )

ライセンス: Link先を確認
Yi Wang, Conrad M Albrecht, Nassim Ait Ali Braham, Chenying Liu, Zhitong Xiong, Xiao Xiang Zhu, (参考訳) マルチセンサデータの利用可能化が進み、マルチモーダルな自己教師型学習への関心が高まっている。 しかし、既存のほとんどのアプローチは、モダリティ間の共通表現のみを学習し、モダリティ内トレーニングやモダリティ・ユニク表現を無視している。 マルチモーダルな自己教師型学習のための簡易かつ効果的な方法として,Decoupling Common and Unique Representations (DeCUR)を提案する。 マルチモーダル冗長性低減によるモーダル内埋め込みとモーダル内埋め込みを区別することにより、DeCURは異なるモーダル間で補完情報を統合できる。 我々は,DECURを3つの一般的なマルチモーダルシナリオ(レーダ光学,RGB標高,RGB深度)で評価し,アーキテクチャに関わらず,マルチモーダルおよびモダリティ欠落の設定に対して一貫した改善を示す。 徹底的な実験と包括的な分析により、この研究が貴重な洞察を与え、マルチモーダル表現の隠れた関係を研究することへの関心を高めることを願っている。

The increasing availability of multi-sensor data sparks wide interest in multimodal self-supervised learning. However, most existing approaches learn only common representations across modalities while ignoring intra-modal training and modality-unique representations. We propose Decoupling Common and Unique Representations (DeCUR), a simple yet effective method for multimodal self-supervised learning. By distinguishing inter- and intra-modal embeddings through multimodal redundancy reduction, DeCUR can integrate complementary information across different modalities. We evaluate DeCUR in three common multimodal scenarios (radar-optical, RGB-elevation, and RGB-depth), and demonstrate its consistent improvement regardless of architectures and for both multimodal and modality-missing settings. With thorough experiments and comprehensive analysis, we hope this work can provide valuable insights and raise more interest in researching the hidden relationships of multimodal representations.
翻訳日:2024-07-23 00:26:14 公開日:2024-07-19
# Discrete-Unit-based Style Transfer を用いた音声音声合成

Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer ( http://arxiv.org/abs/2309.07566v2 )

ライセンス: Link先を確認
Yongqi Wang, Jionghao Bai, Rongjie Huang, Ruiqi Li, Zhiqing Hong, Zhou Zhao, (参考訳) 音声から音声への直接翻訳(S2ST)は, 音声の話者の音色を保存できないが, 精度は著しく向上した。 一方、高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。 我々は、個別の自己教師付き音声表現とコーデック単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。 スタイル伝達のための音響言語モデルは、自己教師付きインコンテキスト学習を活用し、話者並列データに頼らずにスタイル伝達能力を取得し、データ不足を克服する。 広範に訓練されたデータを用いて、これまで見られなかったソース言語上で、ゼロショットのクロスランガルなスタイルの転送を実現する。 実験により,本モデルは高い忠実度と話者類似度を有する翻訳音声を生成することが示された。 オーディオサンプルはhttp://stylelm.github.io/で公開されている。

Direct speech-to-speech translation (S2ST) with discrete self-supervised representations has achieved remarkable accuracy, but is unable to preserve the speaker timbre of the source speech. Meanwhile, the scarcity of high-quality speaker-parallel data poses a challenge for learning style transfer during translation. We design an S2ST pipeline with style-transfer capability on the basis of discrete self-supervised speech representations and codec units. The acoustic language model we introduce for style transfer leverages self-supervised in-context learning, acquiring style transfer ability without relying on any speaker-parallel data, thereby overcoming data scarcity. By using extensive training data, our model achieves zero-shot cross-lingual style transfer on previously unseen source languages. Experiments show that our model generates translated speeches with high fidelity and speaker similarity. Audio samples are available at http://stylelm.github.io/ .
翻訳日:2024-07-23 00:26:14 公開日:2024-07-19
# 幅広い形態的変動を扱うための進化的ジェネリストコントローラ

Evolving generalist controllers to handle a wide range of morphological variations ( http://arxiv.org/abs/2309.10201v4 )

ライセンス: Link先を確認
Corinna Triebold, Anil Yaman, (参考訳) 神経進化的手法は幅広いタスクに対処するのに有効であることが証明されている。 しかし、進化的ニューラルネットワーク(ANN)の堅牢性と一般化性の研究は、いまだに限られている。 これは、そのようなコントローラーが制御タスクに使用されるロボット工学のような分野に多大な影響を及ぼす。 予期せぬ形態変化や環境変化は、ANNコントローラがこれらの変化を処理できなければ失敗する可能性がある。 本稿では,制御器の堅牢性と一般化性を高めることを目的としたアルゴリズムを提案する。 これは、進化的トレーニングプロセス中に形態学的変化を導入することで達成される。 その結果,その形態やパラメータの適応に関する情報を必要とせずに,多種多様な形態変化を十分に扱える一般制御器の発見が可能となった。 我々は,スペシャリストとジェネリストのトレードオフを示すシミュレーション実験を行った。 その結果, 一般学者は, 特定の形態に対して過小評価するコストを伴って, 様々な形態変化を制御できることが示唆された。 本研究は,ロバスト性と一般化可能性の限定的理解に対処し,これらの特性を改善する手法を提案する。

Neuro-evolutionary methods have proven effective in addressing a wide range of tasks. However, the study of the robustness and generalizability of evolved artificial neural networks (ANNs) has remained limited. This has immense implications in the fields like robotics where such controllers are used in control tasks. Unexpected morphological or environmental changes during operation can risk failure if the ANN controllers are unable to handle these changes. This paper proposes an algorithm that aims to enhance the robustness and generalizability of the controllers. This is achieved by introducing morphological variations during the evolutionary training process. As a results, it is possible to discover generalist controllers that can handle a wide range of morphological variations sufficiently without the need of the information regarding their morphologies or adaptation of their parameters. We perform an extensive experimental analysis on simulation that demonstrates the trade-off between specialist and generalist controllers. The results show that generalists are able to control a range of morphological variations with a cost of underperforming on a specific morphology relative to a specialist. This research contributes to the field by addressing the limited understanding of robustness and generalizability and proposes a method by which to improve these properties.
翻訳日:2024-07-23 00:26:14 公開日:2024-07-19
# XRMによる環境発見

Discovering environments with XRM ( http://arxiv.org/abs/2309.16748v2 )

ライセンス: Link先を確認
Mohammad Pezeshki, Diane Bouchacourt, Mark Ibrahim, Nicolas Ballas, Pascal Vincent, David Lopez-Paz, (参考訳) 環境アノテーションは、多くのアウト・オブ・ディストリビューション(OOD)一般化手法の成功に不可欠である。 残念なことに、これらはヒトのアノテーターのバイアスによって獲得され、しばしば制限される。 堅牢な一般化を実現するためには,データセット内の環境自動発見アルゴリズムの開発が不可欠である。 トレーニングエラーに基づいてサンプルを分割する現在の提案は、ひとつの根本的な問題に悩まされている。 これらの手法はハイパーパラメータとアーリーストッピングの基準を導入し、人間にアノテートされた環境を検証する必要がある。 本稿では,この問題に対処するクロスリスク最小化(XRM)を提案する。 XRMはツインネットワークを訓練し、それぞれがトレーニングデータのランダムな半分から学習する。 XRMはハイパーパラメータチューニングのレシピを提供し、早期停止を必要としない。 XRM環境上に構築されたアルゴリズムはオラクル最悪のグループ精度を実現し、OOD一般化における長年の課題に対処する。 コードは \url{https://github.com/facebookresearch/XRM} で公開されている。

Environment annotations are essential for the success of many out-of-distribution (OOD) generalization methods. Unfortunately, these are costly to obtain and often limited by human annotators' biases. To achieve robust generalization, it is essential to develop algorithms for automatic environment discovery within datasets. Current proposals, which divide examples based on their training error, suffer from one fundamental problem. These methods introduce hyper-parameters and early-stopping criteria, which require a validation set with human-annotated environments, the very information subject to discovery. In this paper, we propose Cross-Risk-Minimization (XRM) to address this issue. XRM trains twin networks, each learning from one random half of the training data, while imitating confident held-out mistakes made by its sibling. XRM provides a recipe for hyper-parameter tuning, does not require early-stopping, and can discover environments for all training and validation data. Algorithms built on top of XRM environments achieve oracle worst-group-accuracy, addressing a long-standing challenge in OOD generalization. Code available at \url{https://github.com/facebookresearch/XRM}.
翻訳日:2024-07-23 00:26:14 公開日:2024-07-19
# 開語彙検出のための領域中心画像言語事前学習

Region-centric Image-Language Pretraining for Open-Vocabulary Detection ( http://arxiv.org/abs/2310.00161v2 )

ライセンス: Link先を確認
Dahun Kim, Anelia Angelova, Weicheng Kuo, (参考訳) 画像レベルの事前学習と開語彙オブジェクト検出のギャップを埋めるために,領域中心の画像言語事前学習に基づく新しい開語彙検出手法を提案する。 事前学習段階では,分類バックボーン上に検出器アーキテクチャを組み込んで,大規模な画像テキストペアから検出ヘッドを学習することにより,検出の領域レベルの認識ニーズを改善する。 提案手法は,標準のコントラスト損失のみを用い,擬似ラベル付けは行わないため,創発的オブジェクト・セマンティック・キューを学習するためのコントラスト学習法をシンプルかつ効果的に拡張する。 さらに,バックボーン表現をより堅牢にし,翻訳不変性を低減し,ウィンドウパターンに偏りを無くすために,ウィンドウアテンションにシフトウインドウ学習手法を提案する。 一般的なLVISオープン語彙検出ベンチマークでは、一般的なViT-LバックボーンとパブリックLAIONデータセットを使用した37.6マスクAPrと、DataComp-1Bデータセットを使用した40.5マスクAPrを新たに設定し、システムレベルで+3.7マスクAPrによる既存のアプローチよりも大幅に優れています。 COCOベンチマークでは、擬似ラベル付けや弱い監督なしに、39.6の新規APを非常に競争力のあるものにする。 さらに,転送検出装置に対する我々のアプローチを評価し,ベースラインに対する顕著な改善を示す。 可視化は、ベースラインと比較して事前学習されたレシピから出現するオブジェクトの局所性を明らかにする。

We present a new open-vocabulary detection approach based on region-centric image-language pretraining to bridge the gap between image-level pretraining and open-vocabulary object detection. At the pretraining phase, we incorporate the detector architecture on top of the classification backbone, which better serves the region-level recognition needs of detection by enabling the detector heads to learn from large-scale image-text pairs. Using only standard contrastive loss and no pseudo-labeling, our approach is a simple yet effective extension of the contrastive learning method to learn emergent object-semantic cues. In addition, we propose a shifted-window learning approach upon window attention to make the backbone representation more robust, translation-invariant, and less biased by the window pattern. On the popular LVIS open-vocabulary detection benchmark, our approach sets a new state of the art of 37.6 mask APr using the common ViT-L backbone and public LAION dataset, and 40.5 mask APr using the DataComp-1B dataset, significantly outperforming the best existing approach by +3.7 mask APr at system level. On the COCO benchmark, we achieve very competitive 39.6 novel AP without pseudo labeling or weak supervision. In addition, we evaluate our approach on the transfer detection setup, where it demonstrates notable improvement over the baseline. Visualization reveals emerging object locality from the pretraining recipes compared to the baseline.
翻訳日:2024-07-23 00:26:14 公開日:2024-07-19
# AutoHall: 大規模言語モデルのための幻覚データセットの自動生成

AutoHall: Automated Hallucination Dataset Generation for Large Language Models ( http://arxiv.org/abs/2310.00259v2 )

ライセンス: Link先を確認
Zouying Cao, Yifei Yang, Hai Zhao, (参考訳) 大規模言語モデル(LLM)は、言語理解と生成能力の強化により、様々な領域に広範に応用されているが、LLMが生成する非現実的あるいは幻覚的コンテンツの検出は依然として不十分である。 現在,幻覚検出における重要な課題は,幻覚発生の経時的かつ高価な手作業による注釈作成である。 本稿ではまず,既存の事実チェックデータセットであるAutoHallに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。 さらに,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。 オープン/クローズド・ソース LLM に対して実験を行い,既存のベースラインと比較して幻覚検出性能が優れていることを示す。 さらに,本実験では,異なるモデル間の幻覚率と型の変化を明らかにした。

While Large language models (LLMs) have garnered widespread applications across various domains due to their powerful language understanding and generation capabilities, the detection of non-factual or hallucinatory content generated by LLMs remains scarce. Currently, one significant challenge in hallucination detection is the laborious task of time-consuming and expensive manual annotation of the hallucinatory generation. To address this issue, this paper first introduces a method for automatically constructing model-specific hallucination datasets based on existing fact-checking datasets called AutoHall. Furthermore, we propose a zero-resource and black-box hallucination detection method based on self-contradiction. We conduct experiments towards prevalent open-/closed-source LLMs, achieving superior hallucination detection performance compared to extant baselines. Moreover, our experiments reveal variations in hallucination proportions and types among different models.
翻訳日:2024-07-23 00:26:14 公開日:2024-07-19
# DeepHGCN: より深いハイパーボリックグラフ畳み込みネットワークを目指して

DeepHGCN: Toward Deeper Hyperbolic Graph Convolutional Networks ( http://arxiv.org/abs/2310.02027v4 )

ライセンス: Link先を確認
Jiaxu Liu, Xinping Yi, Xiaowei Huang, (参考訳) 双曲グラフ畳み込みネットワーク (HGCNs) は階層グラフから情報を抽出する大きな可能性を示している。 しかし、既存のHGCNは、双曲演算の計算コストと深さが増加するにつれて過度に平滑化の問題のため、浅いアーキテクチャに限られている。 GCNの過度な平滑化を緩和するために治療が適用されているが、双曲解の開発は、双曲性の性質に適合するように操作を慎重に設計する必要があるため、異なる課題を呈している。 これらの課題に対処するため、我々はDeepHGCNを提案する。DeepHGCNは、計算効率を劇的に改善し、オーバースムーシングを大幅に削減した最初のディープ多層HGCNアーキテクチャである。 DeepHGCNは、(1)高速かつ正確な線形写像を可能にする新しい双曲的特徴変換層、(2) 双曲的残差接続や重みと特徴の正則化などの技術、そして、効率的な双曲的中点法によって促進される。 広範囲な実験により、DeepHGCNはユークリッドと浅い双曲GCNの変種と比較してリンク予測とノード分類タスクの大幅な改善を達成している。

Hyperbolic graph convolutional networks (HGCNs) have demonstrated significant potential in extracting information from hierarchical graphs. However, existing HGCNs are limited to shallow architectures due to the computational expense of hyperbolic operations and the issue of over-smoothing as depth increases. Although treatments have been applied to alleviate over-smoothing in GCNs, developing a hyperbolic solution presents distinct challenges since operations must be carefully designed to fit the hyperbolic nature. Addressing these challenges, we propose DeepHGCN, the first deep multi-layer HGCN architecture with dramatically improved computational efficiency and substantially reduced over-smoothing. DeepHGCN features two key innovations: (1) a novel hyperbolic feature transformation layer that enables fast and accurate linear mappings, and (2) techniques such as hyperbolic residual connections and regularization for both weights and features, facilitated by an efficient hyperbolic midpoint method. Extensive experiments demonstrate that DeepHGCN achieves significant improvements in link prediction and node classification tasks compared to both Euclidean and shallow hyperbolic GCN variants.
翻訳日:2024-07-23 00:26:14 公開日:2024-07-19
# SPADE: ディープニューラルネットワークのための疎結合型デバッグ

SPADE: Sparsity-Guided Debugging for Deep Neural Networks ( http://arxiv.org/abs/2310.04519v2 )

ライセンス: Link先を確認
Arshia Soltani Moakhar, Eugenia Iofinova, Elias Frantar, Dan Alistarh, (参考訳) 疎性はディープニューラルネットワークの解釈可能性を向上させることが知られている。 しかし、既存の手法では、空間的制約で事前訓練されたネットワークを必要とするか、あるいはその後に空間的制約を課すか、ネットワークの一般的な振る舞いを変化させる必要がある。 本稿では,まず,サンプル固有の前処理ステップとして,スパーシリティを解釈プロセス自体に組み込むことを実証する。 従来の作業とは異なり、SPADEと呼ばれるこのアプローチは、トレーニングされたモデルに制約を課さず、サンプルの推論中にその振る舞いに影響を与えない。 トレーニングされたモデルとターゲットサンプルが与えられた後、SPADEはサンプルターゲットプルーニングを使用して、サンプル上でのネットワークの実行の"トレース"を提供し、解釈を計算する前にネットワークを最も重要なコネクションに減らした。 本研究では,SPADEによる事前処理により,複数の解釈可能性手法による画像の解像度マップの精度が著しく向上することが実証された。 さらに、SPADEはニューロンの可視化の有用性を改善し、人間のネットワーク行動の推論を支援する。 私たちのコードはhttps://github.com/IST-DASLab/SPADE.comで公開されています。

It is known that sparsity can improve interpretability for deep neural networks. However, existing methods in the area either require networks that are pre-trained with sparsity constraints, or impose sparsity after the fact, altering the network's general behavior. In this paper, we demonstrate, for the first time, that sparsity can instead be incorporated into the interpretation process itself, as a sample-specific preprocessing step. Unlike previous work, this approach, which we call SPADE, does not place constraints on the trained model and does not affect its behavior during inference on the sample. Given a trained model and a target sample, SPADE uses sample-targeted pruning to provide a "trace" of the network's execution on the sample, reducing the network to the most important connections prior to computing an interpretation. We demonstrate that preprocessing with SPADE significantly increases the accuracy of image saliency maps across several interpretability methods. Additionally, SPADE improves the usefulness of neuron visualizations, aiding humans in reasoning about network behavior. Our code is available at https://github.com/IST-DASLab/SPADE.
翻訳日:2024-07-23 00:26:14 公開日:2024-07-19
# 領域ベース冠状動脈インスタンスセグメンテーションのための擬似ラベル生成によるクロスタスクデータ拡張

Cross-Task Data Augmentation by Pseudo-label Generation for Region Based Coronary Artery Instance Segmentation ( http://arxiv.org/abs/2310.05990v2 )

ライセンス: Link先を確認
Sandesh Pokhrel, Sanjay Bhandari, Eduard Vazquez, Yash Raj Shrestha, Binod Bhattarai, (参考訳) 冠動脈疾患(CAD)は予防できるが、死因や障害の主な原因の一つである。 これらの疾患の診断は、しばしば困難で資源集約的である。 動脈の血管造影画像分割は、臨床医が正確な診断を行うのに役立つ補助具として進化してきた。 しかし、データ量が限られており、データセットのキュレーションが難しいため、セグメンテーションのタスクは難しいことが証明されている。 そこで本研究では, データベースにおけるデータ制限の問題に対処する擬似ラベルを導入し, ベースラインYOLOモデルの性能向上を図る。 固定データセットに制約されたモデルを改善する既存のデータ拡張手法とは異なり、異なる関連するタスクのデータセット上に生成された擬似ラベルを用いてモデル性能を多様化し改善する。 この方法は、検証データセットのベースラインF1スコアを9%、テストデータセットの3%向上させる。

Coronary Artery Diseases (CADs) although preventable, are one of the leading causes of death and disability. Diagnosis of these diseases is often difficult and resource intensive. Angiographic imaging segmentation of the arteries has evolved as a tool of assistance that helps clinicians make an accurate diagnosis. However, due to the limited amount of data and the difficulty in curating a dataset, the task of segmentation has proven challenging. In this study, we introduce the use of pseudo-labels to address the issue of limited data in the angiographic dataset to enhance the performance of the baseline YOLO model. Unlike existing data augmentation techniques that improve the model constrained to a fixed dataset, we introduce the use of pseudo-labels generated on a dataset of separate related task to diversify and improve model performance. This method increases the baseline F1 score by 9% in the validation data set and by 3% in the test data set.
翻訳日:2024-07-23 00:26:14 公開日:2024-07-19
# 効率的なデータセット凝縮のための階層的特徴共有の活用

Leveraging Hierarchical Feature Sharing for Efficient Dataset Condensation ( http://arxiv.org/abs/2310.07506v2 )

ライセンス: Link先を確認
Haizhong Zheng, Jiachen Sun, Shutong Wu, Bhavya Kailkhura, Zhuoqing Mao, Chaowei Xiao, Atul Prakash, (参考訳) 実世界のデータセットが与えられた場合、データ凝縮(DC)は、同等の精度でモデルのトレーニングに使用しながら、自然なデータセットの知識をキャプチャする小さな合成データセットを合成することを目的としている。 最近の研究は、データを画像ではなく、非常にコンパクトなパラメータ化されたデータコンテナに凝縮するデータパラメータ化により、DCを強化することを提案する。 データパラメータ化の背後にある直感は、画像の共有機能をエンコードして、追加のストレージコストを回避することである。 本稿では,従来のデータパラメータ化手法では見過ごされていない分類体系の階層構造により,画像が階層的に共通の特徴を共有することを認識している。 この階層的な性質とDCの整合性を向上し,データコンテナ内の情報共有の効率化を図るため,新しいデータパラメータ化アーキテクチャである階層メモリネットワーク(HMN)を提案する。 HMNは、凝縮したデータを3層構造に格納し、データセットレベル、クラスレベル、インスタンスレベルの特徴を表現する。 階層アーキテクチャのもう1つの有用な特性は、HMNが情報共有の達成にもかかわらず、自然に画像間で良好な独立性を保証することである。 これにより、HMNのインスタンスレベルのプルーニングにより冗長情報を低減し、冗長性をさらに最小化し、性能を向上させることができる。 5つの公開データセット上でHMNを評価し,提案手法がすべてのベースラインより優れていることを示す。

Given a real-world dataset, data condensation (DC) aims to synthesize a small synthetic dataset that captures the knowledge of a natural dataset while being usable for training models with comparable accuracy. Recent works propose to enhance DC with data parameterization, which condenses data into very compact parameterized data containers instead of images. The intuition behind data parameterization is to encode shared features of images to avoid additional storage costs. In this paper, we recognize that images share common features in a hierarchical way due to the inherent hierarchical structure of the classification system, which is overlooked by current data parameterization methods. To better align DC with this hierarchical nature and encourage more efficient information sharing inside data containers, we propose a novel data parameterization architecture, Hierarchical Memory Network (HMN). HMN stores condensed data in a three-tier structure, representing the dataset-level, class-level, and instance-level features. Another helpful property of the hierarchical architecture is that HMN naturally ensures good independence among images despite achieving information sharing. This enables instance-level pruning for HMN to reduce redundant information, thereby further minimizing redundancy and enhancing performance. We evaluate HMN on five public datasets and show that our proposed method outperforms all baselines.
翻訳日:2024-07-23 00:26:14 公開日:2024-07-19
# 近接場におけるメッシュ回復のためのマルチモーダルアクティブ計測

Multimodal Active Measurement for Human Mesh Recovery in Close Proximity ( http://arxiv.org/abs/2310.08116v3 )

ライセンス: Link先を確認
Takahiro Maeda, Keisuke Takeshita, Norimichi Ukita, Kazuhito Tanaka, (参考訳) 物理的人間-ロボット相互作用(pHRI)では、ロボットは対象者の正確な身体姿勢を推定する必要がある。 しかし、これらのpHRIシナリオでは、対象者が物理的相互作用のためにロボットの近くにいなければならないため、搭載カメラで対象者の身体を完全に観察することはできない。 この近接距離は重度の乱れと閉塞を引き起こし、結果として人間のポーズ推定の精度が低下する。 そこで本研究では,2次元LiDARなどのタッチ・レンジセンサを備えたカメラのアクティブな計測・センサ融合フレームワークを提案する。 触覚と測位センサーの計測は、人体部分のローカライズのための、希少だが信頼性があり、情報的な方法である。 アクティブな計測プロセスでは、カメラの視点とセンサーの配置を動的に最適化し、高い推定不確かさで身体部分を測定する。 センサ融合過程において, センサの計測値がカメラによる推定値よりも信頼性が高いことを前提として, 推定されたポーズを計測点に向けて整列させることにより, センサ計測値をカメラによる推定ポーズに融合させる。 提案手法は, 模擬能動測定を用いた標準閉塞ベンチマークにおいて, 従来手法よりも優れた性能を示した。 さらに,本手法は,毛布による隠蔽などの実用的制約を伴っても,実際のロボットを用いて人間のポーズを確実に推定する。

For physical human-robot interactions (pHRI), a robot needs to estimate the accurate body pose of a target person. However, in these pHRI scenarios, the robot cannot fully observe the target person's body with equipped cameras because the target person must be close to the robot for physical interaction. This close distance leads to severe truncation and occlusions and thus results in poor accuracy of human pose estimation. For better accuracy in this challenging environment, we propose an active measurement and sensor fusion framework of the equipped cameras with touch and ranging sensors such as 2D LiDAR. Touch and ranging sensor measurements are sparse but reliable and informative cues for localizing human body parts. In our active measurement process, camera viewpoints and sensor placements are dynamically optimized to measure body parts with higher estimation uncertainty, which is closely related to truncation or occlusion. In our sensor fusion process, assuming that the measurements of touch and ranging sensors are more reliable than the camera-based estimations, we fuse the sensor measurements to the camera-based estimated pose by aligning the estimated pose towards the measured points. Our proposed method outperformed previous methods on the standard occlusion benchmark with simulated active measurement. Furthermore, our method reliably estimated human poses using a real robot, even with practical constraints such as occlusion by blankets.
翻訳日:2024-07-23 00:26:14 公開日:2024-07-19
# ベイズ推論を用いた条件付き最適輸送のための効率的なニューラルネットワーク手法

Efficient Neural Network Approaches for Conditional Optimal Transport with Applications in Bayesian Inference ( http://arxiv.org/abs/2310.16975v2 )

ライセンス: Link先を確認
Zheyu Oliver Wang, Ricardo Baptista, Youssef Marzouk, Lars Ruthotto, Deepanshu Verma, (参考訳) 静的および動的条件付き最適輸送(COT)問題の解を近似する2つのニューラルネットワーク手法を提案する。 どちらの手法も条件付きサンプリングと条件付き密度推定を可能にしており、これはベイジアン推論のコアタスクである$\unicode{x2013}$特にシミュレーションベースの「いいね! 提案手法は,対象条件分布をトラクタブルな参照分布の変換として表現する。 多くの測度輸送アプローチはCOT写像として変換をモデル化するが、地図の取得は適度な次元であっても計算的に困難である。 スケーラビリティを向上させるために、ニューラルネットワークを用いてCOTマップをパラメータ化し、COT問題の構造をさらに活用する。 我々の静的アプローチは、部分入力凸ニューラルネットワークの勾配としてマップを近似する。 これは、最先端の代替よりも計算効率を向上させるために、新しい数値的な実装を使用している。 我々の動的アプローチは、正規化ニューラルネットワークのフローマップによる条件最適輸送を近似しており、静的アプローチと比較して、訓練は遅いが、より多くのモデリングオプションを提供し、より高速なサンプリングにつながる可能性がある。 我々は、ベンチマークデータセットとシミュレーションに基づくベイズ逆問題を用いて、両アルゴリズムを競合する最先端手法と比較し、数値的に示す。

We present two neural network approaches that approximate the solutions of static and dynamic conditional optimal transport (COT) problems. Both approaches enable conditional sampling and conditional density estimation, which are core tasks in Bayesian inference$\unicode{x2013}$particularly in the simulation-based ("likelihood-free") setting. Our methods represent the target conditional distributions as transformations of a tractable reference distribution and, therefore, fall into the framework of measure transport. Although many measure transport approaches model the transformation as COT maps, obtaining the map is computationally challenging, even in moderate dimensions. To improve scalability, our numerical algorithms use neural networks to parameterize COT maps and further exploit the structure of the COT problem. Our static approach approximates the map as the gradient of a partially input-convex neural network. It uses a novel numerical implementation to increase computational efficiency compared to state-of-the-art alternatives. Our dynamic approach approximates the conditional optimal transport via the flow map of a regularized neural ODE; compared to the static approach, it is slower to train but offers more modeling choices and can lead to faster sampling. We demonstrate both algorithms numerically, comparing them with competing state-of-the-art approaches, using benchmark datasets and simulation-based Bayesian inverse problems.
翻訳日:2024-07-23 00:26:14 公開日:2024-07-19
# 欠陥スペクトル: リッチセマンティックスを用いた大規模欠陥データセットの粒度図

Defect Spectrum: A Granular Look of Large-Scale Defect Datasets with Rich Semantics ( http://arxiv.org/abs/2310.17316v5 )

ライセンス: Link先を確認
Shuai Yang, Zhifei Chen, Pengguang Chen, Xi Fang, Yixun Liang, Shu Liu, Yingcong Chen, (参考訳) クローズドループ製造システムでは欠陥検査が最重要である。 しかし、欠陥検査のための既存のデータセットは、実際的なアプリケーションに必要な精度とセマンティックな粒度を欠いていることが多い。 本稿では,広範囲の産業的欠陥に対して,高精度でセマンティックなアノテーションと大規模アノテーションを提供する包括的ベンチマークであるDefect Spectrumを紹介する。 4つの重要な産業ベンチマークに基づいて、私たちのデータセットは既存のアノテーションを洗練し、単一のイメージ内の複数の欠陥タイプを識別する、リッチなセマンティックな詳細を導入します。 さらに、限られたデータセットを扱う場合でも、高品質で多様な欠陥画像を生成するように設計された2段階拡散ベースジェネレータであるDefect-Genを紹介する。 Defect-Genによって生成された合成画像は、欠陥検査モデルの有効性を著しく向上させた。 全体として、Defect Spectrumデータセットは、欠陥検査研究の可能性を実証し、高度なモデルをテストおよび精錬するための堅固なプラットフォームを提供する。

Defect inspection is paramount within the closed-loop manufacturing system. However, existing datasets for defect inspection often lack precision and semantic granularity required for practical applications. In this paper, we introduce the Defect Spectrum, a comprehensive benchmark that offers precise, semantic-abundant, and large-scale annotations for a wide range of industrial defects. Building on four key industrial benchmarks, our dataset refines existing annotations and introduces rich semantic details, distinguishing multiple defect types within a single image. Furthermore, we introduce Defect-Gen, a two-stage diffusion-based generator designed to create high-quality and diverse defective images, even when working with limited datasets. The synthetic images generated by Defect-Gen significantly enhance the efficacy of defect inspection models. Overall, The Defect Spectrum dataset demonstrates its potential in defect inspection research, offering a solid platform for testing and refining advanced models.
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# ゴッパ符号の二次関係行列符号について

On the matrix code of quadratic relationships for a Goppa code ( http://arxiv.org/abs/2310.20497v2 )

ライセンス: Link先を確認
Rocco Mora, (参考訳) 本稿では,Goppa符号に付随する二次関係の行列符号について,cite{CMT23}で解析を継続する。 我々は,新しいスパースおよびローランク要素を行列コードに提供し,それらの形状に応じて分類する。 この説明により、二乗自由二進ゴッパ符号に付随する行列符号の階数 2 の行列の集合、すなわち古典マッキースで使用される行列は、少なくともゴッパ多項式次数 2 の場合、予想よりもはるかに大きいことが証明される。 我々は、これらの事例に対する構造的攻撃を導出するために、 \cite{CMT23} で導入された代数的行列モデルを構築した。 我々の手法は、McEliece暗号システムに対する鍵回収攻撃に関する最近の課題をほんの数秒で解決できる。 また,任意のGoppa多項式次数に対して有効な一般的な方法として,一般的なサポート対と乗算器をサポート対とGoppa多項式に変換する方法を提案する。

In this article, we continue the analysis started in \cite{CMT23} for the matrix code of quadratic relationships associated with a Goppa code. We provide new sparse and low-rank elements in the matrix code and categorize them according to their shape. Thanks to this description, we prove that the set of rank 2 matrices in the matrix codes associated with square-free binary Goppa codes, i.e. those used in Classic McEiece, is much larger than what is expected, at least in the case where the Goppa polynomial degree is 2. We build upon the algebraic determinantal modeling introduced in \cite{CMT23} to derive a structural attack on these instances. Our method can break in just a few seconds some recent challenges about key-recovery attacks on the McEliece cryptosystem, consistently reducing their estimated security level. We also provide a general method, valid for any Goppa polynomial degree, to transform a generic pair of support and multiplier into a pair of support and Goppa polynomial.
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# 物理界における敵対的事例--サーベイ

Adversarial Examples in the Physical World: A Survey ( http://arxiv.org/abs/2311.01473v2 )

ライセンス: Link先を確認
Jiakai Wang, Xianglong Liu, Jin Hu, Donghua Wang, Siyang Wu, Tingsong Jiang, Yuanfang Guo, Aishan Liu, Aishan Liu, Jiantao Zhou, (参考訳) ディープニューラルネットワーク(DNN)は、敵の例に高い脆弱性を示し、アプリケーションに対する広範なセキュリティ上の懸念を提起している。 デジタル世界における攻撃の他に、物理的世界における敵の事例の実践的意味は、重大な課題と安全上の懸念を示している。 しかし、現在のPAEの研究は、その特徴を包括的に理解していないため、限定的な重要性と理解に繋がる。 本稿では,このギャップを,トレーニング,製造,再サンプリングプロセスを含む実践的なワークフローにおいて,PAEの特性を徹底的に検討することによって解決する。 物理的攻撃の関連を解析することにより,PAEの異なる属性と特異性の主源として,製造と再サンプリングを同定する。 この知見を生かして,PAEの具体的特徴に基づく包括的分析・分類フレームワークを開発し,100以上の物理世界の敵対的事例について考察した。 さらに,PAEに対する防衛戦略について検討し,今後の研究の課題と機会を明らかにする。 我々は,PAEの新たな,徹底的で体系的な理解を提供することを目標とし,オープンワールドのシナリオにおける堅牢な敵対的学習とその応用を推進し,提案フレームワーク内での論文,コード,‘etc’を含む物理世界敵的サンプルリソースの継続的な更新リストを提供する。

Deep neural networks (DNNs) have demonstrated high vulnerability to adversarial examples, raising broad security concerns about their applications. Besides the attacks in the digital world, the practical implications of adversarial examples in the physical world present significant challenges and safety concerns. However, current research on physical adversarial examples (PAEs) lacks a comprehensive understanding of their unique characteristics, leading to limited significance and understanding. In this paper, we address this gap by thoroughly examining the characteristics of PAEs within a practical workflow encompassing training, manufacturing, and re-sampling processes. By analyzing the links between physical adversarial attacks, we identify manufacturing and re-sampling as the primary sources of distinct attributes and particularities in PAEs. Leveraging this knowledge, we develop a comprehensive analysis and classification framework for PAEs based on their specific characteristics, covering over 100 studies on physical-world adversarial examples. Furthermore, we investigate defense strategies against PAEs and identify open challenges and opportunities for future research. We aim to provide a fresh, thorough, and systematic understanding of PAEs, thereby promoting the development of robust adversarial learning and its application in open-world scenarios to provide the community with a continuously updated list of physical world adversarial sample resources, including papers, code, \etc, within the proposed framework
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# 解釈可能なシーケンス継続に向けて:大規模言語モデルにおける共有回路の解析

Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models ( http://arxiv.org/abs/2311.04131v5 )

ライセンス: Link先を確認
Michael Lan, Philip Torr, Fazl Barez, (参考訳) トランスフォーマーモデルは言語的タスクに強い能力を示すが、それらの複雑なアーキテクチャは解釈を困難にしている。 最近の研究は、トランスフォーマーモデルをアルゴリズム機能を実装する回路と呼ばれる人間可読表現にリバースエンジニアリングすることを目的としている。 この研究は、アラビア数字、数語、月数列の増加を含む、類似のシーケンス継続タスクの回路の解析と比較によって拡張される。 GPT-2 Small と Llama-2-7B の両方のキーサブ回路を回路の解釈可能性解析により同定し、シーケンス部材を検出し、次のメンバを列で予測する。 解析の結果、意味的関連配列は類似した役割を持つ共有回路サブグラフに依存していることが明らかとなった。 さらに, このサブ回路は, インターバル回路, スペイン語の数字と月数継続, 自然言語の単語問題など, 様々な数学的なプロンプトに影響を及ぼすことを示す。 全体として、共有された計算構造の文書化は、より良いモデル行動予測、エラーの識別、より安全な編集手順を可能にする。 トランスフォーマーのこの機械的理解は、より堅牢で整合的で解釈可能な言語モデルを構築するための重要なステップである。

While transformer models exhibit strong capabilities on linguistic tasks, their complex architectures make them difficult to interpret. Recent work has aimed to reverse engineer transformer models into human-readable representations called circuits that implement algorithmic functions. We extend this research by analyzing and comparing circuits for similar sequence continuation tasks, which include increasing sequences of Arabic numerals, number words, and months. By applying circuit interpretability analysis, we identify a key sub-circuit in both GPT-2 Small and Llama-2-7B responsible for detecting sequence members and for predicting the next member in a sequence. Our analysis reveals that semantically related sequences rely on shared circuit subgraphs with analogous roles. Additionally, we show that this sub-circuit has effects on various math-related prompts, such as on intervaled circuits, Spanish number word and months continuation, and natural language word problems. Overall, documenting shared computational structures enables better model behavior predictions, identification of errors, and safer editing procedures. This mechanistic understanding of transformers is a critical step towards building more robust, aligned, and interpretable language models.
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# 終端から終端への文法的誤り訂正に向けて

Towards End-to-End Spoken Grammatical Error Correction ( http://arxiv.org/abs/2311.05550v2 )

ライセンス: Link先を確認
Stefano Bannò, Rao Ma, Mengjie Qian, Kate M. Knill, Mark J. F. Gales, (参考訳) 文法的なフィードバックはL2学習者、教師、テスターにとって不可欠です。 Spoken grammatical error correct (GEC) は,L2学習者に対して,発話時の文法使用に対するフィードバックの提供を目的としている。 このプロセスは通常、ASRシステム、拡散除去、GECで構成されるカスケードパイプラインに依存しており、これら個々のモジュール間のエラーの伝播に関する懸念がある。 本稿では,音声認識基盤モデルであるWhisperを利用して,音声GECに対する「エンドツーエンド」アプローチを提案する。 このファンデーションモデルは、フレームワーク全体またはその一部を置き換えるために、例えば、ASR、ディスフルエンシ除去に使用することができる。 これらのエンド・ツー・エンドのアプローチは、Linguaskillというフリースポーク言語アセスメントテストから得られたデータに対して、より標準的なカスケードアプローチと比較される。 このアーキテクチャでは,エンド・ツー・エンドのGECが実現可能であることを示すが,利用可能なデータ不足は,大量のテキストベースのGECデータを用いたシステムと比較して,現在の性能を制限している。 逆に、注目ベースのWhisperが学習しやすいエンドツーエンドのディフルエンシ検出と削除は、カスケードアプローチよりも優れている。 さらに,音声GECのエンド・ツー・エンドシステムにおいて,候補に対してフィードバックを提供することの課題についても論じる。

Grammatical feedback is crucial for L2 learners, teachers, and testers. Spoken grammatical error correction (GEC) aims to supply feedback to L2 learners on their use of grammar when speaking. This process usually relies on a cascaded pipeline comprising an ASR system, disfluency removal, and GEC, with the associated concern of propagating errors between these individual modules. In this paper, we introduce an alternative "end-to-end" approach to spoken GEC, exploiting a speech recognition foundation model, Whisper. This foundation model can be used to replace the whole framework or part of it, e.g., ASR and disfluency removal. These end-to-end approaches are compared to more standard cascaded approaches on the data obtained from a free-speaking spoken language assessment test, Linguaskill. Results demonstrate that end-to-end spoken GEC is possible within this architecture, but the lack of available data limits current performance compared to a system using large quantities of text-based GEC data. Conversely, end-to-end disfluency detection and removal, which is easier for the attention-based Whisper to learn, does outperform cascaded approaches. Additionally, the paper discusses the challenges of providing feedback to candidates when using end-to-end systems for spoken GEC.
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# n$-Qubit系における相互不均一基底の効率的な量子回路構成法

An Efficient Quantum Circuit Construction Method for Mutually Unbiased Bases in $n$-Qubit Systems ( http://arxiv.org/abs/2311.11698v2 )

ライセンス: Link先を確認
Wang Yu, Wu Dongsheng, (参考訳) ミューチュアルアンバイアスベース(MUB)は、量子状態トモグラフィ、エラー訂正、絡み込み検出、量子暗号など、量子情報科学における多くの応用において重要な役割を果たす。 2^n + 1\) MUB 回路を用いることで、すべての \(n\) 量子ビット未知状態の再構成のための最小かつ最適な測定戦略が得られる。 従来の(4^n\)パウリ観測器と比較して測定回数を大幅に減らし、量子鍵分布(QKD)プロトコルの堅牢性を高める。 従来は1つの発電機に依存していた回路設計は、いくつかのMUB回路の指数ゲートコストをもたらす可能性がある。 本研究では,2(n^n + 1\) 量子 MUB 回路のそれぞれを,(O(n^3)\) 時間内で(n\)-量子ビット系上に生成する効率的なアルゴリズムを提案する。 アルゴリズムは3段階構造を特徴とし,ランダムサンプリングのための平均ゲート数を算出した。 さらに2つの線形特性を同定した: 絡み合い部は直接 \(2n - 3\) の固定部分に定義することができ、また \(n\) の特別な MUB 回路の知識は、すべての \(2^n + 1\) の MUB 回路を構成するのに十分である。 この新しい効率的で簡単な回路構成は、高次元量子システムにおける様々な量子情報処理タスクにおける完全なMUBの実装の道を開く。

Mutually unbiased bases (MUBs) play a crucial role in numerous applications within quantum information science, such as quantum state tomography, error correction, entanglement detection, and quantum cryptography. Utilizing \(2^n + 1\) MUB circuits provides a minimal and optimal measurement strategy for reconstructing all \(n\)-qubit unknown states. It significantly reduces the number of measurements compared to the traditional \(4^n\) Pauli observables, also enhancing the robustness of quantum key distribution (QKD) protocols. Previous circuit designs that rely on a single generator can result in exponential gate costs for some MUB circuits. In this work, we present an efficient algorithm to generate each of the \(2^n + 1\) quantum MUB circuits on \(n\)-qubit systems within \(O(n^3)\) time. The algorithm features a three-stage structure, and we have calculated the average number of different gates for random sampling. Additionally, we have identified two linear properties: the entanglement part can be directly defined into \(2n - 3\) fixed sub-parts, and the knowledge of \(n\) special MUB circuits is sufficient to construct all \(2^n + 1\) MUB circuits. This new efficient and simple circuit construction paves the way for the implementation of a complete set of MUBs in diverse quantum information processing tasks on high-dimensional quantum systems.
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# 3D-GOI:多面・多対象編集のための3D GAN Omni-Inversion

3D-GOI: 3D GAN Omni-Inversion for Multifaceted and Multi-object Editing ( http://arxiv.org/abs/2311.12050v3 )

ライセンス: Link先を確認
Haoran Li, Long Ma, Yong Liao, Lechao Cheng, Yanbin Hao, Pengyuan Zhou, (参考訳) 現在のGANインバージョン法は、通常、空間情報を見下ろしながら、単一のオブジェクトと背景の外観と形状を編集するだけである。 本研究では,アフィン情報(スケール,翻訳,回転)の多面的編集を可能にする3D編集フレームワークである3D-GOIを提案する。 3D-GOIは、有名な3D GANであるGIRAFFEによって制御された属性コード(オブジェクト形状/外観/スケール/回転/変換、背景形状/外観、カメラポーズ)を反転させることで、複雑な編集機能を実現する。 3D-GOIは、この課題を3つの主要なステップに従って解決する。 まず、対象物と背景を多目的画像に分割する。 第二に、各オブジェクトの粗いコードを取得するために、カスタムのNeural Inversion Encoderを使用します。 最後に、ラウンドロビン最適化アルゴリズムを用いて正確なコードを取得し、画像を再構成する。 私たちの知る限りでは、3D-GOIは複数のオブジェクトで多面的な編集を可能にする最初のフレームワークです。 定性的かつ定量的な実験は、3D-GOIが複雑な多目的シーンで柔軟で多面的な編集の可能性を秘めていることを示している。

The current GAN inversion methods typically can only edit the appearance and shape of a single object and background while overlooking spatial information. In this work, we propose a 3D editing framework, 3D-GOI, to enable multifaceted editing of affine information (scale, translation, and rotation) on multiple objects. 3D-GOI realizes the complex editing function by inverting the abundance of attribute codes (object shape/appearance/scale/rotation/translation, background shape/appearance, and camera pose) controlled by GIRAFFE, a renowned 3D GAN. Accurately inverting all the codes is challenging, 3D-GOI solves this challenge following three main steps. First, we segment the objects and the background in a multi-object image. Second, we use a custom Neural Inversion Encoder to obtain coarse codes of each object. Finally, we use a round-robin optimization algorithm to get precise codes to reconstruct the image. To the best of our knowledge, 3D-GOI is the first framework to enable multifaceted editing on multiple objects. Both qualitative and quantitative experiments demonstrate that 3D-GOI holds immense potential for flexible, multifaceted editing in complex multi-object scenes.Our project and code are released at https://3d-goi.github.io .
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# FoundPose: ファンデーション機能によるオブジェクトポス推定

FoundPose: Unseen Object Pose Estimation with Foundation Features ( http://arxiv.org/abs/2311.18809v2 )

ライセンス: Link先を確認
Evin Pınar Örnek, Yann Labbé, Bugra Tekin, Lingni Ma, Cem Keskin, Christian Forster, Tomas Hodan, (参考訳) 単一RGB画像からの未確認物体の6次元ポーズ推定のためのモデルベース手法であるFoundPoseを提案する。 この方法は、オブジェクトやタスク固有のトレーニングを必要とせずに、3Dモデルを使って、新しいオブジェクトを素早くオンボードできる。 対照的に、既存のメソッドは、通常、大規模でタスク固有のデータセットで事前トレーニングを行い、新しいオブジェクトに一般化し、画像からモデルへのドメインギャップを埋める。 我々は,近年のビジョン基礎モデルにおいて,このような一般化能力が自己指導型で訓練されていることを実証する。 具体的には、画像とプレレンダリングされたオブジェクトテンプレート間の最新のDINOv2モデルからのパッチ記述子をマッチングすることにより、画像からモデルへの2D-3D対応からオブジェクトのポーズを推定する。 中間DINOv2層からのパッチ記述子のkNNマッチングにより信頼性の高い対応性を確立することができる。 これらの記述子は、最終層からの記述子よりも強い位置情報を持ち、対象の対称性やテクスチャの欠如により意味情報が曖昧である場合、それらの重要性を示す。 すべてのオブジェクトテンプレートに対する対応性を確立するために,パッチ記述子を単語のback-of-words表現に統合し,類似したテンプレートを素早く提案する,効率的なテンプレート検索手法を開発した。 さらに,粗いパッチサンプリングによる2D-3D対応の相違を補うために,特徴量アライメントを適用した。 この手法は,標準BOPベンチマークにおいて,7つの異なるデータセットを用いて,RGBのみのポーズ推定を行う既存のRGB手法よりも顕著に優れており,既存のレンダリング・アンド・コンパレンス法とシームレスに組み合わせて,RGBのみの最先端結果が得られる。 プロジェクトページ: evinpinar.github.io/foundpose

We propose FoundPose, a model-based method for 6D pose estimation of unseen objects from a single RGB image. The method can quickly onboard new objects using their 3D models without requiring any object- or task-specific training. In contrast, existing methods typically pre-train on large-scale, task-specific datasets in order to generalize to new objects and to bridge the image-to-model domain gap. We demonstrate that such generalization capabilities can be observed in a recent vision foundation model trained in a self-supervised manner. Specifically, our method estimates the object pose from image-to-model 2D-3D correspondences, which are established by matching patch descriptors from the recent DINOv2 model between the image and pre-rendered object templates. We find that reliable correspondences can be established by kNN matching of patch descriptors from an intermediate DINOv2 layer. Such descriptors carry stronger positional information than descriptors from the last layer, and we show their importance when semantic information is ambiguous due to object symmetries or a lack of texture. To avoid establishing correspondences against all object templates, we develop an efficient template retrieval approach that integrates the patch descriptors into the bag-of-words representation and can promptly propose a handful of similarly looking templates. Additionally, we apply featuremetric alignment to compensate for discrepancies in the 2D-3D correspondences caused by coarse patch sampling. The resulting method noticeably outperforms existing RGB methods for refinement-free pose estimation on the standard BOP benchmark with seven diverse datasets and can be seamlessly combined with an existing render-and-compare refinement method to achieve RGB-only state-of-the-art results. Project page: evinpinar.github.io/foundpose.
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# 円柱によるカジュアル映像の高速視点合成

Fast View Synthesis of Casual Videos with Soup-of-Planes ( http://arxiv.org/abs/2312.02135v2 )

ライセンス: Link先を確認
Yao-Chih Lee, Zhoutong Zhang, Kevin Blackburn-Matzen, Simon Niklaus, Jianming Zhang, Jia-Bin Huang, Feng Liu, (参考訳) シーンのダイナミックスやパララックスの欠如といった課題のため、Wild ビデオからの新たなビュー合成は困難である。 既存の手法では暗黙のニューラルラディアンスフィールドで有望な結果を示しているが、トレーニングとレンダリングは遅い。 本稿では,モノクロ映像から高品質な新規ビューを効率よく合成するために,明示的な映像表現を再考する。 静的および動的ビデオコンテンツを別々に扱う。 具体的には,時間的コヒーレントな新しい映像を合成するために,拡張平面に基づくシーン表現を用いてグローバルな静的シーンモデルを構築する。 平面上のシーン表現は球面高調波と変位マップで拡張され、ビュー依存効果を捉え、非平面複素曲面幾何学をモデル化する。 動的コンテンツは効率を上げるために、フレーム単位のポイントクラウドとして表現することを選択します。 このような表現は矛盾する傾向にあるが、小さな時間的矛盾は動きによって知覚的にマスクされる。 そこで我々は,このようなハイブリッドビデオ表現を高速に推定し,新しいビューをリアルタイムでレンダリングする手法を開発した。 実験により,本手法は,訓練の100倍高速かつリアルタイムなレンダリングが可能でありながら,最先端の手法に匹敵する品質の高品質な映像から,高品質な新奇なビューを描画できることが示唆された。

Novel view synthesis from an in-the-wild video is difficult due to challenges like scene dynamics and lack of parallax. While existing methods have shown promising results with implicit neural radiance fields, they are slow to train and render. This paper revisits explicit video representations to synthesize high-quality novel views from a monocular video efficiently. We treat static and dynamic video content separately. Specifically, we build a global static scene model using an extended plane-based scene representation to synthesize temporally coherent novel video. Our plane-based scene representation is augmented with spherical harmonics and displacement maps to capture view-dependent effects and model non-planar complex surface geometry. We opt to represent the dynamic content as per-frame point clouds for efficiency. While such representations are inconsistency-prone, minor temporal inconsistencies are perceptually masked due to motion. We develop a method to quickly estimate such a hybrid video representation and render novel views in real time. Our experiments show that our method can render high-quality novel views from an in-the-wild video with comparable quality to state-of-the-art methods while being 100x faster in training and enabling real-time rendering.
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# カオスおよび積分可能なユニタリ回路力学におけるヘイデン・プレスキル回復

Hayden-Preskill recovery in chaotic and integrable unitary circuit dynamics ( http://arxiv.org/abs/2312.03838v4 )

ライセンス: Link先を確認
Michael A. Rampp, Pieter W. Claeys, (参考訳) Hayden-Preskillプロトコルは、ユニタリダイナミクス後のローカルサブシステムからの情報回復能力を探索する。 そのため、量子多体系は量子誤り訂正符号を動的に実装できる。 符号化の挙動への遷移は、エンタングルメント膜理論のような効果的なアプローチを用いて論じられている。 本稿では,局所量子多体系におけるスクランブルの動的プローブとしてHayden-Preskillリカバリを用いた正確な結果を示す。 本研究では,Floquet(Dual-unitary)とHaar-random(Haar-random)の2種類の回路モデルについて検討する。 本稿では,情報伝達やスクランブルに対応する様々な動的シグネチャについて論じる。 驚くべきことに、ある種のカオス回路は完全な忠実さで情報を伝達する。 積分可能な二重単位回路では、情報伝達と準粒子の伝播と散乱を関連付ける。 数値的および解析的な洞察を用いて、情報回復の質的特徴はこれらの解点から遠ざかっていると論じる。 以上の結果から,情報回復プロトコルはカオス的・可積分的行動の識別に有効であり,長寿命準粒子や二重ユニタリ性などの特性的特徴に敏感であることが示唆された。

The Hayden-Preskill protocol probes the capability of information recovery from local subsystems after unitary dynamics. As such it resolves the capability of quantum many-body systems to dynamically implement a quantum error-correcting code. The transition to coding behavior has been mostly discussed using effective approaches, such as entanglement membrane theory. Here, we present exact results on the use of Hayden-Preskill recovery as a dynamical probe of scrambling in local quantum many-body systems. We investigate certain classes of unitary circuit models, both structured Floquet (dual-unitary) and Haar-random circuits. We discuss different dynamical signatures corresponding to information transport or scrambling, respectively, that go beyond effective approaches. Surprisingly, certain chaotic circuits transport information with perfect fidelity. In integrable dual-unitary circuits, we relate the information transmission to the propagation and scattering of quasiparticles. Using numerical and analytical insights, we argue that the qualitative features of information recovery extend away from these solvable points. Our results suggest that information recovery protocols can serve to distinguish chaotic and integrable behavior, and that they are sensitive to characteristic dynamical features, such as long-lived quasiparticles or dual-unitarity.
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# 任意の量子状態と極端測定を自己検証するための普遍的スキーム

A universal scheme to self-test any quantum state and extremal measurement ( http://arxiv.org/abs/2312.04405v2 )

ライセンス: Link先を確認
Shubhayan Sarkar, Alexandre C. Orthey, Jr., Remigiusz Augusiak, (参考訳) 量子デバイスの出現は、デバイスを信頼することなく、デバイスの量子特性を認証する方法という、重大な問題を引き起こしている。 デバイスに依存しない方法で量子状態と測定を、ある程度の自由度まで特徴付けるためには、セルフテストと呼ばれるテクニックを利用することができる。 全ての純多部交絡状態(複素共役まで)と実局所階数1の射影測定を自己検査するスキームが提案されているが、混合交絡状態、複合的または非射影的測定を認定する試みはほとんど行われていない。 量子ネットワークの枠組みを用いることで、射影を含む任意の極端測度を自己検定(複雑な共役まで)するためのスキームを提案し、混合を含む任意の量子状態の間接的な方法も提案する。 この研究で考慮された量子ネットワークは、現在の技術で実装可能な単純なスターネットワークである。 我々の目的のために、任意の数のパーティーで2次元トモグラフィー的に完備な測定セットを自己検証するためにも使用できるスキームを構築した。

The emergence of quantum devices has raised a significant issue: how to certify the quantum properties of a device without placing trust in it. To characterise quantum states and measurements in a device-independent way, up to some degree of freedom, we can make use of a technique known as self-testing. While schemes have been proposed to self-test all pure multipartite entangled states (up to complex conjugation) and real local rank-one projective measurements, little has been done to certify mixed entangled states, composite or non-projective measurements. By employing the framework of quantum networks, we propose a scheme for self-testing (up to complex conjugation) arbitrary extremal measurements, including the projective ones, but also in an indirect way any quantum states, including the mixed ones. The quantum network considered in this work is the simple star network, which is implementable using current technologies. For our purposes, we also construct a scheme that can be used to self-test the two-dimensional tomographically complete set of measurements with an arbitrary number of parties.
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# SparQ注意:バンド幅効率のLLM推論

SparQ Attention: Bandwidth-Efficient LLM Inference ( http://arxiv.org/abs/2312.04985v5 )

ライセンス: Link先を確認
Luka Ribar, Ivan Chelombiev, Luke Hudlass-Galley, Charlie Blake, Carlo Luschi, Douglas Orr, (参考訳) 大規模言語モデル(LLM)推論の計算困難さは、広く展開する上で大きな障害となっている。 多くのアプリケーションが長い入力シーケンスをサポートし、それらを大きなバッチで処理する必要があるため、一般的にトークン生成はデータ転送によってボトルネックになる。 このため,キャッシュされた履歴を選択的にフェッチすることで,メモリ帯域幅をより効率的に利用することで,LLMの推論スループットを向上させる手法であるSparQ Attentionを導入する。 提案手法は,プレトレーニング設定の変更や追加の微調整を必要とせずに,市販のLCMに直接適用することができる。 我々は,Llama 2, 3, Mistral, Gemma, Pythia の各モデルについて,広範囲な下流タスクで評価することにより,SparQ の注意データ転送の8倍のコスト削減を実現することを示す。

The computational difficulties of large language model (LLM) inference remain a significant obstacle to their widespread deployment. The need for many applications to support long input sequences and process them in large batches typically causes token-generation to be bottlenecked by data transfer. For this reason, we introduce SparQ Attention, a technique for increasing the inference throughput of LLMs by utilising memory bandwidth more efficiently within the attention layers, through selective fetching of the cached history. Our proposed technique can be applied directly to off-the-shelf LLMs during inference, without requiring any modification to the pre-training setup or additional fine-tuning. We show that SparQ Attention brings up to 8x savings in attention data transfers without substantial drops in accuracy, by evaluating Llama 2 and 3, Mistral, Gemma and Pythia models on a wide range of downstream tasks.
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# EdgeSAM:SAMのオンデバイス展開のためのロープ蒸留

EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM ( http://arxiv.org/abs/2312.06660v2 )

ライセンス: Link先を確認
Chong Zhou, Xiangtai Li, Chen Change Loy, Bo Dai, (参考訳) 本稿では,パフォーマンスを最小限に抑えたエッジデバイス上での効率的な実行を最適化した,Segment Anything Model (SAM) の高速化版であるEdgeSAMを提案する。 我々のアプローチは、オリジナルのViTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留することであり、エッジデバイスに適している。 我々は,様々な蒸留戦略を慎重にベンチマークし,SAMで具現化された全知識の抽出にタスク非依存のエンコーダ蒸留が失敗することを示した。 このボトルネックを克服するため、蒸留工程ではプロンプトエンコーダとマスクデコーダの両方を、ループ内にボックスとポイントプロンプトを配置し、蒸留モデルがユーザ入力とマスク生成の間の複雑なダイナミクスを正確に捉えることができるようにした。 ポイントプロンプト蒸留から生じるデータセットバイアスの問題を緩和するため,エンコーダ内に軽量モジュールを組み込む。 その結果、EdgeSAMはオリジナルのSAMに比べて37倍の速度向上を実現し、それぞれ2.3/1.5と3.1/1.6のCOCOおよびLVIS上のmIoUを増強しながら、エッジデバイスにデプロイする際の7倍以上の速度でMobileSAM/EfficientSAMを上回ります。 また、iPhone 14で30FPS以上で動作可能なSAMの最初の派生機種でもある。 コードとデモはhttps://www.mmlab-ntu.com/project/edgesam.comで公開されている。

This paper presents EdgeSAM, an accelerated variant of the Segment Anything Model (SAM), optimized for efficient execution on edge devices with minimal compromise in performance. Our approach involves distilling the original ViT-based SAM image encoder into a purely CNN-based architecture, better suited for edge devices. We carefully benchmark various distillation strategies and demonstrate that taskagnostic encoder distillation fails to capture the full knowledge embodied in SAM. To overcome this bottleneck, we include both the prompt encoder and mask decoder in the distillation process, with box and point prompts in the loop, so that the distilled model can accurately capture the intricate dynamics between user input and mask generation. To mitigate dataset bias issues stemming from point prompt distillation, we incorporate a lightweight module within the encoder. As a result, EdgeSAM achieves a 37-fold speed increase compared to the original SAM, and it also outperforms MobileSAM/EfficientSAM, being over 7 times as fast when deployed on edge devices while enhancing the mIoUs on COCO and LVIS by 2.3/1.5 and 3.1/1.6, respectively. It is also the first SAM variant that can run at over 30 FPS on an iPhone 14. Code and demo are available at https://www.mmlab-ntu.com/project/edgesam.
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# 周波数規則化による画像再構成のためのアーキテクチャ非依存ネットワーク優先

Towards Architecture-Agnostic Untrained Network Priors for Image Reconstruction with Frequency Regularization ( http://arxiv.org/abs/2312.09988v3 )

ライセンス: Link先を確認
Yilin Liu, Yunkui Pang, Jiang Li, Yong Chen, Pew-Thian Yap, (参考訳) ディープイメージにインスパイアされた未学習のネットワークは、トレーニングセットを必要とせず、ノイズや部分的な測定から高品質なイメージを復元する有望な能力を示している。 彼らの成功は、適切なネットワークアーキテクチャのスペクトルバイアスによる暗黙の正則化によるところが大きい。 しかし、そのようなネットワークベースの事前の応用は、しばしば過剰なアーキテクチャ上の決定、過度に適合するリスク、そして長い最適化プロセスを必要とし、それらすべてが実用性を妨げている。 これらの課題に対処するため、ネットワーク先行のスペクトルバイアスを直接変調する効率的なアーキテクチャ非依存手法を提案する。 1)帯域制限入力 2 帯域幅制御可能なアップサンプラー及び 3)リプシッツ規則化畳み込み層 ほんの数行のコードで、パフォーマンスの低いアーキテクチャでの過度な適合を減らし、ハイパフォーマンスなアーキテクチャとパフォーマンスのギャップを埋めることができ、広範なアーキテクチャチューニングの必要性を最小化できます。 これにより、よりコンパクトなモデルを使用して、ランタイムを減らしながら、より大きなモデルと似た、あるいは優れたパフォーマンスを実現することができる。 インパインティングのようなMRI再構成タスクを例に挙げた結果,アーキテクチャ上の偏り,過度な適合性,および実行時問題などが,アーキテクチャ上の変更なしに同時に対処できることが示唆された。 私たちのコードは公開されています。

Untrained networks inspired by deep image priors have shown promising capabilities in recovering high-quality images from noisy or partial measurements without requiring training sets. Their success is widely attributed to implicit regularization due to the spectral bias of suitable network architectures. However, the application of such network-based priors often entails superfluous architectural decisions, risks of overfitting, and lengthy optimization processes, all of which hinder their practicality. To address these challenges, we propose efficient architecture-agnostic techniques to directly modulate the spectral bias of network priors: 1) bandwidth-constrained input, 2) bandwidth-controllable upsamplers, and 3) Lipschitz-regularized convolutional layers. We show that, with just a few lines of code, we can reduce overfitting in underperforming architectures and close performance gaps with high-performing counterparts, minimizing the need for extensive architecture tuning. This makes it possible to employ a more compact model to achieve performance similar or superior to larger models while reducing runtime. Demonstrated on inpainting-like MRI reconstruction task, our results signify for the first time that architectural biases, overfitting, and runtime issues of untrained network priors can be simultaneously addressed without architectural modifications. Our code is publicly available.
翻訳日:2024-07-23 00:16:29 公開日:2024-07-19
# SMC-NCA : 半教師付き時間行動セグメンテーションのための意味誘導型マルチレベルコントラスト

SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised Temporal Action Segmentation ( http://arxiv.org/abs/2312.12347v3 )

ライセンス: Link先を確認
Feixiang Zhou, Zheheng Jiang, Huiyu Zhou, Xuelong Li, (参考訳) 半教師付き時間的アクションセグメンテーション(SS-TA)は、長い未編集ビデオにおいてフレームワイズ分類を行うことを目的としており、トレーニングセット内のビデオのごく一部にラベルがある。 近年の研究では、教師なし表現学習におけるコントラスト学習の可能性が示されている。 しかしながら、アクションセグメンテーションのための教師なしコントラスト学習によって各フレームの表現を学ぶことは、オープンで困難な問題である。 本稿では,SS-TAS のフレームワイド表現を抽出するために,SMC-NCA (Neighbourhood-Consistency-Aware Unit) を用いたSemantic-Guided Multi-level Contrast スキームを提案する。 具体的には、表現学習において、SMCは、行動固有の意味情報と行動間の関係を強調する時間情報に基づいて、情報内および情報間の変化を統一的でコントラスト的な方法で探索するために最初に使用される。 次に,NCAモジュールは,半教師付き学習(SSL)において,SMCと連携して作業を行う。 我々のSMCは3つのベンチマークで他の最先端の手法よりも優れており、編集距離と精度の点で最大17.8%と12.6%の改善が提供されている。 さらに、NAAユニットは、5%のラベル付きビデオの存在下でのセグメンテーション性能が著しく向上する。 また,Parkinson Disease's Mouse Behaviour (PDMB) データセットに提案手法の汎用性と有効性を示す。 コードはhttps://github.com/FeixiangZhou/SMC-NCAで公開されている。

Semi-supervised temporal action segmentation (SS-TA) aims to perform frame-wise classification in long untrimmed videos, where only a fraction of videos in the training set have labels. Recent studies have shown the potential of contrastive learning in unsupervised representation learning using unlabelled data. However, learning the representation of each frame by unsupervised contrastive learning for action segmentation remains an open and challenging problem. In this paper, we propose a novel Semantic-guided Multi-level Contrast scheme with a Neighbourhood-Consistency-Aware unit (SMC-NCA) to extract strong frame-wise representations for SS-TAS. Specifically, for representation learning, SMC is first used to explore intra- and inter-information variations in a unified and contrastive way, based on action-specific semantic information and temporal information highlighting relations between actions. Then, the NCA module, which is responsible for enforcing spatial consistency between neighbourhoods centered at different frames to alleviate over-segmentation issues, works alongside SMC for semi-supervised learning (SSL). Our SMC outperforms the other state-of-the-art methods on three benchmarks, offering improvements of up to 17.8% and 12.6% in terms of Edit distance and accuracy, respectively. Additionally, the NCA unit results in significantly better segmentation performance in the presence of only 5% labelled videos. We also demonstrate the generalizability and effectiveness of the proposed method on our Parkinson Disease's Mouse Behaviour (PDMB) dataset. Code is available at https://github.com/FeixiangZhou/SMC-NCA.
翻訳日:2024-07-23 00:06:44 公開日:2024-07-19
# 時間局所非Lindbladマスター方程式の最適形式

Optimal form of time-local non-Lindblad master equations ( http://arxiv.org/abs/2312.15066v2 )

ライセンス: Link先を確認
Tobias Becker, André Eckardt, (参考訳) 超弱系-バス結合の極限を超えた開量子系を記述する時間局所量子マスター方程式は、しばしばゴリーニ=コサコフスキー=スダルシャン=リンドブラッド形式(GKSL)ではない。 代表的な例として、一般的なオープン量子系を近似するレッドフィールド方程式や、減衰調和振動子を正確に記述したフー・パズ・チャン方程式がある。 ここでは、項のいくつかが負の重みを持つという事実を除いて、前者だけでなく後者もGKSL方程式に類似した散逸子で擬似Lndblad形式にすることができることを示す。 さらに,擬似Lindblad方程式の散逸を変化させる変換について,正項と負項の相対重みを変化させながら体系的に検討した。 これらは、最近開発された擬Lindblad方程式の量子軌道展開の収束と、GKSL方程式を得るために負項の切り離しの両方に最適である負項の重みを最小化するために使用できる。

Time-local quantum master equations that describe open quantum systems beyond the limit of ultraweak system-bath coupling are often not of Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) form. Prominent examples are the Redfield equation approximating general open quantum systems and the Hu-Paz-Zhang equation exactly describing a damped harmonic oscillator. Here, we show that not only the former, but also the latter can be brought to pseudo-Lindblad form, with a dissipator that resembles that of a GKSL equation, except for the fact that some of the terms have negative weights. Moreover, we systematically investigate transformations that leave the dissipator of pseudo-Lindblad equations unchanged, while changing the relative weight between its positive and negative terms. These can be used to minimize the weights of the negative terms, which is optimal both for the convergence of a recently developed quantum-trajectory unraveling of pseudo-Lindblad equations as well as for the truncation of the negative terms to obtain a GKSL equation.
翻訳日:2024-07-23 00:06:44 公開日:2024-07-19
# PACE: クラッタ環境における Pose アノテーション付き大規模データセット

PACE: A Large-Scale Dataset with Pose Annotations in Cluttered Environments ( http://arxiv.org/abs/2312.15130v3 )

ライセンス: Link先を確認
Yang You, Kai Xiong, Zhening Yang, Zhengxiang Huang, Junwei Zhou, Ruoxi Shi, Zhou Fang, Adam W. Harley, Leonidas Guibas, Cewu Lu, (参考訳) PACE(Pose Annotations in Cluttered Environments)は,乱雑なシナリオにおけるポーズ推定手法の開発と評価を促進するために設計された大規模ベンチマークである。 PACEは、インスタンスレベルとカテゴリレベルの両方の設定に対して、大規模な実世界のベンチマークを提供する。 ベンチマークは55Kフレームで構成され、300の動画に258Kのアノテーションが付けられ、43のカテゴリから238のオブジェクトがカバーされ、散らかったシーンで固いアイテムと明瞭なアイテムが混在している。 実世界のデータを効率的にアノテートするために,キャリブレーションを施した3カメラ構成のイノベーティブなアノテーションシステムを開発した。 さらに、PACE-Simは、931個のオブジェクトに2.4Mのアノテーションを持つ100Kのフォトリアリスティック・シミュレート・フレームを含む。 PACEでは、ポーズ推定とオブジェクトポーズ追跡という2つのトラックに沿って最先端のアルゴリズムをテストし、ベンチマークの課題と研究の機会を明らかにする。 ベンチマークコードとデータはhttps://github.com/qq456cvb/PACEで公開されています。

We introduce PACE (Pose Annotations in Cluttered Environments), a large-scale benchmark designed to advance the development and evaluation of pose estimation methods in cluttered scenarios. PACE provides a large-scale real-world benchmark for both instance-level and category-level settings. The benchmark consists of 55K frames with 258K annotations across 300 videos, covering 238 objects from 43 categories and featuring a mix of rigid and articulated items in cluttered scenes. To annotate the real-world data efficiently, we develop an innovative annotation system with a calibrated 3-camera setup. Additionally, we offer PACE-Sim, which contains 100K photo-realistic simulated frames with 2.4M annotations across 931 objects. We test state-of-the-art algorithms in PACE along two tracks: pose estimation, and object pose tracking, revealing the benchmark's challenges and research opportunities. Our benchmark code and data is available on https://github.com/qq456cvb/PACE.
翻訳日:2024-07-23 00:06:44 公開日:2024-07-19
# Identifiability Guaranteeによる依存度測定のための深部コピュラに基づく生存分析

Deep Copula-Based Survival Analysis for Dependent Censoring with Identifiability Guarantees ( http://arxiv.org/abs/2312.15566v4 )

ライセンス: Link先を確認
Weijia Zhang, Chun Kai Ling, Xuanhui Zhang, (参考訳) センシングは生存分析における中心的な問題であり、各サンプルに対して時間と時間(例えば、死亡)または時間と時間(例えば、フォローアップの喪失)が観察される。 既存の機械学習ベースの生存分析手法の大多数は、生存は一組の共変量からなる検閲とは条件的に独立していると仮定している。 依存検閲の存在と、現在の推定器の固有のバイアスは、様々なアプリケーションで実証され、よりニュアンスなアプローチの必要性が強調されている。 しかし、既存の検閲の調整方法では、実践者が真理のコプラを指定する必要がある。 この要件は、モデルの不特定が実質的なバイアスをもたらすため、実用的なアプリケーションにとって重大な課題となる。 そこで本研究では,依存検閲に対応可能なフレキシブル・ディープ・ラーニング・ベース・サバイバル分析手法を提案する。 理論的には,コプラと生存分布の広い系統の下でのモデルの有効性を実証する。 幅広いデータセットから得られた実験結果から,本手法が基盤となる依存関係構造を識別し,既存手法と比較して生存推定バイアスを著しく低減することを示した。

Censoring is the central problem in survival analysis where either the time-to-event (for instance, death), or the time-tocensoring (such as loss of follow-up) is observed for each sample. The majority of existing machine learning-based survival analysis methods assume that survival is conditionally independent of censoring given a set of covariates; an assumption that cannot be verified since only marginal distributions is available from the data. The existence of dependent censoring, along with the inherent bias in current estimators has been demonstrated in a variety of applications, accentuating the need for a more nuanced approach. However, existing methods that adjust for dependent censoring require practitioners to specify the ground truth copula. This requirement poses a significant challenge for practical applications, as model misspecification can lead to substantial bias. In this work, we propose a flexible deep learning-based survival analysis method that simultaneously accommodate for dependent censoring and eliminates the requirement for specifying the ground truth copula. We theoretically prove the identifiability of our model under a broad family of copulas and survival distributions. Experiments results from a wide range of datasets demonstrate that our approach successfully discerns the underlying dependency structure and significantly reduces survival estimation bias when compared to existing methods.
翻訳日:2024-07-23 00:06:44 公開日:2024-07-19
# 完全スパース3次元活動予測

Fully Sparse 3D Occupancy Prediction ( http://arxiv.org/abs/2312.17118v5 )

ライセンス: Link先を確認
Haisong Liu, Yang Chen, Haiguang Wang, Zetong Yang, Tianyu Li, Jia Zeng, Li Chen, Hongyang Li, Limin Wang, (参考訳) 運転予測は自動運転において重要な役割を果たす。 従来の手法は通常、密集した3Dボリュームを構築し、シーン固有の空間を無視し、高い計算コストを被る。 ギャップを埋めるため,SparseOccと呼ばれる,スパルス占有ネットワークを導入した。 SparseOccは最初、カメラのみの入力からスパース3D表現を再構築し、その後スパースクエリによって3Dスパース表現からセマンティック/インスタンス占有を予測する。 マスク誘導スパースサンプリングは、スパースクエリが完全にスパースな方法で2次元特徴と対話できるように設計されており、それによってコストのかかる高密度特徴やグローバルな注意を回避できる。 さらに、従来のボクセルレベルのmIoU基準で提起された深さ軸に沿った不整合ペナルティを解決するために、レイIoUという思考に基づく評価尺度を設計する。 SparseOccは、34.0のRayIoUを実現し、リアルタイムの推論速度は17.3 FPSで、7つの履歴フレームが入力される。 より先行したフレームを15に組み込むことで、SparseOccは連続的に性能を35.1 RayIoUに改善した。

Occupancy prediction plays a pivotal role in autonomous driving. Previous methods typically construct dense 3D volumes, neglecting the inherent sparsity of the scene and suffering from high computational costs. To bridge the gap, we introduce a novel fully sparse occupancy network, termed SparseOcc. SparseOcc initially reconstructs a sparse 3D representation from camera-only inputs and subsequently predicts semantic/instance occupancy from the 3D sparse representation by sparse queries. A mask-guided sparse sampling is designed to enable sparse queries to interact with 2D features in a fully sparse manner, thereby circumventing costly dense features or global attention. Additionally, we design a thoughtful ray-based evaluation metric, namely RayIoU, to solve the inconsistency penalty along the depth axis raised in traditional voxel-level mIoU criteria. SparseOcc demonstrates its effectiveness by achieving a RayIoU of 34.0, while maintaining a real-time inference speed of 17.3 FPS, with 7 history frames inputs. By incorporating more preceding frames to 15, SparseOcc continuously improves its performance to 35.1 RayIoU without bells and whistles.
翻訳日:2024-07-23 00:06:44 公開日:2024-07-19
# MVPatch:現実世界の物体探知機に対する敵のカモフラージュ攻撃のより鮮明なパッチ

MVPatch: More Vivid Patch for Adversarial Camouflaged Attacks on Object Detectors in the Physical World ( http://arxiv.org/abs/2312.17431v3 )

ライセンス: Link先を確認
Zheng Zhou, Hongbo Zhao, Ju Liu, Qiaosheng Zhang, Liwei Geng, Shuchang Lyu, Wenquan Feng, (参考訳) 近年の研究では、AP(Adversarial Patches)がオブジェクト検出モデルを効果的に操作できることが示されている。 しかしながら、これらのパッチに関連する顕著なパターンは人間の注意を惹きつける傾向があり、重大な課題となっている。 既存の研究は主に物理的領域における攻撃効果の向上に重点を置いており、ステルスネスと転送可能性の最適化は無視されることが多い。 さらに、実世界のシナリオにAPを適用することは、転送可能性、ステルス性、実用性に関連する大きな課題に直面します。 これらの課題に対処するために、一般化理論をAPの文脈に導入し、我々の反復的プロセスがトランスファービリティを同時に向上し、現実的な画像との視覚的相関を洗練できるようにする。 本稿では、転送性、ステルス性、実用性を向上させるために、DPBF(Dual-Perception-Based Framework)を提案する。 DPBFは2つの重要なコンポーネントを統合している: Model-Perception-Based Module (MPBM) と Human-Perception-Based Module (HPBM) である。 MPBMはアンサンブル戦略を用いて、複数の検出器間でのオブジェクトの信頼度を低減し、堅牢な理論的支援でAP転送性を向上させる。 同時に、HPBMは、視覚的類似性を達成するための軽量な方法を導入し、追加の生成モデルに頼ることなく、自然な、目立たない敵対パッチを作成する。 正規化項は、物理領域における生成されたAPの実用性をさらに強化する。 さらに,APの非バイアス評価を行うために,自然度と移動可能性スコアを導入する。 広範囲にわたる実験的検証により、MVPatchはデジタルドメインと物理ドメインの両方において優れた転送可能性と自然な外観を達成し、その有効性とステルス性を強調する。

Recent studies have shown that Adversarial Patches (APs) can effectively manipulate object detection models. However, the conspicuous patterns often associated with these patches tend to attract human attention, posing a significant challenge. Existing research has primarily focused on enhancing attack efficacy in the physical domain while often neglecting the optimization of stealthiness and transferability. Furthermore, applying APs in real-world scenarios faces major challenges related to transferability, stealthiness, and practicality. To address these challenges, we introduce generalization theory into the context of APs, enabling our iterative process to simultaneously enhance transferability and refine visual correlation with realistic images. We propose a Dual-Perception-Based Framework (DPBF) to generate the More Vivid Patch (MVPatch), which enhances transferability, stealthiness, and practicality. The DPBF integrates two key components: the Model-Perception-Based Module (MPBM) and the Human-Perception-Based Module (HPBM), along with regularization terms. The MPBM employs ensemble strategy to reduce object confidence scores across multiple detectors, thereby improving AP transferability with robust theoretical support. Concurrently, the HPBM introduces a lightweight method for achieving visual similarity, creating natural and inconspicuous adversarial patches without relying on additional generative models. The regularization terms further enhance the practicality of the generated APs in the physical domain. Additionally, we introduce naturalness and transferability scores to provide an unbiased assessment of APs. Extensive experimental validation demonstrates that MVPatch achieves superior transferability and a natural appearance in both digital and physical domains, underscoring its effectiveness and stealthiness.
翻訳日:2024-07-23 00:06:44 公開日:2024-07-19
# 非アベリア帯域特異点の干渉計とオイラー類位相

Interferometry of non-Abelian band singularities and Euler class topology ( http://arxiv.org/abs/2401.01928v2 )

ライセンス: Link先を確認
Oliver Breach, Robert-Jan Slager, F. Nur Ünal, (参考訳) 真のブロッホ・ハミルトンのバンドノードを持つ系では、非アベリアのフレーム回転電荷によって特徴づけられる。 これらのバンドノードがペアワイズで消滅する能力はパス依存であり、隣接するギャップでノードをブレイディングすることで電荷の符号を変更することができる。 ここでは、超低温原子系におけるこれらの非アベリアブレイディング過程と電荷を実験的に探究する2つの具体的な方法を構築し、数値的に確認する。 我々は、運動量空間のある角度でバンド特異点を通って原子を移動させることによって生成できる2つのバンドのコヒーレント重ね合わせを考える。 フレーム電荷に対する励起の依存性を解析し、2つのバンドノードを通過する干渉法を実証し、相対的なフレーム電荷を明らかにし、マルチギャップトポロジ的不変量を測定する。 第2の方法は、2つのノードを連続的に探索する単一ウェーブパケットに依存しており、そこではバンドの集団からフレーム電荷を決定することができる。 本研究は,バンドノードの非アベリア電荷を計測し,周期運転時に発生する異常な非アベリア位相を含む様々な環境に適用可能な,直接的実験によるブレイディング手順の検証を可能にする方法を提案する。

In systems with a real Bloch Hamiltonian band nodes can be characterised by a non-Abelian frame-rotation charge. The ability of these band nodes to annihilate pairwise is path dependent, since by braiding nodes in adjacent gaps the sign of their charges can be changed. Here, we theoretically construct and numerically confirm two concrete methods to experimentally probe these non-Abelian braiding processes and charges in ultracold atomic systems. We consider a coherent superposition of two bands that can be created by moving atoms through the band singularities at some angle in momentum space. Analyzing the dependency of excitations on the frame charges, we demonstrate an interferometry scheme passing through two band nodes, which reveals the relative frame charges and allows for measuring the multi-gap topological invariant. The second method relies on a single wavepacket probing two nodes sequentially, where the frame charges can be determined from the band populations. Our results present a feasible avenue for measuring non-Abelian charges of band nodes and the direct experimental verification of braiding procedures, which can be applied in a variety of settings including the recently discovered anomalous non-Abelian phases arising under periodic driving.
翻訳日:2024-07-23 00:06:44 公開日:2024-07-19
# PartSTAD: 2D-to-3D 分割タスク適応

PartSTAD: 2D-to-3D Part Segmentation Task Adaptation ( http://arxiv.org/abs/2401.05906v3 )

ライセンス: Link先を確認
Hyunjin Kim, Minhyuk Sung, (参考訳) 2D-to-3Dセグメンテーションリフトのタスク適応を目的としたPartSTADを提案する。 最近の研究は、2Dセグメンテーションモデルを利用して、数ショット適応による高品質な3Dセグメンテーションを実現するという利点を強調している。 しかし、従来のアプローチでは、3Dセグメンテーションに特化してモデルを最適化するのではなく、レンダリング画像や合成テキスト記述へのドメインシフトのための2次元セグメンテーションモデルの適用に重点を置いていた。 提案手法は,3次元セグメント化のための目的関数を持つ2次元境界ボックス予測モデルを微調整する。 適応的なマージのための2次元バウンディングボックスの重みを導入し、小さな追加ニューラルネットワークを用いて重みを学習する。 さらに,境界ボックス上の前景セグメンテーションモデルであるSAMを組み込んで,2次元セグメンテーションの境界,すなわち3次元セグメンテーションのバウンダリを改善する。 PartNet-Mobilityデータセットを用いた実験では,タスク適応アプローチによる大幅な改善,mIoUの7.0%増加,セマンティックおよびインスタンスセグメンテーションにおけるmAP@50の5.2%向上を実現した。

We introduce PartSTAD, a method designed for the task adaptation of 2D-to-3D segmentation lifting. Recent studies have highlighted the advantages of utilizing 2D segmentation models to achieve high-quality 3D segmentation through few-shot adaptation. However, previous approaches have focused on adapting 2D segmentation models for domain shift to rendered images and synthetic text descriptions, rather than optimizing the model specifically for 3D segmentation. Our proposed task adaptation method finetunes a 2D bounding box prediction model with an objective function for 3D segmentation. We introduce weights for 2D bounding boxes for adaptive merging and learn the weights using a small additional neural network. Additionally, we incorporate SAM, a foreground segmentation model on a bounding box, to improve the boundaries of 2D segments and consequently those of 3D segmentation. Our experiments on the PartNet-Mobility dataset show significant improvements with our task adaptation approach, achieving a 7.0%p increase in mIoU and a 5.2%p improvement in mAP@50 for semantic and instance segmentation compared to the SotA few-shot 3D segmentation model.
翻訳日:2024-07-23 00:06:44 公開日:2024-07-19
# アレルギー性鼻炎に対する皮下免疫療法の適応予測モデル

Sequential Model for Predicting Patient Adherence in Subcutaneous Immunotherapy for Allergic Rhinitis ( http://arxiv.org/abs/2401.11447v5 )

ライセンス: Link先を確認
Yin Li, Yu Xiong, Wenxin Fan, Kai Wang, Qingqing Yu, Liping Si, Patrick van der Smagt, Jun Tang, Nutan Chen, (参考訳) 目的: 皮下免疫療法 (SCIT) はアレルギー性鼻炎(AR)の長期因果治療である。 アレルゲン免疫療法(AIT)の利益を最大化するために患者の定着をいかに高めるかは、AITの管理において重要な役割を担っている。 本研究は,新しい機械学習モデルを用いて,AR患者とその関連症状スコアを3年間のSCITで正確に予測することを目的とする。 方法】Stochastic Latent Actor-Critic (SLAC) とLong Short-Term Memory (LSTM) の2つのモデルを開発した。 結果: 第一段階のバイアスサンプルを除くと, SLACモデルの予測付着精度は60\%から72\%であり, LSTMモデルでは66\%から84\%であり, 時間ステップによって異なる。 SLACモデルのRoot Mean Square Error(RMSE)の範囲は0.93から2.22であり、LSTMモデルでは1.09から1.77である。 特に、これらのRMSEは4.55のランダムな予測誤差よりもかなり低い。 結論: SCIT の長期管理において, SCIT の非整合性の予測に有望な精度で逐次モデルを創造的に適用した。 LSTMは順応予測においてSLACより優れているが、SLACはSCIT for ARの患者に対してスコア予測に優れる。 状態アクションベースのSLACは柔軟性を追加し、長期AITを管理するための新しく効果的なアプローチを提供する。

Objective: Subcutaneous Immunotherapy (SCIT) is the long-lasting causal treatment of allergic rhinitis (AR). How to enhance the adherence of patients to maximize the benefit of allergen immunotherapy (AIT) plays a crucial role in the management of AIT. This study aims to leverage novel machine learning models to precisely predict the risk of non-adherence of AR patients and related local symptom scores in three years SCIT. Methods: The research develops and analyzes two models, sequential latent-variable model (SLVM) of Stochastic Latent Actor-Critic (SLAC) and Long Short-Term Memory (LSTM) evaluating them based on scoring and adherence prediction capabilities. Results: Excluding the biased samples at the first time step, the predictive adherence accuracy of the SLAC models is from 60\% to 72\%, and for LSTM models, it is 66\% to 84\%, varying according to the time steps. The range of Root Mean Square Error (RMSE) for SLAC models is between 0.93 and 2.22, while for LSTM models it is between 1.09 and 1.77. Notably, these RMSEs are significantly lower than the random prediction error of 4.55. Conclusion: We creatively apply sequential models in the long-term management of SCIT with promising accuracy in the prediction of SCIT nonadherence in AR patients. While LSTM outperforms SLAC in adherence prediction, SLAC excels in score prediction for patients undergoing SCIT for AR. The state-action-based SLAC adds flexibility, presenting a novel and effective approach for managing long-term AIT.
翻訳日:2024-07-23 00:06:44 公開日:2024-07-19
# デュアルニューラルラジアンス場に基づく室内環境の3次元再構成と新しいビュー合成

3D Reconstruction and New View Synthesis of Indoor Environments based on a Dual Neural Radiance Field ( http://arxiv.org/abs/2401.14726v2 )

ライセンス: Link先を確認
Zhenyu Bao, Guibiao Liao, Zhongyuan Zhao, Kanglin Liu, Qing Li, Guoping Qiu, (参考訳) 屋内環境における3次元再構成と新しいビュー合成の同時実現は、広く応用されているが、技術的には極めて困難である。 暗黙的ニューラルファンクションに基づく最先端の手法は優れた3次元再構成結果が得られるが、新しいビュー合成の性能は不十分である。 ニューラル放射場(NeRF)のエキサイティングな開発は、新しいビュー合成に革命をもたらしたが、NeRFベースのモデルは、きれいな幾何学的表面を再構成することができない。 我々は,高品質な幾何再構成とビューレンダリングを実現するために,デュアルニューラル放射場(Du-NeRF)を開発した。 Du-NeRFは2つの幾何学的場を含み、1つはSDF場から導出され、もう1つは密度場から導出され、新しいビュー合成が促進される。 Du-NeRFの革新的な特徴の1つは、ビュー非依存のコンポーネントを密度場から切り離し、SDFフィールドの学習プロセスを監督するためにラベルとして使用することである。 これにより、形状と輝度のあいまいさが軽減され、学習プロセス中に幾何学と色が互いに恩恵を受けることができる。 広汎な実験により、Du-NeRFは、室内環境における新規なビュー合成と3次元再構成の性能を大幅に向上させることができることが示され、特に、マルチビューカラー一貫性に従わない微細なジオメトリを含む領域の構築に有効である。

Simultaneously achieving 3D reconstruction and new view synthesis for indoor environments has widespread applications but is technically very challenging. State-of-the-art methods based on implicit neural functions can achieve excellent 3D reconstruction results, but their performances on new view synthesis can be unsatisfactory. The exciting development of neural radiance field (NeRF) has revolutionized new view synthesis, however, NeRF-based models can fail to reconstruct clean geometric surfaces. We have developed a dual neural radiance field (Du-NeRF) to simultaneously achieve high-quality geometry reconstruction and view rendering. Du-NeRF contains two geometric fields, one derived from the SDF field to facilitate geometric reconstruction and the other derived from the density field to boost new view synthesis. One of the innovative features of Du-NeRF is that it decouples a view-independent component from the density field and uses it as a label to supervise the learning process of the SDF field. This reduces shape-radiance ambiguity and enables geometry and color to benefit from each other during the learning process. Extensive experiments demonstrate that Du-NeRF can significantly improve the performance of novel view synthesis and 3D reconstruction for indoor environments and it is particularly effective in constructing areas containing fine geometries that do not obey multi-view color consistency.
翻訳日:2024-07-23 00:06:44 公開日:2024-07-19
# 大規模言語モデルの変換と組み合わせ

Transforming and Combining Rewards for Aligning Large Language Models ( http://arxiv.org/abs/2402.00742v2 )

ライセンス: Link先を確認
Zihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch, (参考訳) 言語モデルを人間の好みに合わせるための一般的なアプローチは、まず好みデータから報酬モデルを学び、次にこの報酬モデルを使って言語モデルを更新する。 このアプローチで生じる2つの密接に関連する問題について検討する。 まず、報酬モデルのモノトーン変換は好みのランクを保ちます。 次に、言語モデルを複数のプロパティに合わせることを望んでいます。 アライメント手順の確率論的解釈を用いて、Bradley-Terry選好モデルから得られた(一般的な場合)報酬に対する変換の自然な選択を同定する。 導出変換は単純である: 中心となる報酬に対数シグモイド関数を適用する、すなわち '`LSC-transformation' (log-sigmoid-centered transformation) と呼ぶ方法。 この変換には2つの重要な性質がある。 第一に、すでによく評価されているアウトプットではなく、パフォーマンスの悪いアウトプットを改善することを強調する。 これにより、不適合(いくつかのプロンプトが改善されない)と報酬ハック(モデルが報酬モデルの誤特定を悪用することを学ぶ)の両方が軽減される。 第二に、和を論理接続にリンクすることで、報酬の原理的な集約を可能にし、変換された報酬の和は、すべての測定された性質において出力が「良い」である確率に対応する。 RLHFを用いた言語モデルのアライメント実験は、ベースライン(非変換)アプローチよりも大幅に改善されている。

A common approach for aligning language models to human preferences is to first learn a reward model from preference data, and then use this reward model to update the language model. We study two closely related problems that arise in this approach. First, any monotone transformation of the reward model preserves preference ranking; is there a choice that is ``better'' than others? Second, we often wish to align language models to multiple properties: how should we combine multiple reward models? Using a probabilistic interpretation of the alignment procedure, we identify a natural choice for transformation for (the common case of) rewards learned from Bradley-Terry preference models. The derived transformation is straightforward: we apply a log-sigmoid function to the centered rewards, a method we term ``LSC-transformation'' (log-sigmoid-centered transformation). This transformation has two important properties. First, it emphasizes improving poorly-performing outputs, rather than outputs that already score well. This mitigates both underfitting (where some prompts are not improved) and reward hacking (where the model learns to exploit misspecification of the reward model). Second, it enables principled aggregation of rewards by linking summation to logical conjunction: the sum of transformed rewards corresponds to the probability that the output is ``good'' in all measured properties, in a sense we make precise. Experiments aligning language models to be both helpful and harmless using RLHF show substantial improvements over the baseline (non-transformed) approach.
翻訳日:2024-07-22 23:56:51 公開日:2024-07-19
# 物理に着想を得た測地学補間による合成データ拡張による集団変数の学習

Learning Collective Variables with Synthetic Data Augmentation through Physics-Inspired Geodesic Interpolation ( http://arxiv.org/abs/2402.01542v4 )

ライセンス: Link先を確認
Soojung Yang, Juno Nam, Johannes C. B. Dietschreit, Rafael Gómez-Bombarelli, (参考訳) 分子動力学シミュレーションでは、タンパク質の折り畳みのようなまれな事象は、通常、強化されたサンプリング技術を用いて研究され、その多くは加速が起こる集合変数(CV)の定義に基づいている。 表現力のあるCVを持つことは重要であるが、しばしば特定の事象に関する情報の欠如、例えば、展開された状態から折り畳みされたコンフォメーションへの遷移によって妨げられる。 本研究では,タンパク質の折りたたみ遷移に似た測地的補間を生成するため,物理に着想を得た指標を用いたシミュレーションフリーなデータ拡張戦略を提案し,真の遷移状態サンプルを使わずにサンプリング効率を向上させる。 この新しいデータは、分類器ベースの手法の精度を向上させるために使用できる。 あるいは、補間進行パラメータを活用することにより、CVモデルの回帰に基づく学習方式を採用することができる。

In molecular dynamics simulations, rare events, such as protein folding, are typically studied using enhanced sampling techniques, most of which are based on the definition of a collective variable (CV) along which acceleration occurs. Obtaining an expressive CV is crucial, but often hindered by the lack of information about the particular event, e.g., the transition from unfolded to folded conformation. We propose a simulation-free data augmentation strategy using physics-inspired metrics to generate geodesic interpolations resembling protein folding transitions, thereby improving sampling efficiency without true transition state samples. This new data can be used to improve the accuracy of classifier-based methods. Alternatively, a regression-based learning scheme for CV models can be adopted by leveraging the interpolation progress parameter.
翻訳日:2024-07-22 23:56:51 公開日:2024-07-19
# 正規化の教えから学ぶ: 一般化可能な相関は省略し易い

Learning from Teaching Regularization: Generalizable Correlations Should be Easy to Imitate ( http://arxiv.org/abs/2402.02769v2 )

ライセンス: Link先を確認
Can Jin, Tong Che, Hongwu Peng, Yiyuan Li, Dimitris N. Metaxas, Marco Pavone, (参考訳) 一般化は依然として機械学習における中心的な課題である。 本研究では,深層ニューラルネットワークのための新しい正規化手法であるLearning from Teaching (LoT)を提案する。 簡潔で抽象的なパターンを捉える人間の能力に触発されて、一般化可能な相関は模倣し易いと仮定する。 LoTはこの概念を運用し、補助的な学生学習者とメインモデルの一般化を改善する。 学生の学習者は、メインモデルによって訓練され、その上で、メインモデルがより一般化可能でイミタブルな相関を捉えるのに役立つフィードバックを提供する。 コンピュータビジョン、自然言語処理、強化学習のような方法論を含むいくつかの領域にわたる実験結果は、LoTの導入がオリジナルのデータセットのトレーニングモデルと比較して大きなメリットをもたらすことを実証しています。 以上の結果から,LoTはデータ相関を排除しつつ,適切なスケールで一般化可能な情報を識別する上での有効性と効率性が示唆され,現在の機械学習に付加価値が期待できる。 コードはhttps://github.com/jincan333/LoT.comで入手できる。

Generalization remains a central challenge in machine learning. In this work, we propose Learning from Teaching (LoT), a novel regularization technique for deep neural networks to enhance generalization. Inspired by the human ability to capture concise and abstract patterns, we hypothesize that generalizable correlations are expected to be easier to imitate. LoT operationalizes this concept to improve generalization of the main model with auxiliary student learners. The student learners are trained by the main model and, in turn, provide feedback to help the main model capture more generalizable and imitable correlations. Our experimental results across several domains, including Computer Vision, Natural Language Processing, and methodologies like Reinforcement Learning, demonstrate that the introduction of LoT brings significant benefits compared to training models on the original dataset. The results suggest the effectiveness and efficiency of LoT in identifying generalizable information at the right scales while discarding spurious data correlations, thus making LoT a valuable addition to current machine learning. Code is available at https://github.com/jincan333/LoT.
翻訳日:2024-07-22 23:56:51 公開日:2024-07-19
# 多視点シンボリック回帰

Multi-View Symbolic Regression ( http://arxiv.org/abs/2402.04298v3 )

ライセンス: Link先を確認
Etienne Russeil, Fabrício Olivetti de França, Konstantin Malanchev, Bogdan Burlacu, Emille E. O. Ishida, Marion Leroux, Clément Michelin, Guillaume Moinard, Emmanuel Gangler, (参考訳) 記号回帰(SR)は、説明変数と応答変数の関係を表す解析的表現を探索する。 現在のSR法では、1つの実験から抽出された1つのデータセットを仮定している。 しかしながら、研究者はしばしば異なる設定で行われた実験から得られた複数の結果に直面する。 従来のSR法では、各実験のパラメータが異なるため、基礎となる式を見つけることができない場合がある。 本研究では、複数のデータセットを同時に考慮し、実験環境を模倣し、一般的なパラメトリック解を出力するマルチビューシンボリック回帰(MvSR)を提案する。 このアプローチは、評価された式を各独立したデータセットに適合させ、すべてのデータセットを正確に適合させることができる関数のパラメトリックなファミリ f(x;theta) を返す。 我々は、既知の表現から生成されたデータと、天文学、化学、経済から得られた実世界のデータを用いて、MvSRの有効性を実証する。 その結果、MvSRは正しい表現をより頻繁に獲得し、ハイパーパラメーターの変化に対して堅牢であることがわかった。 実世界のデータでは、集団の振る舞いを把握し、文献から既知の表現を回収し、有望な代替品を回収し、SRを幅広い実験シナリオに利用できるようにする。

Symbolic regression (SR) searches for analytical expressions representing the relationship between a set of explanatory and response variables. Current SR methods assume a single dataset extracted from a single experiment. Nevertheless, frequently, the researcher is confronted with multiple sets of results obtained from experiments conducted with different setups. Traditional SR methods may fail to find the underlying expression since the parameters of each experiment can be different. In this work we present Multi-View Symbolic Regression (MvSR), which takes into account multiple datasets simultaneously, mimicking experimental environments, and outputs a general parametric solution. This approach fits the evaluated expression to each independent dataset and returns a parametric family of functions f(x; theta) simultaneously capable of accurately fitting all datasets. We demonstrate the effectiveness of MvSR using data generated from known expressions, as well as real-world data from astronomy, chemistry and economy, for which an a priori analytical expression is not available. Results show that MvSR obtains the correct expression more frequently and is robust to hyperparameters change. In real-world data, it is able to grasp the group behavior, recovering known expressions from the literature as well as promising alternatives, thus enabling the use of SR to a large range of experimental scenarios.
翻訳日:2024-07-22 23:56:51 公開日:2024-07-19
# マルジナル保存・微分原始合成データに基づく線形モデルの過剰リスクの回避

Bounding the Excess Risk for Linear Models Trained on Marginal-Preserving, Differentially-Private, Synthetic Data ( http://arxiv.org/abs/2402.04375v2 )

ライセンス: Link先を確認
Yvonne Zhou, Mingyu Liang, Ivan Brugere, Dana Dachman-Soled, Danial Dervovic, Antigoni Polychroniadou, Min Wu, (参考訳) 機械学習(ML)の利用の増加は、機械学習モデルがトレーニングデータセットに寄与した個人に関するプライベート情報を明らかにするのではないか、という懸念を提起している。 機密データの漏洩を防止するため,実学習データの代わりに差分プライベート(DP)合成トレーニングデータを用いてMLモデルを訓練する。 合成データの鍵となる望ましい性質は、元の分布の低次限界を保存する能力である。 本研究の主な貢献は, 連続損失関数とリプシッツ損失関数の合成データに基づいて訓練された線形モデルの過大な経験的リスクに対する, 上層と下層の境界である。 我々は理論結果とともに広範な実験を行う。

The growing use of machine learning (ML) has raised concerns that an ML model may reveal private information about an individual who has contributed to the training dataset. To prevent leakage of sensitive data, we consider using differentially-private (DP), synthetic training data instead of real training data to train an ML model. A key desirable property of synthetic data is its ability to preserve the low-order marginals of the original distribution. Our main contribution comprises novel upper and lower bounds on the excess empirical risk of linear models trained on such synthetic data, for continuous and Lipschitz loss functions. We perform extensive experimentation alongside our theoretical results.
翻訳日:2024-07-22 23:56:51 公開日:2024-07-19
# 可換対称性制約下における大域的最適性

Global optimality under amenable symmetry constraints ( http://arxiv.org/abs/2402.07613v2 )

ライセンス: Link先を確認
Peter Orbanz, (参考訳) 変換群の下で不変な凸函数を考える。 もしそれがミニマライザを持つなら、不変のミニマライザも持っているだろうか? この問題の変数は、非パラメトリック統計学やいくつかの隣接する分野に現れる。 答えは関数の選択に依存しており、その問題の幾何学(凸性、群、および典型的には無限次元であるベクトル空間の間の相互作用)を緩やかに呼ぶことができる。 我々は、この幾何学が空間の最小の閉凸不変部分集合に完全にエンコードされていることを観察し、これらの集合の研究を進める。 次に、このツールキットを不変最適性問題に適用する。 これは、不変カーネルの平均埋め込みとリスク-最適不変結合に関する新しい結果をもたらし、機械学習で同変ニューラルネットワークを構成するのに使用される和のトリックや統計学の古典的なハント・シュタインの定理のような、一見異なる概念の間の関係を明確にする。

Consider a convex function that is invariant under an group of transformations. If it has a minimizer, does it also have an invariant minimizer? Variants of this problem appear in nonparametric statistics and in a number of adjacent fields. The answer depends on the choice of function, and on what one may loosely call the geometry of the problem -- the interplay between convexity, the group, and the underlying vector space, which is typically infinite-dimensional. We observe that this geometry is completely encoded in the smallest closed convex invariant subsets of the space, and proceed to study these sets, for groups that are amenable but not necessarily compact. We then apply this toolkit to the invariant optimality problem. It yields new results on invariant kernel mean embeddings and risk-optimal invariant couplings, and clarifies relations between seemingly distinct ideas, such as the summation trick used in machine learning to construct equivariant neural networks and the classic Hunt-Stein theorem of statistics.
翻訳日:2024-07-22 23:56:51 公開日:2024-07-19
# 多属性視覚変換器は効率的かつロバストな学習者である

Multi-Attribute Vision Transformers are Efficient and Robust Learners ( http://arxiv.org/abs/2402.08070v2 )

ライセンス: Link先を確認
Hanan Gani, Nada Saadi, Noor Hussein, Karthik Nandakumar, (参考訳) ビジョントランスフォーマー(ViT)は、その誕生以来、幅広いタスクにまたがる畳み込みニューラルネットワーク(CNN)に代わる魅力的な代替手段として現れてきた。 ViTは、グローバルな注目、オクルージョンに対するレジリエンス、分散シフトへの適応性など、顕著な特徴を示す。 ViTの未発見の側面は、複数の属性関連タスクを同時に把握する能力に言及して、マルチ属性学習の可能性である。 本稿では,ViTのマルチ属性学習能力について検討し,個別のタスクとして,単一のViTネットワークを通じて様々な属性をトレーニングするための,単純かつ効果的な戦略を提案する。 対戦型攻撃に対する多属性ViTのレジリエンスを評価し,その性能を単一属性に設計したViTと比較した。 さらに,Patch-Fool と呼ばれる最近のトランスフォーマー攻撃に対するマルチ属性 ViT のロバスト性についても検討した。 CelebAデータセットに関する実証的な発見は、アサーションの検証を提供します。 私たちのコードはhttps://github.com/hananshafi/MTL-ViTで利用可能です。

Since their inception, Vision Transformers (ViTs) have emerged as a compelling alternative to Convolutional Neural Networks (CNNs) across a wide spectrum of tasks. ViTs exhibit notable characteristics, including global attention, resilience against occlusions, and adaptability to distribution shifts. One underexplored aspect of ViTs is their potential for multi-attribute learning, referring to their ability to simultaneously grasp multiple attribute-related tasks. In this paper, we delve into the multi-attribute learning capability of ViTs, presenting a straightforward yet effective strategy for training various attributes through a single ViT network as distinct tasks. We assess the resilience of multi-attribute ViTs against adversarial attacks and compare their performance against ViTs designed for single attributes. Moreover, we further evaluate the robustness of multi-attribute ViTs against a recent transformer based attack called Patch-Fool. Our empirical findings on the CelebA dataset provide validation for our assertion. Our code is available at https://github.com/hananshafi/MTL-ViT
翻訳日:2024-07-22 23:56:51 公開日:2024-07-19
# SLEB: 冗長性検証によるLLMのストリーム化と変圧器ブロックの除去

SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks ( http://arxiv.org/abs/2402.09025v5 )

ライセンス: Link先を確認
Jiwon Song, Kyungseok Oh, Taesu Kim, Hyungjun Kim, Yulhwa Kim, Jae-Joon Kim, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて非常に効果的であることが証明されている。 しかし、それらの多数のパラメータは、実践的なデプロイに重大な課題を生じさせる。 LLMのサイズと複雑さを減らすことを目的とした技術であるPruningは、ネットワークから冗長なコンポーネントを取り除くことで潜在的なソリューションを提供する。 プルーニングの約束にもかかわらず、既存の手法は、かなりエンドツーエンドのLSM推論スピードアップを達成するのに苦労することが多い。 本稿では、冗長なトランスブロックを排除し、LCMを合理化するための新しいアプローチであるSLEBを紹介する。 LLMは隣接するブロックの出力間に高い類似性を有するブロックレベルの冗長性を示すため、我々は変圧器ブロックをプルーニングの基本単位として選択する。 この選択により、LLMの処理速度を効果的に向上できる。 実験結果から,SLEBはLLM推論を高速化し,高いパープレキシティと精度を維持しつつ,従来のLLMプルーニング法よりも優れており,SLEBはLLMの効率を高めるための有望な技術であることが示された。 コードは、https://github.com/jiwonsong-dev/SLEB.comで入手できる。

Large language models (LLMs) have proven to be highly effective across various natural language processing tasks. However, their large number of parameters poses significant challenges for practical deployment. Pruning, a technique aimed at reducing the size and complexity of LLMs, offers a potential solution by removing redundant components from the network. Despite the promise of pruning, existing methods often struggle to achieve substantial end-to-end LLM inference speedup. In this paper, we introduce SLEB, a novel approach designed to streamline LLMs by eliminating redundant transformer blocks. We choose the transformer block as the fundamental unit for pruning, because LLMs exhibit block-level redundancy with high similarity between the outputs of neighboring blocks. This choice allows us to effectively enhance the processing speed of LLMs. Our experimental results demonstrate that SLEB outperforms previous LLM pruning methods in accelerating LLM inference while also maintaining superior perplexity and accuracy, making SLEB as a promising technique for enhancing the efficiency of LLMs. The code is available at: https://github.com/jiwonsong-dev/SLEB.
翻訳日:2024-07-22 23:56:51 公開日:2024-07-19
# 階層的近位リプレイ:オンライン連続学習のための近位点法

Layerwise Proximal Replay: A Proximal Point Method for Online Continual Learning ( http://arxiv.org/abs/2402.09542v3 )

ライセンス: Link先を確認
Jason Yoo, Yunpeng Liu, Frank Wood, Geoff Pleiss, (参考訳) オンライン連続学習では、ニューラルネットワークは非i.d.データストリームから漸進的に学習する。 ほぼ全てのオンライン連続学習手法は、過去のデータに対する破滅的な忘れ込みと過小評価を同時に防止するために経験的リプレイ(experience replay)を採用している。 経験的なリプレイでトレーニングされたニューラルネットワークは、不安定な最適化軌跡を持ち、全体的な精度を損なう傾向があります。 驚くべきことに、これらの不安定性は、リプレイバッファが以前のトレーニング例をすべて保存している場合でも持続し、この問題は破滅的な忘れ物に直交していることを示唆している。 最適化幾何の簡単な修正により、これらの不安定性を最小化する。 我々のソリューションであるLayerwise Proximal Replay (LPR)は、新しいデータとリプレイデータからの学習のバランスを保ちながら、過去のデータの隠されたアクティベーションの段階的な変更のみを可能にします。 LPRは、利用可能なリプレイメモリの量に関係なく、複数の問題設定にまたがるリプレイベースのオンライン連続学習手法を一貫して改善することを示した。

In online continual learning, a neural network incrementally learns from a non-i.i.d. data stream. Nearly all online continual learning methods employ experience replay to simultaneously prevent catastrophic forgetting and underfitting on past data. Our work demonstrates a limitation of this approach: neural networks trained with experience replay tend to have unstable optimization trajectories, impeding their overall accuracy. Surprisingly, these instabilities persist even when the replay buffer stores all previous training examples, suggesting that this issue is orthogonal to catastrophic forgetting. We minimize these instabilities through a simple modification of the optimization geometry. Our solution, Layerwise Proximal Replay (LPR), balances learning from new and replay data while only allowing for gradual changes in the hidden activation of past data. We demonstrate that LPR consistently improves replay-based online continual learning methods across multiple problem settings, regardless of the amount of available replay memory.
翻訳日:2024-07-22 23:56:51 公開日:2024-07-19
# Johnson-Lindenstraus の単純統一解析とその応用

Simple, unified analysis of Johnson-Lindenstrauss with applications ( http://arxiv.org/abs/2402.10232v4 )

ライセンス: Link先を確認
Yingru Li, (参考訳) 本稿では,ジョンソン・リンデンシュトラウス(JL)補題の簡易かつ統一的な解析法を提案する。 提案手法は, 球面, バイナリコイン, スパースJL, ガウスモデル, ガウス下モデルなど, JL フレームワーク下での様々な構成の理解と統一を単純化する。 この統合は、ストリーミングアルゴリズムから強化学習まで、アプリケーションに不可欠なデータ固有の幾何学を保存する。 球面構成の有効性の厳密な証明を初めて提供し、この単純化された枠組みの中にガウス下構成の一般クラスを導入する。 私たちの貢献の中心は、ハンソン・ライトの不等式を高次元への革新的拡張であり、明示的な定数で完備である。 本研究は, 簡易かつ強力な確率的ツールと, 対角化プロセスの強化などの解析手法を用いて, 独立性の仮定を取り除き, 現代アルゴリズムへの実践的適用性を高めることにより, JL補題の理論的基礎を固める。

We present a simplified and unified analysis of the Johnson-Lindenstrauss (JL) lemma, a cornerstone of dimensionality reduction for managing high-dimensional data. Our approach simplifies understanding and unifies various constructions under the JL framework, including spherical, binary-coin, sparse JL, Gaussian, and sub-Gaussian models. This unification preserves the intrinsic geometry of data, essential for applications from streaming algorithms to reinforcement learning. We provide the first rigorous proof of the spherical construction's effectiveness and introduce a general class of sub-Gaussian constructions within this simplified framework. Central to our contribution is an innovative extension of the Hanson-Wright inequality to high dimensions, complete with explicit constants. By using simple yet powerful probabilistic tools and analytical techniques, such as an enhanced diagonalization process, our analysis solidifies the theoretical foundation of the JL lemma by removing an independence assumption and extends its practical applicability to contemporary algorithms.
翻訳日:2024-07-22 23:56:51 公開日:2024-07-19
# ロバストエージェントは因果世界モデルを学ぶ

Robust agents learn causal world models ( http://arxiv.org/abs/2402.10877v7 )

ライセンス: Link先を確認
Jonathan Richens, Tom Everitt, (参考訳) 因果推論は、堅牢で汎用的な知性において基本的な役割を担っていると長い間推測されてきた。 しかし、エージェントが新しい領域に一般化するために因果モデルを学ぶ必要があるか、あるいは他の帰納的バイアスが十分であるかどうかは不明である。 この疑問に答え、大規模な分布シフトの下で、後悔の束を満足できる任意のエージェントが、最適なエージェントの真の因果モデルに収束するデータ生成プロセスの近似因果モデルを学んだに違いないことを示す。 転帰学習や因果推論など,いくつかの研究領域において,この結果がもたらす意味について論じる。

It has long been hypothesised that causal reasoning plays a fundamental role in robust and general intelligence. However, it is not known if agents must learn causal models in order to generalise to new domains, or if other inductive biases are sufficient. We answer this question, showing that any agent capable of satisfying a regret bound under a large set of distributional shifts must have learned an approximate causal model of the data generating process, which converges to the true causal model for optimal agents. We discuss the implications of this result for several research areas including transfer learning and causal inference.
翻訳日:2024-07-22 23:56:51 公開日:2024-07-19
# 拡散テンパリングは正規微分方程式に対する確率積分器によるパラメータ推定を改善する

Diffusion Tempering Improves Parameter Estimation with Probabilistic Integrators for Ordinary Differential Equations ( http://arxiv.org/abs/2402.12231v5 )

ライセンス: Link先を確認
Jonas Beck, Nathanael Bosch, Michael Deistler, Kyra L. Kadhim, Jakob H. Macke, Philipp Hennig, Philipp Berens, (参考訳) 通常微分方程式(ODE)は科学の力学系を記述するために広く用いられているが、実験的な測定を説明するパラメータを特定することは困難である。 特に、ODEは微分可能であり、勾配に基づくパラメータ最適化が可能であるが、ODEの非線形ダイナミクスは多くの場合、多くの局所最小化と初期条件に対する極度な感度をもたらす。 そこで我々は,ODEにおける勾配に基づくパラメータ最適化の収束性を改善する確率的数値法の新しい正規化手法である拡散テンパリングを提案する。 確率積分器の雑音パラメータを反復的に低減することにより、提案手法は真のパラメータにより確実に収束する。 本手法は複雑性の異なる力学系に対して有効であることを示すとともに,実際に関連するパラメータ数を持つHodgkin-Huxleyモデルに対して,信頼性の高いパラメータ推定値が得られることを示す。

Ordinary differential equations (ODEs) are widely used to describe dynamical systems in science, but identifying parameters that explain experimental measurements is challenging. In particular, although ODEs are differentiable and would allow for gradient-based parameter optimization, the nonlinear dynamics of ODEs often lead to many local minima and extreme sensitivity to initial conditions. We therefore propose diffusion tempering, a novel regularization technique for probabilistic numerical methods which improves convergence of gradient-based parameter optimization in ODEs. By iteratively reducing a noise parameter of the probabilistic integrator, the proposed method converges more reliably to the true parameters. We demonstrate that our method is effective for dynamical systems of different complexity and show that it obtains reliable parameter estimates for a Hodgkin-Huxley model with a practically relevant number of parameters.
翻訳日:2024-07-22 23:47:06 公開日:2024-07-19
# トラップイオン量子ビットに対するロバストおよび高速マイクロ波駆動量子論理

Robust and fast microwave-driven quantum logic for trapped-ion qubits ( http://arxiv.org/abs/2402.12955v3 )

ライセンス: Link先を確認
M. A. Weber, M. F. Gely, R. K. Hanley, T. P. Harty, A. D. Leu, C. M. Löschnauer, D. P. Nadlinger, D. M. Lucas, (参考訳) マイクロ波駆動論理は、閉じ込められたイオンベースの量子プロセッサをスケールする際のレーザー制御の代替として有望である。 しかし、そのような電子ゲートはレーザー駆動のゲートの速度とはまだ一致していない。 そこで我々は, 極低温(\approx25~\text{K}$)表面トラップにおいて, $^{43}\text{Ca}^+$超微細クロック量子ビット上にM{\o}lmer-S{\o}rensen二量子ゲートを実装した。 我々は、154〜\mu\text{s}$(1.0(2)\%$エラー)と331〜\mu\text{s}$$(0.5(1)\%$エラー)のゲート持続時間を達成する。 331~\mu\text{s}$ gateでは、量子ビット周波数のゆらぎによる誤差やデカップリングドライブ自体の不完全さを抑える新しいウォルシュ変調動的デカップリングスキームを実演する。

Microwave-driven logic is a promising alternative to laser control in scaling trapped-ion based quantum processors. However, such electronic gates have yet to match the speed offered by their laser-driven counterparts. Here, we implement M{\o}lmer-S{\o}rensen two-qubit gates on $^{43}\text{Ca}^+$ hyperfine clock qubits in a cryogenic ($\approx25~\text{K}$) surface trap, driven by near-field microwaves. We achieve gate durations of $154~\mu\text{s}$ (with $1.0(2)\%$ error) and $331~\mu\text{s}$ ($0.5(1)\%$ error), which approaches the performance of typical laser-driven gates. In the $331~\mu\text{s}$ gate, we demonstrate a new Walsh-modulated dynamical decoupling scheme which suppresses errors due to fluctuations in the qubit frequency as well as imperfections in the decoupling drive itself.
翻訳日:2024-07-22 23:47:06 公開日:2024-07-19
# 対話型KBQA:大規模言語モデルを用いた知識ベース質問応答のための多段階インタラクション

Interactive-KBQA: Multi-Turn Interactions for Knowledge Base Question Answering with Large Language Models ( http://arxiv.org/abs/2402.15131v2 )

ライセンス: Link先を確認
Guanming Xiong, Junwei Bao, Wen Zhao, (参考訳) 本研究では,知識ベース質問応答(KBQA)の領域について検討する。 KBQAは、特に複雑な質問を実行可能な論理形式に解析する上で、難しい課題であると考えられている。 従来の意味解析(SP)ベースの手法は広範なデータアノテーションを必要とするため、かなりのコストがかかる。 近年,大規模言語モデル (LLM) を利用した数発のインコンテキスト学習が出現し,有望な能力を示した。 しかし、LLMを十分に活用して、低リソースシナリオで質問を論理形式に解析することは、大きな課題となる。 このようなハードルに対処するために,知識ベース(KB)と直接対話することで論理形式を生成するためのフレームワークであるInteractive-KBQAを導入する。 本フレームワークでは,KBインタラクションのための3つの汎用APIを開発した。 複雑な質問のカテゴリ毎に,LLMを推論プロセスを通じてガイドする例を考案した。 提案手法は,WebQuestionsSP, ComplexWebQuestions, KQA Pro, MetaQAデータセットを最小限の例(ショット)で比較した結果を得た。 重要なこととして,本手法は手動による介入をサポートし,LCM出力の反復的改善を可能にする。 ステップワイズ推論プロセスでデータセットに注釈を付けることで、モデルの適応性を示し、フィールドに重要な拡張をもたらす可能性を強調します。

This study explores the realm of knowledge base question answering (KBQA). KBQA is considered a challenging task, particularly in parsing intricate questions into executable logical forms. Traditional semantic parsing (SP)-based methods require extensive data annotations, which result in significant costs. Recently, the advent of few-shot in-context learning, powered by large language models (LLMs), has showcased promising capabilities. However, fully leveraging LLMs to parse questions into logical forms in low-resource scenarios poses a substantial challenge. To tackle these hurdles, we introduce Interactive-KBQA, a framework designed to generate logical forms through direct interaction with knowledge bases (KBs). Within this framework, we have developed three generic APIs for KB interaction. For each category of complex question, we devised exemplars to guide LLMs through the reasoning processes. Our method achieves competitive results on the WebQuestionsSP, ComplexWebQuestions, KQA Pro, and MetaQA datasets with a minimal number of examples (shots). Importantly, our approach supports manual intervention, allowing for the iterative refinement of LLM outputs. By annotating a dataset with step-wise reasoning processes, we showcase our model's adaptability and highlight its potential for contributing significant enhancements to the field.
翻訳日:2024-07-22 23:47:06 公開日:2024-07-19
# 拘束型MDPにおける完全非回帰学習

Truly No-Regret Learning in Constrained MDPs ( http://arxiv.org/abs/2402.15776v3 )

ライセンス: Link先を確認
Adrian Müller, Pragnya Alatur, Volkan Cevher, Giorgia Ramponi, Niao He, (参考訳) CMDP(Constrained Markov decision process)は、強化学習における安全性の制約をモデル化する一般的な方法である。 CMDPを効率的に解くための最先端の手法は、原始双対アルゴリズムに基づいている。 これらのアルゴリズムでは、現在知られているすべての後悔のバウンダリがエラーのキャンセルを許容する -- 1ラウンドで制約違反を補うことができ、もう1ラウンドで厳格な制約満足度を補うことができる。 これにより、オンライン学習プロセスは、最終(混合)ポリシーの安全性のみを保証するが、学習中ではないため、安全ではない。 Efroni et al (2020) が指摘しているように、誤りのキャンセルを許さない場合、原始双対アルゴリズムが確実にサブリニア後悔を達成できるかどうかという未解決の問題である。 本稿では,最初の肯定的な回答を与える。 まず、複数の制約を持つCMDPに対する正規化原始双対スキームの終点収束に関する結果を一般化する。 この知見に基づいて、未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。 提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。

Constrained Markov decision processes (CMDPs) are a common way to model safety constraints in reinforcement learning. State-of-the-art methods for efficiently solving CMDPs are based on primal-dual algorithms. For these algorithms, all currently known regret bounds allow for error cancellations -- one can compensate for a constraint violation in one round with a strict constraint satisfaction in another. This makes the online learning process unsafe since it only guarantees safety for the final (mixture) policy but not during learning. As Efroni et al. (2020) pointed out, it is an open question whether primal-dual algorithms can provably achieve sublinear regret if we do not allow error cancellations. In this paper, we give the first affirmative answer. We first generalize a result on last-iterate convergence of regularized primal-dual schemes to CMDPs with multiple constraints. Building upon this insight, we propose a model-based primal-dual algorithm to learn in an unknown CMDP. We prove that our algorithm achieves sublinear regret without error cancellations.
翻訳日:2024-07-22 23:47:06 公開日:2024-07-19
# WDM:高分解能医用画像合成のための3次元ウェーブレット拡散モデル

WDM: 3D Wavelet Diffusion Models for High-Resolution Medical Image Synthesis ( http://arxiv.org/abs/2402.19043v2 )

ライセンス: Link先を確認
Paul Friedrich, Julia Wolleb, Florentin Bieder, Alicia Durrer, Philippe C. Cattin, (参考訳) CTやMRスキャンの3次元的な性質から、医用画像の生成モデリングは特に難しい課題である。 既存のアプローチは、主にパッチワイド、スライスワイズ、カスケード生成技術を適用して、高次元データを限られたGPUメモリに適合させる。 しかし、これらのアプローチはアーティファクトを導入し、特定の下流タスクに対するモデルの適用性を制限する可能性がある。 本研究はウェーブレット分解画像に拡散モデルを適用するウェーブレットベースの医用画像合成フレームワークであるWDMを提案する。 提案したアプローチは、3D拡散モデルを高解像度にスケーリングするシンプルで効果的な方法であり、単一のSI{40}{\giga\byte} GPUでトレーニングすることができる。 128 \times 128 \times 128$の解像度でのBraTSとLIDC-IDRIの無条件画像生成実験は、最近のGAN、拡散モデル、潜時拡散モデルと比較して、最先端画像忠実度(FID)とサンプル多様性(MS-SSIM)のスコアを示す。 提案手法は,256 \times 256 \times 256$の解像度で高品質な画像を生成することができる唯一の方法である。

Due to the three-dimensional nature of CT- or MR-scans, generative modeling of medical images is a particularly challenging task. Existing approaches mostly apply patch-wise, slice-wise, or cascaded generation techniques to fit the high-dimensional data into the limited GPU memory. However, these approaches may introduce artifacts and potentially restrict the model's applicability for certain downstream tasks. This work presents WDM, a wavelet-based medical image synthesis framework that applies a diffusion model on wavelet decomposed images. The presented approach is a simple yet effective way of scaling 3D diffusion models to high resolutions and can be trained on a single \SI{40}{\giga\byte} GPU. Experimental results on BraTS and LIDC-IDRI unconditional image generation at a resolution of $128 \times 128 \times 128$ demonstrate state-of-the-art image fidelity (FID) and sample diversity (MS-SSIM) scores compared to recent GANs, Diffusion Models, and Latent Diffusion Models. Our proposed method is the only one capable of generating high-quality images at a resolution of $256 \times 256 \times 256$, outperforming all comparing methods.
翻訳日:2024-07-22 23:47:06 公開日:2024-07-19
# 積算位相推定

Agnostic Phase Estimation ( http://arxiv.org/abs/2403.00054v3 )

ライセンス: Link先を確認
Xingrui Song, Flavio Salvati, Chandrashekhar Gaikwad, Nicole Yunger Halpern, David R. M. Arvidsson-Shukur, Kater Murch, (参考訳) 量子気象学の目標は、量子資源を活用することで測定の感度を改善することである。 気象学者はしばしば、測定装置の感度を束縛する量子フィッシャー情報の最大化を目指す。 メトロジーの基本的な極限の研究において、パラダイム的なセットアップは未知の回転の対象となるクォービット(スピンハーフ系)を特徴付ける。 スピンが回転誘導作用素の分散を最大化する状態から始まるとき、回転に関する最大量子フィッシャー情報を得る。 しかし、回転軸が不明な場合、最適な1量子ビットセンサは作成できない。 閉時間曲線のシミュレーションに触発されて、我々はこの制限を回避した。 未知の回転軸に関係なく、回転角に関する最大量子フィッシャー情報を得る。 この結果を得るために、まず、プローブキュービットをアンシラキュービットで絡み合わせる。 そして、このペアを絡み合ったベースで測定し、任意の1量子ビットセンサよりも回転角に関するより多くの情報を得る。 2量子ビット超伝導量子プロセッサを用いたこのメロジカルアドバンテージを実証する。 我々の測定手法は量子的優位性を達成し、あらゆる絡み合いのない戦略を上回ります。

The goal of quantum metrology is to improve measurements' sensitivities by harnessing quantum resources. Metrologists often aim to maximize the quantum Fisher information, which bounds the measurement setup's sensitivity. In studies of fundamental limits on metrology, a paradigmatic setup features a qubit (spin-half system) subject to an unknown rotation. One obtains the maximal quantum Fisher information about the rotation if the spin begins in a state that maximizes the variance of the rotation-inducing operator. If the rotation axis is unknown, however, no optimal single-qubit sensor can be prepared. Inspired by simulations of closed timelike curves, we circumvent this limitation. We obtain the maximum quantum Fisher information about a rotation angle, regardless of the unknown rotation axis. To achieve this result, we initially entangle the probe qubit with an ancilla qubit. Then, we measure the pair in an entangled basis, obtaining more information about the rotation angle than any single-qubit sensor can achieve. We demonstrate this metrological advantage using a two-qubit superconducting quantum processor. Our measurement approach achieves a quantum advantage, outperforming every entanglement-free strategy.
翻訳日:2024-07-22 23:47:06 公開日:2024-07-19
# Query-OPT:ミーティング要約におけるマルチクエリ命令による大規模言語モデルの推論の最適化

Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization ( http://arxiv.org/abs/2403.00067v2 )

ライセンス: Link先を確認
Md Tahmid Rahman Laskar, Elena Khasanova, Xue-Yong Fu, Cheng Chen, Shashi Bhushan TN, (参考訳) 本研究は,特定の問合せに応答してコンテキスト(書き起こし)の要約を生成する,問合せに基づく会議要約のタスクに焦点をあてる。 このタスクにLarge Language Models (LLM)を使用する場合、コンテキストが同じであっても、通常、新しいクエリ毎にLLM推論エンドポイント/APIへの新しい呼び出しがトリガーされる。 しかし、LLM推論エンドポイントへの繰り返し呼び出しは、実運用で使用するコストを大幅に増加させ、LLMを現実の多くのユースケースでは実用的でないものにする。 この問題に対処するために,本稿では,同一の入力コンテキストに対するクエリを単一のプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える手法が,要約に有効であるかどうかを検討する。 そこで本研究では,GPT-4,Gemini,Claude-3,LLaMA-2,Mistral,Phi-3,Qwen-2を単一クエリ,複数クエリで比較した。 期待フォーマットでの応答生成における100%の信頼性は、通常、特定のクローズドソース LLM に限られており、ほとんどのオープンソース LLM は遅れている(Mistral や Phi-3 のような7B パラメータを除く)。 マルチクエリのプロンプトは,要約を満足する際の推論コストを大幅に最適化するのに有用である,と結論付けている。

This work focuses on the task of query-based meeting summarization in which the summary of a context (meeting transcript) is generated in response to a specific query. When using Large Language Models (LLMs) for this task, usually a new call to the LLM inference endpoint/API is triggered for each new query, even if the context stays the same. However, repeated calls to the LLM inference endpoints would significantly increase the costs of using them in production, making LLMs impractical for many real-world use cases. To address this problem, in this paper, we investigate whether combining the queries for the same input context in a single prompt to minimize repeated calls can be successfully used in meeting summarization. In this regard, we conduct extensive experiments by comparing the performance of various popular LLMs: GPT-4, Gemini, Claude-3, LLaMA-2, Mistral, Phi-3, and Qwen-2 in single-query and multi-query settings. We observe that 100% reliability in generating the response in the expected format is usually limited to certain closed-source LLMs, with most open-source LLMs lagging behind (except a few 7B parameters LLMs like Mistral and Phi-3). We conclude that multi-query prompting could be useful to significantly optimize the inference costs in meeting summarization.
翻訳日:2024-07-22 23:47:06 公開日:2024-07-19
# LLMを用いた高精度意思決定における認知バイアス

Cognitive Bias in High-Stakes Decision-Making with LLMs ( http://arxiv.org/abs/2403.00811v2 )

ライセンス: Link先を確認
Jessica Echterhoff, Yao Liu, Abeer Alessa, Julian McAuley, Zexue He, (参考訳) 大規模言語モデル(LLM)は、幅広い意思決定タスクをサポートするツールとして大きな可能性を秘めている。 人間の(創造された)データに対するトレーニングから、LLMは保護されたグループに対する社会的バイアスを継承し、認知バイアスに機能的に類似したバイアスを受けることが示されている。 人間のようなバイアスは、LCMの支援によって行われた公平で説明可能な決定を妨げる可能性がある。 我々の研究は、特に高い意思決定タスクにおいて、LLMにおける認知バイアスを発見し、評価し、緩和するために設計されたフレームワークであるBiasBusterを紹介します。 心理学と認知科学の先行研究に触発されて、16,800のプロンプトを含むデータセットを開発し、異なる認知バイアス(例えば、プロンプト誘発、シーケンシャル、本質)を評価する。 我々は,LSMを用いた新たな手法を提案中において,様々なバイアス緩和策を検証した。 我々の分析は、商用およびオープンソースモデルにまたがる認知バイアスの存在と効果を包括的に分析する。 我々の自己嫌悪は、偏見ごとに手作業で例を作らなくても、人間の認知バイアスに似たパターンを表示するモデル回答を効果的に緩和することを示した。

Large language models (LLMs) offer significant potential as tools to support an expanding range of decision-making tasks. Given their training on human (created) data, LLMs have been shown to inherit societal biases against protected groups, as well as be subject to bias functionally resembling cognitive bias. Human-like bias can impede fair and explainable decisions made with LLM assistance. Our work introduces BiasBuster, a framework designed to uncover, evaluate, and mitigate cognitive bias in LLMs, particularly in high-stakes decision-making tasks. Inspired by prior research in psychology and cognitive science, we develop a dataset containing 16,800 prompts to evaluate different cognitive biases (e.g., prompt-induced, sequential, inherent). We test various bias mitigation strategies, amidst proposing a novel method utilising LLMs to debias their own prompts. Our analysis provides a comprehensive picture of the presence and effects of cognitive bias across commercial and open-source models. We demonstrate that our self-help debiasing effectively mitigates model answers that display patterns akin to human cognitive bias without having to manually craft examples for each bias.
翻訳日:2024-07-22 23:47:06 公開日:2024-07-19
# 自然言語処理のためのプレトレイン・フィネチューンパラダイムに関する研究

A Tutorial on the Pretrain-Finetune Paradigm for Natural Language Processing ( http://arxiv.org/abs/2403.02504v2 )

ライセンス: Link先を確認
Yu Wang, Wen Qu, (参考訳) 自然言語が思考や感情を表現する主要な経路として機能していることを考えると、テキスト分析は心理学研究において重要な技術となっている。 自然言語から貴重な洞察を抽出し、人格特性評価、メンタルヘルスモニタリング、対人コミュニケーションにおける感情分析などの取り組みを促進する。 テキスト分析では、既存の研究は、事前に構築された辞書を使って、時間を要する人間のコーディングを頼りにし、可能なすべてのシナリオをカバーできないか、大量のラベル付きデータを必要とするモデルをスクラッチからトレーニングする。 本チュートリアルでは,プレトレイン-ファインチューンパラダイムについて紹介する。 Pretrain-finetune パラダイムは、テキスト分析と自然言語処理における変換的アプローチを表している。 このパラダイムは、大規模な事前訓練された言語モデルを使用することで、限られた訓練データであっても、微調整タスクにおいて顕著な効率性を示す。 この効率性は、注釈付きサンプルの数が非常に限られている社会科学の研究にとって特に有益である。 本チュートリアルでは,プレトレイン-ファインチューンパラダイムの包括的紹介を行う。 まず、事前学習と微調整の基本概念を掘り下げ、続いて実世界のアプリケーションを用いた実践的な演習を行った。 マルチクラス分類や回帰など,様々なタスクにまたがるパラダイムの適用例を示す。 このチュートリアルは、その有効性とユーザフレンドリさを強調し、このパラダイムのより広範な採用を促進することを目的としている。 この目的のために、私たちはすべてのコードとデータセットへのオープンアクセスを提供しました。 このチュートリアルは様々な心理学の分野において非常に有益であり、様々な研究環境でテキスト分析を利用するための包括的なガイドを提供する。

Given that natural language serves as the primary conduit for expressing thoughts and emotions, text analysis has become a key technique in psychological research. It enables the extraction of valuable insights from natural language, facilitating endeavors like personality traits assessment, mental health monitoring, and sentiment analysis in interpersonal communications. In text analysis, existing studies often resort to either human coding, which is time-consuming, using pre-built dictionaries, which often fails to cover all possible scenarios, or training models from scratch, which requires large amounts of labeled data. In this tutorial, we introduce the pretrain-finetune paradigm. The pretrain-finetune paradigm represents a transformative approach in text analysis and natural language processing. This paradigm distinguishes itself through the use of large pretrained language models, demonstrating remarkable efficiency in finetuning tasks, even with limited training data. This efficiency is especially beneficial for research in social sciences, where the number of annotated samples is often quite limited. Our tutorial offers a comprehensive introduction to the pretrain-finetune paradigm. We first delve into the fundamental concepts of pretraining and finetuning, followed by practical exercises using real-world applications. We demonstrate the application of the paradigm across various tasks, including multi-class classification and regression. Emphasizing its efficacy and user-friendliness, the tutorial aims to encourage broader adoption of this paradigm. To this end, we have provided open access to all our code and datasets. The tutorial is highly beneficial across various psychology disciplines, providing a comprehensive guide to employing text analysis in diverse research settings.
翻訳日:2024-07-22 23:47:06 公開日:2024-07-19
# 量子貯水池計算のための拡張エコー状態特性

Extending echo state property for quantum reservoir computing ( http://arxiv.org/abs/2403.02686v6 )

ライセンス: Link先を確認
Shumpei Kobayashi, Quoc Hoan Tran, Kohei Nakajima, (参考訳) エコー状態特性(ESP)は、貯水池コンピューティング(RC)フレームワークの基本概念であり、初期状態と遠い過去の入力に依存せず、貯水池ネットワークの出力のみのトレーニングを保証する。 しかしながら、ESPの伝統的な定義は、統計的性質が進化する可能性のある非定常系を記述していない。 この問題に対処するために、潜在的に静止しないシステムのために設計された$\textit{non-stationary ESP}$と、サブシステムがESPを持つシステムのために設計された$\textit{subspace/subset ESP}$の2つの新しいカテゴリを紹介した。 定義に従うと、量子貯水池計算機(QRC)における非定常ESPと典型的なハミルトン力学および非線形自己回帰移動平均(NARMA)タスクを用いた入力符号化法との対応を数値的に示す。 また、リニア/非線形メモリ容量を計算し、貯水池の状態内の入力依存成分を定量化する。 本研究は,非定常システムとサブシステムを利用したQRCおよび非定常RCシステムの実用設計について,新たな知見を提示する。

The echo state property (ESP) represents a fundamental concept in the reservoir computing (RC) framework that ensures output-only training of reservoir networks by being agnostic to the initial states and far past inputs. However, the traditional definition of ESP does not describe possible non-stationary systems in which statistical properties evolve. To address this issue, we introduce two new categories of ESP: $\textit{non-stationary ESP}$, designed for potentially non-stationary systems, and $\textit{subspace/subset ESP}$, designed for systems whose subsystems have ESP. Following the definitions, we numerically demonstrate the correspondence between non-stationary ESP in the quantum reservoir computer (QRC) framework with typical Hamiltonian dynamics and input encoding methods using non-linear autoregressive moving-average (NARMA) tasks. We also confirm the correspondence by computing linear/non-linear memory capacities that quantify input-dependent components within reservoir states. Our study presents a new understanding of the practical design of QRC and other possibly non-stationary RC systems in which non-stationary systems and subsystems are exploited.
翻訳日:2024-07-22 23:47:06 公開日:2024-07-19
# 非可逆な置換をもつ単線スポンジの量子一方向性

Quantum One-Wayness of the Single-Round Sponge with Invertible Permutations ( http://arxiv.org/abs/2403.04740v3 )

ライセンス: Link先を確認
Joseph Carolan, Alexander Poremba, (参考訳) スポンジハッシュ(Spnge hashing)は、現在の国際ハッシュ関数標準SHA-3の基盤となる暗号ハッシュアルゴリズムのクラスである。 簡単に言えば、スポンジ関数は任意の長さのビットストリームとして入力を受け取り、単純な反復手順で処理し、入力の各ブロックをいわゆるブロック関数に繰り返し供給し、最後に出力されたビットでブロック関数を繰り返すことでダイジェストを生成する。 ブロック関数がランダム関数あるいは片方向の置換としてモデル化された場合、スポンジ構造のクォータム後セキュリティについては、多くのことが知られているが、SHA-3の基盤となる構造をより正確にモデル化した可逆置換の場合、今のところ根本的なオープンな問題のままである。 本研究では,この障壁を克服するための新たな進展と,いくつかの結果を示す。 まず、Unruh (eprint' 2021) が提唱した「二重側ゼロ探索」予想を証明し、ランダムな2n$-ビットの置換でゼロペアを見つけるには、少なくとも$\Omega(2^{n/2})$ 多くのクエリが必要であることを示す。 我々の証明の核には、ヤング部分群の理論からの洞察を利用する新しい「対称性論」がある。 第二に、両面探索問題のより一般的な変種を考察し、類似したクエリの下位境界を示す。 応用として、単一ラウンドスポンジの量子一方向性を量子ランダムオラクルモデルにおける可逆置換で証明する。

Sponge hashing is a widely used class of cryptographic hash algorithms which underlies the current international hash function standard SHA-3. In a nutshell, a sponge function takes as input a bit-stream of any length and processes it via a simple iterative procedure: it repeatedly feeds each block of the input into a so-called block function, and then produces a digest by once again iterating the block function on the final output bits. While much is known about the post-quantum security of the sponge construction when the block function is modeled as a random function or one-way permutation, the case of invertible permutations, which more accurately models the construction underlying SHA-3, has so far remained a fundamental open problem. In this work, we make new progress towards overcoming this barrier and show several results. First, we prove the "double-sided zero-search" conjecture proposed by Unruh (eprint' 2021) and show that finding zero-pairs in a random $2n$-bit permutation requires at least $\Omega(2^{n/2})$ many queries -- and this is tight due to Grover's algorithm. At the core of our proof lies a novel "symmetrization argument" which uses insights from the theory of Young subgroups. Second, we consider more general variants of the double-sided search problem and show similar query lower bounds for them. As an application, we prove the quantum one-wayness of the single-round sponge with invertible permutations in the quantum random oracle model.
翻訳日:2024-07-22 23:47:06 公開日:2024-07-19
# Scene Graph Precipationに向けて

Towards Scene Graph Anticipation ( http://arxiv.org/abs/2403.04899v2 )

ライセンス: Link先を確認
Rohith Peddi, Saksham Singh, Saurabh, Parag Singla, Vibhav Gogate, (参考訳) 時空間グラフは、シーンを個々のオブジェクトとペアの時間的関係に分解することで、ビデオ内の相互作用を表現する。 オブジェクト間の微粒なペアワイズ関係の長期予測は難しい問題である。 この目的のために,SGA(Scene Graph Precipation)の課題を紹介した。 現状のシーングラフ生成手法をベースラインとして,オブジェクト間のペア関係を予測し,新しいアプローチSceneSayerを提案する。 SceneSayerでは、オブジェクト中心の関係表現を利用して、観察されたビデオフレームを推論し、オブジェクト間の関係の進化をモデル化する。 本稿では,ニューラルネットワークとニューラルSDEの概念を用いて,オブジェクト相互作用の進化の潜時ダイナミクスをモデル化する。 正規微分方程式と確率微分方程式をそれぞれ解いて将来の関係の表現を推測する。 Action Genomeデータセットの大規模な実験により,提案手法の有効性が検証された。

Spatio-temporal scene graphs represent interactions in a video by decomposing scenes into individual objects and their pair-wise temporal relationships. Long-term anticipation of the fine-grained pair-wise relationships between objects is a challenging problem. To this end, we introduce the task of Scene Graph Anticipation (SGA). We adapt state-of-the-art scene graph generation methods as baselines to anticipate future pair-wise relationships between objects and propose a novel approach SceneSayer. In SceneSayer, we leverage object-centric representations of relationships to reason about the observed video frames and model the evolution of relationships between objects. We take a continuous time perspective and model the latent dynamics of the evolution of object interactions using concepts of NeuralODE and NeuralSDE, respectively. We infer representations of future relationships by solving an Ordinary Differential Equation and a Stochastic Differential Equation, respectively. Extensive experimentation on the Action Genome dataset validates the efficacy of the proposed methods.
翻訳日:2024-07-22 23:47:06 公開日:2024-07-19
# XPSR:拡散型画像スーパーリゾリューションのためのクロスモーダルプライオリティ

XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution ( http://arxiv.org/abs/2403.05049v2 )

ライセンス: Link先を確認
Yunpeng Qu, Kun Yuan, Kai Zhao, Qizhi Xie, Jinhua Hao, Ming Sun, Chao Zhou, (参考訳) 近年,画像超解像法 (ISR) では拡散法が注目されている。 しかし、低解像度(LR)画像は深刻な劣化を受けることが多いため、ISRモデルでは意味や劣化に関する情報を認識できないため、誤った内容や非現実的なアーティファクトの復元画像が得られる。 これらの問題に対処するために,超解法のためのtextit{Cross-modal Priors for Super-Resolution (XPSR) フレームワークを提案する。 XPSR内では、拡散モデルの正確かつ包括的な意味条件を得るために、最先端のマルチモーダル大言語モデル(MLLM)が利用される。 クロスモーダルな事前の融合を容易にするために、 \textit{Semantic-Fusion Attention} が上げられる。 望ましくない劣化の代わりにセマンティック保存情報を蒸留するために、LRとその高分解能(HR)間で \textit{Degradation-Free Constraint} が付加される。 定量的および定性的な結果は、XPSRが合成および実世界のデータセット間で高忠実で高現実的な画像を生成することができることを示している。 コードは \url{https://github.com/qyp2000/XPSR} でリリースされる。

Diffusion-based methods, endowed with a formidable generative prior, have received increasing attention in Image Super-Resolution (ISR) recently. However, as low-resolution (LR) images often undergo severe degradation, it is challenging for ISR models to perceive the semantic and degradation information, resulting in restoration images with incorrect content or unrealistic artifacts. To address these issues, we propose a \textit{Cross-modal Priors for Super-Resolution (XPSR)} framework. Within XPSR, to acquire precise and comprehensive semantic conditions for the diffusion model, cutting-edge Multimodal Large Language Models (MLLMs) are utilized. To facilitate better fusion of cross-modal priors, a \textit{Semantic-Fusion Attention} is raised. To distill semantic-preserved information instead of undesired degradations, a \textit{Degradation-Free Constraint} is attached between LR and its high-resolution (HR) counterpart. Quantitative and qualitative results show that XPSR is capable of generating high-fidelity and high-realism images across synthetic and real-world datasets. Codes are released at \url{https://github.com/qyp2000/XPSR}.
翻訳日:2024-07-22 23:47:06 公開日:2024-07-19
# MoralBERT: 社会的議論における道徳的価値を捉えるための微調整言語モデル

MoralBERT: A Fine-Tuned Language Model for Capturing Moral Values in Social Discussions ( http://arxiv.org/abs/2403.07678v2 )

ライセンス: Link先を確認
Vjosa Preniqi, Iacopo Ghinassi, Julia Ive, Charalampos Saitis, Kyriaki Kalimeri, (参考訳) 道徳的価値は、情報を評価し、意思決定し、重要な社会問題に関する判断を形成する上で、基本的な役割を担います。 予防接種、中絶、人種差別、性的指向などの論争的な話題は、しばしば、証拠のみに基づくのではなく、むしろ道徳的な世界観を反映する意見や態度を引き出す。 自然言語処理(NLP)の最近の進歩は、人文コンテンツにおいて道徳的価値を測ることができることを示している。 The Moral Foundations Theory (MFT) に基づいて,社会談話における道徳的感情を捉えるために微調整された言語表現モデルである MoralBERT を紹介する。 ソーシャルメディアのオーディエンス、コンテンツプレゼンテーション、スタイル、および拡散パターンの観点から、テキストコンテンツの多様性を拡大するフレームワークについて説明する。 提案手法は,辞書ベースの手法,Word2Vec の埋め込み,ドメイン内推論のための GPT-4 などの大規模言語モデルを用いたゼロショット分類よりも 11% から 32% のF1 スコアが得られることを示す。 ドメイン・アドバイザリ・トレーニングは、0ショット・ラーニングに匹敵するパフォーマンスを達成しながら、アグリゲート・トレーニングよりもドメイン外予測が優れている。 我々のアプローチは、注釈のない効果的な道徳学習に寄与し、NLPを用いた議論のある社会討論において、道徳的物語をより包括的に理解するための有用な洞察を提供する。

Moral values play a fundamental role in how we evaluate information, make decisions, and form judgements around important social issues. Controversial topics, including vaccination, abortion, racism, and sexual orientation, often elicit opinions and attitudes that are not solely based on evidence but rather reflect moral worldviews. Recent advances in Natural Language Processing (NLP) show that moral values can be gauged in human-generated textual content. Building on the Moral Foundations Theory (MFT), this paper introduces MoralBERT, a range of language representation models fine-tuned to capture moral sentiment in social discourse. We describe a framework for both aggregated and domain-adversarial training on multiple heterogeneous MFT human-annotated datasets sourced from Twitter (now X), Reddit, and Facebook that broaden textual content diversity in terms of social media audience interests, content presentation and style, and spreading patterns. We show that the proposed framework achieves an average F1 score that is between 11% and 32% higher than lexicon-based approaches, Word2Vec embeddings, and zero-shot classification with large language models such as GPT-4 for in-domain inference. Domain-adversarial training yields better out-of domain predictions than aggregate training while achieving comparable performance to zero-shot learning. Our approach contributes to annotation-free and effective morality learning, and provides useful insights towards a more comprehensive understanding of moral narratives in controversial social debates using NLP.
翻訳日:2024-07-22 23:37:22 公開日:2024-07-19
# 忠実な説明に向けて - ショートカット発見による合理化の促進

Towards Faithful Explanations: Boosting Rationalization with Shortcuts Discovery ( http://arxiv.org/abs/2403.07955v2 )

ライセンス: Link先を確認
Linan Yue, Qi Liu, Yichao Du, Li Wang, Weibo Gao, Yanqing An, (参考訳) ニューラルネットワークの顕著な成功は、選択的合理化を引き起こす。 これは、それらをサポートするのに十分な入力の小さなサブセットを特定することで、予測結果を説明する。 既存の手法では,有理性や限定的な大規模アノテート論理を構成するために,データにショートカットを適用できないため,本論文では,潜在的ショートカットの発見・活用による合理化を促進するショートカット融合選択合理化法(SSR)を提案する。 具体的には、SSRはいくつかの潜在的なショートカットを検出するショートカット発見アプローチを最初に設計した。 そして,同定されたショートカットを導入することにより,合理性を構成するためにショートカットを利用する問題を緩和する2つの戦略を提案する。 最後に,注釈付き有理数のギャップを埋める2つのデータ拡張手法を開発した。 実世界のデータセットに対する大規模な実験結果から,提案手法の有効性が明らかとなった。

The remarkable success in neural networks provokes the selective rationalization. It explains the prediction results by identifying a small subset of the inputs sufficient to support them. Since existing methods still suffer from adopting the shortcuts in data to compose rationales and limited large-scale annotated rationales by human, in this paper, we propose a Shortcuts-fused Selective Rationalization (SSR) method, which boosts the rationalization by discovering and exploiting potential shortcuts. Specifically, SSR first designs a shortcuts discovery approach to detect several potential shortcuts. Then, by introducing the identified shortcuts, we propose two strategies to mitigate the problem of utilizing shortcuts to compose rationales. Finally, we develop two data augmentations methods to close the gap in the number of annotated rationales. Extensive experimental results on real-world datasets clearly validate the effectiveness of our proposed method.
翻訳日:2024-07-22 23:37:22 公開日:2024-07-19
# スプリングマス3次元ガウスによる弾性物体の復元とシミュレーション

Reconstruction and Simulation of Elastic Objects with Spring-Mass 3D Gaussians ( http://arxiv.org/abs/2403.09434v3 )

ライセンス: Link先を確認
Licheng Zhong, Hong-Xing Yu, Jiajun Wu, Yunzhu Li, (参考訳) 視覚的な観察から弾性物体を再構成し、シミュレーションすることは、コンピュータビジョンやロボット工学の応用に不可欠である。 3Dガウスやモデル3Dの外観や幾何学といった既存の手法では、物体の物理的特性を推定し、それらをシミュレートする能力は欠如している。 中心となる課題は、表現的だが効率的な物理力学モデルを統合することである。 複数の視点からオブジェクトのビデオから弾性物体を再構成・シミュレーションするための3次元物理オブジェクト表現であるSpring-Gausを提案する。 特に、3次元Spring-Massモデルを3次元ガウスカーネルに開発・統合し、オブジェクトの視覚的外観、形状、物理力学の再構築を可能にする。 本手法は,様々な初期状態と環境特性下での将来の予測とシミュレーションを可能にする。 合成と実世界の両方のデータセット上でSpring-Gausを評価し,弾性物体の正確な再構成とシミュレーションを実証した。 プロジェクトページ:https://zlicheng.com/spring_gaus/。

Reconstructing and simulating elastic objects from visual observations is crucial for applications in computer vision and robotics. Existing methods, such as 3D Gaussians, model 3D appearance and geometry, but lack the ability to estimate physical properties for objects and simulate them. The core challenge lies in integrating an expressive yet efficient physical dynamics model. We propose Spring-Gaus, a 3D physical object representation for reconstructing and simulating elastic objects from videos of the object from multiple viewpoints. In particular, we develop and integrate a 3D Spring-Mass model into 3D Gaussian kernels, enabling the reconstruction of the visual appearance, shape, and physical dynamics of the object. Our approach enables future prediction and simulation under various initial states and environmental properties. We evaluate Spring-Gaus on both synthetic and real-world datasets, demonstrating accurate reconstruction and simulation of elastic objects. Project page: https://zlicheng.com/spring_gaus/.
翻訳日:2024-07-22 23:37:22 公開日:2024-07-19
# 複数LLM協調推論による人間中心動的シーン理解の強化

Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning ( http://arxiv.org/abs/2403.10107v2 )

ライセンス: Link先を確認
Hang Zhang, Wenxiao Zhang, Haoxuan Qu, Jun Liu, (参考訳) ビデオベースのヒューマンオブジェクトインタラクション(V-HOI)検出は、ビデオ内のHOI関係を包括的に理解して、移動ロボットや自律運転システムの行動決定の恩恵を受けることを目的とした、セマンティックシーン理解において重要なタスクである。 これまでのV-HOI検出モデルは、特定のデータセットの正確な検出に大きく貢献してきたが、HOIの関係を効果的に誘導する人間のような一般的な推論能力はいまだに欠如している。 本研究では,V-HOI MLCR(V-HOI Multi-LLMs Collaborated Reasoning, V-HOI MLCR)を提案する。 V-HOIタスクのための異なるLLMの2段階協調システムを設計する。 特に第1段階では,異なる側面からLLMの導電率を推定するクロスエージェント推論方式を設計する。 第2段階では、異なるLLMの異なる知識に基づいて最終推論の答えを得るために、マルチLLMを議論する。 さらに,大規模な視覚言語モデルであるCLIPを用いて,LLMとよりよく連携するV-HOIモデルの識別能力を高めるための補助訓練戦略を考案した。 複数の視点から推測することで,基本V-HOIモデルの予測精度を向上させる上での有効性を示すことによって,設計の優位性を検証した。

Human-centered dynamic scene understanding plays a pivotal role in enhancing the capability of robotic and autonomous systems, in which Video-based Human-Object Interaction (V-HOI) detection is a crucial task in semantic scene understanding, aimed at comprehensively understanding HOI relationships within a video to benefit the behavioral decisions of mobile robots and autonomous driving systems. Although previous V-HOI detection models have made significant strides in accurate detection on specific datasets, they still lack the general reasoning ability like human beings to effectively induce HOI relationships. In this study, we propose V-HOI Multi-LLMs Collaborated Reasoning (V-HOI MLCR), a novel framework consisting of a series of plug-and-play modules that could facilitate the performance of current V-HOI detection models by leveraging the strong reasoning ability of different off-the-shelf pre-trained large language models (LLMs). We design a two-stage collaboration system of different LLMs for the V-HOI task. Specifically, in the first stage, we design a Cross-Agents Reasoning scheme to leverage the LLM conduct reasoning from different aspects. In the second stage, we perform Multi-LLMs Debate to get the final reasoning answer based on the different knowledge in different LLMs. Additionally, we devise an auxiliary training strategy that utilizes CLIP, a large vision-language model to enhance the base V-HOI models' discriminative ability to better cooperate with LLMs. We validate the superiority of our design by demonstrating its effectiveness in improving the prediction accuracy of the base V-HOI model via reasoning from multiple perspectives.
翻訳日:2024-07-22 23:37:22 公開日:2024-07-19
# 自動販売機における液状化トークン

Liquid Staking Tokens in Automated Market Makers ( http://arxiv.org/abs/2403.10226v2 )

ライセンス: Link先を確認
Krzysztof Gogol, Robin Fritsch, Malte Schlosser, Johnnatan Messias, Benjamin Kraner, Claudio Tessone, (参考訳) 本稿では, 自動市場メーカ (AMM) における液状ステイキングトークン (LST) について理論的および実験的に検討する。 LSTは、ステークオブテイクブロックチェーン上のステークされた資産のトークン化表現である。 まず, 理論上, LST液化度をモデル化し, LST液化度に適したAMM型を分類し, LSTの特定の価格軌道下での流動性プロバイダを適切に補償するために, 取引手数料から必要なリターンの式を導出する。 後者については,(1)AMM外における流動性(ロス・ヴァース・ホールディング),(2)資本の完全獲得(ロス・ヴァース・ステーク)に対する相対的収益性(ロス・ヴァース・リキディティ)の2つの指標が検討されている。 次に、最も関連するAMMプールにわたるEthereum LSTに対して、これらのメトリクスを実証的に測定する。 取引手数料は不恒久的な損失を補うことが多いが、多くのプールにとって完全な取引はより利益を上げており、現在のLST流動性割当のAMMへの持続可能性に関する疑問が浮かび上がっている。

This paper studies liquid staking tokens (LSTs) on automated market makers (AMMs), both theoretically and empirically. LSTs are tokenized representations of staked assets on proof-of-stake blockchains. First, we model LST-liquidity on AMMs theoretically, categorizing suitable AMM types for LST liquidity and deriving formulas for the necessary returns from trading fees to adequately compensate liquidity providers under the particular price trajectories of LSTs. For the latter, two relevant metrics are considered: (1) losses compared to holding the liquidity outside the AMM (loss-versus-holding, or "impermanent loss"), and (2) the relative profitability compared to fully staking the capital (loss-versus-staking) which is specifically tailored to the case of LST-liquidity. Next, we empirically measure these metrics for Ethereum LSTs across the most relevant AMM pools. We find that, while trading fees often compensate for impermanent loss, fully staking is more profitable for many pools, raising questions about the sustainability of the current LST liquidity allocation to AMMs.
翻訳日:2024-07-22 23:37:22 公開日:2024-07-19
# ReGround: テキストと空間グラウンドを無償で改善

ReGround: Improving Textual and Spatial Grounding at No Cost ( http://arxiv.org/abs/2403.13589v3 )

ライセンス: Link先を確認
Phillip Y. Lee, Minhyuk Sung, (参考訳) テキストプロンプトと境界ボックスのような空間的手がかりの両方によって画像生成プロセスが導かれるとき、これらの要素は調和して機能するか、一方が他方を支配しているのか? U-Netにゲート自己アテンションを組み込んだ事前学習画像拡散モデルの解析により, ゲート自己アテンションからクロスアテンションへの逐次的な流れにより, 空間グラウンドリングがテキストグラウンドリングを上回ることが判明した。 このようなバイアスは、単にネットワークアーキテクチャを書き換え、順序から並列に切り換えて、ゲートされた自己注意とクロスアテンションのいずれにおいても、精度を犠牲にすることなく、大幅に軽減できることを示す。 この驚くほど単純で効果的なソリューションは、ネットワークの微調整を必要としないが、2つの基盤間のトレードオフを著しく削減する。 実験では, テキストグラウンドと空間グラウンドのトレードオフにおいて, 元のGLIGENから再配線版への大幅な改良が示された。

When an image generation process is guided by both a text prompt and spatial cues, such as a set of bounding boxes, do these elements work in harmony, or does one dominate the other? Our analysis of a pretrained image diffusion model that integrates gated self-attention into the U-Net reveals that spatial grounding often outweighs textual grounding due to the sequential flow from gated self-attention to cross-attention. We demonstrate that such bias can be significantly mitigated without sacrificing accuracy in either grounding by simply rewiring the network architecture, changing from sequential to parallel for gated self-attention and cross-attention. This surprisingly simple yet effective solution does not require any fine-tuning of the network but significantly reduces the trade-off between the two groundings. Our experiments demonstrate significant improvements from the original GLIGEN to the rewired version in the trade-off between textual grounding and spatial grounding.
翻訳日:2024-07-22 23:37:22 公開日:2024-07-19
# デバイアスング外科医:素晴らしい体重とそれを見つける方法

Debiasing surgeon: fantastic weights and how to find them ( http://arxiv.org/abs/2403.14200v2 )

ライセンス: Link先を確認
Rémi Nahon, Ivan Luiz De Moura Matos, Van-Tam Nguyen, Enzo Tartaglione, (参考訳) 今日では、不公平なモデルに繋がるアルゴリズムバイアスの出現という現象が絶え間ない。 深層学習の領域では、これらのモデルがこれらのバイアスを大量に活用することを防ぐために、多かれ少なかれ洗練されたアプローチが提案されている。 しかし、この余分な複雑さは本当に必要か? バニラでトレーニングされたモデルは、独立して使用でき、アルゴリズムのバイアスに頼らずにソリューションを提案することのできる、すでに ''unbiased sub-networks'' を具現化したものなのだろうか? 本研究では,このようなサブネットワークが典型的に存在し,付加的なトレーニングを必要とせず,バニラ学習モデルから抽出できることを示す。 さらに、そのような特定のアーキテクチャが特定のバイアスを学習できないことを検証し、ディープニューラルネットワークのバイアス問題に対するアーキテクチャ上の対策が考えられることを示唆する。

Nowadays an ever-growing concerning phenomenon, the emergence of algorithmic biases that can lead to unfair models, emerges. Several debiasing approaches have been proposed in the realm of deep learning, employing more or less sophisticated approaches to discourage these models from massively employing these biases. However, a question emerges: is this extra complexity really necessary? Is a vanilla-trained model already embodying some ``unbiased sub-networks'' that can be used in isolation and propose a solution without relying on the algorithmic biases? In this work, we show that such a sub-network typically exists, and can be extracted from a vanilla-trained model without requiring additional training. We further validate that such specific architecture is incapable of learning a specific bias, suggesting that there are possible architectural countermeasures to the problem of biases in deep neural networks.
翻訳日:2024-07-22 23:37:22 公開日:2024-07-19
# Scene-Graph ViT:Open-Vocabulary Visual Relationship Detection

Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection ( http://arxiv.org/abs/2403.14270v2 )

ライセンス: Link先を確認
Tim Salzmann, Markus Ryll, Alex Bewley, Matthias Minderer, (参考訳) 視覚的関係検出は、画像中のオブジェクトとその関係を識別することを目的としている。 従来のメソッドは、既存のオブジェクト検出アーキテクチャに別個のリレーションモジュールやデコーダを追加することで、このタスクにアプローチする。 この分離は複雑さを増し、エンドツーエンドのトレーニングを妨げ、パフォーマンスを制限します。 オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。 我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。 関係情報を抽出するために,関係を形成する可能性のあるオブジェクトペアを選択するアテンション機構を導入する。 我々は、オブジェクトと関係検出データの混合に基づいて、このモデルをトレーニングするための単一ステージレシピを提供する。 提案手法は,Visual Genome や大語彙 GQA ベンチマーク上で,リアルタイムな推論速度で,最先端の相関検出性能を実現する。 実世界の定性的な実例とゼロショット性能の分析について述べる。

Visual relationship detection aims to identify objects and their relationships in images. Prior methods approach this task by adding separate relationship modules or decoders to existing object detection architectures. This separation increases complexity and hinders end-to-end training, which limits performance. We propose a simple and highly efficient decoder-free architecture for open-vocabulary visual relationship detection. Our model consists of a Transformer-based image encoder that represents objects as tokens and models their relationships implicitly. To extract relationship information, we introduce an attention mechanism that selects object pairs likely to form a relationship. We provide a single-stage recipe to train this model on a mixture of object and relationship detection data. Our approach achieves state-of-the-art relationship detection performance on Visual Genome and on the large-vocabulary GQA benchmark at real-time inference speeds. We provide ablations, real-world qualitative examples, and analyses of zero-shot performance.
翻訳日:2024-07-22 23:37:22 公開日:2024-07-19
# 視覚言語モデルにおけるオープンセット認識

Open-Set Recognition in the Age of Vision-Language Models ( http://arxiv.org/abs/2403.16528v2 )

ライセンス: Link先を確認
Dimity Miller, Niko Sünderhauf, Alex Kenna, Keita Mason, (参考訳) オープン語彙認識のための視覚言語モデル(VLM)は、本質的にはオープンセットモデルである。 VLMは、その有限クエリセットを介してクローズドセットの仮定を導入し、オープンセット条件に対して脆弱である。 オープンセット認識のためのVLMを体系的に評価し、クエリセットに含まれていないオブジェクトをしばしば誤分類し、高いリコールのために調整された場合、その逆も警告的に低い精度に繋がることを示した。 より多くのクラスを含むクエリセットのサイズを中立的に増やすことは、この問題を軽減するのではなく、タスクパフォーマンスの低下とオープンセットのパフォーマンスの低下を引き起こすことを示す。 我々は,VLM 時代におけるオープンセット問題の再定義を確立し,この重要な領域における標準化された評価と研究を容易にするための新しいベンチマークと評価プロトコルを定義し,オープンボキャブラリな VLM 分類器とオブジェクト検出器を対象とする予測的不確実性および専用負の埋め込みに基づく有望なベースラインアプローチを評価する。

Are vision-language models (VLMs) for open-vocabulary perception inherently open-set models because they are trained on internet-scale datasets? We answer this question with a clear no - VLMs introduce closed-set assumptions via their finite query set, making them vulnerable to open-set conditions. We systematically evaluate VLMs for open-set recognition and find they frequently misclassify objects not contained in their query set, leading to alarmingly low precision when tuned for high recall and vice versa. We show that naively increasing the size of the query set to contain more and more classes does not mitigate this problem, but instead causes diminishing task performance and open-set performance. We establish a revised definition of the open-set problem for the age of VLMs, define a new benchmark and evaluation protocol to facilitate standardised evaluation and research in this important area, and evaluate promising baseline approaches based on predictive uncertainty and dedicated negative embeddings on a range of open-vocabulary VLM classifiers and object detectors.
翻訳日:2024-07-22 23:37:22 公開日:2024-07-19
# PIPNet3D:MRIにおけるアルツハイマーの検出

PIPNet3D: Interpretable Detection of Alzheimer in MRI Scans ( http://arxiv.org/abs/2403.18328v2 )

ライセンス: Link先を確認
Lisa Anita De Santi, Jörg Schlötterer, Michael Scheschenja, Joel Wessendorf, Meike Nauta, Vincenzo Positano, Christin Seifert, (参考訳) 神経画像検査からの情報は、認知症、例えばアルツハイマー病の診断を支援するためにますます利用されている。 現在の臨床は、主に視覚検査と特徴工学に基づいているが、Deep Learningアプローチは分析の自動化と新しいイメージバイオマーカーの発見に利用できる。 パートプロトタイプニューラルネットワーク(PP-NN)は、標準的なブラックボックスモデルの代替であり、一般的なコンピュータビジョンにおいて有望な結果を示している。 PP-NNは、完全に教師なし学習され、簡単に理解できる決定層と組み合わせられる原型画像領域の推論を基盤としている。 ボリューム画像のためのPP-NNであるPIPNet3Dを提案する。 構造型磁気共鳴画像(sMRI)によるアルツハイマー病の臨床診断にPIPNet3Dを適用した。 システム評価フレームワークを用いてプロトタイプの品質評価を行い、脳のプロトタイプを評価するための新しい機能的基盤メトリクスを提案し、ドメインの専門家との一貫性を評価するための評価スキームを開発した。 以上の結果から,PIPNet3Dはアルツハイマー病の診断の解釈可能でコンパクトなモデルであり,医学領域の知識に整合性があることが示唆された。 特に、PIPNet3Dはブラックボックスと同じ精度を達成しており、その決定プロセスから臨床に無関係なプロトタイプを除去しても予測性能は低下しない。

Information from neuroimaging examinations is increasingly used to support diagnoses of dementia, e.g., Alzheimer's disease. While current clinical practice is mainly based on visual inspection and feature engineering, Deep Learning approaches can be used to automate the analysis and to discover new image-biomarkers. Part-prototype neural networks (PP-NN) are an alternative to standard blackbox models, and have shown promising results in general computer vision. PP-NN's base their reasoning on prototypical image regions that are learned fully unsupervised, and combined with a simple-to-understand decision layer. We present PIPNet3D, a PP-NN for volumetric images. We apply PIPNet3D to the clinical diagnosis of Alzheimer's Disease from structural Magnetic Resonance Imaging (sMRI). We assess the quality of prototypes under a systematic evaluation framework, propose new functionally grounded metrics to evaluate brain prototypes and develop an evaluation scheme to assess their coherency with domain experts. Our results show that PIPNet3D is an interpretable, compact model for Alzheimer's diagnosis with its reasoning well aligned to medical domain knowledge. Notably, PIPNet3D achieves the same accuracy as its blackbox counterpart; and removing the remaining clinically irrelevant prototypes from its decision process does not decrease predictive performance.
翻訳日:2024-07-22 23:37:22 公開日:2024-07-19
# プロトタイプに基づく乳がん予測モデルの解析と課題

Prototype-based Interpretable Breast Cancer Prediction Models: Analysis and Challenges ( http://arxiv.org/abs/2403.20260v3 )

ライセンス: Link先を確認
Shreyasi Pathak, Jörg Schlötterer, Jeroen Veltman, Jeroen Geerdink, Maurice van Keulen, Christin Seifert, (参考訳) 深層学習モデルは医学的応用において高いパフォーマンスを達成しているが、そのブラックボックスの性質から臨床実践への導入は妨げられている。 プロトタイプベースのモデルのような自己説明可能なモデルは、設計によって解釈できるため、特に有益である。 しかし、学習したプロトタイプが低品質であれば、プロトタイプベースのモデルはブラックボックスと同じくらいよい。 高品質のプロトタイプを持つことは、真に解釈可能なモデルの前提条件である。 本研究では,ドメイン知識に基づいてプロトタイプの品質を定量的に評価する,コヒーレンス評価フレームワーク(PEF-C)を提案する。 乳がん予測におけるPEF-Cの有用性について,マンモグラフィーを用いて検討した。 マンモグラフィーを用いた乳がん予測のプロトタイプベースモデルに関する既存の研究は,ブラックボックスモデルと比較してプロトタイプベースモデルの分類性能の向上に重点を置いており,逸話的証拠を通じてプロトタイプの品質評価を行っている。 PEF-Cを用いたマンモグラフィーの試作機の品質評価を初めて行った。 具体的には、乳がん予測のためのマンモグラフィー画像にProtoPNet、BRAIxProtoPNet++、PIP-Netの3つの最先端プロトタイプベースモデルを適用し、これらのモデルw.r.tを評価する。 一 分類性能、及び 二 公開データセットの試作機の品質 その結果,プロトタイプモデルとブラックボックスモデルとの分類性能は比較可能であり,ROIの検出において高いスコアが得られた。 しかし、プロトタイプの品質はまだ不十分であり、さまざまなプロトタイプの妥当性、純度、学習の面で改善することができる。 我々はXAIコミュニティに、プロトタイプの品質を体系的に評価して、高い利害関係の決定における真のユーザビリティを確認し、そのようなモデルをさらに改善するよう呼びかけます。

Deep learning models have achieved high performance in medical applications, however, their adoption in clinical practice is hindered due to their black-box nature. Self-explainable models, like prototype-based models, can be especially beneficial as they are interpretable by design. However, if the learnt prototypes are of low quality then the prototype-based models are as good as black-box. Having high quality prototypes is a pre-requisite for a truly interpretable model. In this work, we propose a prototype evaluation framework for coherence (PEF-C) for quantitatively evaluating the quality of the prototypes based on domain knowledge. We show the use of PEF-C in the context of breast cancer prediction using mammography. Existing works on prototype-based models on breast cancer prediction using mammography have focused on improving the classification performance of prototype-based models compared to black-box models and have evaluated prototype quality through anecdotal evidence. We are the first to go beyond anecdotal evidence and evaluate the quality of the mammography prototypes systematically using our PEF-C. Specifically, we apply three state-of-the-art prototype-based models, ProtoPNet, BRAIxProtoPNet++ and PIP-Net on mammography images for breast cancer prediction and evaluate these models w.r.t. i) classification performance, and ii) quality of the prototypes, on three public datasets. Our results show that prototype-based models are competitive with black-box models in terms of classification performance, and achieve a higher score in detecting ROIs. However, the quality of the prototypes are not yet sufficient and can be improved in aspects of relevance, purity and learning a variety of prototypes. We call the XAI community to systematically evaluate the quality of the prototypes to check their true usability in high stake decisions and improve such models further.
翻訳日:2024-07-22 23:37:22 公開日:2024-07-19
# DVIS-DAQ:動的アンカークエリによるビデオセグメンテーションの改善

DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries ( http://arxiv.org/abs/2404.00086v5 )

ライセンス: Link先を確認
Yikang Zhou, Tao Zhang, Shunping Ji, Shuicheng Yan, Xiangtai Li, (参考訳) 現代のビデオセグメンテーション手法では、大規模な動きや過渡的閉塞にもかかわらず、オブジェクトクエリを用いてフレーム間アソシエーションを行い、連続的に現れるオブジェクトを追跡するのに満足な性能を示す。 しかし、それらはいずれも、背景と前景のクエリ間の大きな特徴ギャップを持つ特徴遷移を通じて、オブジェクトの出現と消失をモデル化しようとするために、現実世界でよく見られる、新しく出現し、消滅するオブジェクトに過小評価されている。 本稿では,潜在的な候補の特徴に基づいて,アンカークエリを動的に生成することにより,アンカーとターゲットクエリ間の遷移ギャップを短くする動的アンカークエリ(DAQ)を提案する。 さらに,クエリレベルのオブジェクトEmergence and Disappearance Simulation (EDS) 戦略を導入する。 最後に、提案したDAQとEDSをDVISと組み合わせてDVIS-DAQを得る。 大規模な実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。 コードとモデルは \url{https://github.com/SkyworkAI/DAQ-VS} で公開されている。

Modern video segmentation methods adopt object queries to perform inter-frame association and demonstrate satisfactory performance in tracking continuously appearing objects despite large-scale motion and transient occlusion. However, they all underperform on newly emerging and disappearing objects that are common in the real world because they attempt to model object emergence and disappearance through feature transitions between background and foreground queries that have significant feature gaps. We introduce Dynamic Anchor Queries (DAQ) to shorten the transition gap between the anchor and target queries by dynamically generating anchor queries based on the features of potential candidates. Furthermore, we introduce a query-level object Emergence and Disappearance Simulation (EDS) strategy, which unleashes DAQ's potential without any additional cost. Finally, we combine our proposed DAQ and EDS with DVIS to obtain DVIS-DAQ. Extensive experiments demonstrate that DVIS-DAQ achieves a new state-of-the-art (SOTA) performance on five mainstream video segmentation benchmarks. Code and models are available at \url{https://github.com/SkyworkAI/DAQ-VS}.
翻訳日:2024-07-22 23:27:33 公開日:2024-07-19
# DreamScene: フォーメーションパターンサンプリングによる3Dガウスに基づくテキストから3Dのシーン生成

DreamScene: 3D Gaussian-based Text-to-3D Scene Generation via Formation Pattern Sampling ( http://arxiv.org/abs/2404.03575v2 )

ライセンス: Link先を確認
Haoran Li, Haolin Shi, Wenli Zhang, Wenjun Wu, Yong Liao, Lin Wang, Lik-hang Lee, Pengyuan Zhou, (参考訳) テキストから3Dのシーン生成は、ゲーム、映画、建築の分野で大きな可能性を秘めている。 大幅な進歩にもかかわらず、既存のメソッドは高品質、一貫性、編集の柔軟性を維持するのに苦労している。 本稿では,前述の3つの課題に主に2つの戦略を用いて取り組むために,3次元ガウスに基づく新しい3次元シーン生成フレームワークであるDreamSceneを提案する。 まずDreamSceneは、3Dオブジェクトの生成パターンによってガイドされるマルチステップサンプリング戦略であるFormation Pattern Smpling(FPS)を採用して、高速でセマンティックにリッチで高品質な表現を形成する。 FPSは最適化安定性のために3Dガウスフィルタを使用し、再現技術を活用して可塑性テクスチャを生成する。 第二に、DreamSceneは、屋内と屋外の両方に特化して設計されたプログレッシブな3段階カメラサンプリング戦略を採用しており、オブジェクト環境統合とシーン全体の3D一貫性を効果的に確保している。 最後にDreamSceneは、オブジェクトと環境を統合することでシーン編集の柔軟性を高め、ターゲットの調整を可能にする。 広範囲にわたる実験は、現在の最先端技術よりもドリームシーンの優位性を検証し、幅広い応用の可能性を強調した。 コードとデモはhttps://dreamscene-project.github.ioで公開される。

Text-to-3D scene generation holds immense potential for the gaming, film, and architecture sectors. Despite significant progress, existing methods struggle with maintaining high quality, consistency, and editing flexibility. In this paper, we propose DreamScene, a 3D Gaussian-based novel text-to-3D scene generation framework, to tackle the aforementioned three challenges mainly via two strategies. First, DreamScene employs Formation Pattern Sampling (FPS), a multi-timestep sampling strategy guided by the formation patterns of 3D objects, to form fast, semantically rich, and high-quality representations. FPS uses 3D Gaussian filtering for optimization stability, and leverages reconstruction techniques to generate plausible textures. Second, DreamScene employs a progressive three-stage camera sampling strategy, specifically designed for both indoor and outdoor settings, to effectively ensure object-environment integration and scene-wide 3D consistency. Last, DreamScene enhances scene editing flexibility by integrating objects and environments, enabling targeted adjustments. Extensive experiments validate DreamScene's superiority over current state-of-the-art techniques, heralding its wide-ranging potential for diverse applications. Code and demos will be released at https://dreamscene-project.github.io .
翻訳日:2024-07-22 23:27:33 公開日:2024-07-19
# 変形可能な3次元ガウス平滑化のためのガウス内包型変形

Per-Gaussian Embedding-Based Deformation for Deformable 3D Gaussian Splatting ( http://arxiv.org/abs/2404.03613v3 )

ライセンス: Link先を確認
Jeongmin Bae, Seoha Kim, Youngsik Yun, Hahyun Lee, Gun Bang, Youngjung Uh, (参考訳) 3D Gaussian Splatting (3DGS)は高速かつ高品質な新規ビュー合成を提供するため、動的シーンを表現するために標準3DGSを複数のフレームに変形させる自然な拡張である。 しかし、以前の作品では複雑な動的シーンを正確に再構築することはできなかった。 我々は, 座標関数として構築された変形場の設計に失敗しているとみなす。 3DGSは1つの座標ベースのフレームワークではなく、ガウシアンを中心とする複数のフィールドの混合であるため、このアプローチは問題となる。 この問題を解決するために、変形をガウス毎の埋め込みと時間的埋め込みの関数として定義する。 さらに, 変形を粗く, 微細な変形として分解し, 遅い動きと速い動きをモデル化する。 また, 局所的滑らか度正規化を導入し, 動的領域の細部を改良する。 プロジェクトページ: https://jeongminb.github.io/e-d3dgs/

As 3D Gaussian Splatting (3DGS) provides fast and high-quality novel view synthesis, it is a natural extension to deform a canonical 3DGS to multiple frames for representing a dynamic scene. However, previous works fail to accurately reconstruct complex dynamic scenes. We attribute the failure to the design of the deformation field, which is built as a coordinate-based function. This approach is problematic because 3DGS is a mixture of multiple fields centered at the Gaussians, not just a single coordinate-based framework. To resolve this problem, we define the deformation as a function of per-Gaussian embeddings and temporal embeddings. Moreover, we decompose deformations as coarse and fine deformations to model slow and fast movements, respectively. Also, we introduce a local smoothness regularization for per-Gaussian embedding to improve the details in dynamic regions. Project page: https://jeongminb.github.io/e-d3dgs/
翻訳日:2024-07-22 23:27:33 公開日:2024-07-19
# ShoeModel: 拡散モデルによるユーザ指定靴の着用学習

ShoeModel: Learning to Wear on the User-specified Shoes via Diffusion Model ( http://arxiv.org/abs/2404.04833v2 )

ライセンス: Link先を確認
Binghui Chen, Wenyu Li, Yifeng Geng, Xuansong Xie, Wangmeng Zuo, (参考訳) 大規模拡散モデルの開発に伴い、人工知能生成コンテンツ(AIGC)技術が近年人気となっている。 しかし、それを本当に私たちの日常生活に届けるには、まだ未解決の問題だ。 そこで本稿では,AIGC技術を活用したEコマースマーケティング,すなわち人間によるユーザ指定シューズ表示のための超現実的広告画像の作成に焦点をあてる。 具体的には,靴を履く「シューモデル」を提案し,靴と相互作用する人間の足の可塑性画像を生成する。 1)履物領域検出モジュール(WD)、(2)脚位置合成モジュール(LpS)、および最終(3)履物画像生成モジュール(SW)の3つのモジュールから構成される。 第3楽章は順調に演奏される。 ベースラインと比較して、私たちのShoeModelは、さまざまなタイプのシューズを一般化し、靴のID一貫性を維持し、人間と合理的なインタラクションを自動的に生成する能力を持っていることが示されています。 広汎な実験により,提案システムの有効性が示された。 図1は、ShoeModelの入力と出力の例を示しています。

With the development of the large-scale diffusion model, Artificial Intelligence Generated Content (AIGC) techniques are popular recently. However, how to truly make it serve our daily lives remains an open question. To this end, in this paper, we focus on employing AIGC techniques in one filed of E-commerce marketing, i.e., generating hyper-realistic advertising images for displaying user-specified shoes by human. Specifically, we propose a shoe-wearing system, called Shoe-Model, to generate plausible images of human legs interacting with the given shoes. It consists of three modules: (1) shoe wearable-area detection module (WD), (2) leg-pose synthesis module (LpS) and the final (3) shoe-wearing image generation module (SW). Them three are performed in ordered stages. Compared to baselines, our ShoeModel is shown to generalize better to different type of shoes and has ability of keeping the ID-consistency of the given shoes, as well as automatically producing reasonable interactions with human. Extensive experiments show the effectiveness of our proposed shoe-wearing system. Figure 1 shows the input and output examples of our ShoeModel.
翻訳日:2024-07-22 23:27:33 公開日:2024-07-19
# Superposition Prompting:Retrieval-Augmented Generationの改良と高速化

Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation ( http://arxiv.org/abs/2404.06910v2 )

ライセンス: Link先を確認
Thomas Merth, Qichen Fu, Mohammad Rastegari, Mahyar Najibi, (参考訳) 大きな言語モデル(LLM)の成功にもかかわらず、特に長いコンテキストを処理する場合、大きな欠点がある。 推論コストはシーケンス長に対して2次にスケールするので、検索拡張生成(RAG)など、現実のテキスト処理アプリケーションにデプロイするのにコストがかかる。 さらに、LCMは、プロンプトにおける無関係な文脈が出力品質を劣化させる「引き離し現象」も示している。 これらの欠点に対処するため、我々は新しいRAGプロンプト手法である*superposition prompting*を提案する。 高いレベルでは、重ね合わせプロンプトにより LLM は入力文書を *prompt paths* で並列に処理でき、無関係と判断された後にパスを破棄する。 我々は,複数の事前学習LLMを用いて,様々な質問応答ベンチマークの時間効率を同時に向上する手法の能力を実証した。 さらに,提案手法は,検索したコンテキストがトレーニングしたコンテキストの相対性が大きい場合に,精度を著しく向上させる。 例えば、本手法は計算時間を93倍に削減すると同時に、NaturalQuestions-Openデータセット上での*精度を43%向上させる。

Despite the successes of large language models (LLMs), they exhibit significant drawbacks, particularly when processing long contexts. Their inference cost scales quadratically with respect to sequence length, making it expensive for deployment in some real-world text processing applications, such as retrieval-augmented generation (RAG). Additionally, LLMs also exhibit the "distraction phenomenon", where irrelevant context in the prompt degrades output quality. To address these drawbacks, we propose a novel RAG prompting methodology, *superposition prompting*, which can be directly applied to pre-trained transformer-based LLMs *without the need for fine-tuning*. At a high level, superposition prompting allows the LLM to process input documents in parallel *prompt paths*, discarding paths once they are deemed irrelevant. We demonstrate the capability of our method to simultaneously enhance time efficiency across a variety of question-answering benchmarks using multiple pre-trained LLMs. Furthermore, our technique significantly improves accuracy when the retrieved context is large relative the context the model was trained on. For example, our approach facilitates a 93x reduction in compute time while *improving* accuracy by 43% on the NaturalQuestions-Open dataset with the MPT-7B instruction-tuned model over naive RAG.
翻訳日:2024-07-22 23:27:33 公開日:2024-07-19
# クロスモーダルと予測を用いたエージェント駆動型生成セマンティック通信

Agent-driven Generative Semantic Communication with Cross-Modality and Prediction ( http://arxiv.org/abs/2404.06997v2 )

ライセンス: Link先を確認
Wanting Yang, Zehui Xiong, Yanli Yuan, Wenchao Jiang, Tony Q. S. Quek, Merouane Debbah, (参考訳) 6Gの時代、インテリジェントな交通システムとデジタル双生児という魅力的なビジョンによって、リモート監視はユビキタスなプラクティスになりそうだ。 実質的なデータ量と頻繁な更新は、無線ネットワークにおける課題である。 これらの課題に対処するために,強化学習に基づくエージェント駆動型生成意味コミュニケーション(A-GSC)フレームワークを提案する。 意味的抽出と意味的サンプリングを主眼とする既存のセマンティックコミュニケーション(SemCom)とは対照的に,ソース情報の本質的属性とタスクに関する文脈的情報とを共同で検討することにより,シームレスに統合する。 特に、生成人工知能(GAI)の導入により、セマンティックエンコーダとデコーダの独立設計が可能になる。 本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。 そこで我々は,2つのモジュールからなる予測および生成機能を備えたセマンティックデコーダを設計する。 さらに, 設計モデルの有効性をUA-DETRACデータセットを用いて検証し, 省エネと復元の両面でのA-GSCフレームワークの性能向上を実証した。

In the era of 6G, with compelling visions of intelligent transportation systems and digital twins, remote surveillance is poised to become a ubiquitous practice. Substantial data volume and frequent updates present challenges in wireless networks. To address these challenges, we propose a novel agent-driven generative semantic communication (A-GSC) framework based on reinforcement learning. In contrast to the existing research on semantic communication (SemCom), which mainly focuses on either semantic extraction or semantic sampling, we seamlessly integrate both by jointly considering the intrinsic attributes of source information and the contextual information regarding the task. Notably, the introduction of generative artificial intelligence (GAI) enables the independent design of semantic encoders and decoders. In this work, we develop an agent-assisted semantic encoder with cross-modality capability, which can track the semantic changes, channel condition, to perform adaptive semantic extraction and sampling. Accordingly, we design a semantic decoder with both predictive and generative capabilities, consisting of two tailored modules. Moreover, the effectiveness of the designed models has been verified using the UA-DETRAC dataset, demonstrating the performance gains of the overall A-GSC framework in both energy saving and reconstruction accuracy.
翻訳日:2024-07-22 23:27:33 公開日:2024-07-19
# LLaMA3量子化の実験的研究:LLMからMLLMへ

An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs ( http://arxiv.org/abs/2404.14047v2 )

ライセンス: Link先を確認
Wei Huang, Xingyu Zheng, Xudong Ma, Haotong Qin, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno, (参考訳) LLaMAファミリーは、最も強力なオープンソースのLarge Language Models (LLMs) の1つとなり、コンピュータビジョン (CV) や自然言語理解 (NLU) のタスクに広く応用されているマルチモーダル・Large Language Models (MLLMs) のLLMバックボーンとして人気がある。 特に、LLaMA3モデルは、最近リリースされ、15T以上のデータに対する超大規模事前トレーニングにより、様々な種類の印象的なパフォーマンスを実現している。 資源制限シナリオにおけるLLMに対する低ビット量子化の広範な適用を考えると、LLaMA3の低ビット幅への量子化時の能力について検討する。 この探索により、LLaMA3や他のLLMの低ビット量子化の新たな洞察と課題、特にLLM圧縮に苦しむ性能劣化問題に対処できる可能性がある。 具体的には,LLaMA3の1-8ビットおよび多種多様なデータセット上で,学習後量子化とLLaMA3のLoRAファインタニング法を総合的に評価し,LLaMA3の低ビット量子化性能を明らかにする。 低ビット量子化MLLMの性能を明らかにするため,LLaMA3をベースとしたLLaVA-Next-8Bモデルの性能評価を行った。 実験結果から,LLaMA3は言語的・視覚的文脈,特に超低ビット幅の領域において,相変わらず劣化することが明らかとなった。 これは、将来の開発でブリッジする必要がある低ビット幅での大幅なパフォーマンスギャップを浮き彫りにする。 この実証研究は,LLMとMLLMを低ビットで高い精度で実現し,実用性を高めることによって,将来のモデルを進める上で有益であることが期待されている。

The LLaMA family has become one of the most powerful open-source Large Language Models (LLMs) and the popular LLM backbones of Multimodal Large Language Models (MLLMs), widely applied in Computer Vision (CV) and Natural Language Understanding (NLU) tasks. Notably, LLaMA3 models have recently been released and achieve impressive performance across various with super-large scale pre-training on over 15T tokens of data. Given the wide application of low-bit quantization for LLMs in resource-limited scenarios, we explore LLaMA3's capabilities when quantized to low bit-width. This exploration can potentially unveil new insights and challenges for low-bit quantization of LLaMA3 and other forthcoming LLMs, especially in addressing performance degradation problems that suffer in LLM compression. Specifically, we comprehensively evaluate the 10 existing post-training quantization and LoRA-finetuning methods of LLaMA3 on 1-8 bits and diverse datasets to reveal LLaMA3's low-bit quantization performance. To uncover the capabilities of low-bit quantized MLLM, we assessed the performance of the LLaMA3-based LLaVA-Next-8B model under 2-4 ultra-low bits with post-training quantization methods. Our experimental results indicate that LLaMA3 still suffers non-negligent degradation in linguistic and visual contexts, particularly under ultra-low bit widths. This highlights the significant performance gap under low bit-width that needs to be bridged in future developments. We expect that this empirical study will prove valuable in advancing future models, driving LLMs and MLLMs to achieve higher accuracy at lower bit to enhance practicality.
翻訳日:2024-07-22 23:27:33 公開日:2024-07-19
# 大規模言語モデルの効率的な推論に関する一検討

A Survey on Efficient Inference for Large Language Models ( http://arxiv.org/abs/2404.14294v3 )

ライセンス: Link先を確認
Zixuan Zhou, Xuefei Ning, Ke Hong, Tianyu Fu, Jiaming Xu, Shiyao Li, Yuming Lou, Luning Wang, Zhihang Yuan, Xiuhong Li, Shengen Yan, Guohao Dai, Xiao-Ping Zhang, Yuhan Dong, Yu Wang, (参考訳) 大きな言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスのために、広く注目を集めている。 しかし、LLM推論のかなりの計算とメモリ要件は、リソース制約のあるシナリオへの展開に困難をもたらす。 この分野における取り組みは、LLM推論の効率向上を目的とした技術開発に向けられている。 本稿では,LLMの効率的な推論について,既存の文献を包括的に調査する。 まず、非効率なLLM推論の主な原因、すなわち、大モデルサイズ、二次複雑度注意操作、自動回帰復号法を解析することから始める。 そして、現在の文献をデータレベル、モデルレベル、システムレベルの最適化に整理する包括的な分類法を導入する。 さらに, 臨界サブフィールドにおける代表法の比較実験を行い, 定量的知見を得た。 最後に、いくつかの知識概要を提供し、今後の研究の方向性について論じる。

Large Language Models (LLMs) have attracted extensive attention due to their remarkable performance across various tasks. However, the substantial computational and memory requirements of LLM inference pose challenges for deployment in resource-constrained scenarios. Efforts within the field have been directed towards developing techniques aimed at enhancing the efficiency of LLM inference. This paper presents a comprehensive survey of the existing literature on efficient LLM inference. We start by analyzing the primary causes of the inefficient LLM inference, i.e., the large model size, the quadratic-complexity attention operation, and the auto-regressive decoding approach. Then, we introduce a comprehensive taxonomy that organizes the current literature into data-level, model-level, and system-level optimization. Moreover, the paper includes comparative experiments on representative methods within critical sub-fields to provide quantitative insights. Last but not least, we provide some knowledge summary and discuss future research directions.
翻訳日:2024-07-22 23:27:33 公開日:2024-07-19
# Made to Order: 自己教師型ビデオ注文によるモノトニック時間変化の発見

Made to Order: Discovering monotonic temporal changes via self-supervised video ordering ( http://arxiv.org/abs/2404.16828v2 )

ライセンス: Link先を確認
Charig Yang, Weidi Xie, Andrew Zisserman, (参考訳) 我々の目的は、画像列における単調な時間変化を発見し、局所化することである。 これを実現するために、時間とともに単調な変化だけが正しい順序付けを引き起こすので、シャッフル画像列を'time'でオーバシリ信号として振る舞う簡単なプロキシタスクを利用する。 また,任意の長さの画像列を帰属マップで順序付けするトランスフォーマーモデルも導入する。 訓練後、このモデルは周期的および確率的な変化を無視しながら単調な変化を発見し、局所化する。 本研究では、異なるシーンとオブジェクトタイプをカバーする複数の領域におけるモデルの応用を実証し、未知のシーケンスにおけるオブジェクトレベルと環境の変化の両方を発見する。 また、注目に基づく属性マップは、変化領域をセグメント化するための効果的なプロンプトとして機能し、学習された表現が下流アプリケーションに利用できることを示す。 最後に,このモデルが画像順序付けのための標準ベンチマークの最先端化を実現していることを示す。

Our objective is to discover and localize monotonic temporal changes in a sequence of images. To achieve this, we exploit a simple proxy task of ordering a shuffled image sequence, with `time' serving as a supervisory signal, since only changes that are monotonic with time can give rise to the correct ordering. We also introduce a transformer-based model for ordering of image sequences of arbitrary length with built-in attribution maps. After training, the model successfully discovers and localizes monotonic changes while ignoring cyclic and stochastic ones. We demonstrate applications of the model in multiple domains covering different scene and object types, discovering both object-level and environmental changes in unseen sequences. We also demonstrate that the attention-based attribution maps function as effective prompts for segmenting the changing regions, and that the learned representations can be used for downstream applications. Finally, we show that the model achieves the state-of-the-art on standard benchmarks for image ordering.
翻訳日:2024-07-22 23:27:33 公開日:2024-07-19
# DPER-Diffusion preffusion Driven Neural Representation for Limited Angle and Sparse View CT Reconstruction

DPER: Diffusion Prior Driven Neural Representation for Limited Angle and Sparse View CT Reconstruction ( http://arxiv.org/abs/2404.17890v2 )

ライセンス: Link先を確認
Chenhe Du, Xiyue Lin, Qing Wu, Xuanyu Tian, Ying Su, Zhe Luo, Rui Zheng, Yang Chen, Hongjiang Wei, S. Kevin Zhou, Jingyi Yu, Yuyao Zhang, (参考訳) X線CTの応用範囲を拡大するためには,リミテッドアングルおよびスパースビューCT(LACT,SVCT)が重要である。 しかし、これらは不完全なデータ取得による課題に直面するため、再構成されたCT画像に様々なアーティファクトが生じる。 NeRF、NeAT、NeRPといった新しい暗黙的神経表現(INR)技術は、未決定のCT画像再構成タスクにおいて有望であることを示している。 しかし、INR アーキテクチャの教師なしの性質は、特に LACT や Ultra-SVCT による高度に不正な再構成タスクに対して、ソリューション空間に制限を課している。 本研究では,DPER(Diffusion Prior Driven Neural Representation, DPER)を提案する。 DPERは、半二次分割法(HQS)アルゴリズムを採用し、逆問題からデータ忠実度とサブプロブレム前の分布に分解する。 2つのサブプロブレムはそれぞれ、INR再構成スキームと事前学習されたスコアベース拡散モデルによって対処される。 この組み合わせは、まずINRから暗黙の局所的な一貫性を注入する。 さらに、生成拡散モデルにより、逆問題に対する解空間の実現性を効果的に増強し、解の安定性と精度が向上する。 2つの公開データセット (AAPM, LIDC) と, マヨクリニックが作成した, 社内の新型コロナウイルスデータセット, および, パブリックな生予測データセットを用いて, LACTおよび超SVCT再建におけるDPERの有効性を評価するための総合的な実験を行った。 その結果,本手法はドメイン内データセット上での最先端再構築手法よりも優れ,ドメイン外データセット(OOD)の大幅な性能向上を実現していることがわかった。

Limited-angle and sparse-view computed tomography (LACT and SVCT) are crucial for expanding the scope of X-ray CT applications. However, they face challenges due to incomplete data acquisition, resulting in diverse artifacts in the reconstructed CT images. Emerging implicit neural representation (INR) techniques, such as NeRF, NeAT, and NeRP, have shown promise in under-determined CT imaging reconstruction tasks. However, the unsupervised nature of INR architecture imposes limited constraints on the solution space, particularly for the highly ill-posed reconstruction task posed by LACT and ultra-SVCT. In this study, we introduce the Diffusion Prior Driven Neural Representation (DPER), an advanced unsupervised framework designed to address the exceptionally ill-posed CT reconstruction inverse problems. DPER adopts the Half Quadratic Splitting (HQS) algorithm to decompose the inverse problem into data fidelity and distribution prior sub-problems. The two sub-problems are respectively addressed by INR reconstruction scheme and pre-trained score-based diffusion model. This combination first injects the implicit image local consistency prior from INR. Additionally, it effectively augments the feasibility of the solution space for the inverse problem through the generative diffusion model, resulting in increased stability and precision in the solutions. We conduct comprehensive experiments to evaluate the performance of DPER on LACT and ultra-SVCT reconstruction with two public datasets (AAPM and LIDC), an in-house clinical COVID-19 dataset and a public raw projection dataset created by Mayo Clinic. The results show that our method outperforms the state-of-the-art reconstruction methods on in-domain datasets, while achieving significant performance improvements on out-of-domain (OOD) datasets.
翻訳日:2024-07-22 23:27:33 公開日:2024-07-19
# 文脈的問題:リモートセンシング画像を用いた半教師付き学習のための時空間メタデータの活用

Context Matters: Leveraging Spatiotemporal Metadata for Semi-Supervised Learning on Remote Sensing Images ( http://arxiv.org/abs/2404.18583v2 )

ライセンス: Link先を確認
Maximilian Bernhard, Tanveer Hannan, Niklas Strauß, Matthias Schubert, (参考訳) リモートセンシングプロジェクトは一般的に、強力なディープニューラルネットワークのトレーニングに使用できる大量の画像を生成する。 しかし、リモートセンシングアプリケーションは通常、専門家のラベル付けを必要とするため、ラベル付き画像の量は少ないことが多い。 このように、ラベル付きデータの小さなプールと大きなラベル付きデータのプールで学習する半教師付き学習(SSL)は、この領域で特に有用である。 現在のSSLアプローチは、未ラベルサンプルのモデル予測から擬似ラベルを生成する。 これらの擬似ラベルの品質はパフォーマンスに不可欠であるため、擬似ラベルの品質を改善するために追加情報を活用することにより、有望な方向性が得られる。 リモートセンシング画像では、位置情報と記録時間は一般的に利用可能であり、土地被覆などの意味概念として貴重な情報源は、季節的影響や植生帯により、時空間、例えば時空間に大きく依存している。 本稿では,SSLの時空間情報を利用して擬似ラベルの品質を向上し,最終的なモデル性能を評価することを提案する。 テスト時の予測器の入力に利用可能なメタデータを直接付加すると、トレーニングセットの時空間分布外のメタデータの予測品質が劣化することを示す。 そこで本研究では,教師ネットワークのみがmetainformationを使用して,学習セット上の擬似ラベルの品質を向上する,教師学生向けSSLフレームワークを提案する。 それに対応して、学生ネットワークは、改善された擬似ラベルの恩恵を受けるが、メタデータを入力として受け取らないため、テスト時の時空間シフトに不変である。 さらに, モデルに時空間情報を符号化し, 注入する方法を提案し, 教師と学生の知識伝達を促進する新しい蒸留機構を提案する。 Spatiotemporal SSLと呼ばれる私たちのフレームワークは、簡単にいくつかの統計データと組み合わせることができる。

Remote sensing projects typically generate large amounts of imagery that can be used to train powerful deep neural networks. However, the amount of labeled images is often small, as remote sensing applications generally require expert labelers. Thus, semi-supervised learning (SSL), i.e., learning with a small pool of labeled and a larger pool of unlabeled data, is particularly useful in this domain. Current SSL approaches generate pseudo-labels from model predictions for unlabeled samples. As the quality of these pseudo-labels is crucial for performance, utilizing additional information to improve pseudo-label quality yields a promising direction. For remote sensing images, geolocation and recording time are generally available and provide a valuable source of information as semantic concepts, such as land cover, are highly dependent on spatiotemporal context, e.g., due to seasonal effects and vegetation zones. In this paper, we propose to exploit spatiotemporal metainformation in SSL to improve the quality of pseudo-labels and, therefore, the final model performance. We show that directly adding the available metadata to the input of the predictor at test time degenerates the prediction quality for metadata outside the spatiotemporal distribution of the training set. Thus, we propose a teacher-student SSL framework where only the teacher network uses metainformation to improve the quality of pseudo-labels on the training set. Correspondingly, our student network benefits from the improved pseudo-labels but does not receive metadata as input, making it invariant to spatiotemporal shifts at test time. Furthermore, we propose methods for encoding and injecting spatiotemporal information into the model and introduce a novel distillation mechanism to enhance the knowledge transfer between teacher and student. Our framework dubbed Spatiotemporal SSL can be easily combined with several stat...
翻訳日:2024-07-22 23:27:33 公開日:2024-07-19
# UniFS:ポイント表現によるユニバーサルなFew-shotインスタンス認識

UniFS: Universal Few-shot Instance Perception with Point Representations ( http://arxiv.org/abs/2404.19401v3 )

ライセンス: Link先を確認
Sheng Jin, Ruijie Yao, Lumin Xu, Wentao Liu, Chen Qian, Ji Wu, Ping Luo, (参考訳) 視覚モデルの産業的応用において、インスタンス認識タスク(オブジェクト検出、インスタンスセグメンテーション、ポーズ推定、カウント)が重要な役割を果たす。 教師付き学習手法は高いラベル付けコストに悩まされるため、限られたラベル付き事例から効果的に学習する少数ショット学習法が望まれる。 既存の数発の学習方法は、主に制限されたタスクセットに焦点を当てている。これはおそらく、多種多様なタスクを統一的に表現できるジェネリックモデルを設計する際の課題である。 本稿では,UniFSを提案する。UniFSは,インスタンス認識タスクを動的ポイント表現学習フレームワークに再構成することで,幅広いインスタンス認識タスクを統一する汎用的なインスタンス認識モデルである。 さらに,特徴点間の高次構造関係を利用して表現学習を強化する構造認識ポイント学習(SAPL)を提案する。 提案手法は,タスクについて最小限の仮定を行うが,高度に専門的で最適化されたスペシャリストモデルと比較して,競争力のある結果が得られる。 コードとデータはhttps://github.com/jin-s13/UniFSで公開されている。

Instance perception tasks (object detection, instance segmentation, pose estimation, counting) play a key role in industrial applications of visual models. As supervised learning methods suffer from high labeling cost, few-shot learning methods which effectively learn from a limited number of labeled examples are desired. Existing few-shot learning methods primarily focus on a restricted set of tasks, presumably due to the challenges involved in designing a generic model capable of representing diverse tasks in a unified manner. In this paper, we propose UniFS, a universal few-shot instance perception model that unifies a wide range of instance perception tasks by reformulating them into a dynamic point representation learning framework. Additionally, we propose Structure-Aware Point Learning (SAPL) to exploit the higher-order structural relationship among points to further enhance representation learning. Our approach makes minimal assumptions about the tasks, yet it achieves competitive results compared to highly specialized and well optimized specialist models. Codes and data are available at https://github.com/jin-s13/UniFS.
翻訳日:2024-07-22 23:27:33 公開日:2024-07-19
# 量子力学における不定因数順序の実験的側面

Experimental Aspects of Indefinite Causal Order in Quantum Mechanics ( http://arxiv.org/abs/2405.00767v2 )

ライセンス: Link先を確認
Lee A. Rozema, Teodor Strömberg, Huan Cao, Yu Guo, Bi-Heng Liu, Philip Walther, (参考訳) 過去10年間で、量子情報のツールキットは、基本的な操作が明確な因果関係を持たないプロセスを含むように拡張された。 もともと、量子力学と一般相対性理論の統一の文脈において、これらの因果不確定なプロセスは、量子計算から量子メートル法まで幅広い量子情報処理タスクに利点をもたらすことが示されている。 ここでは、これらの利点の概要と、それらを実現するための実験的取り組みについて概説する。 本研究は, 各種実験技術と, 実験支援のために開発された理論手法の両方について検討し, 現状の実験結果の解釈を議論し, 今後の展望を述べる。

In the past decade, the toolkit of quantum information has been expanded to include processes in which the basic operations do not have definite causal relations. Originally considered in the context of the unification of quantum mechanics and general relativity, these causally indefinite processes have been shown to offer advantages in a wide variety of quantum information processing tasks, ranging from quantum computation to quantum metrology. Here we overview these advantages and the experimental efforts to realise them. We survey both the different experimental techniques employed, as well as theoretical methods developed in support of the experiments, before discussing the interpretations of current experimental results and giving an outlook on the future of the field.
翻訳日:2024-07-22 23:17:48 公開日:2024-07-19
# SOPA: 持続可能なプロセス分析とビジネスプロセス管理の再設計のためのフレームワーク

SOPA: A Framework for Sustainability-Oriented Process Analysis and Re-design in Business Process Management ( http://arxiv.org/abs/2405.01176v2 )

ライセンス: Link先を確認
Finn Klessascheck, Ingo Weber, Luise Pufahl, (参考訳) 持続不可能な人的活動による地球の生態系の継続的なグローバルな劣化を考えると、企業は環境への影響を評価することがますます重要である。 その結果、ビジネスプロセス管理(BPM)の分野において、持続可能性に対するビジネスプロセスの影響を評価することが重要視されている。 しかし、ビジネスプロセスの持続可能性指向分析を目的とした既存の実践的アプローチは、環境への影響について限られた視点しか提供しない。 さらに、持続可能性駆動型プロセス分析と再設計のための明確で実用的なメカニズムを提供していません。 本稿では,サステナビリティ指向プロセス分析と再設計のためのフレームワークであるSOPAを提案し,研究する。 SOPAは、アクティビティベースのコスト(ABC)と組み合わせて持続可能性の分析にLCA(Life Cycle Assessment)を使用してBPMライフサイクルを拡張します。 我々は,SOPAとその実用性を事例研究により評価し,本研究の実用性についても考察した。

Given the continuous global degradation of the Earth's ecosystem due to unsustainable human activity, it is increasingly important for enterprises to evaluate the effects they have on the environment. Consequently, assessing the impact of business processes on sustainability is becoming an important consideration in the discipline of Business Process Management (BPM). However, existing practical approaches that aim at a sustainability-oriented analysis of business processes provide only a limited perspective on the environmental impact caused. Further, they provide no clear and practically applicable mechanism for sustainability-driven process analysis and re-design. Following a design science methodology, we here propose and study SOPA, a framework for sustainability-oriented process analysis and re-design. SOPA extends the BPM life cycle by use of Life Cycle Assessment (LCA) for sustainability analysis in combination with Activity-based Costing (ABC). We evaluate SOPA and its usefulness with a case study, by means of an implementation to support the approach, thereby also illustrating the practical applicability of this work.
翻訳日:2024-07-22 23:17:48 公開日:2024-07-19
# 森林火災のリスク予測 : レビュー

Wildfire Risk Prediction: A Review ( http://arxiv.org/abs/2405.01607v2 )

ライセンス: Link先を確認
Zhengsen Xu, Jonathan Li, Linlin Xu, (参考訳) 森林火災は地球規模の植生、野生生物、人間に重大な影響を及ぼす。 植物群落や野生生物の生息地を破壊し、二酸化炭素、酸化窒素、メタン、その他の汚染物質の排出の増加に貢献している。 山火事の予測は、回帰や機械学習の手法と組み合わせた様々な独立変数に依存している。 本稿では,独立変数の選択肢,データ処理手法,モデル,独立変数のコリニアリティと重要度推定手法,モデル性能評価指標について述べる。 まず,独立変数を気候・気象条件,社会経済的要因,地形・水文学的特徴,山火事の歴史記録の4つの側面に分けた。 第二に、前処理法は、大きさ、空間時間分解能、データの異なるフォーマットについて記述する。 第3に、独立変数のコリニアリティと重要度評価方法についても検討する。 第4に、山火事リスク予測における統計モデル、従来の機械学習モデル、ディープラーニングモデルの適用について論じる。 本項では,他のレビューと比較して,特に評価指標と近年のディープラーニング手法の進歩について論じる。 最後に,本研究の限界に対処するため,より効果的な深層学習時系列予測アルゴリズムの必要性,地上および幹燃料を含む3次元データの利用,より正確な歴史的火点データの抽出,モデル評価指標の改善等を強調した。

Wildfires have significant impacts on global vegetation, wildlife, and humans. They destroy plant communities and wildlife habitats and contribute to increased emissions of carbon dioxide, nitrogen oxides, methane, and other pollutants. The prediction of wildfires relies on various independent variables combined with regression or machine learning methods. In this technical review, we describe the options for independent variables, data processing techniques, models, independent variables collinearity and importance estimation methods, and model performance evaluation metrics. First, we divide the independent variables into 4 aspects, including climate and meteorology conditions, socio-economical factors, terrain and hydrological features, and wildfire historical records. Second, preprocessing methods are described for different magnitudes, different spatial-temporal resolutions, and different formats of data. Third, the collinearity and importance evaluation methods of independent variables are also considered. Fourth, we discuss the application of statistical models, traditional machine learning models, and deep learning models in wildfire risk prediction. In this subsection, compared with other reviews, this manuscript particularly discusses the evaluation metrics and recent advancements in deep learning methods. Lastly, addressing the limitations of current research, this paper emphasizes the need for more effective deep learning time series forecasting algorithms, the utilization of three-dimensional data including ground and trunk fuel, extraction of more accurate historical fire point data, and improved model evaluation metrics.
翻訳日:2024-07-22 23:17:48 公開日:2024-07-19
# 初期化のない大規模バンドル調整のための可変パワープロジェクション

Power Variable Projection for Initialization-Free Large-Scale Bundle Adjustment ( http://arxiv.org/abs/2405.05079v4 )

ライセンス: Link先を確認
Simon Weber, Je Hyeong Hong, Daniel Cremers, (参考訳) Levenberg-Marquardtアルゴリズムのようなほとんどのバンドル調整(BA)解法は、優れた初期化を必要とする。 代わりに、初期化のないBAは、ほとんどチャージされていない領域のままである。 探索されていない可変射影アルゴリズム(VarPro)は初期化なしでも広い収束盆地を示す。 オブジェクト空間誤差の定式化と組み合わせた最近の研究は、小規模初期化自由バンドル調整問題を解く能力を示している。 このような初期化のないBAアプローチをスケーラブルにするために、電力系列に基づく最近の逆展開法を拡張したパワー可変射影(PoVar)を導入する。 重要なことに、パワー級数展開はリーマン多様体の最適化にリンクする。 この射影フレームワークは,初期化を伴わない大規模バンドル調整問題の解決に不可欠である。 実世界のBALデータセットを用いて,我々の解法が最先端の結果を速度と精度で達成できることを実験的に実証した。 我々の知る限り、この研究はBAのスケーラビリティに最初の取り組みであり、初期化が不要な構造運動のための新しい会場を開かなかった。

Most Bundle Adjustment (BA) solvers like the Levenberg-Marquardt algorithm require a good initialization. Instead, initialization-free BA remains a largely uncharted territory. The under-explored Variable Projection algorithm (VarPro) exhibits a wide convergence basin even without initialization. Coupled with object space error formulation, recent works have shown its ability to solve small-scale initialization-free bundle adjustment problem. To make such initialization-free BA approaches scalable, we introduce Power Variable Projection (PoVar), extending a recent inverse expansion method based on power series. Importantly, we link the power series expansion to Riemannian manifold optimization. This projective framework is crucial to solve large-scale bundle adjustment problems without initialization. Using the real-world BAL dataset, we experimentally demonstrate that our solver achieves state-of-the-art results in terms of speed and accuracy. To our knowledge, this work is the first to address the scalability of BA without initialization opening new venues for initialization-free structure-from-motion.
翻訳日:2024-07-22 23:17:48 公開日:2024-07-19
# 軌道上の絡み合い:衛星量子リンクのケーススタディ

Entanglement Swapping in Orbit: a Satellite Quantum Link Case Study ( http://arxiv.org/abs/2405.07589v2 )

ライセンス: Link先を確認
Paolo Fittipaldi, Kentaro Teramoto, Naphan Benchasattabuse, Michal Hajdušek, Rodney Van Meter, Frédéric Grosshans, (参考訳) 衛星量子通信は、長距離量子リンクを構築するための有望な方法であり、大都市圏を超える量子インターネット作業のための光ファイバーの重要な補完となる。 衛星点対光リンクは、量的(高いレイテンシ、強い損失)と定性的(衛星通過時の不安定なパラメータ値、リンクの断続性、衛星と地上局の間のリピータの設定が不可能)の両方において、より一般的なファイバーリンクと多くの点で異なる。 本稿では,2つの地上局間の量子リンクの性能について,量子メモリ付き衛星を量子リピータとして検討する。 量子鍵分布衛星リンクとは対照的に、使用可能な量子メモリスロットmの数と、少なくとも数ミリ秒の避けられないラウンドトリップ通信遅延tは、予測可能な量子メモリの最大数キロヘルツにおいて、有効平均繰り返し速度をm/tに著しく減少させる。 我々の研究は2つのアプローチを用いており、互いに検証している。 1) 量子リンクの効果率の簡易解析モデル 2)Quantum Internet Simulation Package(QuISP)を用いたイベントベースシミュレーション。 衛星リンクとファイバーリンクの重大な違いは、QuISP自体の変更につながりました。 この研究は、異なる大都市圏を相互接続するハイブリッド衛星とファイバーベースの量子リピータネットワークの研究への道を開いた。

Satellite quantum communication is a promising way to build long distance quantum links, making it an essential complement to optical fiber for quantum internetworking beyond metropolitan scales. A satellite point to point optical link differs from the more common fiber links in many ways, both quantitative (higher latency, strong losses) and qualitative (nonconstant parameter values during satellite passage, intermittency of the link, impossibility to set repeaters between the satellite and the ground station). We study here the performance of a quantum link between two ground stations, using a quantum-memory-equipped satellite as a quantum repeater. In contrast with quantum key distribution satellite links, the number of available quantum memory slots m, together with the unavoidable round-trip communication latency t of at least a few milliseconds, severely reduces the effective average repetition rate to m/t -- at most a few kilohertz for foreseeable quantum memories. Our study uses two approaches, which validate each other: 1) a simple analytical model of the effective rate of the quantum link; 2) an event-based simulation using the open source Quantum Internet Simulation Package (QuISP). The important differences between satellite and fiber links led us to modify QuISP itself. This work paves the way to the study of hybrid satellite- and fiber-based quantum repeater networks interconnecting different metropolitan areas.
翻訳日:2024-07-22 23:17:48 公開日:2024-07-19
# 密度行列ベクトル化による無条件デコヒーレンスフリー量子誤差緩和

Unconditionally decoherence-free quantum error mitigation by density matrix vectorization ( http://arxiv.org/abs/2405.07592v4 )

ライセンス: Link先を確認
Zhong-Xia Shang, Zi-Han Chen, Cai-Sheng Cheng, (参考訳) NISQデバイスが実用的な量子応用を実証するためには、ノイズに対する闘いが不可欠である。 本研究では,密度行列のベクトル化に基づく量子誤差緩和の新しいパラダイムを提案する。 ノイズのない情報をノイズの多い量子状態から抽出しようとする既存の量子誤差緩和法とは異なり,本提案では,ノイズの多い量子状態の密度行列をノイズのない純粋状態に直接変換する。 我々のプロトコルは、ノイズモデルに関する知識、ノイズ強度を調整する能力、複雑な制御ユニタリのためのアンシラキュービットを必要としない。 我々のエンコーディングでは、NISQデバイスは、多くのタスクにおいて優れたパフォーマンスを持つように、変分量子アルゴリズムに非常に望ましいリソースである純粋量子状態を準備している。 我々は、このプロトコルを変分量子アルゴリズムにどのように適合させるかを示す。 本提案に適合するいくつかの具体的なアンザッツ構造を提示し,サンプリング複雑性,表現性,訓練性に関する理論的解析を行った。 また、このプロトコルが大きなノイズの影響や、他の量子エラー軽減プロトコルとどのようにうまく組み合わせられるかについても論じる。 本提案の有効性は, 種々の数値実験により実証された。

Fighting against noise is crucial for NISQ devices to demonstrate practical quantum applications. In this work, we give a new paradigm of quantum error mitigation based on the vectorization of density matrices. Different from the ideas of existing quantum error mitigation methods that try to distill noiseless information from noisy quantum states, our proposal directly changes the way of encoding information and maps the density matrices of noisy quantum states to noiseless pure states, which is realized by a novel and NISQ-friendly measurement protocol and a classical post-processing procedure. Our protocol requires no knowledge of the noise model, no ability to tune the noise strength, and no ancilla qubits for complicated controlled unitaries. Under our encoding, NISQ devices are always preparing pure quantum states which are highly desired resources for variational quantum algorithms to have good performance in many tasks. We show how this protocol can be well-fitted into variational quantum algorithms. We give several concrete ansatz constructions that are suitable for our proposal and do theoretical analysis on the sampling complexity, the expressibility, and the trainability. We also give a discussion on how this protocol is influenced by large noise and how it can be well combined with other quantum error mitigation protocols. The effectiveness of our proposal is demonstrated by various numerical experiments.
翻訳日:2024-07-22 23:17:48 公開日:2024-07-19
# OPROを再考する: 最適化としての小型LCMの限界

Revisiting OPRO: The Limitations of Small-Scale LLMs as Optimizers ( http://arxiv.org/abs/2405.10276v2 )

ライセンス: Link先を確認
Tuo Zhang, Jinyue Yuan, Salman Avestimehr, (参考訳) 近年,大規模言語モデル (LLMs) の戦略的促進による有効性向上が目指されている。 特に、Prompting by Prompting(OPRO)アプローチは、最適化タスクがタスクの精度を最大化する命令を見つける際に、LLMをオプティマイザとして活用することにより、最先端のパフォーマンスを提供する。 本稿では,LLaMa-2 ファミリーや Mistral 7B といった比較的小型の LLM を用いた OPRO の自動プロンプトについて再検討する。 本研究により,OPRO は小規模な LLM において限定的な有効性を示し,推論能力は限定的であり,最適化能力は限定的であることがわかった。 我々は,モデル能力と計算コストの両方を考慮するために,将来的な自動プロンプトエンジニアリングを提案する。 さらに,小規模のLDMでは,目的と方法論を堅牢なプロンプトベースラインとして明確に概説し,現在進行中の研究における効率的かつ効果的なプロンプトエンジニアリングを確実にするための直接的な指示を推奨する。

Numerous recent works aim to enhance the efficacy of Large Language Models (LLMs) through strategic prompting. In particular, the Optimization by PROmpting (OPRO) approach provides state-of-the-art performance by leveraging LLMs as optimizers where the optimization task is to find instructions that maximize the task accuracy. In this paper, we revisit OPRO for automated prompting with relatively small-scale LLMs, such as LLaMa-2 family and Mistral 7B. Our investigation reveals that OPRO shows limited effectiveness in small-scale LLMs, with limited inference capabilities constraining optimization ability. We suggest future automatic prompting engineering to consider both model capabilities and computational costs. Additionally, for small-scale LLMs, we recommend direct instructions that clearly outline objectives and methodologies as robust prompt baselines, ensuring efficient and effective prompt engineering in ongoing research.
翻訳日:2024-07-22 23:17:48 公開日:2024-07-19
# 大規模言語モデル事前学習の今後

The Future of Large Language Model Pre-training is Federated ( http://arxiv.org/abs/2405.10853v2 )

ライセンス: Link先を確認
Lorenzo Sani, Alex Iacob, Zeyu Cao, Bill Marino, Yan Gao, Tomas Paulik, Wanru Zhao, William F. Shen, Preslav Aleksandrov, Xinchi Qiu, Nicholas D. Lane, (参考訳) 生成事前訓練された大規模言語モデル(LLM)は、トレーニングされた前例のない量のデータのおかげで、広範囲のタスクに対して素晴らしいパフォーマンスを示している。 確立されたスケーリング法則が示すように、LLMの将来的なパフォーマンス改善は、事前トレーニングに利用できる計算量とデータソースに依存する。 フェデレーテッド・ラーニング(FL)は、現在のLLMの実践において、データセンター中心のトレーニング手法によって未利用である、地球のデータと計算資源の大部分を解き放つ可能性を持っている。 我々の研究は、LLMを訓練する機関間で大規模なコラボレーションを可能にする、堅牢で柔軟で再現可能なFLアプローチを提示している。 我々は,LLM事前学習のための新しいトレーニングパラダイムの調査と開発を可能にする,Photonと呼ばれるスケーラブルなデプロイメントシステムを提案する。 数十億のパラメータを持つLCMを事前学習するために、プライベートデータソースと計算資源とのコラボレーションに関心のある組織がPhotonを利用できることを示す。 このパラダイムは、中央集権的なパフォーマンスを維持しながら、より多くの計算とデータリソースを動員する。 さらに,モデルサイズによるフェデレーション・トレーニング・スケールの有効性を示すとともに,限られた資源を用いて10億規模のフェデレーション・LLMをトレーニングするためのアプローチを提案する。 最後に、LLMトレーニングは、フェデレートされた統計的およびハードウェアの不均一性の古典的課題に対して高い弾力性を持つことを示す。 さらに,コンバージェンスは部分的参加に頑健であり,計算効率のよい協調学習の道を開いた。 Photonは、データリッチなアクターが、計算リッチなアクターだけにステージを離れるのではなく、LCMの事前トレーニングの主人公になるのに役立つ。

Generative pre-trained large language models (LLMs) have demonstrated impressive performance over a wide range of tasks, thanks to the unprecedented amount of data they have been trained on. As established scaling laws indicate, LLMs' future performance improvement depends on the amount of computing and data sources they can leverage for pre-training. Federated learning (FL) has the potential to unleash the majority of the planet's data and computational resources, which are underutilized by the data-center-focused training methodology of current LLM practice. Our work presents a robust, flexible, reproducible FL approach that enables large-scale collaboration across institutions to train LLMs. We propose a scalable deployment system called Photon to enable the investigation and development of this new training paradigm for LLM pre-training. We show that Photon can be used by organizations interested in collaborating with their private data sources and computational resources for pre-training LLMs with billions of parameters. This paradigm would mobilize more computational and data resources while matching or potentially exceeding centralized performance. We further show the effectiveness of the federated training scales with model size and present our approach for training a billion-scale federated LLM using limited resources. Finally, we show that LLM training is highly resilient to the classical challenges of federated statistical and hardware heterogeneity. Furthermore, we show that convergence is robust to partial participation, opening the avenue for compute-efficient collaborative training. Photon will help data-rich actors to become the protagonists of LLMs pre-training instead of leaving the stage to compute-rich actors alone.
翻訳日:2024-07-22 23:17:48 公開日:2024-07-19
# Talk2Radar: 3次元参照表現理解のための4D mmWave Radarによる自然言語のブリッジ

Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension ( http://arxiv.org/abs/2405.12821v2 )

ライセンス: Link先を確認
Runwei Guan, Ruixiao Zhang, Ningwei Ouyang, Jianan Liu, Ka Lok Man, Xiaohao Cai, Ming Xu, Jeremy Smith, Eng Gee Lim, Yutao Yue, Hui Xiong, (参考訳) 対話型環境理解における知的車両やロボットにとって、身体的知覚は不可欠である。 しかし、これらの進歩は主に視覚に焦点を当てており、3Dモデリングセンサーの使用に限られた注意を払っており、質的および定量的なクエリを含むプロンプトに対するオブジェクトの包括的理解を制限する。 近年、安価な自動車用センサとして、4Dミリ波レーダは従来のレーダよりも高密度の点雲を提供し、物体の意味的特性と物理的特性の両方を知覚し、認識システムの信頼性を高めている。 3次元視覚的接地のためのレーダシーンにおける自然言語による文脈理解の発達を促進するために,これらの2つのモードを3次元参照表現理解(REC)にブリッジする最初のデータセットTalk2Radarを構築した。 Talk2Radarは8,682個のプロンプトサンプルと20,558個の参照オブジェクトを含んでいる。 さらに,ポイントクラウド上での3次元RECのための新しいモデルであるT-RadarNetを提案し,Talk2Radarデータセット上でのSOTA(State-Of-The-Art)性能を,それと比較した。 Deformable-FPN と Gated Graph Fusion はそれぞれ、効率的なポイントクラウド特徴モデリングとレーダとテキスト特徴間のクロスモーダル融合のために慎重に設計されている。 総合的な実験は、レーダーベースの3D RECに関する深い洞察を提供する。 私たちはhttps://github.com/GuanRunwei/Talk2Radar.comでプロジェクトをリリースします。

Embodied perception is essential for intelligent vehicles and robots in interactive environmental understanding. However, these advancements primarily focus on vision, with limited attention given to using 3D modeling sensors, restricting a comprehensive understanding of objects in response to prompts containing qualitative and quantitative queries. Recently, as a promising automotive sensor with affordable cost, 4D millimeter-wave radars provide denser point clouds than conventional radars and perceive both semantic and physical characteristics of objects, thereby enhancing the reliability of perception systems. To foster the development of natural language-driven context understanding in radar scenes for 3D visual grounding, we construct the first dataset, Talk2Radar, which bridges these two modalities for 3D Referring Expression Comprehension (REC). Talk2Radar contains 8,682 referring prompt samples with 20,558 referred objects. Moreover, we propose a novel model, T-RadarNet, for 3D REC on point clouds, achieving State-Of-The-Art (SOTA) performance on the Talk2Radar dataset compared to counterparts. Deformable-FPN and Gated Graph Fusion are meticulously designed for efficient point cloud feature modeling and cross-modal fusion between radar and text features, respectively. Comprehensive experiments provide deep insights into radar-based 3D REC. We release our project at https://github.com/GuanRunwei/Talk2Radar.
翻訳日:2024-07-22 23:17:48 公開日:2024-07-19
# MASS:情報理論から見た多属性選択型データ変換の抑制

MaSS: Multi-attribute Selective Suppression for Utility-preserving Data Transformation from an Information-theoretic Perspective ( http://arxiv.org/abs/2405.14981v2 )

ライセンス: Link先を確認
Yizhuo Chen, Chun-Fu Chen, Hsiang Hsu, Shaohan Hu, Marco Pistoia, Tarek Abdelzaher, (参考訳) 大規模データセットの肥大化は、機械学習技術の急速な進歩と広範な採用を促進する上で極めて重要である。 しかし、大量のデータの収集と利用は、不注意な不正処理や悪意ある搾取のために、人々の個人的かつ機密性の高い情報に対するリスクが増大する。 立法ソリューション以外にも、データプライバシ保護に対する多くの技術的アプローチが提案されている。 しかし、データの可用性とユーティリティの低下、ヒューリスティックに依存し、しっかりとした理論的基盤を欠いているなど、さまざまな制限がある。 これらの制約を克服するために,このユーティリティ保護プライバシ保護問題に対する公式な情報理論的定義を提案し,データ駆動型学習可能なデータ変換フレームワークを設計する。 我々は,我々のフレームワークの運用範囲に関する厳密な理論的分析を行い,顔画像,音声クリップ,人間の活動運動センサ信号など,様々なモダリティのデータセットを用いて総合的な実験的評価を行う。 提案手法の有効性と一般化性について,様々な構成のタスクで検証した。 私たちのコードはhttps://github.com/jpmorganchase/MaSS.comで公開されています。

The growing richness of large-scale datasets has been crucial in driving the rapid advancement and wide adoption of machine learning technologies. The massive collection and usage of data, however, pose an increasing risk for people's private and sensitive information due to either inadvertent mishandling or malicious exploitation. Besides legislative solutions, many technical approaches have been proposed towards data privacy protection. However, they bear various limitations such as leading to degraded data availability and utility, or relying on heuristics and lacking solid theoretical bases. To overcome these limitations, we propose a formal information-theoretic definition for this utility-preserving privacy protection problem, and design a data-driven learnable data transformation framework that is capable of selectively suppressing sensitive attributes from target datasets while preserving the other useful attributes, regardless of whether or not they are known in advance or explicitly annotated for preservation. We provide rigorous theoretical analyses on the operational bounds for our framework, and carry out comprehensive experimental evaluations using datasets of a variety of modalities, including facial images, voice audio clips, and human activity motion sensor signals. Results demonstrate the effectiveness and generalizability of our method under various configurations on a multitude of tasks. Our code is available at https://github.com/jpmorganchase/MaSS.
翻訳日:2024-07-22 23:17:48 公開日:2024-07-19
# 知識グラフ構築における不確実性管理--調査

Uncertainty Management in the Construction of Knowledge Graphs: a Survey ( http://arxiv.org/abs/2405.16929v2 )

ライセンス: Link先を確認
Lucas Jarnac, Yoan Chabot, Miguel Couceiro, (参考訳) 知識グラフ(KG)は、データ表現の柔軟性と多数のアプリケーション、例えば語彙共有、Q/A、レコメンデーションシステムによって、企業にとって重要な資産です。 KGを構築するには、様々な異種情報源から知識を抽出する自動手法に頼るのが一般的である。 しかし、騒々しく不確実な世界では、知識は信頼できないかもしれないし、データソース間の衝突が起こるかもしれない。 信頼できないデータを統合することは、KGの使用に直接影響を与えるため、そのような衝突を解決する必要がある。 これは、統合する最適なデータを選択することで手動で行うことができる。 この最初のアプローチは非常に正確ですが、コストがかかり、時間がかかります。 そのため、近年の取り組みは、KGへの統合を通じて抽出された知識の不確実性を扱う必要があるため、課題となる自動的アプローチに重点を置いている。 我々は、この方向の最先端のアプローチと、オープンかつエンタープライズなKGの構築と、その品質維持方法について調査する。 次に、異なる知識抽出法を記述し、さらなる不確実性を導入する。 また,KG構築における知識の不確実性に対処するために,埋め込みモデルを用いたKG完了,知識アライメント,知識融合など,知識獲得後の下流課題についても論じる。 我々は、不確実性を考慮したKGの構築における課題と視点について、議論を締めくくった。

Knowledge Graphs (KGs) are a major asset for companies thanks to their great flexibility in data representation and their numerous applications, e.g., vocabulary sharing, Q/A or recommendation systems. To build a KG it is a common practice to rely on automatic methods for extracting knowledge from various heterogeneous sources. But in a noisy and uncertain world, knowledge may not be reliable and conflicts between data sources may occur. Integrating unreliable data would directly impact the use of the KG, therefore such conflicts must be resolved. This could be done manually by selecting the best data to integrate. This first approach is highly accurate, but costly and time-consuming. That is why recent efforts focus on automatic approaches, which represents a challenging task since it requires handling the uncertainty of extracted knowledge throughout its integration into the KG. We survey state-of-the-art approaches in this direction and present constructions of both open and enterprise KGs and how their quality is maintained. We then describe different knowledge extraction methods, introducing additional uncertainty. We also discuss downstream tasks after knowledge acquisition, including KG completion using embedding models, knowledge alignment, and knowledge fusion in order to address the problem of knowledge uncertainty in KG construction. We conclude with a discussion on the remaining challenges and perspectives when constructing a KG taking into account uncertainty.
翻訳日:2024-07-22 23:17:48 公開日:2024-07-19
# Vista: 高い忠実度とVersatile制御性を備えた汎用駆動型世界モデル

Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability ( http://arxiv.org/abs/2405.17398v3 )

ライセンス: Link先を確認
Shenyuan Gao, Jiazhi Yang, Li Chen, Kashyap Chitta, Yihang Qiu, Andreas Geiger, Jun Zhang, Hongyang Li, (参考訳) 世界モデルは異なる行動の結果を予測することができ、これは自動運転にとって最重要事項である。 それでも、既存の駆動世界モデルには、目に見えない環境への一般化、重要な詳細の予測精度、フレキシブルなアプリケーションに対するアクション制御性に制限がある。 本稿では,高忠実度かつ多目的な制御性を有する一般化可能な運転世界モデルであるVistaを提案する。 既存の手法の体系的診断に基づいて,これらの制約に対処するための重要な要素をいくつか紹介する。 実世界のダイナミクスを高精度に予測するために,移動インスタンスと構造情報の学習を促進するために,2つの新たな損失を提案する。 また,コヒーレントなロングホライゾンロールアウトの先行として,過去のフレームを注入する有効な潜在代替手法も考案した。 動作制御性には,高レベルな意図(コマンド,ゴールポイント)から低レベルな操作(軌道,角度,速度)まで,効率的な学習戦略を通じて多種多様な制御を組み込む。 大規模なトレーニングの後、Vistaの機能はさまざまなシナリオにシームレスに一般化できる。 複数のデータセットに対する大規模な実験によると、Vistaは比較の70%以上で最も高度な汎用ビデオジェネレータを上回り、FIDでは55%、FVDでは27%を上回っている。 さらに,Vista自体の能力を活用して,現実の行動評価に基礎となる真実の行動にアクセスすることなく,一般化可能な報酬を確立する。

World models can foresee the outcomes of different actions, which is of paramount importance for autonomous driving. Nevertheless, existing driving world models still have limitations in generalization to unseen environments, prediction fidelity of critical details, and action controllability for flexible application. In this paper, we present Vista, a generalizable driving world model with high fidelity and versatile controllability. Based on a systematic diagnosis of existing methods, we introduce several key ingredients to address these limitations. To accurately predict real-world dynamics at high resolution, we propose two novel losses to promote the learning of moving instances and structural information. We also devise an effective latent replacement approach to inject historical frames as priors for coherent long-horizon rollouts. For action controllability, we incorporate a versatile set of controls from high-level intentions (command, goal point) to low-level maneuvers (trajectory, angle, and speed) through an efficient learning strategy. After large-scale training, the capabilities of Vista can seamlessly generalize to different scenarios. Extensive experiments on multiple datasets show that Vista outperforms the most advanced general-purpose video generator in over 70% of comparisons and surpasses the best-performing driving world model by 55% in FID and 27% in FVD. Moreover, for the first time, we utilize the capacity of Vista itself to establish a generalizable reward for real-world action evaluation without accessing the ground truth actions.
翻訳日:2024-07-22 23:08:01 公開日:2024-07-19
# 膀胱癌再発における長周期のモデル化 : LSTM, Transformer, Mambaの比較検討

Modeling Long Sequences in Bladder Cancer Recurrence: A Comparative Evaluation of LSTM,Transformer,and Mamba ( http://arxiv.org/abs/2405.18518v2 )

ライセンス: Link先を確認
Runquan Zhang, Jiawen Jiang, Xiaoping Shi, (参考訳) 従来の生存分析手法は、複雑な時間依存的なデータに悩まされ、動的特性を適切に捉え、解釈することができない。本研究は、再発イベントデータの解析においてLSTM、Transformer、Mambaの3つの長周期モデルの性能を評価し、Cox比例ハザードモデルと統合することを目的としている。この研究は、Cox比例ハザードモデルと長周期データを扱う深層学習モデルの利点を統合することにより、動的時間情報を用いて繰り返しイベントを解析し、時間依存的な臨床的リカレンスデータから特徴を抽出・活用する異なるモデルの能力を比較する。LSTM-Coxモデルは、Transformer-CoxとMambaba-Coxの両モデルより優れ、精度が良く、精度が良く、精度が良く、また精度が良く、がんの診断に適合するかどうかを予測し、また、その効果を検証し、また、より効果的に評価することを目的としている。

Traditional survival analysis methods often struggle with complex time-dependent data,failing to capture and interpret dynamic characteristics adequately.This study aims to evaluate the performance of three long-sequence models,LSTM,Transformer,and Mamba,in analyzing recurrence event data and integrating them with the Cox proportional hazards model.This study integrates the advantages of deep learning models for handling long-sequence data with the Cox proportional hazards model to enhance the performance in analyzing recurrent events with dynamic time information.Additionally,this study compares the ability of different models to extract and utilize features from time-dependent clinical recurrence data.The LSTM-Cox model outperformed both the Transformer-Cox and Mamba-Cox models in prediction accuracy and model fit,achieving a Concordance index of up to 0.90 on the test set.Significant predictors of bladder cancer recurrence,such as treatment stop time,maximum tumor size at recurrence and recurrence frequency,were identified.The LSTM-Cox model aligned well with clinical outcomes,effectively distinguishing between high-risk and low-risk patient groups.This study demonstrates that the LSTM-Cox model is a robust and efficient method for recurrent data analysis and feature extraction,surpassing newer models like Transformer and Mamba.It offers a practical approach for integrating deep learning technologies into clinical risk prediction systems,thereby improving patient management and treatment outcomes.
翻訳日:2024-07-22 23:08:01 公開日:2024-07-19
# Eclipse Qrisp QAOA: Qiskitとの説明と予備比較

Eclipse Qrisp QAOA: description and preliminary comparison with Qiskit counterparts ( http://arxiv.org/abs/2405.20173v2 )

ライセンス: Link先を確認
Eneko Osaba, Matic Petrič, Izaskun Oregi, Raphael Seidel, Alejandra Ruiz, Sebastian Bock, Michail-Alexandros Kourtis, (参考訳) 本稿では,高レベルの量子プログラミング言語であるEclipse Qrispのプレゼンテーションと評価に焦点をあてる。 提案するフレームワークは量子アルゴリズムの開発とコンパイルに用いられ,量子近似最適化アルゴリズム(QAOA)モジュールの実装における効率の点で測定される。 我々はこの効率を計測し、IBMのQiskitツールキットを用いて2つの代替QAOAアルゴリズムの実装と比較する。 評価プロセスは、よく知られた最大カット問題の15例からなるベンチマークで実施されている。 この予備的な実験を通じて、Eclipse Qrispは有望な結果を示し、結果の品質と回路の複雑さの両バージョンを上回りました。

This paper focuses on the presentation and evaluation of the high-level quantum programming language Eclipse Qrisp. The presented framework, used for developing and compiling quantum algorithms, is measured in terms of efficiency for its implementation of the Quantum Approximation Optimization Algorithm (QAOA) Module. We measure this efficiency and compare it against two alternative QAOA algorithm implementations using IBM's Qiskit toolkit. The evaluation process has been carried out over a benchmark composed of 15 instances of the well-known Maximum Cut Problem. Through this preliminary experimentation, Eclipse Qrisp demonstrated promising results, outperforming both versions of its counterparts in terms of results quality and circuit complexity.
翻訳日:2024-07-22 23:08:01 公開日:2024-07-19
# 個人レベル差分プライバシを用いた個人平均推定

Private Mean Estimation with Person-Level Differential Privacy ( http://arxiv.org/abs/2405.20405v3 )

ライセンス: Link先を確認
Sushant Agarwal, Gautam Kamath, Mahbod Majid, Argyris Mouzakis, Rose Silver, Jonathan Ullman, (参考訳) 複数のサンプルを保持する場合の個人レベルの差分プライベート(DP)平均推定について検討した。 ここでDPは、人のデータポイントの$\textit{all}$を変更できる場合、通常の分散安定性の概念を必要とする。 直観的には、$n$の人々が、有界な$k$-thモーメントを持つ未知の$d$次元分布から$m$のサンプルを持つなら、 \[n = \tilde \Theta\left(\frac{d}{\alpha^2 m} + \frac{d}{\alpha m^{1/2} \varepsilon} + \frac{d}{\alpha^{k/(k-1)} m \varepsilon} + \frac{d}{\varepsilon}\right)\] は、$\ell_2$-norm で$\ell_2$-norm の平均を推定するのに必要で十分である。 多変量設定では、計算効率の良いアルゴリズムを近似DP、計算効率の悪いアルゴリズムを純粋DPで提供し、近似DPの最も寛容な場合において、ほぼ一致する下界が保持する。 計算効率のよい推定器は標準的なクリップ・アンド・ノイズ・フレームワークに基づいているが,新しいアルゴリズム技術と新しい解析技術の両方を必要とする。 特に、独立、ベクトル値、有界なモーメント変数の和の尾辺に関する我々の新しい境界は興味を持つかもしれない。

We study person-level differentially private (DP) mean estimation in the case where each person holds multiple samples. DP here requires the usual notion of distributional stability when $\textit{all}$ of a person's datapoints can be modified. Informally, if $n$ people each have $m$ samples from an unknown $d$-dimensional distribution with bounded $k$-th moments, we show that \[n = \tilde \Theta\left(\frac{d}{\alpha^2 m} + \frac{d}{\alpha m^{1/2} \varepsilon} + \frac{d}{\alpha^{k/(k-1)} m \varepsilon} + \frac{d}{\varepsilon}\right)\] people are necessary and sufficient to estimate the mean up to distance $\alpha$ in $\ell_2$-norm under $\varepsilon$-differential privacy (and its common relaxations). In the multivariate setting, we give computationally efficient algorithms under approximate-DP and computationally inefficient algorithms under pure DP, and our nearly matching lower bounds hold for the most permissive case of approximate DP. Our computationally efficient estimators are based on the standard clip-and-noise framework, but the analysis for our setting requires both new algorithmic techniques and new analyses. In particular, our new bounds on the tails of sums of independent, vector-valued, bounded-moments random variables may be of interest.
翻訳日:2024-07-22 23:08:01 公開日:2024-07-19
# SynthBA: 複数のMRIシークエンスと解像度で信頼性の高い脳年齢推定

SynthBA: Reliable Brain Age Estimation Across Multiple MRI Sequences and Resolutions ( http://arxiv.org/abs/2406.00365v2 )

ライセンス: Link先を確認
Lemuel Puglisi, Alessia Rondinella, Linda De Meo, Francesco Guarnera, Sebastiano Battiato, Daniele Ravì, (参考訳) 脳の老化は、脳の生物学的老化過程を反映する重要な指標である。 脳年齢と時間年齢のギャップは、PAD(予測年齢差)と呼ばれ、神経変性の状況を調べるために利用されてきた。 脳年齢はMRIと機械学習技術を用いて予測できる。 しかしながら、既存の手法は、取得プロトコル、スキャナー、MRIシーケンス、解像度の違いなど、取得に関連するばらつきに敏感であり、高度に異質な臨床環境での適用を著しく制限する。 本研究では,脳年齢予測のための頑健な深層学習モデルであるSynthetic Brain Age(SynthBA)を紹介する。 SynthBAは、高度なドメインランダム化技術を使用して、幅広い取得関連変数にわたる効果的な操作を保証する。 SynthBAの有効性とロバスト性を評価するため、内部および外部のデータセットに対する予測能力を評価し、様々なMRIシーケンスと解像度を包含し、最先端技術と比較した。 さらに,アルツハイマー病 (AD) 患者の脳内PADを算出し,AD関連認知機能障害と有意な相関を示した。 SynthBAは、再トレーニングや微調整がしばしば不可能な、臨床環境での脳年齢予測の広範な採用を促進する可能性を秘めている。 SynthBAのソースコードと事前トレーニングされたモデルはhttps://github.com/LemuelPuglisi/SynthBAで公開されている。

Brain age is a critical measure that reflects the biological ageing process of the brain. The gap between brain age and chronological age, referred to as brain PAD (Predicted Age Difference), has been utilized to investigate neurodegenerative conditions. Brain age can be predicted using MRIs and machine learning techniques. However, existing methods are often sensitive to acquisition-related variabilities, such as differences in acquisition protocols, scanners, MRI sequences, and resolutions, significantly limiting their application in highly heterogeneous clinical settings. In this study, we introduce Synthetic Brain Age (SynthBA), a robust deep-learning model designed for predicting brain age. SynthBA utilizes an advanced domain randomization technique, ensuring effective operation across a wide array of acquisition-related variabilities. To assess the effectiveness and robustness of SynthBA, we evaluate its predictive capabilities on internal and external datasets, encompassing various MRI sequences and resolutions, and compare it with state-of-the-art techniques. Additionally, we calculate the brain PAD in a large cohort of subjects with Alzheimer's Disease (AD), demonstrating a significant correlation with AD-related measures of cognitive dysfunction. SynthBA holds the potential to facilitate the broader adoption of brain age prediction in clinical settings, where re-training or fine-tuning is often unfeasible. The SynthBA source code and pre-trained models are publicly available at https://github.com/LemuelPuglisi/SynthBA.
翻訳日:2024-07-22 23:08:01 公開日:2024-07-19
# まだ軌道にいるの? LLM Task Drift と Activations を併用して

Are you still on track!? Catching LLM Task Drift with Activations ( http://arxiv.org/abs/2406.00799v4 )

ライセンス: Link先を確認
Sahar Abdelnabi, Aideen Fay, Giovanni Cherubin, Ahmed Salem, Mario Fritz, Andrew Paverd, (参考訳) 大規模言語モデル(LLM)は、ユーザや他のソースからの入力を処理したり、タスクを編成したりするための検索拡張されたアプリケーションで日常的に使用される。 これらの入力は、単一のLLM相互作用であっても、様々な信頼性と証明性の様々なソースから得ることができる。 これにより、LDMがデータのみのソースからの命令を受け取り、動作させるようなインジェクション攻撃を誘導する扉が開き、ユーザーの元の命令から逸脱する。 我々はこれをタスクドリフトと定義し、LCMのアクティベーションをスキャンして解析することでこれをキャッチすることを提案する。 我々は、この入力が命令ドリフトを引き起こしたかどうかを検出するために、外部入力の処理前後のLCMのアクティベーションを比較した。 我々は2つの探索法を開発し, 線形分類器を用いることで, 分布外テストセット上で, ほぼ完全なROC AUCでドリフトを検出することができることを確認した。 このアプローチは、これらの攻撃に対してトレーニングを受けることなく、インジェクションやジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化することを示す。 私たちのセットアップでは、LCM(例えば微調整)やテキスト生成を一切必要とせず、デプロイ性とコスト効率を最大化し、信頼性の低いモデル出力に依存しないようにしています。 アクティベーションベースのタスクインスペクション、デコード、解釈可能性に関する今後の研究を促進するため、500K以上のインスタンスのデータセット、5つのSoTA言語モデルからの表現、検査ツールを含む大規模なTaskTrackerツールキットをリリースします。

Large Language Models (LLMs) are routinely used in retrieval-augmented applications to orchestrate tasks and process inputs from users and other sources. These inputs, even in a single LLM interaction, can come from a variety of sources, of varying trustworthiness and provenance. This opens the door to prompt injection attacks, where the LLM receives and acts upon instructions from supposedly data-only sources, thus deviating from the user's original instructions. We define this as task drift, and we propose to catch it by scanning and analyzing the LLM's activations. We compare the LLM's activations before and after processing the external input in order to detect whether this input caused instruction drift. We develop two probing methods and find that simply using a linear classifier can detect drift with near perfect ROC AUC on an out-of-distribution test set. We show that this approach generalizes surprisingly well to unseen task domains, such as prompt injections, jailbreaks, and malicious instructions, without being trained on any of these attacks. Our setup does not require any modification of the LLM (e.g., fine-tuning) or any text generation, thus maximizing deployability and cost efficiency and avoiding reliance on unreliable model output. To foster future research on activation-based task inspection, decoding, and interpretability, we will release our large-scale TaskTracker toolkit, comprising a dataset of over 500K instances, representations from 5 SoTA language models, and inspection tools.
翻訳日:2024-07-22 23:08:01 公開日:2024-07-19
# ニューラルネットワークキャリブレーション対策のデカップリング

Decoupling of neural network calibration measures ( http://arxiv.org/abs/2406.02411v2 )

ライセンス: Link先を確認
Dominik Werner Wolf, Prasannavenkatesh Balaji, Alexander Braun, Markus Ulrich, (参考訳) 現在、コンピュータービジョンのためのディープニューラルネットワークに大きく依存している自動運転システムの保護に多くの努力が注がれている。 本研究では,ニューラルネットワークのキャリブレーション対策と,スペーシフィケーション誤差曲線(AUSE)測定値に基づく領域に着目した結合性について検討する。 我々は、期待校正誤差(ECE)を用いた最適校正判定の不整合について詳しく検討し、AUSE、不確かさ校正スコア(UCS)、および不確かさ校正誤差(UCE)に関しても同様の問題を示す。 本稿は,現行の手法が自由度を保ち,安全クリティカル機能のホモログ化のためのユニークなモデル校正を妨げていると結論付けている。 さらに、AUSEは、固定されたネットワークアーキテクチャでは不可能であり、基礎となるデータ生成プロセス(アリアティックコントリビューション)の確率性や仮説空間(エステミックコントリビューション)の制限によって駆動される、残留不確実性の間接尺度として提案する。

A lot of effort is currently invested in safeguarding autonomous driving systems, which heavily rely on deep neural networks for computer vision. We investigate the coupling of different neural network calibration measures with a special focus on the Area Under the Sparsification Error curve (AUSE) metric. We elaborate on the well-known inconsistency in determining optimal calibration using the Expected Calibration Error (ECE) and we demonstrate similar issues for the AUSE, the Uncertainty Calibration Score (UCS), as well as the Uncertainty Calibration Error (UCE). We conclude that the current methodologies leave a degree of freedom, which prevents a unique model calibration for the homologation of safety-critical functionalities. Furthermore, we propose the AUSE as an indirect measure for the residual uncertainty, which is irreducible for a fixed network architecture and is driven by the stochasticity in the underlying data generation process (aleatoric contribution) as well as the limitation in the hypothesis space (epistemic contribution).
翻訳日:2024-07-22 23:08:01 公開日:2024-07-19
# ベイズニューラルネットワークにおける高精細関数空間変動推論のための正規化KL-Divergence

Regularized KL-Divergence for Well-Defined Function-Space Variational Inference in Bayesian neural networks ( http://arxiv.org/abs/2406.04317v2 )

ライセンス: Link先を確認
Tristan Cinquin, Robert Bamler, (参考訳) ベイズニューラルネットワーク(BNN)は、ニューラルネットワークの予測性能と、安全クリティカルなシステムや意思決定に重要な原則化された不確実性モデリングを組み合わせることを約束している。 しかし、後続の不確実性推定は事前の選択に依存しており、重み空間における情報的事前の発見は困難であることが証明されている。 これは、重みではなく、BNNが生成する関数に直接先行する変動推論(VI)手法を動機付けている。 本稿では,Burt et al (2020) が指摘したような関数空間 VI アプローチの基本的な問題に対処し,目的関数 (ELBO) がほとんどの利害関係において負の無限であることを示した。 我々の解は、一般化された VI (Knoblauch et al , 2019) と正規化された KL 分岐 (Quang, 2019) に基づいて構築されており、我々の知る限り、ガウス過程 (GP) の先行した BNN における関数空間推論のための、初めて明確に定義された変分目的である。 実験により,提案手法は, 合成および小型実世界のデータセットに先立ってGPが規定する特性を組み込んでおり, 関数および重み空間前のBNNベースラインと比較して, 回帰, 分類, 分布外検出の競合不確実性を推定する。

Bayesian neural networks (BNN) promise to combine the predictive performance of neural networks with principled uncertainty modeling important for safety-critical systems and decision making. However, posterior uncertainty estimates depend on the choice of prior, and finding informative priors in weight-space has proven difficult. This has motivated variational inference (VI) methods that pose priors directly on the function generated by the BNN rather than on weights. In this paper, we address a fundamental issue with such function-space VI approaches pointed out by Burt et al. (2020), who showed that the objective function (ELBO) is negative infinite for most priors of interest. Our solution builds on generalized VI (Knoblauch et al., 2019) with the regularized KL divergence (Quang, 2019) and is, to the best of our knowledge, the first well-defined variational objective for function-space inference in BNNs with Gaussian process (GP) priors. Experiments show that our method incorporates the properties specified by the GP prior on synthetic and small real-world data sets, and provides competitive uncertainty estimates for regression, classification and out-of-distribution detection compared to BNN baselines with both function and weight-space priors.
翻訳日:2024-07-22 23:08:01 公開日:2024-07-19
# DUPLEX: 方向性グラフの複合埋め込みのためのデュアルGAT

DUPLEX: Dual GAT for Complex Embedding of Directed Graphs ( http://arxiv.org/abs/2406.05391v2 )

ライセンス: Link先を確認
Zhaoru Ke, Hang Yu, Jianguo Li, Haipeng Zhang, (参考訳) 現在の有向グラフ埋め込み手法は,非指向的手法に基づいて構築されているが,多くの場合,有向エッジ情報の取得が不十分なため,(1)隣り合わせの相互作用が不十分なノードに対する最適部分表現,(2)新しいノードの訓練後表現の限定的帰納的能力,(3)訓練が特定のタスクと過度に結合された狭い一般化性など,課題が生じる。 そこで本研究では,有向グラフの複雑な埋め込みのための帰納的フレームワークであるDUPLEXを提案する。 本手法は,(1)Hermitian adjacency matrix decompositionを総合的な隣り合わせ積分に利用し,(2)指向性隣り合わせモデリングに2つのGATエンコーダを使用し,(3)パラメータフリーデコーダを2つ備えて,特定のタスクからトレーニングを分離する。 DUPLEXは、特に疎結合なノードにおいて、最先端モデルよりも優れており、様々なタスクにまたがる堅牢なインダクティブ能力と適応性を示している。 コードはhttps://github.com/alipay/DUPLEX.comで入手できる。

Current directed graph embedding methods build upon undirected techniques but often inadequately capture directed edge information, leading to challenges such as: (1) Suboptimal representations for nodes with low in/out-degrees, due to the insufficient neighbor interactions; (2) Limited inductive ability for representing new nodes post-training; (3) Narrow generalizability, as training is overly coupled with specific tasks. In response, we propose DUPLEX, an inductive framework for complex embeddings of directed graphs. It (1) leverages Hermitian adjacency matrix decomposition for comprehensive neighbor integration, (2) employs a dual GAT encoder for directional neighbor modeling, and (3) features two parameter-free decoders to decouple training from particular tasks. DUPLEX outperforms state-of-the-art models, especially for nodes with sparse connectivity, and demonstrates robust inductive capability and adaptability across various tasks. The code is available at https://github.com/alipay/DUPLEX.
翻訳日:2024-07-22 23:08:01 公開日:2024-07-19
# SlowPerception: 自律運転における視覚知覚に対する物理的世界遅延攻撃

SlowPerception: Physical-World Latency Attack against Visual Perception in Autonomous Driving ( http://arxiv.org/abs/2406.05800v2 )

ライセンス: Link先を確認
Chen Ma, Ningfei Wang, Zhengyu Zhao, Qi Alfred Chen, Chao Shen, (参考訳) 自律運転(AD)システムは、安全運転を確保するために、リアルタイム物体検出と複数物体追跡(MOT)の視覚的認識に極めて依存する。 しかし、これらの視覚的知覚成分の高遅延は、車両衝突のような重大な安全リスクを引き起こす可能性がある。 従来の研究では、デジタル領域内での遅延攻撃について広範囲に研究されてきたが、これらの手法を物理的世界に効果的に翻訳することは課題を提起している。 例えば、既存の攻撃は、空のような領域に影響を及ぼす敵の摂動や、カメラの視界の大部分を隠蔽する大きなパッチを必要とするなど、ADにとって非現実的または非現実的な摂動に依存しているため、現実世界で効果的に実施することは不可能である。 本稿では、プロジェクタベースの普遍摂動を生成することによって、AD知覚に対する最初の物理世界遅延攻撃であるSlowPerceptionを紹介する。 SlowPerceptionは、環境の様々な面に多数のファントムオブジェクトを戦略的に生成し、非最大抑圧(NMS)とMOTの計算負荷を大幅に増加させ、実質的な遅延を引き起こす。 当社のSlowPerceptionでは,AD認識システム,シナリオ,ハードウェア構成で平均2.5秒のレイテンシで,物理世界の第2レベルのレイテンシを実現しています。 このパフォーマンスは、既存の最先端のレイテンシアタックよりも大幅に優れています。 さらに,車体衝突などのADレベルの影響評価を,生産レベルのADシミュレータを用いた業界レベルのADシステムを用いて,平均97%の速度で実施する。 この重要な領域において、我々の分析がさらなる研究を刺激し、新たな脆弱性に対するADシステムの堅牢性を高めることを願っている。

Autonomous Driving (AD) systems critically depend on visual perception for real-time object detection and multiple object tracking (MOT) to ensure safe driving. However, high latency in these visual perception components can lead to significant safety risks, such as vehicle collisions. While previous research has extensively explored latency attacks within the digital realm, translating these methods effectively to the physical world presents challenges. For instance, existing attacks rely on perturbations that are unrealistic or impractical for AD, such as adversarial perturbations affecting areas like the sky, or requiring large patches that obscure most of a camera's view, thus making them impossible to be conducted effectively in the real world. In this paper, we introduce SlowPerception, the first physical-world latency attack against AD perception, via generating projector-based universal perturbations. SlowPerception strategically creates numerous phantom objects on various surfaces in the environment, significantly increasing the computational load of Non-Maximum Suppression (NMS) and MOT, thereby inducing substantial latency. Our SlowPerception achieves second-level latency in physical-world settings, with an average latency of 2.5 seconds across different AD perception systems, scenarios, and hardware configurations. This performance significantly outperforms existing state-of-the-art latency attacks. Additionally, we conduct AD system-level impact assessments, such as vehicle collisions, using industry-grade AD systems with production-grade AD simulators with a 97% average rate. We hope that our analyses can inspire further research in this critical domain, enhancing the robustness of AD systems against emerging vulnerabilities.
翻訳日:2024-07-22 23:08:01 公開日:2024-07-19
# M2CVD:コードの脆弱性検出のための多モデル協調による脆弱性セマンティックの強化

M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection ( http://arxiv.org/abs/2406.05940v2 )

ライセンス: Link先を確認
Ziliang Wang, Ge Li, Jia Li, Yingfei Xiong, Jia Li, Meng Yan, Zhi Jin, (参考訳) 大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。 これらの課題に対処するために,LLMから脆弱性意味を解析し,コードモデルの検出精度を向上させるM2CVD(Multi-Model Collaborative Vulnerability Detection)を提案する。 M2CVDは、コードモデルによるプロジェクトコードの理解を通じて、LLMが生成する脆弱性セマンティック記述の品質を向上させるとともに、これらの改善された脆弱性セマンティック記述を使用して、コードモデルの検出精度を高めるという、新しい協調プロセスを採用している。 実世界の2つのデータセットにおいて,M2CVDの有効性を実証した。 さらに,M2CVDコラボレーティブ手法は,他のLLMやコードモデルにも拡張可能で,脆弱性検出タスクの精度が向上することを示した。

Large Language Models (LLMs) have strong capabilities in code comprehension, but fine-tuning costs and semantic alignment issues limit their project-specific optimization; conversely, code models such CodeBERT are easy to fine-tune, but it is often difficult to learn vulnerability semantics from complex code languages. To address these challenges, this paper introduces the Multi-Model Collaborative Vulnerability Detection approach (M2CVD) that leverages the strong capability of analyzing vulnerability semantics from LLMs to improve the detection accuracy of code models. M2CVD employs a novel collaborative process: first enhancing the quality of vulnerability semantic description produced by LLMs through the understanding of project code by code models, and then using these improved vulnerability semantic description to boost the detection accuracy of code models. We demonstrated M2CVD's effectiveness on two real-world datasets, where M2CVD significantly outperformed the baseline. In addition, we demonstrate that the M2CVD collaborative method can extend to other different LLMs and code models to improve their accuracy in vulnerability detection tasks.
翻訳日:2024-07-22 22:58:09 公開日:2024-07-19
# 二重キャビティ制御型量子電池

Dual-cavity controllable quantum battery ( http://arxiv.org/abs/2406.06383v2 )

ライセンス: Link先を確認
Dayang Zhang, Shuangquan Ma, Yunxiu Jiang, Youbin Yu, Guangri Jin, Aixi Chen, (参考訳) 量子科学と技術の急速な発展とともに、量子電池も出現した。 しかし、量子電池の分野ではまだ未解決の問題が多い。 例えば、バッテリ使用量の改善、バッテリエネルギーの最大化、量子バッテリの充電電力の増大と制御の方法などです。 大きな課題は、量子電池のエネルギー貯蔵を減らすことなく、より優れた充電パワーを実現する方法である。 本稿では、原子数の操作により、量子電池の容量を減少させることなく充電電力を増大させることができる、制御可能な二重キャビティ量子電池を提案する。 この制御方法は、量子電池の充電電力を$N^2$倍から$N^2.5$倍、さらには$N^3$倍に効果的に調整することができる。 原子の数を調整することで、量子電池は理論上の「高速充電」と「スロー充電」を達成することができる。

With the rapid development of quantum science and technology, quantum batteries have also emerged. However, there are still many unresolved issues in the field of quantum batteries. For example, how to improve battery space utilization, maximize battery energy storage, and how to increase and control the charging power of quantum batteries. A major challenge is how to achieve better charging power without reducing the energy storage of the quantum batteries. Here, we propose a controllable dual-cavity quantum battery which can increase the charging power without diminishing capacity of the quantum batteries by manipulating the number of atoms . This control method can effectively adjust the charging power of quantum batteries from $N^2$ times to $N^2.5$ times, and even to $N^3$ times. By adjusting the number of atoms, quantum batteries can achieve theoretical "fast charging" and "slow charging".
翻訳日:2024-07-22 22:58:09 公開日:2024-07-19
# 大規模言語モデルに対するバックドア攻撃と防衛に関する調査:セキュリティ対策の意義

A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures ( http://arxiv.org/abs/2406.06852v3 )

ライセンス: Link先を確認
Shuai Zhao, Meihuizi Jia, Zhongliang Guo, Leilei Gan, Xiaoyu Xu, Jie Fu, Yichao Feng, Fengjun Pan, Luu Anh Tuan, (参考訳) 人間の言語理解と複雑な問題解決のギャップを埋める大きな言語モデル(LLM)は、いくつかのNLPタスク、特にショットやゼロショットの設定において最先端のパフォーマンスを達成する。 LMMの実証可能な有効性にもかかわらず、計算リソースの制約のため、ユーザはオープンソースの言語モデルに関わり、トレーニングプロセス全体をサードパーティのプラットフォームにアウトソースする必要がある。 しかし、研究は言語モデルが潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。 バックドア攻撃は、トレーニングサンプルやモデルウェイトを悪用することにより、ターゲットとする脆弱性を言語モデルに導入し、悪意のあるトリガーを通じてモデル応答を操作できるようにするように設計されている。 バックドア攻撃に関する既存の調査は包括的概要を提供するが、LDMを対象とするバックドア攻撃の詳細な調査は欠如している。 本稿では,このギャップを埋め,現場の最新動向を把握するために,微調整手法に着目して,LSMのバックドア攻撃に対する新たな視点を示す。 具体的には,バックドア攻撃を全パラメータ細調整,パラメータ効率のよい微調整,微調整のない攻撃の3つのカテゴリに分類する。 大規模なレビューから得られた知見に基づき、より詳細なチューニングを必要としない攻撃アルゴリズムの探索や、より隠蔽的な攻撃アルゴリズムの開発など、バックドア攻撃に関する今後の研究における重要な課題についても論じる。

The large language models (LLMs), which bridge the gap between human language understanding and complex problem-solving, achieve state-of-the-art performance on several NLP tasks, particularly in few-shot and zero-shot settings. Despite the demonstrable efficacy of LMMs, due to constraints on computational resources, users have to engage with open-source language models or outsource the entire training process to third-party platforms. However, research has demonstrated that language models are susceptible to potential security vulnerabilities, particularly in backdoor attacks. Backdoor attacks are designed to introduce targeted vulnerabilities into language models by poisoning training samples or model weights, allowing attackers to manipulate model responses through malicious triggers. While existing surveys on backdoor attacks provide a comprehensive overview, they lack an in-depth examination of backdoor attacks specifically targeting LLMs. To bridge this gap and grasp the latest trends in the field, this paper presents a novel perspective on backdoor attacks for LLMs by focusing on fine-tuning methods. Specifically, we systematically classify backdoor attacks into three categories: full-parameter fine-tuning, parameter-efficient fine-tuning, and attacks without fine-tuning. Based on insights from a substantial review, we also discuss crucial issues for future research on backdoor attacks, such as further exploring attack algorithms that do not require fine-tuning, or developing more covert attack algorithms.
翻訳日:2024-07-22 22:58:09 公開日:2024-07-19
# OphNet:眼科手術ワークフロー理解のための大規模ビデオベンチマーク

OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding ( http://arxiv.org/abs/2406.07471v4 )

ライセンス: Link先を確認
Ming Hu, Peng Xia, Lin Wang, Siyuan Yan, Feilong Tang, Zhongxing Xu, Yimin Luo, Kaimin Song, Jurgen Leitner, Xuelian Cheng, Jun Cheng, Chi Liu, Kaijing Zhou, Zongyuan Ge, (参考訳) ビデオによる手術シーンの認識は、特に眼科におけるロボット手術、遠隔手術、AI支援手術の進行に不可欠である。 しかし、多種多様な注釈付きビデオデータセットの不足は、外科的ワークフロー分析のためのインテリジェントシステムの開発を妨げている。 既存のデータセットは、小さなスケール、手術やフェーズカテゴリの多様性の欠如、時間的局所アノテーションの欠如といった課題に直面している。 これらの制限は、複雑で多様な実世界の手術シナリオにおける行動理解とモデル一般化の検証を妨げる。 このギャップに対処するため,眼科手術ワークフロー理解のための大規模,専門家によるビデオベンチマークであるOphNetを紹介した。 OphNetの機能: 1)白内障,緑内障,角膜手術など66種類の手術用ビデオ2,278本を多彩に収集した。 2) 手術, 手術, フェーズ, 手術の経時的および階層的アノテーションにより, 包括的理解と解釈性の向上が可能となった。 3)外科的ワークフローにおける時間的局所化と予測作業を容易にする,時間的局所化アノテーション。 約285時間の手術ビデオで、OphNetは既存の最大の手術ワークフロー分析ベンチマークの約20倍の大きさである。 コードとデータセットは、https://minghu0830.github.io/OphNet-benchmark/.comで入手できる。

Surgical scene perception via videos is critical for advancing robotic surgery, telesurgery, and AI-assisted surgery, particularly in ophthalmology. However, the scarcity of diverse and richly annotated video datasets has hindered the development of intelligent systems for surgical workflow analysis. Existing datasets face challenges such as small scale, lack of diversity in surgery and phase categories, and absence of time-localized annotations. These limitations impede action understanding and model generalization validation in complex and diverse real-world surgical scenarios. To address this gap, we introduce OphNet, a large-scale, expert-annotated video benchmark for ophthalmic surgical workflow understanding. OphNet features: 1) A diverse collection of 2,278 surgical videos spanning 66 types of cataract, glaucoma, and corneal surgeries, with detailed annotations for 102 unique surgical phases and 150 fine-grained operations. 2) Sequential and hierarchical annotations for each surgery, phase, and operation, enabling comprehensive understanding and improved interpretability. 3) Time-localized annotations, facilitating temporal localization and prediction tasks within surgical workflows. With approximately 285 hours of surgical videos, OphNet is about 20 times larger than the largest existing surgical workflow analysis benchmark. Code and dataset are available at: https://minghu0830.github.io/OphNet-benchmark/.
翻訳日:2024-07-22 22:58:09 公開日:2024-07-19
# 制約付き最適化問題に対するフィードバックに基づく量子アルゴリズム

Feedback-Based Quantum Algorithm for Constrained Optimization Problems ( http://arxiv.org/abs/2406.08169v2 )

ライセンス: Link先を確認
Salahuddin Abdul Rahman, Özkan Karabacak, Rafal Wisniewski, (参考訳) 量子最適化のためのフィードバックに基づくアルゴリズム(FALQON)が最近提案されている。 本稿では、FALQONを効率よく一般化し、2次制約付きバイナリ最適化(QCBO)問題に取り組む。 そこで本研究では,問題の解を基底状態としてエンコードする演算子を提案する。 リアプノフ制御理論を用いて、状態がこの作用素の基底状態に収束するように量子制御系を設計する。 QCBO問題に適用すると,提案アルゴリズムは量子回路の深さを小さくすることで計算資源を節約し,FALQONよりも優れた性能が得られることを示す。 提案アルゴリズムの有効性を数値シミュレーションにより明らかにした。

The feedback-based algorithm for quantum optimization (FALQON) has recently been proposed to solve quadratic unconstrained binary optimization problems. This paper efficiently generalizes FALQON to tackle quadratic constrained binary optimization (QCBO) problems. For this purpose, we introduce a new operator that encodes the problem's solution as its ground state. Using Lyapunov control theory, we design a quantum control system such that the state converges to the ground state of this operator. When applied to the QCBO problem, we show that our proposed algorithm saves computational resources by reducing the depth of the quantum circuit and can perform better than FALQON. The effectiveness of our proposed algorithm is further illustrated through numerical simulations.
翻訳日:2024-07-22 22:58:09 公開日:2024-07-19
# LLMにおける自動ジェイルブレイクのための非共通テキストエンコード構造

Exploiting Uncommon Text-Encoded Structures for Automated Jailbreaks in LLMs ( http://arxiv.org/abs/2406.08754v2 )

ライセンス: Link先を確認
Bangxin Li, Hengrui Xing, Chao Huang, Jin Qian, Huangqing Xiao, Linfeng Feng, Cong Tian, (参考訳) 大規模言語モデル(LLM)は自然言語処理で広く使われているが、有害なコンテンツを生成するために悪質に誘導するジェイルブレイク攻撃のリスクに直面している。 キャラクタレベルやコンテキストレベルの攻撃を含む既存のジェイルブレイク攻撃は主に、その構造に大きな影響を特に調べることなく、プレーンテキストのプロンプトに焦点を当てた。 本稿では,ジェイルブレイク攻撃に即時的構造がどう寄与するかを考察する。 本研究では,LLMトレーニング中にはほとんど使われない尾構造に基づく新しい構造レベルアタック手法を提案する。 本研究では,12個のUTESテンプレートと6個の難読化手法を用いて,構造攻撃・構造・文字・コンテキスト難読化攻撃・完全難読化攻撃の3つのエスカレート攻撃戦略を含む,StructureSleightという効果的な自動脱獄ツールを構築する。 既存のLLMの大規模な実験は、StructureSleightがベースライン法よりも大幅に優れていることを示している。 特に、攻撃成功率はGPT-4oで94.62 %に達するが、これは最先端の技術では対処されていない。

Large Language Models (LLMs) are widely used in natural language processing but face the risk of jailbreak attacks that maliciously induce them to generate harmful content. Existing jailbreak attacks, including character-level and context-level attacks, mainly focus on the prompt of the plain text without specifically exploring the significant influence of its structure. In this paper, we focus on studying how prompt structure contributes to the jailbreak attack. We introduce a novel structure-level attack method based on tail structures that are rarely used during LLM training, which we refer to as Uncommon Text-Encoded Structure (UTES). We extensively study 12 UTESs templates and 6 obfuscation methods to build an effective automated jailbreak tool named StructuralSleight that contains three escalating attack strategies: Structural Attack, Structural and Character/Context Obfuscation Attack, and Fully Obfuscated Structural Attack. Extensive experiments on existing LLMs show that StructuralSleight significantly outperforms baseline methods. In particular, the attack success rate reaches 94.62\% on GPT-4o, which has not been addressed by state-of-the-art techniques.
翻訳日:2024-07-22 22:58:09 公開日:2024-07-19
# Save It All: サイクルブロックグラディエントDescentによるフェデレーション大言語モデルの完全なパラメータチューニングの実現

Save It All: Enabling Full Parameter Tuning for Federated Large Language Models via Cycle Block Gradient Descent ( http://arxiv.org/abs/2406.11187v2 )

ライセンス: Link先を確認
Lin Wang, Zhichao Wang, Xiaoying Tang, (参考訳) 大規模言語モデル(LLM)の出現は、ディープラーニングパラダイムに革命をもたらし、幅広いタスクで印象的な結果をもたらした。 しかしながら、FL(Federated Learning)フレームワーク内でのLLMの事前トレーニングや微調整は、相当な計算量やメモリリソースの要求、サーバとクライアント間の通信ボトルネックなど、重大な課題を生じさせる。 既存のソリューションでは、モデル全体がトレーニングのために交換されるという非現実的な仮定や、パラメータ更新の限られたサーチ部分空間による訓練や微調整の段階では性能が劣るFLにおいて、集中学習からLLMの訓練にパラメータ有効微調整手法を適用している。 本稿では,資源消費を最小限に抑えつつ,FLにおけるLLMの学習と微調整を効率化するための新しい手法を提案する。 我々のアプローチはFedCyBGDと呼ばれ、周期的にモデルを更新するためにCycle Block Gradient Descentを利用している。 特に,FedCyBGDの圧縮スキームを設計し,モデルダウンロードコストをさらに削減することを目的とした。 これにより、選択されたブロック更新とアップロードだけでFLの完全なパラメータトレーニングが可能になり、通信、計算、メモリコストを削減できる。 本手法は,FL LLMトレーニングにおける最先端性能を実現するとともに,関連するコストを大幅に削減する。 コードはここにある。

The advent of large language models (LLMs) has revolutionized the deep learning paradigm, yielding impressive results across a wide array of tasks. However, the pre-training or fine-tuning of LLMs within a federated learning (FL) framework poses substantial challenges, including considerable computational and memory resource demands, as well as communication bottlenecks between servers and clients. Existing solutions either make the unrealistic assumption that the entire model is exchanged for training, or apply parameter-effective fine-tuning methods from centralized learning to train LLMs in FL which tend to underperform during training or fine-tuning stages due to the limited search subspace of parameter updating. In this paper, we introduce a novel method for the efficient training and fine-tuning of LLMs in FL, with minimal resource consumption. Our approach, termed FedCyBGD, utilizes Cycle Block Gradient Descent to periodically update the model. In particular, we design a compression scheme for FedCyBGD, aiming to further decrease the model download cost. It enables full parameter training in FL with only selected block updates and uploads, thereby reducing communication, computation, and memory costs. Our method achieves state-of-the-art performance for FL LLM training, while significantly reducing associated costs. Codes are provided here.
翻訳日:2024-07-22 22:58:09 公開日:2024-07-19
# パラメータは、メンバーシップ推論の損失よりも大きいか?

Do Parameters Reveal More than Loss for Membership Inference? ( http://arxiv.org/abs/2406.11544v2 )

ライセンス: Link先を確認
Anshuman Suri, Xiao Zhang, David Evans, (参考訳) 会員推測攻撃は、個々のレコードがモデルのトレーニングに使用されたかどうかを推測することを目的としており、開示監査の鍵となるツールとして機能している。 このような評価はリスクを示すのに有用であるが、計算コストが高く、しばしば潜在的な敵がモデルや訓練環境にアクセスできることを強く仮定する。 我々は,ブラックボックス・アクセスに関する以前の主張が,確率勾配降下のような最も有用な設定には適さないことを示し,その最適メンバーシップ・アクセスにはホワイトボックス・アクセスが本当に必要であることを示す。 我々は,逆ヘッセンベクトル積の計算を生かして,モデルパラメータを明示的に用いた新しいホワイトボックス推論攻撃IHA (Inverse Hessian Attack) による検証を行った。 以上の結果から, モデルパラメータへのアクセスから, 監査と敵の双方が恩恵を受ける可能性が示唆され, 会員プライバシー監査のためのホワイトボックス手法のさらなる研究が提唱されている。

Membership inference attacks aim to infer whether an individual record was used to train a model, serving as a key tool for disclosure auditing. While such evaluations are useful to demonstrate risk, they are computationally expensive and often make strong assumptions about potential adversaries' access to models and training environments, and thus do not provide very tight bounds on leakage from potential attacks. We show how prior claims around black-box access being sufficient for optimal membership inference do not hold for most useful settings such as stochastic gradient descent, and that optimal membership inference indeed requires white-box access. We validate our findings with a new white-box inference attack IHA (Inverse Hessian Attack) that explicitly uses model parameters by taking advantage of computing inverse-Hessian vector products. Our results show that both audits and adversaries may be able to benefit from access to model parameters, and we advocate for further research into white-box methods for membership privacy auditing.
翻訳日:2024-07-22 22:58:09 公開日:2024-07-19
# Disti-Mator: 絡み合い蒸留に基づく状態推定器

Disti-Mator: an entanglement distillation-based state estimator ( http://arxiv.org/abs/2406.13937v2 )

ライセンス: Link先を確認
Joshua Carlo A. Casapao, Ananda G. Maity, Naphan Benchasattabuse, Michal Hajdušek, Rodney Van Meter, David Elkouss, (参考訳) 実効的な量子情報処理において、状態推定における実験的な労力と貴重な量子リソースの消費の両方を最小化することが不可欠である。 ここでは, エンタングルメント蒸留プロトコルのさらなるメリットとして, 状態のキャラクタリゼーションについて検討する。 本研究では, 確率蒸留プロトコルの測定統計から, 未蒸留状態のベル対角線パラメータを効率的に推定できることを示す。 さらに,現実的な実験環境に特化して設計された状態推定器 ‘Disti-Mator' を導入し,数値シミュレーションによりその堅牢性を示す。 以上の結果から,蒸留が不必要な通信ベースタスクである場合に,別の推定プロトコルを回避できることが示唆された。

Minimizing both experimental effort and consumption of valuable quantum resources in state estimation is vital in practical quantum information processing. Here, we explore characterizing states as an additional benefit of the entanglement distillation protocols. We show that the Bell-diagonal parameters of any undistilled state can be efficiently estimated solely from the measurement statistics of probabilistic distillation protocols. We further introduce the state estimator `Disti-Mator' designed specifically for a realistic experimental setting, and exhibit its robustness through numerical simulations. Our results demonstrate that a separate estimation protocol can be circumvented whenever distillation is an indispensable communication-based task.
翻訳日:2024-07-22 22:58:09 公開日:2024-07-19
# LLM-ARC: 自動推論によるLCMの強化

LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic ( http://arxiv.org/abs/2406.17663v2 )

ライセンス: Link先を確認
Aditya Kalyanpur, Kailash Karthik Saravanakumar, Victor Barres, Jennifer Chu-Carroll, David Melville, David Ferrucci, (参考訳) LLM-ARCは,Large Language Models (LLMs) の論理的推論能力を高めるために設計され,それらをARC(Automated Reasoning Critic)と組み合わせて導入する。 LLM-ARC は Actor-Critic 方式を採用しており、LCM アクターは宣言論理プログラムと意味的正当性テストを生成し、自動推論批評家はコードを評価し、テストを実行し、反復的洗練のためのテスト失敗に対するフィードバックを提供する。 ASP(Answer Set Programming)を用いて実装されたLLM-ARCは、複雑な論理的推論能力をテストするFOLIOベンチマークで88.32%の最先端の精度を達成した。 実験では,LLMのみのベースラインよりも大幅に改善され,論理的テスト生成と反復的自己精製の重要性が強調された。 我々は、アクターが批判的フィードバックでエンドツーエンドのダイアログトレースに基づいて訓練される完全自動自己教師型トレーニングループを用いて、最良の結果を得る。 複雑な自然言語推論タスクに対するLLM-ARCの堅牢性と有効性を示す。

We introduce LLM-ARC, a neuro-symbolic framework designed to enhance the logical reasoning capabilities of Large Language Models (LLMs), by combining them with an Automated Reasoning Critic (ARC). LLM-ARC employs an Actor-Critic method where the LLM Actor generates declarative logic programs along with tests for semantic correctness, while the Automated Reasoning Critic evaluates the code, runs the tests and provides feedback on test failures for iterative refinement. Implemented using Answer Set Programming (ASP), LLM-ARC achieves a new state-of-the-art accuracy of 88.32% on the FOLIO benchmark which tests complex logical reasoning capabilities. Our experiments demonstrate significant improvements over LLM-only baselines, highlighting the importance of logic test generation and iterative self-refinement. We achieve our best result using a fully automated self-supervised training loop where the Actor is trained on end-to-end dialog traces with Critic feedback. We discuss potential enhancements and provide a detailed error analysis, showcasing the robustness and efficacy of LLM-ARC for complex natural language reasoning tasks.
翻訳日:2024-07-22 22:58:09 公開日:2024-07-19
# AIネイティブメモリ - LLMからAGIへの道

AI-native Memory: A Pathway from LLMs Towards AGI ( http://arxiv.org/abs/2406.18312v2 )

ライセンス: Link先を確認
Jingbo Shang, Zai Zheng, Xiang Ying, Felix Tao, Mindverse Team, (参考訳) 大規模言語モデル(LLM)は、人工知能(AGI)の火花で世界を実証している。 LLMに携わるスタートアップの中には、ほとんど無制限のコンテキストを持つLLMはAGIを実現することができる、という意見もある。 しかし, LLMの長期的文脈能力については, (1) 有効文脈長が主張する文脈長よりも著しく小さいこと, (2) 長期的文脈から関連情報を同時に発見し, 簡単な推論を行うことがほぼ不可能であること, など, 楽観的すぎるかもしれない。 本稿では,LLM から AGI への経路を,emph{Memory} の統合により想定する。 AGIはLLMがコアプロセッサとして機能するシステムであるべきだと考えています。 生データに加えて、このシステムのメモリは推論プロセスから派生した多くの重要な結論を格納する。 生データのみを処理する検索拡張生成(RAG)と比較すると,本手法は意味的関連情報をより緊密に接続するだけでなく,クエリ時に複雑な推論を単純化する。 中間段階として、メモリはおそらく自然言語記述の形で、ユーザも直接使用することができる。 究極的には、すべてのエージェント/人それぞれが独自の大きなパーソナルモデルを持ち、すべてのタイプのメモリをパラメータ化して圧縮するディープニューラルネットワークモデル(thus \emph{AI-native})を持つべきである。 最後に、AIネイティブメモリが、AGI時代の(積極的な)エンゲージメント、パーソナライゼーション、配布、ソーシャルの変革的基盤である可能性、および予備的なソリューションによる引き起こされたプライバシとセキュリティ上の課題について論じる。

Large language models (LLMs) have demonstrated the world with the sparks of artificial general intelligence (AGI). One opinion, especially from some startups working on LLMs, argues that an LLM with nearly unlimited context length can realize AGI. However, they might be too optimistic about the long-context capability of (existing) LLMs -- (1) Recent literature has shown that their effective context length is significantly smaller than their claimed context length; and (2) Our reasoning-in-a-haystack experiments further demonstrate that simultaneously finding the relevant information from a long context and conducting (simple) reasoning is nearly impossible. In this paper, we envision a pathway from LLMs to AGI through the integration of \emph{memory}. We believe that AGI should be a system where LLMs serve as core processors. In addition to raw data, the memory in this system would store a large number of important conclusions derived from reasoning processes. Compared with retrieval-augmented generation (RAG) that merely processing raw data, this approach not only connects semantically related information closer, but also simplifies complex inferences at the time of querying. As an intermediate stage, the memory will likely be in the form of natural language descriptions, which can be directly consumed by users too. Ultimately, every agent/person should have its own large personal model, a deep neural network model (thus \emph{AI-native}) that parameterizes and compresses all types of memory, even the ones cannot be described by natural languages. Finally, we discuss the significant potential of AI-native memory as the transformative infrastructure for (proactive) engagement, personalization, distribution, and social in the AGI era, as well as the incurred privacy and security challenges with preliminary solutions.
翻訳日:2024-07-22 22:58:09 公開日:2024-07-19
# TTPベースのサイバーレジリエンス指数:サイバー攻撃に対する防御効果を測定するための確率論的定量的アプローチ

TTP-Based Cyber Resilience Index: A Probabilistic Quantitative Approach to Measure Defence Effectiveness Against Cyber Attacks ( http://arxiv.org/abs/2406.19374v2 )

ライセンス: Link先を確認
Lampis Alevizos, Vinh-Thong Ta, (参考訳) 動的サイバー脅威の状況では、堅牢な情報セキュリティを維持するためには、不確実性の下での効果的な意思決定が不可欠である。 本稿では,TTPに基づくサイバー攻撃に対する組織の防御効果を定量化するための確率論的アプローチであるサイバー抵抗指数(CRI)を紹介する。 Threat-Intelligence Based Security Assessment (TIBSA) の方法論に基づいて、複雑な脅威のインテリジェンスを、ストックマーケットインデックスに似た、実行可能な統一されたメトリクスに変換する数学的モデルを提示します。 提案手法は,実世界の不確実性や最新の脅威アクター戦術,テクニック,手順(TTP)を考慮した攻撃行動をシミュレーションするために,部分観測可能なマルコフ決定プロセス(POMDP)を利用する。 これにより、静的なコンプライアンスベースのアセスメントを超えて、組織のセキュリティ姿勢を動的にコンテキスト対応で評価することが可能になります。 その結果、意思決定者は、量的および質的な評価のギャップを埋め、データ駆動型のリソース割り当てと戦略的計画を可能にする、単一のサイバーレジリエンスの指標を備えている。 これは最終的に、より情報的な意思決定、内部または過渡状態の緩和、リソース割り当ての支援につながる可能性がある。

In the dynamic cyber threat landscape, effective decision-making under uncertainty is crucial for maintaining robust information security. This paper introduces the Cyber Resilience Index (CRI), a TTP-based probabilistic approach to quantifying an organisation's defence effectiveness against cyber-attacks (campaigns). Building upon the Threat-Intelligence Based Security Assessment (TIBSA) methodology, we present a mathematical model that translates complex threat intelligence into an actionable, unified metric similar to a stock market index, that executives can understand and interact with while teams can act upon. Our method leverages Partially Observable Markov Decision Processes (POMDPs) to simulate attacker behaviour considering real-world uncertainties and the latest threat actor tactics, techniques, and procedures (TTPs). This allows for dynamic, context-aware evaluation of an organization's security posture, moving beyond static compliance-based assessments. As a result, decision-makers are equipped with a single metric of cyber resilience that bridges the gap between quantitative and qualitative assessments, enabling data-driven resource allocation and strategic planning. This can ultimately lead to more informed decision-making, mitigate under or overspending, and assist in resource allocation.
翻訳日:2024-07-22 22:48:25 公開日:2024-07-19
# DISCO: 大規模組合せ最適化問題に対する効率的な拡散解法

DISCO: Efficient Diffusion Solver for Large-Scale Combinatorial Optimization Problems ( http://arxiv.org/abs/2406.19705v3 )

ライセンス: Link先を確認
Kexiong Yu, Hang Zhao, Yuhang Huang, Renjiao Yi, Kai Xu, Chenyang Zhu, (参考訳) 組合せ最適化(CO)問題は、膨大なソリューション空間と時間に敏感な応答を必要とすることが特徴で、様々な産業にまたがる多くの実践的応用において、基本的に重要な問題である。 最近のニューラルソルバによる顕著な進歩にもかかわらず、その限定的な表現性はCOランドスケープのマルチモーダルな性質とよく一致しない。 拡散モデルに向かっている研究もあるが、サンプルを生成するには多くのステップでマルコフ連鎖をシミュレートする必要がある。 本稿では,解の質と推論速度の両面において優れる,解法最適化のための効率的な拡散解法であるdisCOを提案する。 DISCOの有効性は2つある: まず、分析的に解ける形で解を素早く分解し、非常に少ない逆時間ステップで解空間から直接サンプリングし、推論時間を劇的に短縮する。 第二に、 DisCO は、サンプリング空間を、解残基によって導かれるより制約された有意義な領域に制限し、出力確率分布の本質的にの多重モダリティを保ったまま、解の質を高める。 DISCOは10000のノードを持ち、最大独立セットのベンチマークに挑戦する非常に大きなトラベリングセールスマン問題に対する最先端の結果を達成し、そのインスタンスごとの遅延時間は44.8倍速くなった。 DISCOはディバイド・アンド・コンカ戦略をさらに組み合わせることで、任意のスケールの問題を棚から解けるように一般化することができる。

Combinatorial Optimization (CO) problems are fundamentally crucial in numerous practical applications across diverse industries, characterized by entailing enormous solution space and demanding time-sensitive response. Despite significant advancements made by recent neural solvers, their limited expressiveness does not conform well to the multi-modal nature of CO landscapes. While some research has pivoted towards diffusion models, they require simulating a Markov chain with many steps to produce a sample, which is time-consuming and does not meet the efficiency requirement of real applications, especially at scale. We propose DISCO, an efficient DIffusion Solver for Combinatorial Optimization problems that excels in both solution quality and inference speed. DISCO's efficacy is two-pronged: Firstly, it achieves rapid denoising of solutions through an analytically solvable form, allowing for direct sampling from the solution space with very few reverse-time steps, thereby drastically reducing inference time. Secondly, DISCO enhances solution quality by restricting the sampling space to a more constrained, meaningful domain guided by solution residues, while still preserving the inherent multi-modality of the output probabilistic distributions. DISCO achieves state-of-the-art results on very large Traveling Salesman Problems with 10000 nodes and challenging Maximal Independent Set benchmarks, with its per-instance denoising time up to 44.8 times faster. Through further combining a divide-and-conquer strategy, DISCO can be generalized to solve arbitrary-scale problem instances off the shelf, even outperforming models trained specifically on corresponding scales.
翻訳日:2024-07-22 22:48:25 公開日:2024-07-19
# 大規模自己監督型プレトレインによるプローブ誘導のための構造認識世界モデル

Structure-aware World Model for Probe Guidance via Large-scale Self-supervised Pre-train ( http://arxiv.org/abs/2406.19756v2 )

ライセンス: Link先を確認
Haojun Jiang, Meng Li, Zhenguo Sun, Ning Jia, Yu Sun, Shaqi Luo, Shiji Song, Gao Huang, (参考訳) 心の複雑な構造は、心エコー法、特に心エコー画像の取得において大きな課題をもたらす。 心エコー法を成功させるには、二次元平面上の構造と三次元空間における平面間の空間的関係を徹底的に理解する必要がある。 本稿では,心構造を意識した世界モデルを取得するための大規模自己指導型事前学習手法を革新的に提案する。 中心となる革新は、2次元平面上のマスク構造を予測し、3次元空間におけるポーズ変換に基づく別の平面を想像することで構造推論を必要とする自己教師型タスクを構築することである。 大規模プレトレーニングを支援するため,10の標準視界から136万以上の心エコー図と3次元空間的ポーズを収集した。 下流調査指導課題では, 定型的臨床検査74件から0.29万検体を採取し, 定型的な基準視の10点に対して, 事前学習モデルが常に誘導誤差を低減し, 構造認識による事前学習がスキャンに有効であることを実証した。

The complex structure of the heart leads to significant challenges in echocardiography, especially in acquisition cardiac ultrasound images. Successful echocardiography requires a thorough understanding of the structures on the two-dimensional plane and the spatial relationships between planes in three-dimensional space. In this paper, we innovatively propose a large-scale self-supervised pre-training method to acquire a cardiac structure-aware world model. The core innovation lies in constructing a self-supervised task that requires structural inference by predicting masked structures on a 2D plane and imagining another plane based on pose transformation in 3D space. To support large-scale pre-training, we collected over 1.36 million echocardiograms from ten standard views, along with their 3D spatial poses. In the downstream probe guidance task, we demonstrate that our pre-trained model consistently reduces guidance errors across the ten most common standard views on the test set with 0.29 million samples from 74 routine clinical scans, indicating that structure-aware pre-training benefits the scanning.
翻訳日:2024-07-22 22:48:25 公開日:2024-07-19
# 電力スケジューリングのための大規模言語モデル:ユーザ中心アプローチ

Large Language Models for Power Scheduling: A User-Centric Approach ( http://arxiv.org/abs/2407.00476v2 )

ライセンス: Link先を確認
Thomas Mongaillard, Samson Lasaulce, Othman Hicheur, Chao Zhang, Lina Bariah, Vineeth S. Varma, Hang Zou, Qiyang Zhao, Merouane Debbah, (参考訳) 従来の最適化とスケジューリングスキームは、固定された事前定義されたシステム要件を満たすように設計されているが、将来のシステムは、ユーザ主導のアプローチとパーソナライズされたサービスへと移行し、高品質なエクスペリエンス(QoE)と柔軟性の実現を目指している。 この課題は、ユーザとマシン間の共通言語が欠如しているため、ユーザの要求がほとんど考慮されていない、無線およびデジタル化されたエネルギーネットワークにおいて特に顕著である。 強力な大規模言語モデル(LLM)の出現は、ユーザとデバイス間の自然な通信インターフェースを提供することによって、従来のシステム中心の手法から、より高度なユーザ中心のアプローチへと根本的に離れている。 本稿では,3つのLCMエージェントを構築し,任意のユーザの音声要求(VRQ)をリソース割り当てベクトルに変換することで,資源スケジューリング問題に対する新しいアーキテクチャを提案する。 具体的には、要求を最適化問題(OP)に変換するためのLLM意図認識エージェント、LLM OPパラメータ識別エージェント、LLM OP解決エージェントを設計する。 システム性能を評価するために、電気自動車(EV)充電の文脈で典型的なVRQのデータベースを構築する。 概念実証として、私たちは主にLlama 3 8Bを使用します。 異なる素早いエンジニアリングシナリオでテストすることで、得られた結果は提案したアーキテクチャの効率を実証する。 実行されたパフォーマンス分析により、重要な洞察を抽出できる。 例えば、現実世界の問題をモデル化するための候補OPのセットが大きいと、高い認識/OP分類ノイズレベルのために最終性能が低下する可能性がある。 すべての結果とコードはオープンソースです。

While traditional optimization and scheduling schemes are designed to meet fixed, predefined system requirements, future systems are moving toward user-driven approaches and personalized services, aiming to achieve high quality-of-experience (QoE) and flexibility. This challenge is particularly pronounced in wireless and digitalized energy networks, where users' requirements have largely not been taken into consideration due to the lack of a common language between users and machines. The emergence of powerful large language models (LLMs) marks a radical departure from traditional system-centric methods into more advanced user-centric approaches by providing a natural communication interface between users and devices. In this paper, for the first time, we introduce a novel architecture for resource scheduling problems by constructing three LLM agents to convert an arbitrary user's voice request (VRQ) into a resource allocation vector. Specifically, we design an LLM intent recognition agent to translate the request into an optimization problem (OP), an LLM OP parameter identification agent, and an LLM OP solving agent. To evaluate system performance, we construct a database of typical VRQs in the context of electric vehicle (EV) charging. As a proof of concept, we primarily use Llama 3 8B. Through testing with different prompt engineering scenarios, the obtained results demonstrate the efficiency of the proposed architecture. The conducted performance analysis allows key insights to be extracted. For instance, having a larger set of candidate OPs to model the real-world problem might degrade the final performance because of a higher recognition/OP classification noise level. All results and codes are open source.
翻訳日:2024-07-22 22:38:24 公開日:2024-07-19
# 安全制約を考慮したオフラインマルチエージェント強化学習のための拡散モデル

Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints ( http://arxiv.org/abs/2407.00741v4 )

ライセンス: Link先を確認
Jianuo Huang, (参考訳) 近年のMARL(Multi-agent Reinforcement Learning)の進歩により、その応用は様々な安全クリティカルなシナリオにまで拡張されている。 しかし,ほとんどの手法はオンライン学習に重点を置いており,実際の環境に配置した場合にかなりのリスクが生じる。 この課題に対処するために、MARLパラダイムに拡散モデルを統合する革新的なフレームワークを導入する。 このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。 我々のフレームワークは、予測軌道生成のための拡散モデルによって強化された、分散実行による集中訓練(CTDE)アーキテクチャに基礎を置いている。 さらに、運用上の安全性をさらに確保するために、特殊なアルゴリズムを組み込んだ。 DSRLベンチマークを用いて,ベースラインに対するモデルの評価を行った。 実験結果から, 本モデルは厳密な安全制約に固執するだけでなく, 既存の手法と比較して優れた性能が得られることが示された。 このことは、現実世界のアプリケーションにおけるMARLの安全性と有効性向上における我々のアプローチの可能性を浮き彫りにしている。

In recent advancements in Multi-agent Reinforcement Learning (MARL), its application has extended to various safety-critical scenarios. However, most methods focus on online learning, which presents substantial risks when deployed in real-world settings. Addressing this challenge, we introduce an innovative framework integrating diffusion models within the MARL paradigm. This approach notably enhances the safety of actions taken by multiple agents through risk mitigation while modeling coordinated action. Our framework is grounded in the Centralized Training with Decentralized Execution (CTDE) architecture, augmented by a Diffusion Model for prediction trajectory generation. Additionally, we incorporate a specialized algorithm to further ensure operational safety. We evaluate our model against baselines on the DSRL benchmark. Experiment results demonstrate that our model not only adheres to stringent safety constraints but also achieves superior performance compared to existing methodologies. This underscores the potential of our approach in advancing the safety and efficacy of MARL in real-world applications.
翻訳日:2024-07-22 22:38:24 公開日:2024-07-19
# LLM See, LLM Do: 識別不能なオブジェクトをターゲットとしたデータ生成を支援する

LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives ( http://arxiv.org/abs/2407.01490v2 )

ライセンス: Link先を確認
Luísa Shimabucoro, Sebastian Ruder, Julia Kreutzer, Marzieh Fadaee, Sara Hooker, (参考訳) 合成データの普及により、データを生成するモデルが蒸留データを介して他の大規模言語モデル(LLM)にどのように影響を与えるかについて、新たな疑問が持ち上がる。 まず,本研究は,合成データ統合の結果を体系的に研究することによって,モデル特性の受動的継承の影響を徹底的に評価する。 合成データのソースがモデルの内部バイアスやキャリブレーション、世代別テキスト属性や嗜好をどのように形成するかについて、これまでで最も包括的な研究の1つを提供する。 合成データのプロンプトが「中性」に見える場合でも、モデルが特定の属性に対して驚くほど敏感であることがわかった。 この感度をうまく活用できるかどうかという疑問が浮かび上がっています 私たちの発見は、データ生成プロセスを活用することで、テスト時に望むプロパティに向けてモデルを明示的に操れるか、という疑問を提起します。 これは歴史的に、特定の特徴や目的を念頭に置いてデータを収集するコストのために実現不可能であると考えられていた。 しかし、合成データの質の向上や、多様な指示方法に従うように設計された汎用モデルへの移行は、この疑問をタイムリーに意味している。 本研究では,非微分不可能な目的に応じて意図的に合成データを制約する用語として,アクティブ継承を提案する。 本研究では, モデルの生成プロファイルを, 好適な非分化性属性, 例えば, 高語彙的多様性や低毒性に制御できることを実証する。

The widespread adoption of synthetic data raises new questions about how models generating the data can influence other large language models (LLMs) via distilled data. To start, our work exhaustively characterizes the impact of passive inheritance of model properties by systematically studying the consequences of synthetic data integration. We provide one of the most comprehensive studies to-date of how the source of synthetic data shapes models' internal biases, calibration and generations' textual attributes and preferences. We find that models are surprisingly sensitive towards certain attributes even when the synthetic data prompts appear "neutral". which invites the question whether this sensitivity can be exploited for good. Our findings invite the question can we explicitly steer the models towards the properties we want at test time by exploiting the data generation process? This would have historically been considered infeasible due to the cost of collecting data with a specific characteristic or objective in mind. However, improvement in the quality of synthetic data, as well as a shift towards general-purpose models designed to follow a diverse way of instructions, means this question is timely. We propose active inheritance as a term to describe intentionally constraining synthetic data according to a non-differentiable objective. We demonstrate how active inheritance can steer the generation profiles of models towards desirable non-differentiable attributes, e.g. high lexical diversity or low toxicity.
翻訳日:2024-07-22 22:38:24 公開日:2024-07-19
# DiffIR2VR-Zero:拡散型画像復元モデルによるゼロショットビデオ再生

DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models ( http://arxiv.org/abs/2407.01519v2 )

ライセンス: Link先を確認
Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu, (参考訳) 本稿では,事前学習画像復元拡散モデルを用いたゼロショット映像復元手法を提案する。 従来のビデオ復元手法では、異なる設定で再トレーニングを行う必要があり、様々な劣化タイプやデータセットをまたいだ限定的な一般化に苦慮することが多い。 提案手法では,鍵フレームと局所フレームの階層的トークンマージ戦略と,光フローと特徴に基づく近接マッチング(ラテントマージ)を融合したハイブリッド対応機構を併用する。 提案手法は, ゼロショット映像復元において最高性能を達成するだけでなく, 多様なデータセットや極端な劣化(超解像・高標準偏差映像復調化8$\times$8$\times$ Super- resolution and High-standard deviation video denoising)の一般化において, 訓練されたモデルを大幅に上回ることを示す。 様々な挑戦的データセットの量的指標と視覚的比較を通して証拠を提示する。 さらに,本手法は任意の2次元復元拡散モデルで動作し,広範に再トレーニングを行なわずに,映像強調作業のための汎用的で強力なツールを提供する。 この研究は、高品質な映像出力を必要とする分野の進歩を支援する、より効率的で広く適用可能なビデオ復元技術をもたらす。 ビデオ結果のプロジェクトページはhttps://jimmycv07.github.io/DiffIR2VR_web/にある。

This paper introduces a method for zero-shot video restoration using pre-trained image restoration diffusion models. Traditional video restoration methods often need retraining for different settings and struggle with limited generalization across various degradation types and datasets. Our approach uses a hierarchical token merging strategy for keyframes and local frames, combined with a hybrid correspondence mechanism that blends optical flow and feature-based nearest neighbor matching (latent merging). We show that our method not only achieves top performance in zero-shot video restoration but also significantly surpasses trained models in generalization across diverse datasets and extreme degradations (8$\times$ super-resolution and high-standard deviation video denoising). We present evidence through quantitative metrics and visual comparisons on various challenging datasets. Additionally, our technique works with any 2D restoration diffusion model, offering a versatile and powerful tool for video enhancement tasks without extensive retraining. This research leads to more efficient and widely applicable video restoration technologies, supporting advancements in fields that require high-quality video output. See our project page for video results at https://jimmycv07.github.io/DiffIR2VR_web/.
翻訳日:2024-07-22 22:28:39 公開日:2024-07-19
# 広告・コンテンツ推薦システムにおける検索アルゴリズムの検討

A Survey of Retrieval Algorithms in Ad and Content Recommendation Systems ( http://arxiv.org/abs/2407.01712v2 )

ライセンス: Link先を確認
Yu Zhao, Fang Liu, (参考訳) 本稿では,広告レコメンデーションやコンテンツレコメンデーションシステムにおいて最も有効な検索アルゴリズムについて検討する。 広告ターゲティングアルゴリズムは、パーソナライズされた広告を提供するために、詳細なユーザープロファイルと行動データに依存している。 逆に,オーガニック検索システムは,ユーザの好みに合ったコンテンツを推薦することで,ユーザエクスペリエンスの向上を目指している。 本稿では、これらの2つのアプリケーションを比較し、それぞれに最も効果的な方法を説明します。

This survey examines the most effective retrieval algorithms utilized in ad recommendation and content recommendation systems. Ad targeting algorithms rely on detailed user profiles and behavioral data to deliver personalized advertisements, thereby driving revenue through targeted placements. Conversely, organic retrieval systems aim to improve user experience by recommending content that matches user preferences. This paper compares these two applications and explains the most effective methods employed in each.
翻訳日:2024-07-22 22:18:55 公開日:2024-07-19
# Kan-ODEs: Kolmogorov-Arnold Network Ordinary Differential Equations for Learning Dynamical Systems and Hidden Physics

KAN-ODEs: Kolmogorov-Arnold Network Ordinary Differential Equations for Learning Dynamical Systems and Hidden Physics ( http://arxiv.org/abs/2407.04192v2 )

ライセンス: Link先を確認
Benjamin C. Koenig, Suyong Kim, Sili Deng, (参考訳) マルチ層パーセプトロン(MLP)に代わるKAN(Kolmogorov-Arnold Network)は、データ駆動モデリングの強力な可能性を示す最近の開発である。 この研究は、KANSAを神経常微分方程式(ODE)フレームワークのバックボーンとして適用し、動的システムや科学機械学習の応用でよく見られる時間依存的かつ時間依存的なグリッドセンシティブなケースにその使用を一般化する。 提案したkan-ODEは、より高精度で高速なニューラルスケーリング、より強い解釈可能性と一般化可能性、より低いパラメータ数を含む、MLPと比較してKansの多くの利点を活用しながら、Neural ODEのフレキシブルな動的システムモデリングフレームワークを維持している。 まず,これらの改良を古典的ロトカ・ボルテラ捕食者・捕食者モデルに関する包括的研究で定量的に検証した。 次に, 波動伝播や衝撃発生, 複素シュリンガー方程式, アレン・カーン相分離方程式など, より複雑でデータ指向のシナリオにおいて, シンボリックソース項と完全解プロファイルを学習するkan-ODEフレームワークの能力を紹介した。 Kan-ODEsのトレーニングの成功と、従来のNeural ODEsと比較してパフォーマンスが向上したことは、この新しいネットワークアーキテクチャを、隠れた物理学を発見し、動的進化を予測するための無数の科学機械学習アプリケーションに活用する大きな可能性を示唆している。

Kolmogorov-Arnold networks (KANs) as an alternative to multi-layer perceptrons (MLPs) are a recent development demonstrating strong potential for data-driven modeling. This work applies KANs as the backbone of a neural ordinary differential equation (ODE) framework, generalizing their use to the time-dependent and temporal grid-sensitive cases often seen in dynamical systems and scientific machine learning applications. The proposed KAN-ODEs retain the flexible dynamical system modeling framework of Neural ODEs while leveraging the many benefits of KANs compared to MLPs, including higher accuracy and faster neural scaling, stronger interpretability and generalizability, and lower parameter counts. First, we quantitatively demonstrated these improvements in a comprehensive study of the classical Lotka-Volterra predator-prey model. We then showcased the KAN-ODE framework's ability to learn symbolic source terms and complete solution profiles in higher-complexity and data-lean scenarios including wave propagation and shock formation, the complex Schr\"odinger equation, and the Allen-Cahn phase separation equation. The successful training of KAN-ODEs, and their improved performance compared to traditional Neural ODEs, implies significant potential in leveraging this novel network architecture in myriad scientific machine learning applications for discovering hidden physics and predicting dynamic evolution.
翻訳日:2024-07-22 22:09:04 公開日:2024-07-19
# GSD : 3次元再構成のためのビューガイド付きガウススプラッティング拡散法

GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction ( http://arxiv.org/abs/2407.04237v3 )

ライセンス: Link先を確認
Yuxuan Mu, Xinxin Zuo, Chuan Guo, Yilin Wang, Juwei Lu, Xiaofeng Wu, Songcen Xu, Peng Dai, Youliang Yan, Li Cheng, (参考訳) 単一視点からの3次元オブジェクト再構成のためのガウススプラッティング(GS)表現に基づく拡散モデルアプローチであるGSDを提案する。 以前の作品は不整合な3D幾何学や不整合表現による中間レンダリング品質に悩まされていた。 我々は,最近の最先端の3D明示表現,ガウススプラッティング,無条件拡散モデルを活用することで,これらの欠点を解決するための一歩を踏み出した。 このモデルは、GS楕円体の集合で表される3Dオブジェクトを生成することを学習する。 これらの強力な3D前駆体は、無条件で学習するが、拡散モデルは、さらなるモデル微調整をすることなく、ビュー誘導再構成の準備が整う。 これは、効率的かつフレキシブルなスプレイティング機能とガイドデノナイジングサンプリングプロセスにより、微細な2次元特徴を伝播させることによって達成される。 さらに、2次元拡散モデルを用いてレンダリングの忠実度を高め、レンダリング画像の研磨・再利用により再構成GSの品質を向上させる。 最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。 挑戦的な実世界のCO3Dデータセットの実験は、我々のアプローチの優位性を実証している。 プロジェクトページ: $\href{https://yxmu.foo/GSD/}{\text{this https URL}}$

We present GSD, a diffusion model approach based on Gaussian Splatting (GS) representation for 3D object reconstruction from a single view. Prior works suffer from inconsistent 3D geometry or mediocre rendering quality due to improper representations. We take a step towards resolving these shortcomings by utilizing the recent state-of-the-art 3D explicit representation, Gaussian Splatting, and an unconditional diffusion model. This model learns to generate 3D objects represented by sets of GS ellipsoids. With these strong generative 3D priors, though learning unconditionally, the diffusion model is ready for view-guided reconstruction without further model fine-tuning. This is achieved by propagating fine-grained 2D features through the efficient yet flexible splatting function and the guided denoising sampling process. In addition, a 2D diffusion model is further employed to enhance rendering fidelity, and improve reconstructed GS quality by polishing and re-using the rendered images. The final reconstructed objects explicitly come with high-quality 3D structure and texture, and can be efficiently rendered in arbitrary views. Experiments on the challenging real-world CO3D dataset demonstrate the superiority of our approach. Project page: $\href{https://yxmu.foo/GSD/}{\text{this https URL}}$
翻訳日:2024-07-22 22:09:04 公開日:2024-07-19
# 空間確率とGANを用いた放射状結晶構造を持つマルチスケールNMC粒子の生成

Generating multi-scale NMC particles with radial grain architectures using spatial stochastics and GANs ( http://arxiv.org/abs/2407.05333v2 )

ライセンス: Link先を確認
Lukas Fuchs, Orkun Furat, Donal P. Finegan, Jeffery Allen, Francois L. E. Usseglio-Viretta, Bertan Ozdogru, Peter J. Weddle, Kandler Smith, Volker Schmidt, (参考訳) リチウムイオン電池陰極の構造・物性関係を理解することは、速度性能とサイクル寿命のレジリエンスの最適化に不可欠である。 しかし, NMC811 などの陰極粒子の形態と電極性能との相関は, 特に粒径と粒径の顕著な違いから困難である。 実験では、このような多数の粒子を完全な粒度で画像化して表現性を達成することは、現在不可能である。 第二の課題は、十分な高解像度の3Dイメージング技術が高価であり、研究機関ではほとんど利用できないことである。 これらの課題に対処するために,2次元データから代表的3次元情報を生成し,コスト効率のよい2次元データを用いて3次元の材料をキャラクタリゼーションする立体生成対向ネットワーク(GAN)に基づくモデルフィッティング手法を提案する。 このマルチスケールモデルでは,実験データと統計的に類似した仮想陰極粒子を高速に生成できるため,数値シミュレーションによる仮想キャラクタリゼーションや材料試験に適している。 内部の粒状構造を持つシミュレーション粒子の大規模なデータセットが公開されている。

Understanding structure-property relationships of Li-ion battery cathodes is crucial for optimizing rate-performance and cycle-life resilience. However, correlating the morphology of cathode particles, such as in NMC811, and their inner grain architecture with electrode performance is challenging, particularly, due to the significant length-scale difference between grain and particle sizes. Experimentally, it is currently not feasible to image such a high number of particles with full granular detail to achieve representivity. A second challenge is that sufficiently high-resolution 3D imaging techniques remain expensive and are sparsely available at research institutions. To address these challenges, a stereological generative adversarial network (GAN)-based model fitting approach is presented that can generate representative 3D information from 2D data, enabling characterization of materials in 3D using cost-effective 2D data. Once calibrated, this multi-scale model is able to rapidly generate virtual cathode particles that are statistically similar to experimental data, and thus is suitable for virtual characterization and materials testing through numerical simulations. A large dataset of simulated particles with inner grain architecture has been made publicly available.
翻訳日:2024-07-22 21:58:59 公開日:2024-07-19
# 信号応答型ニューラルセルオートマタによるマルチテクスチャ合成

Multi-Texture Synthesis through Signal Responsive Neural Cellular Automata ( http://arxiv.org/abs/2407.05991v2 )

ライセンス: Link先を確認
Mirela-Magdalena Catrina, Ioana Cristina Plajer, Alexandra Baicoianu, (参考訳) 神経細胞オートマタ(NCA)は様々な分野で有効であることが証明されており、多くの生物学的にインスパイアされた応用がある。 NCAがうまく機能する分野の1つは、均一な規則とコヒーレントな規則によって支配される局所的な相互作用からグローバルなパターンをモデル化するテクスチャの生成である。 本稿では,個々のテクスチャに対して個別に訓練されたNAAを必要とするテクスチャ生成のための現在のNAAアーキテクチャの欠点に対処することにより,テクスチャ合成におけるNAAのユーザビリティを向上させることを目的とする。 本研究では,個々の例に基づいて,複数のテクスチャの進化のために単一のNAAを訓練する。 我々のソリューションは、内部コード化されたゲノム信号の形で、各セルの状態をテクスチャ情報として提供し、NAAが期待するテクスチャを生成することを可能にする。 このような神経細胞オートマトンはその再生能力を維持するだけでなく、学習されたテクスチャ間の補間を可能にし、移植技術をサポートする。 これは生成されたテクスチャを編集し、それらが同じオートマトン内でマージし共存する可能性を示す。 また,NCAの進化に対するゲノム情報や費用関数の影響についても考察する。

Neural Cellular Automata (NCA) have proven to be effective in a variety of fields, with numerous biologically inspired applications. One of the fields, in which NCAs perform well is the generation of textures, modelling global patterns from local interactions governed by uniform and coherent rules. This paper aims to enhance the usability of NCAs in texture synthesis by addressing a shortcoming of current NCA architectures for texture generation, which requires separately trained NCA for each individual texture. In this work, we train a single NCA for the evolution of multiple textures, based on individual examples. Our solution provides texture information in the state of each cell, in the form of an internally coded genomic signal, which enables the NCA to generate the expected texture. Such a neural cellular automaton not only maintains its regenerative capability but also allows for interpolation between learned textures and supports grafting techniques. This demonstrates the ability to edit generated textures and the potential for them to merge and coexist within the same automaton. We also address questions related to the influence of the genomic information and the cost function on the evolution of the NCA.
翻訳日:2024-07-22 21:58:59 公開日:2024-07-19
# C2C: ゼロショット合成行動認識のためのコンポーネント対合成学習

C2C: Component-to-Composition Learning for Zero-Shot Compositional Action Recognition ( http://arxiv.org/abs/2407.06113v2 )

ライセンス: Link先を確認
Rongchang Li, Zhenhua Feng, Tianyang Xu, Linze Li, Xiao-Jun Wu, Muhammad Awais, Sara Atito, Josef Kittler, (参考訳) 構成的アクションは動的(動詞)と静的(対象)の概念から構成される。 人間は学習した概念を使って、目に見えない構成を容易に認識できる。 機械の場合、そのような問題を解くには、事前に観察された動詞や対象からなる見知らぬ行動を認識するモデルが必要であるため、いわゆる合成一般化能力が必要である。 本研究では,ゼロショット合成行動認識(ZS-CAR)タスクを提案する。 タスクを評価するために、広く使われているSomething V2データセットに基づいて、新しいベンチマークであるSomes-composition(Sth-com)を構築した。 また,新しいZS-CARタスクを解くために,新しいコンポーネント・ツー・コンポジション(C2C)学習手法を提案する。 C2Cは独立したコンポーネント学習モジュールと合成推論モジュールを含む。 最後に、目に見える構成と目に見えない構成のコンポーネント変動の課題に対処し、目に見える構成と目に見えない動作の微妙なバランスに対処するための強化されたトレーニング戦略を考案する。 実験の結果,提案手法は既存の構成一般化手法をはるかに上回り,新たな最先端の手法が確立された。 新しいSth-comベンチマークとコードはhttps://github.com/RongchangLi/ZSCAR_C2Cで公開されている。

Compositional actions consist of dynamic (verbs) and static (objects) concepts. Humans can easily recognize unseen compositions using the learned concepts. For machines, solving such a problem requires a model to recognize unseen actions composed of previously observed verbs and objects, thus requiring so-called compositional generalization ability. To facilitate this research, we propose a novel Zero-Shot Compositional Action Recognition (ZS-CAR) task. For evaluating the task, we construct a new benchmark, Something-composition (Sth-com), based on the widely used Something-Something V2 dataset. We also propose a novel Component-to-Composition (C2C) learning method to solve the new ZS-CAR task. C2C includes an independent component learning module and a composition inference module. Last, we devise an enhanced training strategy to address the challenges of component variations between seen and unseen compositions and to handle the subtle balance between learning seen and unseen actions. The experimental results demonstrate that the proposed framework significantly surpasses the existing compositional generalization methods and sets a new state-of-the-art. The new Sth-com benchmark and code are available at https://github.com/RongchangLi/ZSCAR_C2C.
翻訳日:2024-07-22 21:58:59 公開日:2024-07-19
# アラビア語を用いたソーシャルメディア利用者のパーソナリティ分析と感性分析への影響

Personality Analysis for Social Media Users using Arabic language and its Effect on Sentiment Analysis ( http://arxiv.org/abs/2407.06314v2 )

ライセンス: Link先を確認
Mokhaiber Dandash, Masoud Asadpour, (参考訳) ソーシャルメディアはますますパーソナライズに向かっており、個人が自分の信念、関心、習慣、活動を明らかにする。 本研究は、Twitter上でのアラビア語の使用と性格特性と感情分析への影響の相関について検討した。 本研究では、プロフィール活動から抽出した情報と、ツイートの内容に基づいて、ユーザの性格特性を示す。 分析には言語的特徴,プロファイル統計(性別,年齢,生物など),エモティコンなどの追加的特徴が取り入れられた。 パーソナリティデータを取得するために、アラビア語で16人格テストを受けたユーザのタイムラインとプロフィールを16人格.comでクロールした。 われわれのデータセット「AraPers」は3,250名のユーザーがTwitterで自分の性格を共有できた。 さまざまな機械学習手法を実装し,人格の特徴を明らかにするために,この目的のための専用モデルを開発し,74.86%の正確度をBERTで達成し,このデータセットの分析により,言語的特徴,プロファイルの特徴,派生モデルを用いて人格の特徴を区別できることが判明した。 さらに,人格がソーシャルメディアの感情に影響を及ぼすことが明らかとなった。 本研究は、ソーシャルメディア上での人間行動と、政治談話分析や世論追跡といった現実の応用における人格的特徴との関係について、強固な理解を深めるための継続的な取り組みに寄与する。

Social media is heading toward personalization more and more, where individuals reveal their beliefs, interests, habits, and activities, simply offering glimpses into their personality traits. This study, explores the correlation between the use of Arabic language on twitter, personality traits and its impact on sentiment analysis. We indicated the personality traits of users based on the information extracted from their profile activities, and the content of their tweets. Our analysis incorporated linguistic features, profile statistics (including gender, age, bio, etc.), as well as additional features like emoticons. To obtain personality data, we crawled the timelines and profiles of users who took the 16personalities test in Arabic on 16personalities.com. Our dataset "AraPers" comprised 3,250 users who shared their personality results on twitter. We implemented various machine learning techniques, to reveal personality traits and developed a dedicated model for this purpose, achieving a 74.86% accuracy rate with BERT, analysis of this dataset proved that linguistic features, profile features and derived model can be used to differentiate between different personality traits. Furthermore, our findings demonstrated that personality affect sentiment in social media. This research contributes to the ongoing efforts in developing robust understanding of the relation between human behaviour on social media and personality features for real-world applications, such as political discourse analysis, and public opinion tracking.
翻訳日:2024-07-22 21:58:59 公開日:2024-07-19
# エンド・ツー・エンド自動運転の因果性を探る

Exploring the Causality of End-to-End Autonomous Driving ( http://arxiv.org/abs/2407.06546v2 )

ライセンス: Link先を確認
Jiankun Li, Hao Li, Jiangjiang Liu, Zhikang Zou, Xiaoqing Ye, Fan Wang, Jizhou Huang, Hua Wu, Haifeng Wang, (参考訳) ディープラーニングベースのモデルは、自動運転分野、特に注目されているエンドツーエンドソリューションに広くデプロイされている。 しかしながら、これらのモデルのブラックボックス特性は、自律運転の信頼性と安全性に関する懸念を提起し、因果関係のデバッグ方法が懸念されている。 自動運転車の説明可能性に関する既存の研究はいくつかあるが、現在、研究者が最終予想されるエンドツーエンドの自動運転の動作につながる主要な要因をデバッグし特定するための体系的な解決策はない。 本研究では,エンドツーエンド自動運転の因果性を探究し,分析するための総合的なアプローチを提案する。 まず,定性解析のための制御変数と対実的介入を用いることで,最終計画が依存する重要な情報を検証する。 そして,キーモデル入力の応答を可視化し,統計的に解析することにより,モデル決定に影響を与える要因を定量的に評価する。 最後に,多要素エンド・ツー・エンド自動運転システムの総合的な研究に基づいて,クローズループシミュレータCARLAの因果関係を探索する強力なベースラインとツールを開発した。 本質的な入力源を活用して、十分に設計されたモデルを得ることができ、結果として高い競争力が得られる。 私たちが知る限りでは、私たちの研究は、エンドツーエンドの自動運転の謎を初めて明らかにし、ブラックボックスを白い箱に変えた。 詳細なクローズループ実験により,本手法をエンド・ツー・エンドの自律運転ソリューションに適用し,因果デバッグを行えることを示した。 コードはhttps://github.com/bdvisl/DriveInsightで入手できる。

Deep learning-based models are widely deployed in autonomous driving areas, especially the increasingly noticed end-to-end solutions. However, the black-box property of these models raises concerns about their trustworthiness and safety for autonomous driving, and how to debug the causality has become a pressing concern. Despite some existing research on the explainability of autonomous driving, there is currently no systematic solution to help researchers debug and identify the key factors that lead to the final predicted action of end-to-end autonomous driving. In this work, we propose a comprehensive approach to explore and analyze the causality of end-to-end autonomous driving. First, we validate the essential information that the final planning depends on by using controlled variables and counterfactual interventions for qualitative analysis. Then, we quantitatively assess the factors influencing model decisions by visualizing and statistically analyzing the response of key model inputs. Finally, based on the comprehensive study of the multi-factorial end-to-end autonomous driving system, we have developed a strong baseline and a tool for exploring causality in the close-loop simulator CARLA. It leverages the essential input sources to obtain a well-designed model, resulting in highly competitive capabilities. As far as we know, our work is the first to unveil the mystery of end-to-end autonomous driving and turn the black box into a white one. Thorough close-loop experiments demonstrate that our method can be applied to end-to-end autonomous driving solutions for causality debugging. Code will be available at https://github.com/bdvisl/DriveInsight.
翻訳日:2024-07-22 21:58:59 公開日:2024-07-19
# 学習と忘れる - ASRファンデーションモデルに新しい言語を追加する

Learn and Don't Forget: Adding a New Language to ASR Foundation Models ( http://arxiv.org/abs/2407.06800v2 )

ライセンス: Link先を確認
Mengjie Qian, Siyuan Tang, Rao Ma, Kate M. Knill, Mark J. F. Gales, (参考訳) ファンデーションASRモデルは、Whisperの100言語など、多くの言語をサポートすることが多い。 しかしながら、オリジナルの言語セットのパフォーマンスを維持しながら、追加の、通常は低リソースの言語を統合する作業は限られている。 微調整は単純ではあるが、元の集合の精度を低下させることがある。 適応パラメータを利用する3つのアプローチを比較する: ソフト言語コードチューニング、言語コードのみのトレーニング、ソフトプロンプトチューニング、事前トークンのトレーニング、小さなパラメータセットが最適化されたLoRA。 Elastic Weight Consolidation (EWC)は、特定のターゲット言語のパフォーマンスを維持する可能性を備えた代替の妥協を提供する。 結果は、直接微調整は、新しい言語で最高のパフォーマンスをもたらすが、既存の言語能力は低下することを示している。 EWCは特定の言語でこの問題に対処できる。 適応パラメータのみを使用する場合、言語能力は維持されるが、新しい言語の性能は維持される。

Foundation ASR models often support many languages, e.g. 100 languages in Whisper. However, there has been limited work on integrating an additional, typically low-resource, language, while maintaining performance on the original language set. Fine-tuning, while simple, may degrade the accuracy of the original set. We compare three approaches that exploit adaptation parameters: soft language code tuning, train only the language code; soft prompt tuning, train prepended tokens; and LoRA where a small set of additional parameters are optimised. Elastic Weight Consolidation (EWC) offers an alternative compromise with the potential to maintain performance in specific target languages. Results show that direct fine-tuning yields the best performance for the new language but degrades existing language capabilities. EWC can address this issue for specific languages. If only adaptation parameters are used, the language capabilities are maintained but at the cost of performance in the new language.
翻訳日:2024-07-22 21:58:59 公開日:2024-07-19
# ItTakesTwo: 半教師付きLiDARセマンティックセマンティックセグメンテーションのためのピア表現の活用

ItTakesTwo: Leveraging Peer Representations for Semi-supervised LiDAR Semantic Segmentation ( http://arxiv.org/abs/2407.07171v2 )

ライセンス: Link先を確認
Yuyuan Liu, Yuanhong Chen, Hu Wang, Vasileios Belagiannis, Ian Reid, Gustavo Carneiro, (参考訳) セマンティックLiDARセグメンテーション法をモデル化するための大規模なトレーニングセットを作成するための費用と時間を要するアノテーションプロセスは、半教師あり学習法(SSL)の開発を動機付けている。 しかし、このようなSSLアプローチは、個々のLiDAR表現にのみ一貫性学習を採用することに集中することが多い。 この狭い焦点は、一般的に効果的な一貫性学習を実現するのに失敗する限られた摂動をもたらす。 さらに、これらのSSLアプローチは、正および負の埋め込みサンプルの限られたセットからのサンプリングに基づいて、対照的な学習を採用する。 本稿では,ItTakesTwo (IT2)と呼ばれる,半教師付きLiDARセマンティックセマンティックセマンティクスフレームワークを提案する。 IT2は、ピアLiDAR表現からの一貫性のある予測を保証するために設計されており、一貫性学習における摂動効率を改善する。 さらに,本学習では,学習セット全体から学習した正および負の埋め込み分布から抽出した情報的サンプルを用いる。 その結果,本手法は従来のSOTA法よりも顕著に改善されていることがわかった。 コードは、https://github.com/yyliu01/IT2.comで入手できる。

The costly and time-consuming annotation process to produce large training sets for modelling semantic LiDAR segmentation methods has motivated the development of semi-supervised learning (SSL) methods. However, such SSL approaches often concentrate on employing consistency learning only for individual LiDAR representations. This narrow focus results in limited perturbations that generally fail to enable effective consistency learning. Additionally, these SSL approaches employ contrastive learning based on the sampling from a limited set of positive and negative embedding samples. This paper introduces a novel semi-supervised LiDAR semantic segmentation framework called ItTakesTwo (IT2). IT2 is designed to ensure consistent predictions from peer LiDAR representations, thereby improving the perturbation effectiveness in consistency learning. Furthermore, our contrastive learning employs informative samples drawn from a distribution of positive and negative embeddings learned from the entire training set. Results on public benchmarks show that our approach achieves remarkable improvements over the previous state-of-the-art (SOTA) methods in the field. The code is available at: https://github.com/yyliu01/IT2.
翻訳日:2024-07-22 21:58:59 公開日:2024-07-19
# 畳み込みニューラルネットワークを用いたランダムグラフの安定性推定

Estimating the stability number of a random graph using convolutional neural networks ( http://arxiv.org/abs/2407.07827v2 )

ライセンス: Link先を確認
Randy Davila, (参考訳) グラフ組合せ最適化問題は広く適用可能であり、例えば旅行セールスマンや施設の位置問題を考えると計算が困難である。 本稿では,グラフ画像に畳み込みニューラルネットワーク(CNN)を用いることにより,乱数グラフとネットワークの組合せ特性の濃度を推定できる可能性について検討する。 具体的には、ランダムグラフの修正隣接行列の画像表現を、CNNモデルのトレーニングサンプルとして使用し、ランダムグラフの安定性数を予測する。 本研究は,従来の単純な深層学習手法では考慮されていなかった組合せ最適化問題に深層学習を適用する可能性を示唆する。

Graph combinatorial optimization problems are widely applicable and notoriously difficult to compute; for example, consider the traveling salesman or facility location problems. In this paper, we explore the feasibility of using convolutional neural networks (CNNs) on graph images to predict the cardinality of combinatorial properties of random graphs and networks. Specifically, we use image representations of modified adjacency matrices of random graphs as training samples for a CNN model to predict the stability number of random graphs; where the stability number is the cardinality of a maximum set of vertices in a graph that contains no pairwise adjacency between vertices. The model and results presented in this study suggest potential for applying deep learning in combinatorial optimization problems previously not considered by simple deep learning techniques.
翻訳日:2024-07-22 21:58:59 公開日:2024-07-19
# GNNのための通勤時間最適化グラフ

Commute-Time-Optimised Graphs for GNNs ( http://arxiv.org/abs/2407.08762v2 )

ライセンス: Link先を確認
Igor Sterner, Shiye Su, Petar Veličković, (参考訳) 通勤時間を最適化するグラフ再構成法について検討する。 最近のグラフリウィリングアプローチはスパースグラフにおける長距離相互作用を促進し、そのようなリウィリングは可換時最適$\textit{on average}$となる。 しかし、どのノードペアが相互作用すべきでなければ、専門家が事前に存在する場合、優れたリライトはこれらの特権ノードペア間の短い通勤時間を好む。 我々は、現実的な設定を反映した、既知の事前を反映した2つの合成データセットを構築し、これらを用いて、既知の事前を組み込んだ2つのbespoke rewiringメソッドの動機付けを行う。 本研究は, 合成データセットにおいて, 再配線により試験性能が向上する状況について検討する。 最後に,本研究の実践的意義を明らかにするために,実世界の引用グラフのケーススタディを行う。

We explore graph rewiring methods that optimise commute time. Recent graph rewiring approaches facilitate long-range interactions in sparse graphs, making such rewirings commute-time-optimal $\textit{on average}$. However, when an expert prior exists on which node pairs should or should not interact, a superior rewiring would favour short commute times between these privileged node pairs. We construct two synthetic datasets with known priors reflecting realistic settings, and use these to motivate two bespoke rewiring methods that incorporate the known prior. We investigate the regimes where our rewiring improves test performance on the synthetic datasets. Finally, we perform a case study on a real-world citation graph to investigate the practical implications of our work.
翻訳日:2024-07-22 21:58:59 公開日:2024-07-19
# 縦結合を用いた量子ドット量子ビットの超分散共振器読み出し

Ultra-dispersive resonator readout of a quantum-dot qubit using longitudinal coupling ( http://arxiv.org/abs/2407.08869v2 )

ライセンス: Link先を確認
Benjamin Harpt, J. Corrigan, Nathan Holman, Piotr Marciniec, D. Rosenberg, D. Yost, R. Das, Rusko Ruskov, Charles Tahan, William D. Oliver, R. McDermott, Mark Friesen, M. A. Eriksson, (参考訳) 超伝導共振器に結合した量子ドットハイブリッド量子ビットのパラメトリック長手相互作用機構による読み出しを行う。 我々の実験は、$\sim$10 GHzで変調された量子ビットと共振器の周波数を用いて行われ、長手結合が回路量子力学の「超分散的」な状態における半導体量子ビットの動作を促進することを実証した。

We perform readout of a quantum-dot hybrid qubit coupled to a superconducting resonator through a parametric, longitudinal interaction mechanism. Our experiments are performed with the qubit and resonator frequencies detuned by $\sim$10 GHz, demonstrating that longitudinal coupling can facilitate semiconductor qubit operation in the 'ultra-dispersive' regime of circuit quantum electrodynamics.
翻訳日:2024-07-22 21:58:59 公開日:2024-07-19
# SlideGCD:全スライド画像分類のための知識蒸留によるグラフ協調学習

SlideGCD: Slide-based Graph Collaborative Training with Knowledge Distillation for Whole Slide Image Classification ( http://arxiv.org/abs/2407.08968v2 )

ライセンス: Link先を確認
Tong Shu, Jun Shi, Dongdong Sun, Zhiguo Jiang, Yushan Zheng, (参考訳) 既存のWSI分析法は、腫瘍の病理組織学的特徴ががん診断の重要な指針である、という結論に基づいている。 特に、がんの進化は連続的なプロセスであるため、様々な段階、解剖学的位置、患者との相関や差異を考慮する必要がある。 しかし、最近の研究は主にスライド間の相関を無視して、単一のWSIの内部コンテキスト情報に焦点を当てている。 スライド相互相関の導入がWSI表現学習の改善をもたらすかどうかを検証するため,既存のマルチインスタンス学習(MIL)手法をバックボーンとして考慮し,WSI分類タスクをノード分類問題としてフォッジする,汎用的なWSI解析パイプラインであるSlideGCDを提案する。 より具体的には、SlideGCDは、その後の広範なスライドベースのグラフ構築のために、以前のスライド埋め込みを格納するノードバッファを宣言し、グラフ学習を実施して、スライドベースのグラフに暗示される相関関係を探索する。 さらに、MIL分類器とグラフ学習を2つの並列ワークフローに分類し、知識蒸留をデプロイして、識別可能な情報をグラフニューラルネットワークに転送する。 2つのTCGAベンチマークデータセットで、これまでの4つの最先端MILメソッドのSlideGCDによる一貫したパフォーマンス向上が観察された。 コードはhttps://github.com/HFUT-miaLab/SlideGCDで入手できる。

Existing WSI analysis methods lie on the consensus that histopathological characteristics of tumors are significant guidance for cancer diagnostics. Particularly, as the evolution of cancers is a continuous process, the correlations and differences across various stages, anatomical locations and patients should be taken into account. However, recent research mainly focuses on the inner-contextual information in a single WSI, ignoring the correlations between slides. To verify whether introducing the slide inter-correlations can bring improvements to WSI representation learning, we propose a generic WSI analysis pipeline SlideGCD that considers the existing multi-instance learning (MIL) methods as the backbone and forge the WSI classification task as a node classification problem. More specifically, SlideGCD declares a node buffer that stores previous slide embeddings for subsequent extensive slide-based graph construction and conducts graph learning to explore the inter-correlations implied in the slide-based graph. Moreover, we frame the MIL classifier and graph learning into two parallel workflows and deploy the knowledge distillation to transfer the differentiable information to the graph neural network. The consistent performance boosting, brought by SlideGCD, of four previous state-of-the-art MIL methods is observed on two TCGA benchmark datasets. The code is available at https://github.com/HFUT-miaLab/SlideGCD.
翻訳日:2024-07-22 21:49:14 公開日:2024-07-19
# 地球回転による中性子の角運動量測定

Measuring the Angular Momentum of a Neutron Using Earth's Rotation ( http://arxiv.org/abs/2407.09307v2 )

ライセンス: Link先を確認
Niels Geerits, Stephan Sponar, Kyle E. Steffen, William M. Snow, Steven R. Parnell, Giacomo Mauri, Gregory N. Smith, Robert M. Dalgliesh, Victor de Haan, (参考訳) サニャック効果(英語版)として知られる地球回転と軌道角運動量(OAM)の結合は、スピンエコー干渉計を用いて生じる絡み合った中性子で観測される。 機器の体系的な修正の後、測定された結合は理論の5%以内であり、不確実性は7.2%である。 セットアップ中のOAMは伝播方向を横切り、波長(4A〜12.75A)と直線的にスケールするので、デバイスを機械的に回転させることなく結合を可変させることができる。 したがって、系統的な誤差は以前の実験より低い。 検出されたビームの逆OAMは、以前の中性子実験より5桁低い4098 +- 295 hbar A-1と一致し、サニャック効果を用いて中性子OAMを確定測定し、量子サニャック効果の観測への道を開く可能性を示す。

A coupling between Earths rotation and orbital angular momentum (OAM), known as the Sagnac effect, is observed in entangled neutrons produced using a spin echo interferometer. After correction for instrument systematics the measured coupling is within 5% of theory, with an uncertainty of 7.2%. The OAM in our setup is transverse to the propagation direction and scales linearly with wavelength (4 A - 12.75 A), hence the coupling can be varied, without mechanically rotating the device. Therefore, the systematic error is lower than in previous experiments. The detected transverse OAM of our beam corresponds to 4098 +- 295 hbar A-1, 5 orders of magnitude lower than in previous neutron experiments, thereby demonstrating the feasibility of using the Sagnac effect to definitively measure neutron OAM and paving the way towards observations of the quantum Sagnac effect
翻訳日:2024-07-22 21:49:14 公開日:2024-07-19
# HiPPO-Prophecy:状態空間モデルはコンテキストで動的システムを学ぶことができる

HiPPO-Prophecy: State-Space Models can Provably Learn Dynamical Systems in Context ( http://arxiv.org/abs/2407.09375v2 )

ライセンス: Link先を確認
Federico Arangath Joseph, Kilian Konstantin Haefeli, Noah Liniger, Caglar Gulcehre, (参考訳) 本研究では、状態空間モデル(SSM)の文脈内学習能力について検討し、その基礎となるメカニズムに関する最初の理論的説明を行う。 本研究では,SSMの新たな重み構造を導入し,パラメータの微調整を伴わずに過去の状態を観察した上で,任意の力学系の次の状態を予測できるようにする。 これは、連続SSMが任意の入力信号の微分を近似できることを示すためにHiPPOフレームワークを拡張することで達成される。 具体的には、連続SSMに対する明示的な重み構造を見つけ、微分近似に縛られた漸近誤差を与える。 この連続SSMの離散化は次の状態を予測する離散SSMを生成する。 最後に,パラメータ化の有効性を実証的に示す。 この作業は、SSMに基づくシーケンスモデルがどのように文脈で学習するかを理解するための最初のステップである。

This work explores the in-context learning capabilities of State Space Models (SSMs) and presents, to the best of our knowledge, the first theoretical explanation of a possible underlying mechanism. We introduce a novel weight construction for SSMs, enabling them to predict the next state of any dynamical system after observing previous states without parameter fine-tuning. This is accomplished by extending the HiPPO framework to demonstrate that continuous SSMs can approximate the derivative of any input signal. Specifically, we find an explicit weight construction for continuous SSMs and provide an asymptotic error bound on the derivative approximation. The discretization of this continuous SSM subsequently yields a discrete SSM that predicts the next state. Finally, we demonstrate the effectiveness of our parameterization empirically. This work should be an initial step toward understanding how sequence models based on SSMs learn in context.
翻訳日:2024-07-22 21:49:14 公開日:2024-07-19
# 支援ベクトルマシンアルゴリズムの分類性能に及ぼす異なる量子カーネルの影響評価:医療データセットの応用

Evaluating the Impact of Different Quantum Kernels on the Classification Performance of Support Vector Machine Algorithm: A Medical Dataset Application ( http://arxiv.org/abs/2407.09930v2 )

ライセンス: Link先を確認
Emine Akpinar, Sardar M. N. Islam, Murat Oduncuoglu, (参考訳) 量子カーネル推定器(QSVM-Kernel)を用いたサポートベクターマシンアルゴリズムは、量子機械学習技術の先駆けとして、大幅な進歩を遂げている。 それでも、古典的なデータとの統合は、ユニークな課題を呈している。 量子コンピュータは、主に量子状態のデータと相互作用するが、特徴マッピング技術を用いて古典的なデータを量子状態に埋め込むことは、量子アルゴリズムを活用する上で不可欠である。 本研究は,様々な特徴マッピング手法が分類結果に与える影響を包括的に評価し,医療データ分析を事例として扱うことにより,このギャップに対処する。 本研究では、QSVM-Kernel法を、ウィスコンシン乳がん(オリジナル)とThe Cancer Genome Atlas(TCGA)グリオーマデータセットの2つの異なる医用データセットの分類問題に適用した。 QSVM-Kernelアルゴリズムでは、9つの異なる量子特徴写像から得られた量子カーネル行列を用いた。 そこで,これらの量子特徴写像がQSVM-Kernelアルゴリズムの分類結果に与える影響を,分類器の性能と総実行時間の両方の観点から検討した。 その結果,ウィスコンシン乳癌(元)とTGAグリオーマデータセットでは,RxとRyの回転ゲートがそれぞれQSVM-カーネルアルゴリズムの特徴マップとして用いられ,分類性能と総実行時間の両方で最高の分類性能が得られた。 本研究の貢献は,(1)QSVM-Kernelアルゴリズムを用いた医療データ分類結果に対する特徴マッピング手法の有意な影響を強調し,(2)QSVM分類性能の向上に向けた研究の指針となることである。

The support vector machine algorithm with a quantum kernel estimator (QSVM-Kernel), as a leading example of a quantum machine learning technique, has undergone significant advancements. Nevertheless, its integration with classical data presents unique challenges. While quantum computers primarily interact with data in quantum states, embedding classical data into quantum states using feature mapping techniques is essential for leveraging quantum algorithms Despite the recognized importance of feature mapping, its specific impact on data classification outcomes remains largely unexplored. This study addresses this gap by comprehensively assessing the effects of various feature mapping methods on classification results, taking medical data analysis as a case study. In this study, the QSVM-Kernel method was applied to classification problems in two different and publicly available medical datasets, namely, the Wisconsin Breast Cancer (original) and The Cancer Genome Atlas (TCGA) Glioma datasets. In the QSVM-Kernel algorithm, quantum kernel matrices obtained from 9 different quantum feature maps were used. Thus, the effects of these quantum feature maps on the classification results of the QSVM-Kernel algorithm were examined in terms of both classifier performance and total execution time. As a result, in the Wisconsin Breast Cancer (original) and TCGA Glioma datasets, when Rx and Ry rotational gates were used, respectively, as feature maps in the QSVM-Kernel algorithm, the best classification performances were achieved both in terms of classification performance and total execution time. The contributions of this study are that (1) it highlights the significant impact of feature mapping techniques on medical data classification outcomes using the QSVM-Kernel algorithm, and (2) it also guides undertaking research for improved QSVM classification performance.
翻訳日:2024-07-22 21:49:14 公開日:2024-07-19
# バイオメディカル研究の迅速分類:パンデミックPACT先端分類エンジン

Rapid Biomedical Research Classification: The Pandemic PACT Advanced Categorisation Engine ( http://arxiv.org/abs/2407.10086v2 )

ライセンス: Link先を確認
Omid Rohanian, Mohammadmahdi Nouriborji, Olena Seminog, Rodrigo Furst, Thomas Mendy, Shanthi Levanita, Zaharat Kadri-Alabi, Nusrat Jabin, Daniela Toale, Georgina Humphreys, Emilia Antonio, Adrian Bucher, Alice Norton, David A. Clifton, (参考訳) 本稿では,Pandemic PACT Advanced Categorisation Engine(PPACE)と関連するデータセットを紹介する。 PPACEは、WHOによる研究の優先順位に従って、資金提供されたバイオメディカルプロジェクトから研究抽象物を自動分類するために開発された微調整モデルである。 この課題は、研究動向を監視し、世界保健の準備と対応のギャップを特定するために不可欠である。 私たちのアプローチは、事前に定義されたリストから1つ以上のカテゴリが割り当てられた、人手によるプロジェクトに基づいています。 次に、大きな言語モデルを使用して、これらのアノテーションの背後にある理由を説明する 'rationales' を生成する。 専門家のアノテーションと合理性を含むこの拡張データは、その後、より小さく、より効率的なモデルを微調整するために使用される。 Pandemic PACTプロジェクトの一環として開発されたPPACEは、研究資金と、発生可能性のある幅広い疾患の臨床的証拠の追跡と分析を目的としており、研究資金提供者、政策立案者、独立研究者による情報意思決定を支援している。 トレーニングに使用するトレーニングモデルとインストラクションベースのデータセットの両方を導入・リリースする。 本評価は,PPACEがベースラインを著しく上回ることを示す。 PPACEとその関連するデータセットのリリースは、多ラベルのバイオメディカル文書分類の研究者に貴重なリソースを提供し、バイオメディカル研究と重要なグローバルヘルスの優先順位を合わせるための進歩をサポートする。

This paper introduces the Pandemic PACT Advanced Categorisation Engine (PPACE) along with its associated dataset. PPACE is a fine-tuned model developed to automatically classify research abstracts from funded biomedical projects according to WHO-aligned research priorities. This task is crucial for monitoring research trends and identifying gaps in global health preparedness and response. Our approach builds on human-annotated projects, which are allocated one or more categories from a predefined list. A large language model is then used to generate `rationales' explaining the reasoning behind these annotations. This augmented data, comprising expert annotations and rationales, is subsequently used to fine-tune a smaller, more efficient model. Developed as part of the Pandemic PACT project, which aims to track and analyse research funding and clinical evidence for a wide range of diseases with outbreak potential, PPACE supports informed decision-making by research funders, policymakers, and independent researchers. We introduce and release both the trained model and the instruction-based dataset used for its training. Our evaluation shows that PPACE significantly outperforms its baselines. The release of PPACE and its associated dataset offers valuable resources for researchers in multilabel biomedical document classification and supports advancements in aligning biomedical research with key global health priorities.
翻訳日:2024-07-22 21:49:14 公開日:2024-07-19
# LionGuard: ローカライズされたアンセーフコンテンツに対処するコンテキスト型モデレーション分類器を構築する

LionGuard: Building a Contextualized Moderation Classifier to Tackle Localized Unsafe Content ( http://arxiv.org/abs/2407.10995v2 )

ライセンス: Link先を確認
Jessica Foo, Shaun Khoo, (参考訳) 大規模言語モデル(LLM)が多種多様なアプリケーションで普及するにつれて、出力の安全性に関する懸念が高まっている。 今日の安全チューニングやモデレーションの取り組みのほとんどは、特に有毒、憎悪、暴力的なスピーチに対して、主に西洋中心の安全性の視点を採っている。 本稿では,LionGuardについて述べる。LionGuardはシンガポールのコンテクスト化されたモデレーション分類器で,安全でないLLM出力に対するガードレールとして機能する。 Singlishのデータに基づいて評価すると、LionGuardは既存の広く使われているモデレーションAPIを14%(バイナリ)、最大51%(マルチラベル)で上回っている。 我々の研究は、モデレーション分類器のローカライゼーションの利点を強調し、低リソース言語に対して実用的でスケーラブルなアプローチを示す。

As large language models (LLMs) become increasingly prevalent in a wide variety of applications, concerns about the safety of their outputs have become more significant. Most efforts at safety-tuning or moderation today take on a predominantly Western-centric view of safety, especially for toxic, hateful, or violent speech. In this paper, we describe LionGuard, a Singapore-contextualized moderation classifier that can serve as guardrails against unsafe LLM outputs. When assessed on Singlish data, LionGuard outperforms existing widely-used moderation APIs, which are not finetuned for the Singapore context, by 14% (binary) and up to 51% (multi-label). Our work highlights the benefits of localization for moderation classifiers and presents a practical and scalable approach for low-resource languages.
翻訳日:2024-07-22 21:49:14 公開日:2024-07-19
# 距離に基づく容器軌道クラスタリングに関する調査--データ前処理, 方法, 応用, 実験評価

A Survey of Distance-Based Vessel Trajectory Clustering: Data Pre-processing, Methodologies, Applications, and Experimental Evaluation ( http://arxiv.org/abs/2407.11084v2 )

ライセンス: Link先を確認
Maohan Liang, Ryan Wen Liu, Ruobin Gao, Zhe Xiao, Xiaocai Zhang, Hua Wang, (参考訳) 海中知的輸送システムの重要な構成要素である船舶軌道クラスタリングは、異常検出や軌道予測といったアプリケーションに有用な洞察を提供する。 本稿では, 軌道類似度測定とクラスタリングの2つの主要なステップを含む, もっとも一般的な距離に基づく船舶軌道クラスタリング手法について, 包括的調査を行った。 当初、関連するキーワードを用いて詳細な文献レビューを行い、関連する研究論文やデータセットを収集し、要約した。 そこで,本研究では,さらなる分析のためにデータ準備を行うデータ前処理の主手法について論じる。 調査は、船舶軌道の類似性を測定するための主要なアルゴリズムと、現在現場で使われている主要なクラスタリング技術の詳細について述べる。 さらに,海洋環境における軌道クラスタリングの様々な応用について検討した。 最後に, 距離に基づく軌道クラスタリングアルゴリズムの性能への影響に着目し, 実験解析により, 異なるアルゴリズムの組み合わせと事前処理手法の有効性を評価する。 実験により, 種々の軌道クラスタリングアルゴリズムの有効性を示すとともに, 軌道圧縮技術が軌道クラスタリングの効率と精度に寄与する重要な改善点を強調した。 この包括的なアプローチは、船舶軌道クラスタリングにおける現在の能力と今後の方向性を深く理解することを保証する。

Vessel trajectory clustering, a crucial component of the maritime intelligent transportation systems, provides valuable insights for applications such as anomaly detection and trajectory prediction. This paper presents a comprehensive survey of the most prevalent distance-based vessel trajectory clustering methods, which encompass two main steps: trajectory similarity measurement and clustering. Initially, we conducted a thorough literature review using relevant keywords to gather and summarize pertinent research papers and datasets. Then, this paper discussed the principal methods of data pre-processing that prepare data for further analysis. The survey progresses to detail the leading algorithms for measuring vessel trajectory similarity and the main clustering techniques used in the field today. Furthermore, the various applications of trajectory clustering within the maritime context are explored. Finally, the paper evaluates the effectiveness of different algorithm combinations and pre-processing methods through experimental analysis, focusing on their impact on the performance of distance-based trajectory clustering algorithms. The experimental results demonstrate the effectiveness of various trajectory clustering algorithms and notably highlight the significant improvements that trajectory compression techniques contribute to the efficiency and accuracy of trajectory clustering. This comprehensive approach ensures a deep understanding of current capabilities and future directions in vessel trajectory clustering.
翻訳日:2024-07-22 21:49:14 公開日:2024-07-19
# 教育のためのジェネレーティブAIの責任ある開発に向けて:評価駆動アプローチ

Towards Responsible Development of Generative AI for Education: An Evaluation-Driven Approach ( http://arxiv.org/abs/2407.12687v2 )

ライセンス: Link先を確認
Irina Jurenka, Markus Kunesch, Kevin R. McKee, Daniel Gillick, Shaojian Zhu, Sara Wiltberger, Shubham Milind Phal, Katherine Hermann, Daniel Kasenberg, Avishkar Bhoopchand, Ankit Anand, Miruna Pîslar, Stephanie Chan, Lisa Wang, Jennifer She, Parsa Mahmoudieh, Aliya Rysbek, Wei-Jen Ko, Andrea Huber, Brett Wiltshire, Gal Elidan, Roni Rabin, Jasmin Rubinovitz, Amit Pitaru, Mac McAllister, Julia Wilkowski, David Choi, Roee Engelberg, Lidan Hackmon, Adva Levin, Rachel Griffin, Michael Sears, Filip Bar, Mia Mesar, Mana Jabbour, Arslan Chaudhry, James Cohan, Sridhar Thiagarajan, Nir Levine, Ben Brown, Dilan Gorur, Svetlana Grant, Rachel Hashimshoni, Laura Weidinger, Jieru Hu, Dawn Chen, Kuba Dolecki, Canfer Akbulut, Maxwell Bileschi, Laura Culp, Wen-Xin Dong, Nahema Marchal, Kelsie Van Deman, Hema Bajaj Misra, Michael Duah, Moran Ambar, Avi Caciularu, Sandra Lefdal, Chris Summerfield, James An, Pierre-Alexandre Kamienny, Abhinit Mohdi, Theofilos Strinopoulous, Annie Hale, Wayne Anderson, Luis C. Cobo, Niv Efron, Muktha Ananda, Shakir Mohamed, Maureen Heymans, Zoubin Ghahramani, Yossi Matias, Ben Gomes, Lila Ibrahim, (参考訳) 世界が直面する大きな課題は、品質教育への平等で普遍的なアクセスを提供することである。 生成型AI(gen AI)の最近の進歩は、学習者全員に個人家庭教師を提供し、教師全員に指導助手を提供する新しい技術の可能性に興奮をもたらしている。 しかし、この夢の完全な範囲はまだ実現されていない。 これは主に、ジェネラルAIのプロンプトに対する教育的直観の言葉化の難しさと、優れた教育を定義する上での課題によって強化された優れた評価プラクティスの欠如が原因である、と我々は主張する。 本稿では,学習者や教育者と共同で,学習科学から,定量的,質的,自動的,人為的な評価を対象とする7つの教育ベンチマークの実践的なセットに,高レベルの原則を翻訳する作業について紹介する。 評価の結果,LearningLM-Tutor は,教育者や学習者が多くの教育的側面について,即時調整した Gemini よりも一貫して好まれていることがわかった。 この研究は、総合的な教育評価フレームワークの開発に向けた第一歩として機能し、AIとEdTechコミュニティ内で、教育におけるジェネラルAIのポジティブな影響を最大化するための急速な進歩を可能にすることを願っている。

A major challenge facing the world is the provision of equitable and universal access to quality education. Recent advances in generative AI (gen AI) have created excitement about the potential of new technologies to offer a personal tutor for every learner and a teaching assistant for every teacher. The full extent of this dream, however, has not yet materialised. We argue that this is primarily due to the difficulties with verbalising pedagogical intuitions into gen AI prompts and the lack of good evaluation practices, reinforced by the challenges in defining excellent pedagogy. Here we present our work collaborating with learners and educators to translate high level principles from learning science into a pragmatic set of seven diverse educational benchmarks, spanning quantitative, qualitative, automatic and human evaluations; and to develop a new set of fine-tuning datasets to improve the pedagogical capabilities of Gemini, introducing LearnLM-Tutor. Our evaluations show that LearnLM-Tutor is consistently preferred over a prompt tuned Gemini by educators and learners on a number of pedagogical dimensions. We hope that this work can serve as a first step towards developing a comprehensive educational evaluation framework, and that this can enable rapid progress within the AI and EdTech communities towards maximising the positive impact of gen AI in education.
翻訳日:2024-07-22 21:49:14 公開日:2024-07-19
# LLMになぜ新しい知識がメッシーリップル効果を生み出すのか?

Why Does New Knowledge Create Messy Ripple Effects in LLMs? ( http://arxiv.org/abs/2407.12828v2 )

ライセンス: Link先を確認
Jiaxin Qin, Zixuan Zhang, Chi Han, Manling Li, Pengfei Yu, Heng Ji, (参考訳) これまでの広範囲にわたる研究は、言語モデル(LM)の学習後知識編集(KE)に焦点を当てており、知識が正確かつ最新であることを保証する。 KEで望まれる特性とオープンな疑問の一つは、編集されたLMがリップル効果を正しく扱えるようにすることであり、そこではLMはその論理的に関連する知識に正確に答えることが期待されている。 本稿では,ほとんどのKE手法がいまだに乱雑な波及効果を生んでいる理由を考察する。 我々は広範囲な分析を行い、ALMの知識がいつ、なぜ更新されるのかを効果的に明らかにする有能な指標であるGradSimを同定する。 GradSimは、元の事実の勾配とその関連する知識の間のコサイン類似性によって計算される。 我々は、異なるLM、KE法、評価指標間で、リップル効果性能とGradSimの強い正の相関関係を観察する。 リップル効果の3つの逆直観的障害(ネゲーション、オーバーリップ、マルチリンガル)に関するさらなる調査は、これらの障害がしばしば非常に低いGradSimと関連していることを示している。 この発見は、GradSimが知識がLMに波及する際の効果的な指標であることを示す。

Extensive previous research has focused on post-training knowledge editing (KE) for language models (LMs) to ensure that knowledge remains accurate and up-to-date. One desired property and open question in KE is to let edited LMs correctly handle ripple effects, where LM is expected to answer its logically related knowledge accurately. In this paper, we answer the question of why most KE methods still create messy ripple effects. We conduct extensive analysis and identify a salient indicator, GradSim, that effectively reveals when and why updated knowledge ripples in LMs. GradSim is computed by the cosine similarity between gradients of the original fact and its related knowledge. We observe a strong positive correlation between ripple effect performance and GradSim across different LMs, KE methods, and evaluation metrics. Further investigations into three counter-intuitive failure cases (Negation, Over-Ripple, Multi-Lingual) of ripple effects demonstrate that these failures are often associated with very low GradSim. This finding validates that GradSim is an effective indicator of when knowledge ripples in LMs.
翻訳日:2024-07-22 21:49:14 公開日:2024-07-19
# ESQA: イベントシーケンスの質問回答

ESQA: Event Sequences Question Answering ( http://arxiv.org/abs/2407.12833v2 )

ライセンス: Link先を確認
Irina Abdullaeva, Andrei Filatov, Mikhail Orlov, Ivan Karpukhin, Viacheslav Vasilev, Denis Dimitrov, Andrey Kuznetsov, Ivan Kireev, Andrey Savchenko, (参考訳) イベントシーケンス(ES)は、金融、小売、ソーシャルネットワーク、医療など、多くの実践的な領域で発生する。 機械学習の文脈では、イベントシーケンスは注釈付きタイムスタンプを持つ特別なタイプの表データと見なすことができる。 ESsモデリングと分析の重要性にもかかわらず、大きな言語モデル(LLM)をESsドメインに適応させる努力はほとんど行われなかった。 本稿では,ESs処理の難しさを強調し,複数の下流タスクを微調整をほとんどあるいは全く行わずに解決できる新しい解法を提案する。 特に、長いシーケンスで作業することの問題を解決し、時間と数値の特徴処理を改善する。 ESQAと呼ばれるこの手法は、LLMのパワーを効果的に利用し、広範な実験により、ESs領域における最先端の結果を得る。

Event sequences (ESs) arise in many practical domains including finance, retail, social networks, and healthcare. In the context of machine learning, event sequences can be seen as a special type of tabular data with annotated timestamps. Despite the importance of ESs modeling and analysis, little effort was made in adapting large language models (LLMs) to the ESs domain. In this paper, we highlight the common difficulties of ESs processing and propose a novel solution capable of solving multiple downstream tasks with little or no finetuning. In particular, we solve the problem of working with long sequences and improve time and numeric features processing. The resulting method, called ESQA, effectively utilizes the power of LLMs and, according to extensive experiments, achieves state-of-the-art results in the ESs domain.
翻訳日:2024-07-22 21:49:14 公開日:2024-07-19
# 歴史的インク:19世紀のスペイン語のセマンティックシフト検出

Historical Ink: Semantic Shift Detection for 19th Century Spanish ( http://arxiv.org/abs/2407.12852v2 )

ライセンス: Link先を確認
Tony Montes, Laura Manrique-Gómez, Rubén Manrique, (参考訳) 本稿では,19世紀のスペイン語文における単語の意味の進化を,計算言語学の手法を用いて,ラテンアメリカ・スペイン語に焦点をあてて考察する。 これは、特に歴史的文脈において、言語進化を理解するために不可欠であるセマンティックシフト検出(SSD)タスクに対処する。 この研究は、スペイン語の標的単語の集合を分析することに焦点を当てている。 これを実現するために、19世紀のスペインのコーパスが構築され、SSDタスクのカスタマイズ可能なパイプラインが開発された。 このパイプラインは、単語の感覚を見つけ出し、2つのコーパス間の意味的変化を測定するのに役立ちます。 この結果は、言語の変化に反映される文化的・社会的変化に関する貴重な洞察を与えてくれる。

This paper explores the evolution of word meanings in 19th-century Spanish texts, with an emphasis on Latin American Spanish, using computational linguistics techniques. It addresses the Semantic Shift Detection (SSD) task, which is crucial for understanding linguistic evolution, particularly in historical contexts. The study focuses on analyzing a set of Spanish target words. To achieve this, a 19th-century Spanish corpus is constructed, and a customizable pipeline for SSD tasks is developed. This pipeline helps find the senses of a word and measure their semantic change between two corpora using fine-tuned BERT-like models with old Spanish texts for both Latin American and general Spanish cases. The results provide valuable insights into the cultural and societal shifts reflected in language changes over time.
翻訳日:2024-07-22 21:49:14 公開日:2024-07-19
# ドメインシフトによる適応型細胞認識の再検討:文脈対応的視点

Revisiting Adaptive Cellular Recognition Under Domain Shifts: A Contextual Correspondence View ( http://arxiv.org/abs/2407.12870v2 )

ライセンス: Link先を確認
Jianan Fan, Dongnan Liu, Canran Li, Hang Chang, Heng Huang, Filip Braet, Mei Chen, Weidong Cai, (参考訳) 細胞核認識は、デジタル病理学のワークフローにおける基本的かつ重要なステップである。 しかし、異なるソース臓器と組織像クラスター間の染色処理により、スキャンされたタイルは本質的に一様でないデータ分布に適合し、一般的なクロスコホートの使用に対する劣化した約束を誘導する。 分布差を緩和するためにドメイン適応を活用する最新の試みにもかかわらず、これらの手法は腫瘍の微小環境全体にわたる階層的潜在構造と固有の文脈対応を無視して、各細胞の形態的特性を個別にモデル化する。 そこで本研究では,ドメイン不変の病理組成を利用した生物学的文脈における暗黙の対応の重要性を同定し,ドメイン適応型細胞認識のための様々な生物学的構造への依存性を活用することを提案する。 我々は、教師なしの文脈モデリングを通してこれらの高レベル対応を発見し、様々な臓器や染色への適応を促進するために橋として使用する。 さらに、核コミュニティに埋め込まれた豊かな空間的文脈をさらに活用するために、異なるモデル構成体間でのインスタンス認識トレードオフを確保するための自己適応型動的蒸留を提案する。 提案手法は,様々なデータ分散シフトの下で,広い範囲のクロスドメイン設定で広範に評価され,最先端の手法よりも実質的なマージンで性能が向上する。 コードはhttps://github.com/camwew/CellularRecognition_DA_CCで公開されている。

Cellular nuclei recognition serves as a fundamental and essential step in the workflow of digital pathology. However, with disparate source organs and staining procedures among histology image clusters, the scanned tiles inherently conform to a non-uniform data distribution, which induces deteriorated promises for general cross-cohort usages. Despite the latest efforts leveraging domain adaptation to mitigate distributional discrepancy, those methods are subjected to modeling the morphological characteristics of each cell individually, disregarding the hierarchical latent structure and intrinsic contextual correspondences across the tumor micro-environment. In this work, we identify the importance of implicit correspondences across biological contexts for exploiting domain-invariant pathological composition and thereby propose to exploit the dependence over various biological structures for domain adaptive cellular recognition. We discover those high-level correspondences via unsupervised contextual modeling and use them as bridges to facilitate adaptation over diverse organs and stains. In addition, to further exploit the rich spatial contexts embedded amongst nuclear communities, we propose self-adaptive dynamic distillation to secure instance-aware trade-offs across different model constituents. The proposed method is extensively evaluated on a broad spectrum of cross-domain settings under miscellaneous data distribution shifts and outperforms the state-of-the-art methods by a substantial margin. Code is available at https://github.com/camwew/CellularRecognition_DA_CC.
翻訳日:2024-07-22 21:49:14 公開日:2024-07-19
# 無線フェデレーション学習のためのエネルギー効率の良いチャネルデコーディング:収束解析と適応設計

Energy-Efficient Channel Decoding for Wireless Federated Learning: Convergence Analysis and Adaptive Design ( http://arxiv.org/abs/2407.13703v2 )

ライセンス: Link先を確認
Linping Qu, Yuyi Mao, Shenghui Song, Chi-Ying Tsui, (参考訳) 無線ネットワークにフェデレートラーニング(FL)のような分散学習ソリューションをデプロイする上で最も重要な課題の1つは、モバイルクライアントのバッテリ容量の制限である。 モバイルクライアントのエネルギー消費は、アップリンクデータ伝送によるものであるという見方が一般的であるが、本稿では、チャネルデコード操作がFLにおけるモバイルクライアント全体のエネルギー消費に大きく貢献することを示す。 そこで本研究では,FLの固有ロバスト性を利用したエネルギー効率適応型チャネル復号法を提案する。 特に、携帯クライアントにおけるチャネルデコーダのエネルギー消費を減らすために、復号回数を適応的に調整することでロバスト性を利用する。 我々は,通信エラーのある無線FLが,ビット誤り率(BER)が適切に制約されている限り,誤りのない通信の場合と同じ速度で収束できることを理論的に証明する。 次に、無線FLシステムのエネルギー効率を向上させるために、適応チャネル復号方式を提案する。 実験の結果,提案手法は同じ学習精度を維持しつつ,既存の手法と比較してチャネル復号化エネルギー消費量を20%削減できることがわかった。

One of the most critical challenges for deploying distributed learning solutions, such as federated learning (FL), in wireless networks is the limited battery capacity of mobile clients. While it is a common belief that the major energy consumption of mobile clients comes from the uplink data transmission, this paper presents a novel finding, namely the channel decoding operation also contributes significantly to the overall energy consumption of mobile clients in FL. Motivated by this new observation, we propose an energy-efficient adaptive channel decoding scheme that leverages the intrinsic robustness of FL to model errors. In particular, the robustness is exploited to reduce the energy consumption of channel decoders at mobile clients by adaptively adjusting the number of decoding iterations. We theoretically prove that wireless FL with communication errors can converge at the same rate as the case with error-free communication as long as the bit error rate (BER) is properly constrained. An adaptive channel decoding scheme is then proposed to improve the energy efficiency of wireless FL systems. Experimental results demonstrate that the proposed method maintains the same learning accuracy while reducing the channel decoding energy consumption by 20% when compared to existing approaches.
翻訳日:2024-07-22 21:39:27 公開日:2024-07-19
# 高精度かつ効率的なレコメンダシステムのための知識蒸留手法

Knowledge Distillation Approaches for Accurate and Efficient Recommender System ( http://arxiv.org/abs/2407.13952v1 )

ライセンス: Link先を確認
SeongKu Kang, (参考訳) 分類問題の進展にもかかわらず、モデルやランキング問題に対する知識蒸留(KD)は、これまでの文献ではよく研究されていない。 この論文は、コンパクトモデルの性能を十分に向上させるために、レコメンダシステムのための知識蒸留法の開発に費やされている。 本稿では,レコメンデータシステムのための新しい蒸留法を提案する。 提案手法は,(1)潜伏知識:ユーザ/イテム表現の潜伏知識を伝達する2つの手法を提案する。 ニッチな味の知識をバランスの取れた蒸留戦略で効果的に伝達し、KDプロセスが少数の大規模な嗜好グループに偏りを生じないようにする。 また,表現空間におけるユーザ/イテム関係を伝達する新しい手法を提案する。 提案手法は,コンパクトモデルの限られた容量を考慮した基本関係を選択的に伝達する。 2)ランキング知識:推薦結果からランキング知識を伝達する3つの手法を提案する。 彼らはKDプロセスをランキングマッチング問題として定式化し、リストワイズ学習戦略を介して知識を伝達する。 さらに、異種推薦モデルのランキング知識を圧縮する新しい学習フレームワークを提案する。 提案手法はモデルアンサンブルの計算負担を軽減するために開発された。 提案手法とフレームワークの利点を広範な実験により検証する。 要約すると、この論文は、レコメンデーションモデルの精度と効率のトレードオフを改善するために、知識蒸留アプローチに光を当てている。

Despite its breakthrough in classification problems, Knowledge distillation (KD) to recommendation models and ranking problems has not been studied well in the previous literature. This dissertation is devoted to developing knowledge distillation methods for recommender systems to fully improve the performance of a compact model. We propose novel distillation methods designed for recommender systems. The proposed methods are categorized according to their knowledge sources as follows: (1) Latent knowledge: we propose two methods that transfer latent knowledge of user/item representation. They effectively transfer knowledge of niche tastes with a balanced distillation strategy that prevents the KD process from being biased towards a small number of large preference groups. Also, we propose a new method that transfers user/item relations in the representation space. The proposed method selectively transfers essential relations considering the limited capacity of the compact model. (2) Ranking knowledge: we propose three methods that transfer ranking knowledge from the recommendation results. They formulate the KD process as a ranking matching problem and transfer the knowledge via a listwise learning strategy. Further, we present a new learning framework that compresses the ranking knowledge of heterogeneous recommendation models. The proposed framework is developed to ease the computational burdens of model ensemble which is a dominant solution for many recommendation applications. We validate the benefit of our proposed methods and frameworks through extensive experiments. To summarize, this dissertation sheds light on knowledge distillation approaches for a better accuracy-efficiency trade-off of the recommendation models.
翻訳日:2024-07-22 19:13:08 公開日:2024-07-19
# 神経トポロジー最適化:良い、悪い、悪い

Neural topology optimization: the good, the bad, and the ugly ( http://arxiv.org/abs/2407.13954v1 )

ライセンス: Link先を確認
Suryanarayanan Manoj Sanu, Alejandro M. Aragon, Miguel A. Bessa, (参考訳) ニューラルネットワーク(NN)は、トポロジ最適化(TO)を通じて逆設計を進めるという大きな約束を持っているが、アプリケーションに対する誤解は持続している。 本稿では、NNを活用して決定空間を再パラメータ化し、最適化ランドスケープを再構築する神経トポロジ最適化(neural TO)に焦点を当てる。 この手法はまだ初期段階ですが、我々の分析ツールは、最適化プロセスに対するNNの影響に関する重要な洞察を明らかにします。 NNアーキテクチャの選択は客観的なランドスケープと最適化者の最適への道に大きく影響することを示した。 特に、NNは凸ランドスケープにおいても非凸性を導入し、凸問題の収束を遅らせる可能性があるが、非凸問題の探索を強化する。 この分析は、今後の進歩の土台となる。 1)非凸問題と専用GPUハードウェア(「良い」)に対するニューラルTOの可能性。 2)滑らかな風景(「悪」)の限界、及び 3) 優れたパフォーマンス("ugly")のために最適なNNアーキテクチャとハイパーパラメータを選択するという複雑な課題。

Neural networks (NNs) hold great promise for advancing inverse design via topology optimization (TO), yet misconceptions about their application persist. This article focuses on neural topology optimization (neural TO), which leverages NNs to reparameterize the decision space and reshape the optimization landscape. While the method is still in its infancy, our analysis tools reveal critical insights into the NNs' impact on the optimization process. We demonstrate that the choice of NN architecture significantly influences the objective landscape and the optimizer's path to an optimum. Notably, NNs introduce non-convexities even in otherwise convex landscapes, potentially delaying convergence in convex problems but enhancing exploration for non-convex problems. This analysis lays the groundwork for future advancements by highlighting: 1) the potential of neural TO for non-convex problems and dedicated GPU hardware (the "good"), 2) the limitations in smooth landscapes (the "bad"), and 3) the complex challenge of selecting optimal NN architectures and hyperparameters for superior performance (the "ugly").
翻訳日:2024-07-22 19:13:08 公開日:2024-07-19
# グループロバスト性の詳細:純粋相関の下でのファインタニングの再考

The Group Robustness is in the Details: Revisiting Finetuning under Spurious Correlations ( http://arxiv.org/abs/2407.13957v1 )

ライセンス: Link先を確認
Tyler LaBonte, John C. Hill, Xinchen Zhang, Vidya Muthukumar, Abhishek Kumar, (参考訳) 現代の機械学習モデルは、急激な相関に過度に依存する傾向があり、しばしば少数派集団のパフォーマンスが低下する。 本稿では、視覚と言語タスクをまたいだ4つのよく確立されたベンチマークの総合的な実験を通して、最悪のグループ精度で微調整されたモデルの驚きとニュアンスな振る舞いを識別する。 まず,ミニバッチアップサンプリングと損失アップウェイトによるクラスバランス技術は,トレーニングのエポックで最悪のグループ精度(WGA)の低下を招き,クラスバランスがなければ性能が損なわれることを示した。 いくつかのシナリオでは、クラスバランスサブセットを作成するためにデータを削除することがより効果的であるが、これはグループ構造に依存し、どちらの手法よりも優れた混合手法を提案する。 次に、事前学習されたモデルのスケーリングは、一般に最悪のグループ精度において有用であるが、適切なクラスバランスと共役する場合にのみ有用であることを示す。 少数群の共分散行列は、クラス上でかつて条件付けられた多数群よりもスペクトルノルムが大きい。 以上の結果より,群強靭性を有する現代ファインチュードモデルの微妙な相互作用が以前よりも顕著に示された。 私たちのコードはhttps://github.com/tmlabonte/revisiting-finetuning.comで公開されています。

Modern machine learning models are prone to over-reliance on spurious correlations, which can often lead to poor performance on minority groups. In this paper, we identify surprising and nuanced behavior of finetuned models on worst-group accuracy via comprehensive experiments on four well-established benchmarks across vision and language tasks. We first show that the commonly used class-balancing techniques of mini-batch upsampling and loss upweighting can induce a decrease in worst-group accuracy (WGA) with training epochs, leading to performance no better than without class-balancing. While in some scenarios, removing data to create a class-balanced subset is more effective, we show this depends on group structure and propose a mixture method which can outperform both techniques. Next, we show that scaling pretrained models is generally beneficial for worst-group accuracy, but only in conjuction with appropriate class-balancing. Finally, we identify spectral imbalance in finetuning features as a potential source of group disparities -- minority group covariance matrices incur a larger spectral norm than majority groups once conditioned on the classes. Our results show more nuanced interactions of modern finetuned models with group robustness than was previously known. Our code is available at https://github.com/tmlabonte/revisiting-finetuning.
翻訳日:2024-07-22 19:13:08 公開日:2024-07-19
# 学習スケジュールが形態的ロバスト性および一般化に及ぼす影響

The Effect of Training Schedules on Morphological Robustness and Generalization ( http://arxiv.org/abs/2407.13965v1 )

ライセンス: Link先を確認
Edoardo Barba, Anil Yaman, Giovanni Iacca, (参考訳) ロバスト性と一般化性は、変更時に信頼性の高いパフォーマンスを維持するために、人工知能(ANN)ベースのコントローラの鍵となる特性である。 トレーニングプロセス中にANNをバラツキにすることで、堅牢性と一般化能力を向上できることが実証された。 しかし、このバリエーションを導入する方法が大きな影響を与える可能性がある。 本稿では,進化的学習過程において,これらの変化がどのように導入されたかを特定するために,様々なトレーニングスケジュールを定義する。 特に,ANNをベースとした制御器の物理的変動範囲における十分な性能を実現することを目的とした,形態的堅牢性と一般化性に着目した。 そして、これらのトレーニングスケジュールが形態的一般化に与える影響を広範囲に分析する。 さらに,サンプル選択(形態的変化)の学習過程を形式化し,強化学習問題として一般化を改善する。 本研究の結果は, 可変性の役割と, 進化したANN制御器の一般化特性を向上する方法について, より深い知見を提供するものである。

Robustness and generalizability are the key properties of artificial neural network (ANN)-based controllers for maintaining a reliable performance in case of changes. It is demonstrated that exposing the ANNs to variations during training processes can improve their robustness and generalization capabilities. However, the way in which this variation is introduced can have a significant impact. In this paper, we define various training schedules to specify how these variations are introduced during an evolutionary learning process. In particular, we focus on morphological robustness and generalizability concerned with finding an ANN-based controller that can provide sufficient performance on a range of physical variations. Then, we perform an extensive analysis of the effect of these training schedules on morphological generalization. Furthermore, we formalize the process of training sample selection (i.e., morphological variations) to improve generalization as a reinforcement learning problem. Overall, our results provide deeper insights into the role of variability and the ways of enhancing the generalization property of evolved ANN-based controllers.
翻訳日:2024-07-22 19:13:08 公開日:2024-07-19
# 農業次数フルフィルメントシステムの最適化:ハイブリッド木探索手法

Optimizing Agricultural Order Fulfillment Systems: A Hybrid Tree Search Approach ( http://arxiv.org/abs/2407.13968v1 )

ライセンス: Link先を確認
Pranay Thangeda, Hoda Helmi, Melkior Ornik, (参考訳) 効率的なオーダーフルフィルメントは、特に種子サプライチェーンの季節的性質のため、農業において不可欠である。 本稿では, 予測不可能な種子在庫の到着と厳密な注文期限を考慮し, 注文を波動処理する集中型倉庫における種子注文充足の最適化という課題に対処する。 本稿では,マルコフ決定過程として波動スケジューリング問題をモデル化し,モンテカルロ木探索とドメイン固有知識を組み合わせた適応型ハイブリッド木探索アルゴリズムを提案し,種子分布の複雑な動的環境を効率的にナビゲートする。 本手法は,履歴データと確率的モデリングを利用して,短期要求と長期運用効率のバランスをとる予測インフォームドスケジューリング決定を可能にする。 キーとなる考え方は、モンテカルロ木探索アルゴリズムを問題固有の側情報で拡張し、各決定ステップにおける候補アクションの数を動的に減らし、従来の解法を計算的に抽出可能な大規模状態および行動空間を処理できるということである。 提案手法は, 多様な製品, 大量注文, 真正の季節持続時間を含む, リアルなパラメータによる広範囲なシミュレーションにより, 既存の業界標準手法を著しく上回っていることを実証した。

Efficient order fulfillment is vital in the agricultural industry, particularly due to the seasonal nature of seed supply chains. This paper addresses the challenge of optimizing seed orders fulfillment in a centralized warehouse where orders are processed in waves, taking into account the unpredictable arrival of seed stocks and strict order deadlines. We model the wave scheduling problem as a Markov decision process and propose an adaptive hybrid tree search algorithm that combines Monte Carlo tree search with domain-specific knowledge to efficiently navigate the complex, dynamic environment of seed distribution. By leveraging historical data and stochastic modeling, our method enables forecast-informed scheduling decisions that balance immediate requirements with long-term operational efficiency. The key idea is that we can augment Monte Carlo tree search algorithm with problem-specific side information that dynamically reduces the number of candidate actions at each decision step to handle the large state and action spaces that render traditional solution methods computationally intractable. Extensive simulations with realistic parameters-including a diverse range of products, a high volume of orders, and authentic seasonal durations-demonstrate that the proposed approach significantly outperforms existing industry standard methods.
翻訳日:2024-07-22 19:13:08 公開日:2024-07-19
# 擬似自由推論問題におけるパラメータ推定のための次元再現型再構成マップ学習

Dimension-reduced Reconstruction Map Learning for Parameter Estimation in Likelihood-Free Inference Problems ( http://arxiv.org/abs/2407.13971v1 )

ライセンス: Link先を確認
Rui Zhang, Oksana A. Chkrebtii, Dongbin Xiu, (参考訳) 多くのアプリケーション領域は、容易にシミュレートできるが、クローズド形式の可能性や、任意のパラメータ値の正確な近似を持たないモデルに依存している。 この設定における既存のパラメータ推定アプローチは概して近似的である。 データ空間からパラメータへのマッピングを合成パラメータ-データペアの集合から再構築するニューラルネットワークモデルを用いた最近の研究は、次元性の呪いに悩まされ、データサイズが大きくなるにつれて不正確な推定が行われる。 本研究では,再現地図推定の考え方と,主観的知識に基づく次元還元手法を併用した次元推定手法を提案する。 本研究では,データ次元と近似誤差の低減による情報損失による近似誤差のトレードオフについて検討する。 数値的な例は,提案手法が再構成マップ推定,近似ベイズ計算,合成推定と好適に比較できることを示している。

Many application areas rely on models that can be readily simulated but lack a closed-form likelihood, or an accurate approximation under arbitrary parameter values. Existing parameter estimation approaches in this setting are generally approximate. Recent work on using neural network models to reconstruct the mapping from the data space to the parameters from a set of synthetic parameter-data pairs suffers from the curse of dimensionality, resulting in inaccurate estimation as the data size grows. We propose a dimension-reduced approach to likelihood-free estimation which combines the ideas of reconstruction map estimation with dimension-reduction approaches based on subject-specific knowledge. We examine the properties of reconstruction map estimation with and without dimension reduction and explore the trade-off between approximation error due to information loss from reducing the data dimension and approximation error. Numerical examples show that the proposed approach compares favorably with reconstruction map estimation, approximate Bayesian computation, and synthetic likelihood estimation.
翻訳日:2024-07-22 19:13:08 公開日:2024-07-19
# リモート生理計測のための連続学習:最小限の推論と推論

Continual Learning for Remote Physiological Measurement: Minimize Forgetting and Simplify Inference ( http://arxiv.org/abs/2407.13974v1 )

ライセンス: Link先を確認
Qian Liang, Yan Chen, Yang Hu, (参考訳) リモート光胸腺撮影(rPPG)は近年,顔画像から生理的シグナルを抽出する能力で注目されている。 既存のrPPG測定手法は、データセット内およびデータセット間シナリオにおいて良好な性能を示すが、トレーニングデータを逐次提示するインクリメンタル学習シナリオを見落とし、破滅的な忘れがちな問題となることが多い。 一方、既存のクラスインクリメンタル学習アプローチはrPPG測定には適していない。 本稿では,RPPG測定のための連続学習のためのADDPという新しい手法を提案する。 私たちはまず、新しいタスクでモデルを効率的に微調整するためにアダプタを使用します。 次に、よく使われるプロトタイプよりもrPPG信号の回帰に適応するドメインプロトタイプを設計する。 これらのプロトタイプに基づいて,過去の知識を統合化するための機能拡張戦略と,忘れられた可能性のあるタスクをモデルに慣れ親しんだタスクに変換するための推論単純化戦略を提案する。 ADDPを評価し,公平な比較を可能にするために,rPPG測定のための最初の連続学習プロトコルを作成する。 総合的な実験により, rPPG連続学習における本手法の有効性が示された。 ソースコードは \url{https://github.com/MayYoY/rPPGDIL} で入手できる。

Remote photoplethysmography (rPPG) has gained significant attention in recent years for its ability to extract physiological signals from facial videos. While existing rPPG measurement methods have shown satisfactory performance in intra-dataset and cross-dataset scenarios, they often overlook the incremental learning scenario, where training data is presented sequentially, resulting in the issue of catastrophic forgetting. Meanwhile, most existing class incremental learning approaches are unsuitable for rPPG measurement. In this paper, we present a novel method named ADDP to tackle continual learning for rPPG measurement. We first employ adapter to efficiently finetune the model on new tasks. Then we design domain prototypes that are more applicable to rPPG signal regression than commonly used class prototypes. Based on these prototypes, we propose a feature augmentation strategy to consolidate the past knowledge and an inference simplification strategy to convert potentially forgotten tasks into familiar ones for the model. To evaluate ADDP and enable fair comparisons, we create the first continual learning protocol for rPPG measurement. Comprehensive experiments demonstrate the effectiveness of our method for rPPG continual learning. Source code is available at \url{https://github.com/MayYoY/rPPGDIL}
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# 顔認識に対する個人化プライバシ保護マスク

Personalized Privacy Protection Mask Against Unauthorized Facial Recognition ( http://arxiv.org/abs/2407.13975v1 )

ライセンス: Link先を確認
Ka-Ho Chow, Sihao Hu, Tiansheng Huang, Ling Liu, (参考訳) 顔認識(FR)は、プライバシー侵害に対して悪用されることがある。 政府、民間企業、さらには個人攻撃者さえも、ウェブスクレイピングによって顔画像を収集し、同意なしに人間の顔を識別するFRシステムを構築することができる。 本稿では,ユーザ中心のパーソナライズされたプライバシ保護マスクをP3マスクとして開発したChameleonについて紹介する。 まず,ユーザの顔画像ごとに顔の摂動を調整する代わりに,画像のクロスイメージ最適化を用いて,各ユーザに対して1つのP3マスクを生成する。 限られたコンピューティングリソースを持つユーザに対しても、効率的かつ迅速な保護を可能にする。 第2に、保護された顔画像の視覚的品質を維持するために、パーセプティビリティー最適化を組み込んだ。 第3に、マスク生成プロセスに焦点多様性最適化アンサンブル学習を統合することにより、未知のFRモデルに対するP3-Maskの堅牢性を強化する。 2つのベンチマークデータセットの大規模な実験により、Chameleonは3つの最先端の手法より優れており、即時保護と画像品質の低下が最小限であることがわかった。 さらに、ChameleonはP3-Maskをパーソナライズされた難読化キーとして使用することで、コスト効率の高いFR認証を可能にし、適応的敵に対する高いレジリエンスを示す。

Face recognition (FR) can be abused for privacy intrusion. Governments, private companies, or even individual attackers can collect facial images by web scraping to build an FR system identifying human faces without their consent. This paper introduces Chameleon, which learns to generate a user-centric personalized privacy protection mask, coined as P3-Mask, to protect facial images against unauthorized FR with three salient features. First, we use a cross-image optimization to generate one P3-Mask for each user instead of tailoring facial perturbation for each facial image of a user. It enables efficient and instant protection even for users with limited computing resources. Second, we incorporate a perceptibility optimization to preserve the visual quality of the protected facial images. Third, we strengthen the robustness of P3-Mask against unknown FR models by integrating focal diversity-optimized ensemble learning into the mask generation process. Extensive experiments on two benchmark datasets show that Chameleon outperforms three state-of-the-art methods with instant protection and minimal degradation of image quality. Furthermore, Chameleon enables cost-effective FR authorization using the P3-Mask as a personalized de-obfuscation key, and it demonstrates high resilience against adaptive adversaries.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# PlacidDreamer: テキストから3D生成における高調波の増大

PlacidDreamer: Advancing Harmony in Text-to-3D Generation ( http://arxiv.org/abs/2407.13976v1 )

ライセンス: Link先を確認
Shuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia, (参考訳) 近年,テキスト・ツー・3D生成が注目され,性能が著しく向上した。 従来の手法では3次元ガウスを初期化するためにエンドツーエンドの3D生成モデル、マルチビューの一貫性を強制するマルチビュー拡散モデル、スコア蒸留アルゴリズムで詳細を洗練するためのテキスト・ツー・イメージ拡散モデルを用いていた。 しかし、これらの方法には2つの制限がある。 まず、異なるモデルが多様な3Dアセットを生産することを目的としているため、世代順で衝突する。 第2に, スコア蒸留における過飽和問題について, 徹底的に検討し, 解決していない。 これらの制約に対処するために,単一多視点拡散モデルを用いて初期化,多視点生成,テキスト条件生成を調和させるテキスト間3DフレームワークであるPlacidDreamerを提案する。 生成方向を統一するために,マルチビュー拡散モデルにより初期化のための高速な幾何再構成と,テキスト・画像拡散モデルをパーソナライズするマルチビュー画像の強化が可能な,トレーニングフレンドリーなプラグイン拡張であるLatent-Planeモジュールを導入する。 過飽和問題に対処するため,多目的最適化問題としてスコア蒸留を考察し,高精細度と高精細度の飽和度を両立するPareto Optimalソリューションを提供するBa balanced Score Distillationアルゴリズムを提案する。 大規模な実験により、プラシッドドレーマーの優れた能力が検証された。 コードは \url{https://github.com/HansenHuang0823/PlacidDreamer} で公開されている。

Recently, text-to-3D generation has attracted significant attention, resulting in notable performance enhancements. Previous methods utilize end-to-end 3D generation models to initialize 3D Gaussians, multi-view diffusion models to enforce multi-view consistency, and text-to-image diffusion models to refine details with score distillation algorithms. However, these methods exhibit two limitations. Firstly, they encounter conflicts in generation directions since different models aim to produce diverse 3D assets. Secondly, the issue of over-saturation in score distillation has not been thoroughly investigated and solved. To address these limitations, we propose PlacidDreamer, a text-to-3D framework that harmonizes initialization, multi-view generation, and text-conditioned generation with a single multi-view diffusion model, while simultaneously employing a novel score distillation algorithm to achieve balanced saturation. To unify the generation direction, we introduce the Latent-Plane module, a training-friendly plug-in extension that enables multi-view diffusion models to provide fast geometry reconstruction for initialization and enhanced multi-view images to personalize the text-to-image diffusion model. To address the over-saturation problem, we propose to view score distillation as a multi-objective optimization problem and introduce the Balanced Score Distillation algorithm, which offers a Pareto Optimal solution that achieves both rich details and balanced saturation. Extensive experiments validate the outstanding capabilities of our PlacidDreamer. The code is available at \url{https://github.com/HansenHuang0823/PlacidDreamer}.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# 一般化線形モデルに対する統一信頼系列と帯域への応用

A Unified Confidence Sequence for Generalized Linear Models, with Applications to Bandits ( http://arxiv.org/abs/2407.13977v1 )

ライセンス: Link先を確認
Junghyun Lee, Se-Young Yun, Kwang-Sung Jun, (参考訳) 我々は,凸かつ数値的にきついことが保証される任意の(自己調和型)一般化線形モデル(GLM)に対して,統一された疑似比に基づく信頼シーケンス(CS)を示す。 ガウシアン,ベルヌーイ,ポアソンなど,様々な GLM の既知の CS と同等あるいは同等であることを示す。 特にベルヌーイに対する我々のCSは、S が未知のパラメータのノルムであるようなポリ(S)-自由半径を持つ。 我々の最初の技術的ノベルティは、その導出であり、CSを導出するのにあまり人気がないにもかかわらず、一様の事前/後続のPAC-Bayesian境界を利用する。 新たなCSの直接的な応用として,任意の一般化線形帯域 (GLB; Filippi et al (2010)) に適用可能な,単純で自然な楽観的アルゴリズム OFUGLBを提案する。 分析の結果,有意な楽観的アプローチは,多彩な自己一致(必ずしも有界ではない)GLBに対して,またロジスティックバンディットを含む有界GLBに対してはポリ(S)フリーでも,最先端の後悔を同時に達成できることが示唆された。 第2の技術的斬新さである残念な分析は、我々の新しいCSと、これまで広く使われていた自己協和性制御レムマを完全に回避する新しい証明手法を組み合わせることによるものです(Faury et al , 2020, Lemma 9)。 最後に,OFUGLBがロジスティックバンディットの先行技術(Lee et al , 2024)よりも優れていたことを検証する。

We present a unified likelihood ratio-based confidence sequence (CS) for any (self-concordant) generalized linear models (GLMs) that is guaranteed to be convex and numerically tight. We show that this is on par or improves upon known CSs for various GLMs, including Gaussian, Bernoulli, and Poisson. In particular, for the first time, our CS for Bernoulli has a poly(S)-free radius where S is the norm of the unknown parameter. Our first technical novelty is its derivation, which utilizes a time-uniform PAC-Bayesian bound with a uniform prior/posterior, despite the latter being a rather unpopular choice for deriving CSs. As a direct application of our new CS, we propose a simple and natural optimistic algorithm called OFUGLB applicable to any generalized linear bandits (GLB; Filippi et al. (2010)). Our analysis shows that the celebrated optimistic approach simultaneously attains state-of-the-art regrets for various self-concordant (not necessarily bounded) GLBs, and even poly(S)-free for bounded GLBs, including logistic bandits. The regret analysis, our second technical novelty, follows from combining our new CS with a new proof technique that completely avoids the previously widely used self-concordant control lemma (Faury et al., 2020, Lemma 9). Finally, we verify numerically that OFUGLB significantly outperforms the prior state-of-the-art (Lee et al., 2024) for logistic bandits.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# 多モード故障診断における単一ソース領域一般化のための二重勾配反転ネットワーク

Double Gradient Reversal Network for Single-Source Domain Generalization in Multi-mode Fault Diagnosis ( http://arxiv.org/abs/2407.13978v1 )

ライセンス: Link先を確認
Guangqiang Li, M. Amine Atoui, Xiangshun Li, (参考訳) ドメインの一般化は、目に見えないモードでの障害診断を実現する。 プロセス産業システムでは、断層サンプルは限られており、単一モードの断層データしか得られない。 未確認モード障害診断のための単一モードデータからドメイン不変の障害特徴を抽出することは課題となる。 既存の方法は、ジェネレータモジュールを使用して、目に見えないモードのサンプルをシミュレートする。 しかし、マルチモードサンプルには複雑な時空間情報が含まれており、正確なサンプル生成に重大な困難をもたらす。 そこでDGRN(Double gradient Reversal Network)を提案する。 第一に、モデルは、単一表示モードからフォールト知識を取得するために事前訓練される。 次に、擬似Fault機能生成戦略をAdaptiveインスタンス正規化により設計し、未確認モードの障害特徴をシミュレートする。 二重対向学習戦略は擬似フォールト特徴の多様性を高めるために作成され、分布の差が大きい未確認モードをモデル化する。 ドメイン不変な特徴抽出戦略は、対照的な学習と敵対的な学習によって構築される。 この戦略は断層の特徴を抽出し,多モード断層診断を支援する。 最後に、実験はテネシー・イーストマン・プロセスと連続発泡タンク・リアクターで実施された。 実験により,DGRNはモデルサイズを小さく保ちながら未確認モードの分類精度が高いことを示した。

Domain generalization achieves fault diagnosis on unseen modes. In process industrial systems, fault samples are limited, and only single-mode fault data can be obtained. Extracting domain-invariant fault features from single-mode data for unseen mode fault diagnosis poses challenges. Existing methods utilize a generator module to simulate samples of unseen modes. However, multi-mode samples contain complex spatiotemporal information, which brings significant difficulties to accurate sample generation. Therefore, double gradient reversal network (DGRN) is proposed. First, the model is pre-trained to acquire fault knowledge from the single seen mode. Then, pseudo-fault feature generation strategy is designed by Adaptive instance normalization, to simulate fault features of unseen mode. The dual adversarial training strategy is created to enhance the diversity of pseudo-fault features, which models unseen modes with significant distribution differences. Subsequently, domain-invariant feature extraction strategy is constructed by contrastive learning and adversarial learning. This strategy extracts common features of faults and helps multi-mode fault diagnosis. Finally, the experiments were conducted on Tennessee Eastman process and continuous stirred-tank reactor. The experiments demonstrate that DGRN achieves high classification accuracy on unseen modes while maintaining a small model size.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# 校正措置の真偽

Truthfulness of Calibration Measures ( http://arxiv.org/abs/2407.13979v1 )

ライセンス: Link先を確認
Nika Haghtalab, Mingda Qiao, Kunhe Yang, Eric Zhao, (参考訳) 我々は、逐次予測における校正措置の真偽の研究を開始する。 キャリブレーション測度が真であるとは、予測器(およそ)が、前の結果の分布から次の結果の条件付き期待を予測することによって、期待されるペナルティを最小化した場合である。 真実性はキャリブレーション対策の重要な性質であり、予測器が故意に悪い予測でシステムを利用するインセンティブを得ていないことを保証する。 これにより、音の良さや完全さといった典型的な要件とともに、校正措置に欠かせないデシプラタムとなる。 我々は、既存の校正措置とその真理を分類する。 意外なことに、それらすべてが真実とは程遠いものなのだ。 つまり、既存の校正測度の下では、多項式のペナルティを真に予測する一方、多対数(あるいはゼロ)ペナルティを達成できるような単純な分布が存在する。 我々の主な貢献は、正当性予測が一定乗算係数まで最適となる、Subsampled Smooth Calibration Error (SSCE)と呼ばれる新しい校正尺度の導入である。

We initiate the study of the truthfulness of calibration measures in sequential prediction. A calibration measure is said to be truthful if the forecaster (approximately) minimizes the expected penalty by predicting the conditional expectation of the next outcome, given the prior distribution of outcomes. Truthfulness is an important property of calibration measures, ensuring that the forecaster is not incentivized to exploit the system with deliberate poor forecasts. This makes it an essential desideratum for calibration measures, alongside typical requirements, such as soundness and completeness. We conduct a taxonomy of existing calibration measures and their truthfulness. Perhaps surprisingly, we find that all of them are far from being truthful. That is, under existing calibration measures, there are simple distributions on which a polylogarithmic (or even zero) penalty is achievable, while truthful prediction leads to a polynomial penalty. Our main contribution is the introduction of a new calibration measure termed the Subsampled Smooth Calibration Error (SSCE) under which truthful prediction is optimal up to a constant multiplicative factor.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# 有限混合モデルのビザンチン-耐性分散学習

Byzantine-tolerant distributed learning of finite mixture models ( http://arxiv.org/abs/2407.13980v1 )

ライセンス: Link先を確認
Qiong Zhang, Jiahua Chen, (参考訳) 本稿では,ビザンチンの故障に耐性を持つ有限混合モデルに対する2つのスプリット・アンド・コンカ(SC)学習推定器を提案する。 SC学習では、個々のマシンが局所的な推定値を取得し、集約のために中央サーバに送信される。 この通信の間、サーバはいくつかのローカルマシンから悪意のある情報または不正な情報を受信する可能性がある。 SC学習アプローチはユークリッドパラメータを持つ統計モデルにおけるビザンチンの失敗を軽減するために考案されているが、非ユークリッドパラメータを持つ有限混合モデルに対するビザンチン耐性手法の開発には明確な戦略が必要である。 提案手法は, 既存の手法と異なり, 高パラメータチューニングが不要であり, 統計的に高い効率でビザンチン故障に耐性がある。 本手法の有効性を,数値認識のための機械学習アプリケーションによるシミュレーションおよび実データを用いた実験により検証した。 実験のコードはhttps://github.com/SarahQiong/RobustSCGMMで見ることができる。

This paper proposes two split-and-conquer (SC) learning estimators for finite mixture models that are tolerant to Byzantine failures. In SC learning, individual machines obtain local estimates, which are then transmitted to a central server for aggregation. During this communication, the server may receive malicious or incorrect information from some local machines, a scenario known as Byzantine failures. While SC learning approaches have been devised to mitigate Byzantine failures in statistical models with Euclidean parameters, developing Byzantine-tolerant methods for finite mixture models with non-Euclidean parameters requires a distinct strategy. Our proposed distance-based methods are hyperparameter tuning free, unlike existing methods, and are resilient to Byzantine failures while achieving high statistical efficiency. We validate the effectiveness of our methods both theoretically and empirically via experiments on simulated and real data from machine learning applications for digit recognition. The code for the experiment can be found at https://github.com/SarahQiong/RobustSCGMM.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# 構造に基づく医薬品設計における直接選好最適化の分解

Decomposed Direct Preference Optimization for Structure-Based Drug Design ( http://arxiv.org/abs/2407.13981v1 )

ライセンス: Link先を確認
Xiwei Cheng, Xiangxin Zhou, Yuwei Yang, Yu Bao, Quanquan Gu, (参考訳) 拡散モデルは、Structure-Based Drug Design (SBDD)の有望な結果を得た。 それでも、高品質なタンパク質サブポケットとリガンドデータは比較的乏しく、モデルの生成能力を妨げている。 近年,DPO (Direct Preference Optimization) は,大規模言語モデルや拡散モデルなどの生成モデルのアライメントのための重要なツールとして登場し,モデル出力を直接人間の好みに合わせることで,柔軟性と精度の向上を実現している。 この進歩に基づいて、本稿では、DPOをSBDDに導入する。 医薬ニーズに適応する拡散モデルを, 精巧に設計された化学スコア関数と整合させることにより調整する。 本稿では,分子をアームと足場に分解し,局所的なサブ構造とグローバルな分子レベルで選好最適化を行うDecompDPOという新しい構造に基づく分子最適化手法を提案する。 特に、DecompDPOは、(1)様々なタンパク質ファミリーにまたがる分子生成のための微調整済み拡散モデル、(2)生成後に特定のタンパク質サブポケットが与えられる分子最適化の2つの目的のために効果的に使用できる。 CrossDocked2020ベンチマークの大規模な実験によると、DecompDPOは分子生成と最適化の両方でモデル性能を著しく改善し、100%のメディア高親和性と54.9%の成功率を示した。

Diffusion models have achieved promising results for Structure-Based Drug Design (SBDD). Nevertheless, high-quality protein subpocket and ligand data are relatively scarce, which hinders the models' generation capabilities. Recently, Direct Preference Optimization (DPO) has emerged as a pivotal tool for the alignment of generative models such as large language models and diffusion models, providing greater flexibility and accuracy by directly aligning model outputs with human preferences. Building on this advancement, we introduce DPO to SBDD in this paper. We tailor diffusion models to pharmaceutical needs by aligning them with elaborately designed chemical score functions. We propose a new structure-based molecular optimization method called DecompDPO, which decomposes the molecule into arms and scaffolds and performs preference optimization at both local substructure and global molecule levels, allowing for more precise control with fine-grained preferences. Notably, DecompDPO can be effectively used for two main purposes: (1) fine-tuning pretrained diffusion models for molecule generation across various protein families, and (2) molecular optimization given a specific protein subpocket after generation. Extensive experiments on the CrossDocked2020 benchmark show that DecompDPO significantly improves model performance in both molecule generation and optimization, with up to 100% Median High Affinity and a 54.9% Success Rate.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# 音声認識性能における声道差の再検討 : 提示による結語の役割

Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance ( http://arxiv.org/abs/2407.13982v1 )

ライセンス: Link先を確認
Changye Li, Trevor Cohen, Serguei Pakhomov, (参考訳) 大量のオーディオデータに基づいて訓練された自動音声認識(ASR)モデルは、ビデオキャプションから医療やその他の領域で使用される自動アシスタントまで、さまざまなアプリケーションで音声をテキストに変換するために広く使用されている。 そのため、ASRモデルとその使用法が公平で公平であることが重要である。 地域アフリカ系アメリカ人言語コーパス(CORAAL)の商業的ASRシステムの性能を調べる以前の研究は、アフリカ系アメリカ人英語(AAE)のASR性能を著しく悪化させた。 現在の研究では、CORAALデータセット上での現在の最先端ニューラルネットワークベースのASRシステム(Whisper、OpenAI)のパフォーマンスを調べることで、この格差の根底にある要因を理解することを目指している。 この研究の結果、2つの重要な発見が判明した。 第1報では, 近隣地域においても有意な方言変化が認められたこと, AAE の ASR 性能は, ASR モデルの微調整によりある程度改善可能であることを確認した。 2つ目は、データセット内の音声録音の実践の違いがASRの精度に重大な影響を及ぼし、その結果、言語使用と記録品質の両方が研究場所によって異なるという、'confounding by provenance'効果が生じるという、CORAALに関する以前の研究で議論されていない新しい発見である。 これらの知見は、ASRの精度のバイアスが、ASR技術が用いられている様々な生命領域の格差に負の下流効果をもたらす可能性があるため、神経性ASRモデルに存在する公正性と偏見を調べる際に、記録品質と固有の言語多様性の影響を解消するためのさらなる体系的な研究の必要性を浮き彫りにしている。

Automatic speech recognition (ASR) models trained on large amounts of audio data are now widely used to convert speech to written text in a variety of applications from video captioning to automated assistants used in healthcare and other domains. As such, it is important that ASR models and their use is fair and equitable. Prior work examining the performance of commercial ASR systems on the Corpus of Regional African American Language (CORAAL) demonstrated significantly worse ASR performance on African American English (AAE). The current study seeks to understand the factors underlying this disparity by examining the performance of the current state-of-the-art neural network based ASR system (Whisper, OpenAI) on the CORAAL dataset. Two key findings have been identified as a result of the current study. The first confirms prior findings of significant dialectal variation even across neighboring communities, and worse ASR performance on AAE that can be improved to some extent with fine-tuning of ASR models. The second is a novel finding not discussed in prior work on CORAAL: differences in audio recording practices within the dataset have a significant impact on ASR accuracy resulting in a ``confounding by provenance'' effect in which both language use and recording quality differ by study location. These findings highlight the need for further systematic investigation to disentangle the effects of recording quality and inherent linguistic diversity when examining the fairness and bias present in neural ASR models, as any bias in ASR accuracy may have negative downstream effects on disparities in various domains of life in which ASR technology is used.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# 局所発振器を用いた連続可変量子秘密共有の実現

Practical continuous-variable quantum secret sharing using local local oscillator ( http://arxiv.org/abs/2407.13983v1 )

ライセンス: Link先を確認
Qin Liao, Zhuoying Fei, Lei Huang, Xiquan Fu, (参考訳) 連続可変量子秘密共有(CVQSS)は理論上は安全であることが証明されているが、様々なローカル発振器(LO)による攻撃には弱い可能性がある。 そこで我々は,LLO-CVQSSと呼ばれるローカルLO(LLO)を用いた実用的なCVQSS方式を提案する。 このスキームでは、LOはもはや各ユーザーによって生成されるのではなく、正統派、すなわちディーラーによって局所的に生成される。 これにより、すべてのLOが信頼できないチャネルを通じて送信される必要がなくなるため、CVQSSシステムは全てのLOを標的とした攻撃に対して自然に免疫するようになり、その実用的安全性が大幅に向上する。 また,LLO-CVQSSの位相補償法を設計し,システム全体の位相雑音を除去する手法を開発した。 最終的にLLO-CVQSSのノイズモデルを構築し,そのセキュリティを盗聴者および不正直なユーザの両方に対して適用する。 シミュレーションにより,LLO-CVQSSは同時に30ユーザをサポートし,最大送信距離が112kmに達することが判明した。

Although continuous-variable quantum secret sharing (CVQSS) has been theoretically proven to be secure, it may still be vulnerable to various local oscillator (LO)-aimed attacks. To close this loophole, we propose a practical CVQSS scheme using local LO (LLO), which is called LLO-CVQSS. In this scheme, LO is no longer generated by each user but can be locally generated by the legitimate party, i.e., the dealer. This waives the necessity that all LOs have to be transmitted through an untrusted channel, which makes CVQSS system naturally immune to all LO-aimed attacks, greatly enhancing its practical security. We also develop a specially designed phase compensation method for LLO-CVQSS so that the phase noise of the whole system can be eliminated. We finally construct a noise model for LLO-CVQSS and derive its security bound against both eavesdroppers and dishonest users. Numerical simulation shows that LLO-CVQSS is able to support 30 users at the same time and its maximal transmission distance reaches 112 km, revealing that LLO-CVQSS is not only has the ability to defend itself against all LO-aimed attacks but also has the potential for building large-scale practical quantum communication networks.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# 深部機能手術 : 高精度かつ効率的なマルチエグジットネットワークを目指して

Deep Feature Surgery: Towards Accurate and Efficient Multi-Exit Networks ( http://arxiv.org/abs/2407.13986v1 )

ライセンス: Link先を確認
Cheng Gong, Yao Chen, Qiuyang Luo, Ye Lu, Tao Li, Yuzhi Zhang, Yufei Sun, Le Zhang, (参考訳) マルチエグジットネットワークは、バックボーンネットワークと重みを複数のエグジット間で共有することで、効率的なモデル推論のための有望なアーキテクチャである。 しかし、共有重みの勾配の衝突は準最適精度をもたらす。 本稿では,マルチエクイットネットワークのトレーニングにおいて,機能分割と機能参照アプローチを併用したDeep Feature Surgery(\methodname)を提案する。 特徴分断は、すべての出口間の深さ軸に沿った共有特徴を分離し、各出口の合同最適化を同時に促進する。 その後、特徴参照により、様々な深さにまたがる異なる出口のマルチスケール機能を強化し、モデルの精度を向上する。 さらに、‘methodname~reduces the training operations with the reduce complexity of backpropagation。 Cifar100およびImageNetデータセットの実験結果によると、‘methodname~provides to a \textbf{50.00\%} reduce in training time, and a \textbf{6.94\%} enhancement in accuracy when contrast with baseline method across various model and task。 MSDNetの予算バッチ分類評価は、DFSがCifar100のベースラインメソッドと同じ分類精度を達成するために、画像あたりの平均FLOPを約$\mathbf{2}\boldsymbol{\times}$より少なくしていることを示している。

Multi-exit network is a promising architecture for efficient model inference by sharing backbone networks and weights among multiple exits. However, the gradient conflict of the shared weights results in sub-optimal accuracy. This paper introduces Deep Feature Surgery (\methodname), which consists of feature partitioning and feature referencing approaches to resolve gradient conflict issues during the training of multi-exit networks. The feature partitioning separates shared features along the depth axis among all exits to alleviate gradient conflict while simultaneously promoting joint optimization for each exit. Subsequently, feature referencing enhances multi-scale features for distinct exits across varying depths to improve the model accuracy. Furthermore, \methodname~reduces the training operations with the reduced complexity of backpropagation. Experimental results on Cifar100 and ImageNet datasets exhibit that \methodname~provides up to a \textbf{50.00\%} reduction in training time and attains up to a \textbf{6.94\%} enhancement in accuracy when contrasted with baseline methods across diverse models and tasks. Budgeted batch classification evaluation on MSDNet demonstrates that DFS uses about $\mathbf{2}\boldsymbol{\times}$ fewer average FLOPs per image to achieve the same classification accuracy as baseline methods on Cifar100.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# RealViformer: 現実世界のスーパーリゾリューションに注意を喚起する

RealViformer: Investigating Attention for Real-World Video Super-Resolution ( http://arxiv.org/abs/2407.13987v1 )

ライセンス: Link先を確認
Yuehan Zhang, Angela Yao, (参考訳) 現実世界のビデオスーパーレゾリューション(VSR)では、ビデオはワイルドな劣化とアーティファクトに悩まされる。 VSRの手法、特にリカレントな手法は、実世界の設定で時間をかけてアーティファクトを伝播する傾向があり、画像の超解像よりも脆弱である。 本稿では,人工物がVSRの共分散に基づく注意機構に与える影響について検討する。 空間上の共分散を計算する空間的注意とチャネル的注意を比べると、後者は人工物にはあまり敏感ではない。 しかし、チャネルの注意は、出力チャネル間の高い共分散によって証明されるように、特徴の冗長性につながる。 そこで我々は, 高チャネル共分散の影響に対抗するために, 圧縮励起機構や共分散に基づく再スケーリングなどの簡単な手法を探求する。 そこで本研究では,RealViformerを提案する。 このチャネルアテンションベースの実世界のVSRフレームワークは、パラメータが少なく、ランタイムが高速な2つの実世界のVSRデータセットの最先端を超越している。 ソースコードはhttps://github.com/Yuehan717/RealViformer.comで入手できる。

In real-world video super-resolution (VSR), videos suffer from in-the-wild degradations and artifacts. VSR methods, especially recurrent ones, tend to propagate artifacts over time in the real-world setting and are more vulnerable than image super-resolution. This paper investigates the influence of artifacts on commonly used covariance-based attention mechanisms in VSR. Comparing the widely-used spatial attention, which computes covariance over space, versus the channel attention, we observe that the latter is less sensitive to artifacts. However, channel attention leads to feature redundancy, as evidenced by the higher covariance among output channels. As such, we explore simple techniques such as the squeeze-excite mechanism and covariance-based rescaling to counter the effects of high channel covariance. Based on our findings, we propose RealViformer. This channel-attention-based real-world VSR framework surpasses state-of-the-art on two real-world VSR datasets with fewer parameters and faster runtimes. The source code is available at https://github.com/Yuehan717/RealViformer.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# 大規模言語モデルからの知識を積極的に拡張するデータ制限グラフニューラルネットワークの強化

Enhancing Data-Limited Graph Neural Networks by Actively Distilling Knowledge from Large Language Models ( http://arxiv.org/abs/2407.13989v1 )

ライセンス: Link先を確認
Quan Li, Tianxiang Zhao, Lingwei Chen, Junjie Xu, Suhang Wang, (参考訳) グラフは、ソーシャルネットワーク分析、バイオインフォマティクス、レコメンデーションシステムなど、さまざまな領域におけるコンテンツ分析の重要なデータ構造として現れてきた。 この文脈における基本的なタスクであるノード分類は、一般的にグラフニューラルネットワーク(GNN)を使用して取り組まれる。 残念ながら、従来のGNNは、実世界のアプリケーションで数ショットのノード分類タスクが頻繁に行われているにもかかわらず、ラベル付きノードがほとんどないシナリオでは依然として課題に直面している。 この課題に対処するため,グラフメタ学習,移動学習,Large Language Models(LLM)に基づく手法など,さまざまなアプローチが提案されている。 しかし、従来のメタラーニングとトランスファーラーニングは、しばしば基礎クラスからの事前の知識を必要とするか、ラベルなしノードの潜在的な利点を活用できない。 一方、LLMベースの手法は、LLMのゼロショット機能を見落とし、生成されたコンテキストの品質に大きく依存する。 本稿では、LLMとGNNを統合し、LLMのゼロショット推論と推論機能を活用し、GNNの性能を高めるためにグラフ-LLMベースのアクティブラーニングパラダイムを用いる新しいアプローチを提案する。 大規模な実験により,ノード分類精度をかなり制限されたラベル付きデータで向上し,最先端のベースラインをかなりのマージンで上回った。

Graphs have emerged as critical data structures for content analysis in various domains, such as social network analysis, bioinformatics, and recommendation systems. Node classification, a fundamental task in this context, is typically tackled using graph neural networks (GNNs). Unfortunately, conventional GNNs still face challenges in scenarios with few labeled nodes, despite the prevalence of few-shot node classification tasks in real-world applications. To address this challenge, various approaches have been proposed, including graph meta-learning, transfer learning, and methods based on Large Language Models (LLMs). However, traditional meta-learning and transfer learning methods often require prior knowledge from base classes or fail to exploit the potential advantages of unlabeled nodes. Meanwhile, LLM-based methods may overlook the zero-shot capabilities of LLMs and rely heavily on the quality of generated contexts. In this paper, we propose a novel approach that integrates LLMs and GNNs, leveraging the zero-shot inference and reasoning capabilities of LLMs and employing a Graph-LLM-based active learning paradigm to enhance GNNs' performance. Extensive experiments demonstrate the effectiveness of our model in improving node classification accuracy with considerably limited labeled data, surpassing state-of-the-art baselines by significant margins.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# LLAssist: 大規模言語モデルを用いた文献レビューの自動化ツール

LLAssist: Simple Tools for Automating Literature Review Using Large Language Models ( http://arxiv.org/abs/2407.13993v1 )

ライセンス: Link先を確認
Christoforus Yoga Haryanto, (参考訳) 本稿では,学術研究における文献レビューの合理化を目的としたオープンソースツールであるLAssistを紹介する。 科学出版物の指数関数的な成長の時代、研究者は大量の文学を効率的に処理する上で困難に直面している。 LLAssistは、大規模な言語モデル(LLM)と自然言語処理(NLP)技術を活用して、レビュープロセスの重要な側面を自動化することでこの問題に対処する。 具体的には,研究論文から重要な情報を抽出し,ユーザ定義された研究課題との関連性を評価する。 LLAssistの目標は、包括的な文献レビューに必要な時間と労力を大幅に削減することであり、研究者は初期スクリーニングタスクよりも、情報を分析し、合成することに集中することができる。 LLAssistは、文献レビューのワークフローの一部を自動化することによって、学術出版物の増大量をより効率的に管理することを目指している。

This paper introduces LLAssist, an open-source tool designed to streamline literature reviews in academic research. In an era of exponential growth in scientific publications, researchers face mounting challenges in efficiently processing vast volumes of literature. LLAssist addresses this issue by leveraging Large Language Models (LLMs) and Natural Language Processing (NLP) techniques to automate key aspects of the review process. Specifically, it extracts important information from research articles and evaluates their relevance to user-defined research questions. The goal of LLAssist is to significantly reduce the time and effort required for comprehensive literature reviews, allowing researchers to focus more on analyzing and synthesizing information rather than on initial screening tasks. By automating parts of the literature review workflow, LLAssist aims to help researchers manage the growing volume of academic publications more efficiently.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# Track-MDP:制御センシングによる目標追跡のための強化学習

Track-MDP: Reinforcement Learning for Target Tracking with Controlled Sensing ( http://arxiv.org/abs/2407.13995v1 )

ライセンス: Link先を確認
Adarsh M. Subramaniam, Argyrios Gerogiannis, James Z. Hare, Venugopal V. Veeravalli, (参考訳) センサ管理(または制御されたセンシング)による目標追跡のための最先端技術はモデルベースであり、部分観測可能なマルコフ決定プロセス(POMDP)の定式化によって得られる。 本稿では、対象/対象の運動モデルが観測者にとって未知であるような状況下で、その問題に対する強化学習(RL)アプローチについて検討する。 目標ダイナミクスは時間的に定常であり、状態空間と観測空間は離散的であり、特定の(事前不明な)センサ制御動作下での目標の位置を完全に観測可能であると仮定する。 そこで,POMDPの定式化よりも新しいマルコフ決定プロセス(MDP)が,トラックMDPと呼ばれる制御センシングのトラッキング問題に対して提案される。 POMDP の定式化とは対照的に、トラック-MDP の定式化は RL ベースの解に対して有効である。 RLにより近似されたトラックMDP定式化の最適方針は、すべての重要な目標経路を確実に追跡することが保証されている。 Track-MDP 法は最適 POMDP 法と比較し,最適 Track-MDP 法における無限水平追尾報酬は最適 POMDP 法と同一であることを示した。 シミュレーションでは、トラックMDPベースのRLが目標を高精度に追跡できるポリシーに導かれることを示した。

State of the art methods for target tracking with sensor management (or controlled sensing) are model-based and are obtained through solutions to Partially Observable Markov Decision Process (POMDP) formulations. In this paper a Reinforcement Learning (RL) approach to the problem is explored for the setting where the motion model for the object/target to be tracked is unknown to the observer. It is assumed that the target dynamics are stationary in time, the state space and the observation space are discrete, and there is complete observability of the location of the target under certain (a priori unknown) sensor control actions. Then, a novel Markov Decision Process (MDP) rather than POMDP formulation is proposed for the tracking problem with controlled sensing, which is termed as Track-MDP. In contrast to the POMDP formulation, the Track-MDP formulation is amenable to an RL based solution. It is shown that the optimal policy for the Track-MDP formulation, which is approximated through RL, is guaranteed to track all significant target paths with certainty. The Track-MDP method is then compared with the optimal POMDP policy, and it is shown that the infinite horizon tracking reward of the optimal Track-MDP policy is the same as that of the optimal POMDP policy. In simulations it is demonstrated that Track-MDP based RL leads to a policy that can track the target with high accuracy.
翻訳日:2024-07-22 19:03:23 公開日:2024-07-19
# RAG-QAアリーナ:長期検索質問応答に対するドメインロバスト性の評価

RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering ( http://arxiv.org/abs/2407.13998v1 )

ライセンス: Link先を確認
Rujun Han, Yuhao Zhang, Peng Qi, Yumo Xu, Jenyuan Wang, Lan Liu, William Yang Wang, Bonan Min, Vittorio Castelli, (参考訳) 検索拡張生成(RAG-QA)に基づく質問応答は,NLPにおける重要な研究課題であり,幅広い実世界の応用がある。 しかし,既存のほとんどのデータセットは単一ソースコーパスを用いて構築されているか,あるいは短い抽出結果で構成されているため,クロスドメイン一般化に基づく大規模言語モデル(LLM)に基づくRAG-QAシステムの評価には不十分である。 この制限に対処するために、Long-form RobustQA (LFRQA) という、複数の文書から短い抽出回答を単一のコヒーレントな物語に統合し、7つのドメインにまたがる26Kクエリと大きなコーパスをカバーする、人間による長文の回答からなる新しいデータセットを作成します。 さらに,LLMを評価器として,モデル生成回答とLFRQAの回答を直接比較することにより,RAG-QAアリーナを提案する。 RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。 さらに、最も競争力のあるLLMの回答の41.3%はLFRQAの回答よりも好まれており、RAG-QAアリーナは将来の研究のための挑戦的な評価プラットフォームであることを示した。

Question answering based on retrieval augmented generation (RAG-QA) is an important research topic in NLP and has a wide range of real-world applications. However, most existing datasets for this task are either constructed using a single source corpus or consist of short extractive answers, which fall short of evaluating large language model (LLM) based RAG-QA systems on cross-domain generalization. To address these limitations, we create Long-form RobustQA (LFRQA), a new dataset comprising human-written long-form answers that integrate short extractive answers from multiple documents into a single, coherent narrative, covering 26K queries and large corpora across seven different domains. We further propose RAG-QA Arena by directly comparing model-generated answers against LFRQA's answers using LLMs as evaluators. We show via extensive experiments that RAG-QA Arena and human judgments on answer quality are highly correlated. Moreover, only 41.3% of the most competitive LLM's answers are preferred to LFRQA's answers, demonstrating RAG-QA Arena as a challenging evaluation platform for future research.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# NeLLCom-X: 言語学習とグループコミュニケーションをシミュレートする包括的ニューラルネットワークフレームワーク

NeLLCom-X: A Comprehensive Neural-Agent Framework to Simulate Language Learning and Group Communication ( http://arxiv.org/abs/2407.13999v1 )

ライセンス: Link先を確認
Yuchen Lian, Tessa Verhoef, Arianna Bisazza, (参考訳) 計算言語学の最近の進歩には、ランダムな記号の集合から始まる相互作用するニューラルネットワークエージェントによる人間のような言語の出現をシミュレートすることが含まれる。 最近導入されたNeLLComフレームワーク(Lian et al , 2023)により、エージェントはまず人工言語を学習し、それを通信に使用することができる。 このフレームワーク(NeLLCom-X)は、言語学習性、通信圧力、グループサイズ効果の相互作用を調べるために、より現実的な役割交代エージェントとグループコミュニケーションを導入することで拡張される。 我々は,単語順/ケースマーキングトレードオフの出現をシミュレートした先行研究から得られた重要な知見を複製してNeLLCom-Xを検証する。 次に,相互作用が言語収束とトレードオフの出現にどのように影響するかを検討する。 このフレームワークは、言語進化における相互作用とグループダイナミクスの重要性を強調し、多様な言語的側面の将来のシミュレーションを促進する。

Recent advances in computational linguistics include simulating the emergence of human-like languages with interacting neural network agents, starting from sets of random symbols. The recently introduced NeLLCom framework (Lian et al., 2023) allows agents to first learn an artificial language and then use it to communicate, with the aim of studying the emergence of specific linguistics properties. We extend this framework (NeLLCom-X) by introducing more realistic role-alternating agents and group communication in order to investigate the interplay between language learnability, communication pressures, and group size effects. We validate NeLLCom-X by replicating key findings from prior research simulating the emergence of a word-order/case-marking trade-off. Next, we investigate how interaction affects linguistic convergence and emergence of the trade-off. The novel framework facilitates future simulations of diverse linguistic aspects, emphasizing the importance of interaction and group dynamics in language evolution.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# 直接選好最適化によるエンコーダ・デコーダモデルによる臨床読解

Clinical Reading Comprehension with Encoder-Decoder Models Enhanced by Direct Preference Optimization ( http://arxiv.org/abs/2407.14000v1 )

ライセンス: Link先を確認
Md Sultan Al Nahian, Ramakanth Kavuluru, (参考訳) 臨床テキストに対する抽出的回答は、病院で発生する臨床テキストの希薄化に対処するための重要なニーズである。 エンコーダモデル(例:BERT)はこの読解タスクで人気があるが、最近はエンコーダ-デコーダモデル(例:T5)が増えている。 また、デコーダのみのLLMを人間の好みに合わせるための選好最適化手法が出現した。 本稿では,エンコーダ・デコーダモデルと直接選好最適化(DPO)手法を組み合わせることにより,RadQAラジオグラフィ質問応答タスクの先行技術よりも12~15F1ポイント向上する。 我々の知る限り、DPO法は人間の入力を使わずに好みデータを生成する新しいヒューリスティックスを通して理解を読み取るのにも有効であることを示す最初の試みである。

Extractive question answering over clinical text is a crucial need to help deal with the deluge of clinical text generated in hospitals. While encoder models (e.g., BERT) have been popular for this reading comprehension task, recently encoder-decoder models (e.g., T5) are on the rise. There is also the emergence of preference optimization techniques to align decoder-only LLMs with human preferences. In this paper, we combine encoder-decoder models with the direct preference optimization (DPO) method to improve over prior state of the art for the RadQA radiology question answering task by 12-15 F1 points. To the best of our knowledge, this effort is the first to show that DPO method also works for reading comprehension via novel heuristics to generate preference data without human inputs.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# クラフトアセンブリタスクのためのコンポーネント選択

Component Selection for Craft Assembly Tasks ( http://arxiv.org/abs/2407.14001v1 )

ライセンス: Link先を確認
Vitor Hideyo Isume, Takuya Kiyokawa, Natsuki Yamanobe, Yukiyasu Domae, Weiwei Wan, Kensuke Harada, (参考訳) 従来の手作り工芸品にインスパイアされ、利用可能なオブジェクトに基づいてアセンブリを即興で行うことで、クラフトアセンブリータスクを正式に導入する。 ロボット組立作業であり、使用可能なオブジェクトを使用して、そのパーツに直接対応しない所定の対象オブジェクトの正確な表現を構築する。 本研究は,対象物のRGB画像が野生である場合に,最終工芸品の利用可能なオブジェクトのサブセットを選択することに焦点を当てる。 マスクセグメンテーションニューラルネットワークを用いて、目に見える部分を特定し、ラベル付きテンプレートメッシュを検索する。 これらのメッシュは、最も適切なテンプレートを決定するために最適化される。 そこで本研究では,テンプレートメッシュの一部をキュービドやシリンダーなどの原始的な形状に簡略化することを提案する。 最後に,ローカルとグローバルの比率に基づいて,シーン内の対応関係を見つけるための探索アルゴリズムを設計する。 我々は,すべての組み合わせを考慮に入れた比較のためのベースラインを開発し,前景地図やマスク精度で使用される共通指標の最高スコアの組み合わせを選択する。 提案手法は2つの異なるシーンのベースラインに匹敵する結果を達成し,実世界のシナリオにおける実装の質的な結果を示す。

Inspired by traditional handmade crafts, where a person improvises assemblies based on the available objects, we formally introduce the Craft Assembly Task. It is a robotic assembly task that involves building an accurate representation of a given target object using the available objects, which do not directly correspond to its parts. In this work, we focus on selecting the subset of available objects for the final craft, when the given input is an RGB image of the target in the wild. We use a mask segmentation neural network to identify visible parts, followed by retrieving labelled template meshes. These meshes undergo pose optimization to determine the most suitable template. Then, we propose to simplify the parts of the transformed template mesh to primitive shapes like cuboids or cylinders. Finally, we design a search algorithm to find correspondences in the scene based on local and global proportions. We develop baselines for comparison that consider all possible combinations, and choose the highest scoring combination for common metrics used in foreground maps and mask accuracy. Our approach achieves comparable results to the baselines for two different scenes, and we show qualitative results for an implementation in a real-world scenario.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# 時系列生成学習と脳画像解析への応用

Time Series Generative Learning with Application to Brain Imaging Analysis ( http://arxiv.org/abs/2407.14003v1 )

ライセンス: Link先を確認
Zhenghao Li, Sanyou Wu, Long Feng, (参考訳) 本稿では、脳の老化過程と神経変性疾患の理解を動機として、シーケンシャルな画像データ、特にMRI、fMRI、CTなどの脳画像データの解析に焦点を当てる。 この目的を達成するために,時系列コンテキストにおける画像生成について検討する。 具体的には、隣接するペア間の$f$-divergenceから導かれるmin-max問題を定式化し、非パラメトリックな方法で時系列生成を学習する。 このジェネレータは、先行ラグ-k観測とランダムベクトルを基準分布から変換することで、将来の画像を生成することができる。 深層ニューラルネットワーク学習生成器を用いて、生成したシーケンスの結合分布がマルコフと条件不変条件の下で潜在真理に収束することを証明した。 さらに、複数のサンプルに対応するために、生成メカニズムをパネルデータシナリオに拡張する。 このメカニズムの有効性は、アルツハイマー病神経画像イニシアチブから実際の脳MRIシーケンスを生成することによって評価される。 これらの生成された画像シーケンスは、アルツハイマー病の検出などの下流タスクのパフォーマンスを高めるために、データ拡張として使用することができる。

This paper focuses on the analysis of sequential image data, particularly brain imaging data such as MRI, fMRI, CT, with the motivation of understanding the brain aging process and neurodegenerative diseases. To achieve this goal, we investigate image generation in a time series context. Specifically, we formulate a min-max problem derived from the $f$-divergence between neighboring pairs to learn a time series generator in a nonparametric manner. The generator enables us to generate future images by transforming prior lag-k observations and a random vector from a reference distribution. With a deep neural network learned generator, we prove that the joint distribution of the generated sequence converges to the latent truth under a Markov and a conditional invariance condition. Furthermore, we extend our generation mechanism to a panel data scenario to accommodate multiple samples. The effectiveness of our mechanism is evaluated by generating real brain MRI sequences from the Alzheimer's Disease Neuroimaging Initiative. These generated image sequences can be used as data augmentation to enhance the performance of further downstream tasks, such as Alzheimer's disease detection.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# 統一3次元表現学習のためのマルチモーダル関係蒸留

Multi-modal Relation Distillation for Unified 3D Representation Learning ( http://arxiv.org/abs/2407.14007v1 )

ライセンス: Link先を確認
Huiqun Wang, Yiping Bao, Panwang Pan, Zeming Li, Xiao Liu, Ruijie Yang, Di Huang, (参考訳) 近年の3次元点雲のマルチモーダル事前訓練の進歩は、3次元形状とそれに対応する2次元画像と言語記述に異質な特徴を整合させることによって有望な結果を示した。 しかし、現在の単純解はしばしばサンプル間の複雑な構造関係を見落とし、多モード学習の完全な能力を制限する可能性がある。 この問題を解決するために,3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を効果的に蒸留する3次元事前学習フレームワークであるMulti-modal Relation Distillation (MRD)を導入する。 MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。 特に、MDDは、下流のゼロショット分類タスクとモダリティ横断検索タスクの大幅な改善を実現し、新しい最先端のパフォーマンスを提供する。

Recent advancements in multi-modal pre-training for 3D point clouds have demonstrated promising results by aligning heterogeneous features across 3D shapes and their corresponding 2D images and language descriptions. However, current straightforward solutions often overlook intricate structural relations among samples, potentially limiting the full capabilities of multi-modal learning. To address this issue, we introduce Multi-modal Relation Distillation (MRD), a tri-modal pre-training framework, which is designed to effectively distill reputable large Vision-Language Models (VLM) into 3D backbones. MRD aims to capture both intra-relations within each modality as well as cross-relations between different modalities and produce more discriminative 3D shape representations. Notably, MRD achieves significant improvements in downstream zero-shot classification tasks and cross-modality retrieval tasks, delivering new state-of-the-art performance.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# 乳房内間接物体識別回路の検討

Investigating the Indirect Object Identification circuit in Mamb ( http://arxiv.org/abs/2407.14008v1 )

ライセンス: Link先を確認
Danielle Ensign, Adrià Garriga-Alonso, (参考訳) 現在の解釈可能性技術は、将来のモデルにどのように一般化されるのか? 関連するケーススタディは、Transformersに匹敵するスケーリングを備えた、最近の反復アーキテクチャであるMambaである。 我々は,マンバ前技法をマンバに適用し,間接物体識別(IOI)タスクに責任を持つ回路を部分的にリバースエンジニアリングする。 私たちの技術は 1)レイヤ39は重要なボトルネックです。 2)第39層における畳み込みは、1つの位置を前方に指定し、 3) 名前エンティティはLayer 39のSSMに線形に格納される。 最後に,Mamba IOI 回路を識別するために,自動回路発見ツールである位置属性パッシングを適用した。 コントリビューションは,回路ベースの機械的解釈可能性ツールがMambaアーキテクチャに有効であることを示す最初の証拠を提供する。

How well will current interpretability techniques generalize to future models? A relevant case study is Mamba, a recent recurrent architecture with scaling comparable to Transformers. We adapt pre-Mamba techniques to Mamba and partially reverse-engineer the circuit responsible for the Indirect Object Identification (IOI) task. Our techniques provide evidence that 1) Layer 39 is a key bottleneck, 2) Convolutions in layer 39 shift names one position forward, and 3) The name entities are stored linearly in Layer 39's SSM. Finally, we adapt an automatic circuit discovery tool, positional Edge Attribution Patching, to identify a Mamba IOI circuit. Our contributions provide initial evidence that circuit-based mechanistic interpretability tools work well for the Mamba architecture.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# 対話型ポイントクラウドセグメンテーションにおけるインスタンスのスケール格差

Scale Disparity of Instances in Interactive Point Cloud Segmentation ( http://arxiv.org/abs/2407.14009v1 )

ライセンス: Link先を確認
Chenrui Han, Xuan Yu, Yuxuan Xie, Yili Liu, Sitong Mao, Shunbo Zhou, Rong Xiong, Yue Wang, (参考訳) インタラクティブなポイントクラウドセグメンテーションは、3Dシーンを理解する上で重要なタスクとなり、ユーザーはクリックのような単純なインタラクションでセグメンテーションモデルをガイドすることが可能になった。 しかし、対話的なセグメンテーションの領域では、インスタンスの意味はインスタンスセグメンテーションと異なる。 既存の手法では, 物分類の区分化や, 規模格差による難しさを無視して, 物分類に焦点が当てられている。 このギャップを埋めるために、私たちはClickFormerという革新的なインタラクティブなポイントクラウドセグメンテーションモデルを提案します。 本稿では,グローバルなクエリサンプリング戦略により,クリッククエリを増大させるクエリ拡張モジュールを提案する。 さらに,クエリ・ボクセル・トランスフォーマーにおいて,偽陽性発生のリスクを軽減するため,他のネットワーク構造の改善とともに,モデルのセグメンテーション性能をさらに向上するため,グローバルな注意を払っている。 実験によると、ClickFormerは既存のインタラクティブなポイントクラウドセグメンテーションメソッドを屋内と屋外の両方のデータセットで上回り、オープンワールド環境でのユーザクリックが少なく、より正確なセグメンテーション結果を提供する。

Interactive point cloud segmentation has become a pivotal task for understanding 3D scenes, enabling users to guide segmentation models with simple interactions such as clicks, therefore significantly reducing the effort required to tailor models to diverse scenarios and new categories. However, in the realm of interactive segmentation, the meaning of instance diverges from that in instance segmentation, because users might desire to segment instances of both thing and stuff categories that vary greatly in scale. Existing methods have focused on thing categories, neglecting the segmentation of stuff categories and the difficulties arising from scale disparity. To bridge this gap, we propose ClickFormer, an innovative interactive point cloud segmentation model that accurately segments instances of both thing and stuff categories. We propose a query augmentation module to augment click queries by a global query sampling strategy, thus maintaining consistent performance across different instance scales. Additionally, we employ global attention in the query-voxel transformer to mitigate the risk of generating false positives, along with several other network structure improvements to further enhance the model's segmentation performance. Experiments demonstrate that ClickFormer outperforms existing interactive point cloud segmentation methods across both indoor and outdoor datasets, providing more accurate segmentation results with fewer user clicks in an open-world setting.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# ナノスケール磁石を用いた窒素空孔スピンの高効率コヒーレント量子制御

Energy efficient coherent quantum control of nitrogen vacancy (NV) spin with nanoscale magnets ( http://arxiv.org/abs/2407.14018v1 )

ライセンス: Link先を確認
Md Fahim F Chowdhury, Adi Jung, Lea La Spina, Ausrine Bartasyte, Samuel Margueron, Jayasimha Atulasimha, (参考訳) 本研究では,NV中心に近接するナノスケール磁石から発生するマイクロ波場を有するダイヤモンド中の窒素空孔(NV)中心のコヒーレント量子制御について検討した。 その結果, アンテナを用いたマイクロ波発生よりも400倍, 4桁のエネルギー効率を持つ表面音響波(SAW)励起により, 横方向の異方性ナノマグネットから200nm×180nmまでの形状異方性ナノマグネットの近接場マイクロ波を用いた高コントラストラビ発振による顕著なコヒーレント制御が得られた。 さらに、そのようなナノマグネットを駆動する音響パワーの変動は、Rabi周波数を制御できることを示す。 また、スピン-格子緩和時間T1が103/0.5マイクロ秒、スピン-スピン緩和時間T2が1.23+/-0.29マイクロ秒、ラムジーコヒーレンス時間T2*が218+/-27ナノ秒であることも報告した。 ナノスケール磁石を用いた高局所かつエネルギー効率のコヒーレント量子制御は、熱的にノイズの多いマイクロ波回路を置き換えることができ、スケーラブルな量子コンピューティングへの道を示し、ダイヤモンドや他のスピン量子ビットにおけるNV欠陥を検知する。

We investigate coherent quantum control of a nitrogen vacancy (NV) center in diamond with microwave fields generated from a nanoscale magnet that is proximal to the NV center. Our results show remarkable coherent control with high contrast Rabi oscillations using nearfield microwaves from shape anisotropic nanomagnets of lateral dimensions down to 200 nm x 180 nm, driven remotely by surface acoustic wave (SAW) excitation that is at least 400 times and potentially 4 orders of magnitude more energy efficient than generating microwaves with an antenna. Furthermore, we show that varying the acoustic power driving such nanomagnets can achieve control over Rabi frequency. We also report spin-lattice relaxation time T1 is 103 +/-0.5 micro-seconds, the spin-spin relaxation time T2 is 1.23+/-0.29 micro-seconds, and the Ramsey coherence time T2* is 218+/-27 nanoseconds measured using microwave pulses generated by such nanomagnets. The use of the nanoscale magnets to implement highly localized and energy efficient coherent quantum control can replace thermally noisy microwave circuits and demonstrate a path to scalable quantum computing and sensing with NV-defects in diamond and other spin qubits.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# NeuroBind: ニューラルネットワークのための統一型マルチモーダル表現を目指して

NeuroBind: Towards Unified Multimodal Representations for Neural Signals ( http://arxiv.org/abs/2407.14020v1 )

ライセンス: Link先を確認
Fengyu Yang, Chao Feng, Daniel Wang, Tianye Wang, Ziyao Zeng, Zhiyang Xu, Hyoungseob Park, Pengliang Ji, Hanbin Zhao, Yuanning Li, Alex Wong, (参考訳) 神経活動と情報表現を理解することは、脳機能や認知に関する知識の進歩に不可欠である。 神経活動は電気生理学や神経イメージングなどの技術によって測定され、情報処理の様々な側面を反映している。 ディープニューラルネットワークの最近の進歩は、事前訓練されたモデルを用いてこれらの信号を解析するための新しいアプローチを提供する。 しかし、異なるニューラル信号の変調と、高品質なニューラルデータの限られたスケールとの相違により、課題が生じる。 これらの課題に対処するために、脳波、fMRI、カルシウムイメージング、スパイキングデータを含む複数の脳信号タイプを統一する一般的な表現であるNeuroBindを提案する。 これを実現するために、これらの画像ペアリングされたニューラルデータセット内のニューラル信号と、事前学習された視覚言語埋め込みとをアライメントする。 ニューロビンドは、異なるニューロモーダルを相互に相互に研究する最初のモデルであり、様々なニューロサイエンスタスクに高リソースのモーダルモデルを利用することができる。 また,ニューロバイドは,異なるニューラルシグナルモーダルの情報を組み合わせることで,下流のパフォーマンスを高め,異なるニューラル信号モーダルの相補的強度の有効性を示した。 その結果、同一空間にマッピングされた複数のニューラル信号を利用して、下流のタスクを改善し、異なるニューラルモーダルの相補的な強みを示すことができる。 このアプローチは、神経科学研究の進展、AIシステムの改善、神経補綴学と脳-コンピュータインターフェースの開発において大きな可能性を秘めている。

Understanding neural activity and information representation is crucial for advancing knowledge of brain function and cognition. Neural activity, measured through techniques like electrophysiology and neuroimaging, reflects various aspects of information processing. Recent advances in deep neural networks offer new approaches to analyzing these signals using pre-trained models. However, challenges arise due to discrepancies between different neural signal modalities and the limited scale of high-quality neural data. To address these challenges, we present NeuroBind, a general representation that unifies multiple brain signal types, including EEG, fMRI, calcium imaging, and spiking data. To achieve this, we align neural signals in these image-paired neural datasets to pre-trained vision-language embeddings. Neurobind is the first model that studies different neural modalities interconnectedly and is able to leverage high-resource modality models for various neuroscience tasks. We also showed that by combining information from different neural signal modalities, NeuroBind enhances downstream performance, demonstrating the effectiveness of the complementary strengths of different neural modalities. As a result, we can leverage multiple types of neural signals mapped to the same space to improve downstream tasks, and demonstrate the complementary strengths of different neural modalities. This approach holds significant potential for advancing neuroscience research, improving AI systems, and developing neuroprosthetics and brain-computer interfaces.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# GE2E-AC: アクセント分類のための汎用エンド・ツー・エンド・ロストレーニング

GE2E-AC: Generalized End-to-End Loss Training for Accent Classification ( http://arxiv.org/abs/2407.14021v1 )

ライセンス: Link先を確認
Chihiro Watanabe, Hirokazu Kameoka, (参考訳) アクセント分類またはACは、入力発話のアクセントタイプを予測するタスクであり、アクセント付き音声認識とアクセント変換への予備ステップとして使用できる。 既存の研究では、予測アクセントラベルの分類誤差を最小限に抑えるためにニューラルネットワークモデルを訓練することで、しばしばそのような分類が達成されている。 モデル全体の最適化は,本手法の訓練時間における分類損失の観点からのみ行われるので,各話者識別など無関係な特徴からアクセント型を予測することができる。 この問題を解決するために、GE2E-ACを提案する。このモデルを用いて入力発話のアクセント埋め込みやAEを抽出し、同一のアクセントクラスのAEが近いようにする。 提案したGE2E-ACの有効性を,従来のクロスエントロピーに基づく損失をトレーニングしたベースラインモデルと比較した。

Accent classification or AC is a task to predict the accent type of an input utterance, and it can be used as a preliminary step toward accented speech recognition and accent conversion. Existing studies have often achieved such classification by training a neural network model to minimize the classification error of the predicted accent label, which can be obtained as a model output. Since we optimize the entire model only from the perspective of classification loss during training time in this approach, the model might learn to predict the accent type from irrelevant features, such as individual speaker identity, which are not informative during test time. To address this problem, we propose a GE2E-AC, in which we train a model to extract accent embedding or AE of an input utterance such that the AEs of the same accent class get closer, instead of directly minimizing the classification loss. We experimentally show the effectiveness of the proposed GE2E-AC, compared to the baseline model trained with the conventional cross-entropy-based loss.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# 複雑治療における因果推論 : アンケート調査

Causal Inference with Complex Treatments: A Survey ( http://arxiv.org/abs/2407.14022v1 )

ライセンス: Link先を確認
Yingrong Wang, Haoxuan Li, Minqin Zhu, Anpeng Wu, Ruoxuan Xiong, Fei Wu, Kun Kuang, (参考訳) 因果推論は、統計学、マーケティング、医療、教育など様々な分野における説明分析と意思決定において重要な役割を果たしている。 主な課題は治療効果を見積り、介入方針を立てることである。 伝統的に、以前の作品のほとんどが、ユニットが採用するか否かに関わらず、単一の処理しか存在しないというバイナリ処理設定に重点を置いている。 しかし実際には、この処理はより複雑で、多値、連続、またはバンドルの選択肢を含んでいる。 本稿では、これらを複雑な治療として言及し、それらに対処するための因果推論手法を体系的かつ包括的にレビューする。 まず, 問題定義, 基本仮定, および, 特定の条件下での変動の可能性について, 正式に再検討する。 第2に,多値・連続・バンドル処理設定に関する関連手法を逐次検討する。 それぞれの状況において,提案手法を不確定性仮定に適合するものと違反するものの2つのカテゴリに暫定的に分割する。 その後、利用可能なデータセットとオープンソースコードについて議論する。 最後に,これらの研究について概説し,今後の研究の方向性を示唆する。

Causal inference plays an important role in explanatory analysis and decision making across various fields like statistics, marketing, health care, and education. Its main task is to estimate treatment effects and make intervention policies. Traditionally, most of the previous works typically focus on the binary treatment setting that there is only one treatment for a unit to adopt or not. However, in practice, the treatment can be much more complex, encompassing multi-valued, continuous, or bundle options. In this paper, we refer to these as complex treatments and systematically and comprehensively review the causal inference methods for addressing them. First, we formally revisit the problem definition, the basic assumptions, and their possible variations under specific conditions. Second, we sequentially review the related methods for multi-valued, continuous, and bundled treatment settings. In each situation, we tentatively divide the methods into two categories: those conforming to the unconfoundedness assumption and those violating it. Subsequently, we discuss the available datasets and open-source codes. Finally, we provide a brief summary of these works and suggest potential directions for future research.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# 倫理的問題に関連するソフトウェア要件をアプリレビューから抽出する

Towards Extracting Ethical Concerns-related Software Requirements from App Reviews ( http://arxiv.org/abs/2407.14023v1 )

ライセンス: Link先を確認
Aakash Sorathiya, Gouri Ginde, (参考訳) モバイルアプリケーションが私たちの日常生活にますます不可欠なものになっていくにつれて、倫理に関する懸念は急速に高まっている。 ユーザは自身のエクスペリエンスを共有し、バグを報告し、アプリケーションレビューで新機能をリクエストする。 機械学習技術を用いたアプローチは、これらの倫理的関心事を特定するために過去にも用いられてきた。 しかしながら、それらの背後にある根本的な理由を理解し、これらの懸念に対処できる要件を抽出することは、より安全なソフトウェアソリューション開発に不可欠です。 そこで我々は、知識グラフ(KG)モデルを利用して、アプリレビューからソフトウェア要件を抽出し、倫理的懸念に関連するコンテキストデータをキャプチャする新しいアプローチを提案する。 私たちのフレームワークは,関連するエンティティと関係を持ったオントロジーを開発すること,アプリレビューから重要なエンティティを抽出すること,それら間のコネクションを作成すること,という3つの主要コンポーネントで構成されています。 本研究では、Uberモバイルアプリケーション(タクシー/ライドアプリ)のアプリレビューを分析し、提案したソリューションの予備的な結果を示す。 最初の結果は、KGがソフトウェア倫理上の懸念、これらの懸念の背後にある根本的な理由、およびそれに対応する潜在的な要件に関連するコンテキストデータを効果的にキャプチャできることを示している。

As mobile applications become increasingly integral to our daily lives, concerns about ethics have grown drastically. Users share their experiences, report bugs, and request new features in application reviews, often highlighting safety, privacy, and accountability concerns. Approaches using machine learning techniques have been used in the past to identify these ethical concerns. However, understanding the underlying reasons behind them and extracting requirements that could address these concerns is crucial for safer software solution development. Thus, we propose a novel approach that leverages a knowledge graph (KG) model to extract software requirements from app reviews, capturing contextual data related to ethical concerns. Our framework consists of three main components: developing an ontology with relevant entities and relations, extracting key entities from app reviews, and creating connections between them. This study analyzes app reviews of the Uber mobile application (a popular taxi/ride app) and presents the preliminary results from the proposed solution. Initial results show that KG can effectively capture contextual data related to software ethical concerns, the underlying reasons behind these concerns, and the corresponding potential requirements.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# TTA-OOD:消化器内視におけるアウト・オブ・ディストリビューション検出の改善のためのテスト時間拡張

TTA-OOD: Test-time Augmentation for Improving Out-of-Distribution Detection in Gastrointestinal Vision ( http://arxiv.org/abs/2407.14024v1 )

ライセンス: Link先を確認
Sandesh Pokhrel, Sanjay Bhandari, Eduard Vazquez, Tryphon Lambrou, Prashnna Gyawali, Binod Bhattarai, (参考訳) 深層学習は消化器視覚の分野を著しく進歩させ、疾患診断能力を高めている。 消化管設定における診断の自動化における大きな課題の1つは、内視鏡画像における異常な症例の検出である。 データのばらつきにより、異常な症例と正常な症例を区別するこのプロセスは、特に稀で目に見えない状況において重大な課題に直面している。 この問題に対処するため, 異常検出をアウト・オブ・ディストリビューション(OOD)検出問題として捉えた。 この設定では、健康なGIトラクタを表すID(In-Distribution)データに基づいてトレーニングされたモデルで、正常な症例を正確に識別でき、クラスに関係なく、異常がOODとして検出される。 我々は,OOD検出パイプラインにテスト時間拡張セグメントを導入し,IDとOODの区別を強化し,同一モデルによる既存のOOD手法の有効性を向上させる。 この拡張はピクセル空間をシフトさせ、IDの例と比較してOODの例に対してより明確な意味表現へと変換する。 提案手法を既存のOODスコアと比較し,ベースラインアプローチに対する試験時間増強による改善を示した。

Deep learning has significantly advanced the field of gastrointestinal vision, enhancing disease diagnosis capabilities. One major challenge in automating diagnosis within gastrointestinal settings is the detection of abnormal cases in endoscopic images. Due to the sparsity of data, this process of distinguishing normal from abnormal cases has faced significant challenges, particularly with rare and unseen conditions. To address this issue, we frame abnormality detection as an out-of-distribution (OOD) detection problem. In this setup, a model trained on In-Distribution (ID) data, which represents a healthy GI tract, can accurately identify healthy cases, while abnormalities are detected as OOD, regardless of their class. We introduce a test-time augmentation segment into the OOD detection pipeline, which enhances the distinction between ID and OOD examples, thereby improving the effectiveness of existing OOD methods with the same model. This augmentation shifts the pixel space, which translates into a more distinct semantic representation for OOD examples compared to ID examples. We evaluated our method against existing state-of-the-art OOD scores, showing improvements with test-time augmentation over the baseline approach.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# コントラスト学習フレームワークを用いた半教師付き参照ベーススケッチ抽出

Semi-supervised reference-based sketch extraction using a contrastive learning framework ( http://arxiv.org/abs/2407.14026v1 )

ライセンス: Link先を確認
Chang Wook Seo, Amirsaman Ashtari, Junyong Noh, (参考訳) スケッチは個々のアーティストの描画様式を反映しているため、様々な用途にカラー画像からスケッチを抽出する際の独自のスタイルを考えることが重要である。 残念ながら、既存のスケッチ抽出手法のほとんどは、単一のスタイルのスケッチを抽出するために設計されている。 様々なスタイルのスケッチを生成する試みはいくつかあったが、一般的には、低品質の結果とペアデータセットの要求によるモデルのトレーニングの難しさという2つの制限に悩まされている。 本稿では,与えられた参照スケッチのスタイルを,半教師なしデータトレーニングで模倣できる,新しいマルチモーダルスケッチ抽出手法を提案する。 提案手法は,定量評価と定性評価の両面において,最先端のスケッチ抽出法と未完成画像翻訳法より優れる。

Sketches reflect the drawing style of individual artists; therefore, it is important to consider their unique styles when extracting sketches from color images for various applications. Unfortunately, most existing sketch extraction methods are designed to extract sketches of a single style. Although there have been some attempts to generate various style sketches, the methods generally suffer from two limitations: low quality results and difficulty in training the model due to the requirement of a paired dataset. In this paper, we propose a novel multi-modal sketch extraction method that can imitate the style of a given reference sketch with unpaired data training in a semi-supervised manner. Our method outperforms state-of-the-art sketch extraction methods and unpaired image translation methods in both quantitative and qualitative evaluations.
翻訳日:2024-07-22 18:53:17 公開日:2024-07-19
# PASS++:非経験的クラスインクリメンタル学習のためのデュアルバイアス削減フレームワーク

PASS++: A Dual Bias Reduction Framework for Non-Exemplar Class-Incremental Learning ( http://arxiv.org/abs/2407.14029v1 )

ライセンス: Link先を確認
Fei Zhu, Xu-Yao Zhang, Zhen Cheng, Cheng-Lin Liu, (参考訳) クラスインクリメンタルラーニング(CIL)は,旧クラスの識別性を維持しつつ,新たなクラスを段階的に認識することを目的としている。 既存のCILメソッドの多くは、例えば、古いデータの一部を格納して再トレーニングする例がある。 古いデータを再学習しなければ、これらの方法は破滅的な忘れ物に悩まされる。 本稿では,CILに固有の2つの問題,すなわち表現バイアスと分類器バイアスが,古い知識を破滅的に忘れてしまうことを明らかにする。 これら2つのバイアスに対処するために、入力空間における自己教師付き変換(SST)と深い特徴空間におけるプロトタイプ拡張(protoAug)を利用する、単純で斬新な二重バイアス低減フレームワークを提案する。 一方、SSTは、様々なタスクをまたいで転送できる汎用的で多様な表現を学習することで、表現バイアスを軽減する。 一方、protoAugは、Deep機能空間における古いクラスのプロトタイプを明示的にまたは暗黙的に拡張することで、分類器バイアスを克服する。 さらに,ハードネスを意識したプロトタイプとマルチビューアンサンブル戦略を提案し,大幅な改善を実現した。 提案するフレームワークは、事前訓練されたモデルと容易に統合できる。 古いクラスのサンプルを格納せずに、我々の手法は、多くの古いデータを格納する最先端の先例ベースのアプローチと互換性がある。 我々は、古いサンプルをCILに保存する必要性を再考することによって、研究者の注意を非経験的なCILに引き戻したいと考えています。

Class-incremental learning (CIL) aims to recognize new classes incrementally while maintaining the discriminability of old classes. Most existing CIL methods are exemplar-based, i.e., storing a part of old data for retraining. Without relearning old data, those methods suffer from catastrophic forgetting. In this paper, we figure out two inherent problems in CIL, i.e., representation bias and classifier bias, that cause catastrophic forgetting of old knowledge. To address these two biases, we present a simple and novel dual bias reduction framework that employs self-supervised transformation (SST) in input space and prototype augmentation (protoAug) in deep feature space. On the one hand, SST alleviates the representation bias by learning generic and diverse representations that can transfer across different tasks. On the other hand, protoAug overcomes the classifier bias by explicitly or implicitly augmenting prototypes of old classes in the deep feature space, which poses tighter constraints to maintain previously learned decision boundaries. We further propose hardness-aware prototype augmentation and multi-view ensemble strategies, leading to significant improvements. The proposed framework can be easily integrated with pre-trained models. Without storing any samples of old classes, our method can perform comparably with state-of-the-art exemplar-based approaches which store plenty of old data. We hope to draw the attention of researchers back to non-exemplar CIL by rethinking the necessity of storing old samples in CIL.
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# HeCiX:生物医学研究のための知識グラフと大規模言語モデルの統合

HeCiX: Integrating Knowledge Graphs and Large Language Models for Biomedical Research ( http://arxiv.org/abs/2407.14030v1 )

ライセンス: Link先を確認
Prerana Sanjay Kulkarni, Muskaan Jain, Disha Sheshanarayana, Srinivasan Parthiban, (参考訳) 薬物開発戦略の進歩にもかかわらず、臨床試験の90%は失敗している。 これは、標的の検証と薬物の最適化における見過ごされた側面を示唆している。 そこで我々は,HeCiX-KG,Hetionet-Clinicaltrials neXus Knowledge Graphを紹介した。 HeCiX-KGは、以前に行われた臨床試験のデータと、Hetionetの病気や遺伝子に関するドメインの専門知識を組み合わせている。 これは臨床研究者に十分なリソースを提供する。 さらに,LangChainを用いたHeCiX-KGとGPT-4を統合し,ユーザビリティを向上させるシステムHeCiXを紹介する。 HeCiXは様々な臨床的問題に対する評価において高い性能を示し、このモデルが臨床研究の有効性を高めることを約束していることを証明している。 このように、このアプローチは、臨床試験と既存の生物学的データに関するより包括的な見解を提供する。

Despite advancements in drug development strategies, 90% of clinical trials fail. This suggests overlooked aspects in target validation and drug optimization. In order to address this, we introduce HeCiX-KG, Hetionet-Clinicaltrials neXus Knowledge Graph, a novel fusion of data from ClinicalTrials.gov and Hetionet in a single knowledge graph. HeCiX-KG combines data on previously conducted clinical trials from ClinicalTrials.gov, and domain expertise on diseases and genes from Hetionet. This offers a thorough resource for clinical researchers. Further, we introduce HeCiX, a system that uses LangChain to integrate HeCiX-KG with GPT-4, and increase its usability. HeCiX shows high performance during evaluation against a range of clinically relevant issues, proving this model to be promising for enhancing the effectiveness of clinical research. Thus, this approach provides a more holistic view of clinical trials and existing biological data.
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# Semantic-CC: 基礎知識とセマンティックガイダンスによるリモートセンシング画像変更キャプションの強化

Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance ( http://arxiv.org/abs/2407.14032v1 )

ライセンス: Link先を確認
Yongshuo Zhu, Lu Li, Keyan Chen, Chenyang Liu, Fugen Zhou, Zhenwei Shi, (参考訳) リモートセンシング画像変化キャプション(RSICC)は、自然言語を用いた両時間リモートセンシング画像における関心オブジェクトの変化を明確にすることを目的としている。 複数の時間的・空間的シナリオにまたがる一般的な特徴を表現するための現在のRSICC手法の限界や、粒度、頑健で正確な変更記述の提供に欠けていることを踏まえ、セマンティック・CC(Semantic-CC)と呼ばれる基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を導入する。 Semantic-CCは、ファンデーションモデルの潜在知識を活用することで、広範囲なアノテーションに対する高一般化アルゴリズムの依存を緩和し、変更検出(CD)からピクセルレベルのセマンティクスによって導かれるより包括的で正確な変更記述を生成する。 具体的には、デュアルイメージ特徴抽出のためのバイテンポラルSAMベースのエンコーダ、異種タスク間の情報やり取りを容易にするマルチタスクセマンティックアグリゲーションネック、画素レベルのセマンティックガイダンスを提供する単純なマルチスケール変更検出デコーダ、大きな言語モデル(LLM)に基づく変更キャプションデコーダを提案し、変更記述文を生成する。 また,CDとCCのジョイントトレーニングの安定性を確保するため,様々な段階で異なるタスクを監督する3段階のトレーニング戦略を提案する。 提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。 実験結果はCDとCCの相補性を相関させ,Semantic-CCがより正確な変更記述を生成できることを示す。

Remote sensing image change captioning (RSICC) aims to articulate the changes in objects of interest within bi-temporal remote sensing images using natural language. Given the limitations of current RSICC methods in expressing general features across multi-temporal and spatial scenarios, and their deficiency in providing granular, robust, and precise change descriptions, we introduce a novel change captioning (CC) method based on the foundational knowledge and semantic guidance, which we term Semantic-CC. Semantic-CC alleviates the dependency of high-generalization algorithms on extensive annotations by harnessing the latent knowledge of foundation models, and it generates more comprehensive and accurate change descriptions guided by pixel-level semantics from change detection (CD). Specifically, we propose a bi-temporal SAM-based encoder for dual-image feature extraction; a multi-task semantic aggregation neck for facilitating information interaction between heterogeneous tasks; a straightforward multi-scale change detection decoder to provide pixel-level semantic guidance; and a change caption decoder based on the large language model (LLM) to generate change description sentences. Moreover, to ensure the stability of the joint training of CD and CC, we propose a three-stage training strategy that supervises different tasks at various stages. We validate the proposed method on the LEVIR-CC and LEVIR-CD datasets. The experimental results corroborate the complementarity of CD and CC, demonstrating that Semantic-CC can generate more accurate change descriptions and achieve optimal performance across both tasks.
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# BERTer: 効率的なもの

BERTer: The Efficient One ( http://arxiv.org/abs/2407.14039v1 )

ライセンス: Link先を確認
Pradyumna Saligram, Andrew Lanpouthakoun, (参考訳) 本研究では、感情分析、パラフレーズ検出、意味的テキスト類似性においてBERTの性能を高めるための高度な微調整手法について検討する。 提案手法は,SMART正規化を利用してオーバーフィッティングに対処し,ハイパーパラメータ選択を改善し,文埋め込みを改善するためにシームズアーキテクチャをクロスエンベッドし,革新的な早期終了手法を導入する。 現在我々は,複数の微調整アーキテクチャを組み合わせる際のモデル効率と有効性,テストセット上での最先端のパフォーマンススコア,現在のベンチマークを越え,多面的言語タスクにおけるBERTの適応性を強調している。

We explore advanced fine-tuning techniques to boost BERT's performance in sentiment analysis, paraphrase detection, and semantic textual similarity. Our approach leverages SMART regularization to combat overfitting, improves hyperparameter choices, employs a cross-embedding Siamese architecture for improved sentence embeddings, and introduces innovative early exiting methods. Our fine-tuning findings currently reveal substantial improvements in model efficiency and effectiveness when combining multiple fine-tuning architectures, achieving a state-of-the-art performance score of on the test set, surpassing current benchmarks and highlighting BERT's adaptability in multifaceted linguistic tasks.
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# 触媒発見のための生成言語モデル

Generative Language Model for Catalyst Discovery ( http://arxiv.org/abs/2407.14040v1 )

ライセンス: Link先を確認
Dong Hyeon Mok, Seoin Back, (参考訳) 新規で有望な素材の発見は、化学と材料科学の分野において重要な課題であり、伝統的に試行錯誤から機械学習駆動の逆設計に至るまで、方法論を通してアプローチされてきた。 近年の研究では、トランスフォーマーに基づく言語モデルを材料生成モデルとして利用して、化学空間を拡大し、望ましい性質を持つ材料を探索できることが示唆されている。 本研究では, 無機触媒構造の文字列表現を広大な化学空間から生成するために訓練された触媒生成前処理トランス (CatGPT) を紹介する。 CatGPTは、有効かつ正確な触媒構造を生成する上で高い性能を示すだけでなく、スパースと特定のデータセットを微調整することで、所望の触媒の種類を生成する基盤モデルとしても機能する。 一例として, 2電子酸素還元反応 (2e-ORR) 触媒をスクリーニングする二元合金触媒データセットを用いて, プリトレーニングしたCatGPTを微調整し, 2e-ORRに特化した触媒構造を生成する。 本研究は,触媒発見のための生成ツールとしての言語モデルの可能性を示す。

Discovery of novel and promising materials is a critical challenge in the field of chemistry and material science, traditionally approached through methodologies ranging from trial-and-error to machine learning-driven inverse design. Recent studies suggest that transformer-based language models can be utilized as material generative models to expand chemical space and explore materials with desired properties. In this work, we introduce the Catalyst Generative Pretrained Transformer (CatGPT), trained to generate string representations of inorganic catalyst structures from a vast chemical space. CatGPT not only demonstrates high performance in generating valid and accurate catalyst structures but also serves as a foundation model for generating desired types of catalysts by fine-tuning with sparse and specified datasets. As an example, we fine-tuned the pretrained CatGPT using a binary alloy catalyst dataset designed for screening two-electron oxygen reduction reaction (2e-ORR) catalyst and generate catalyst structures specialized for 2e-ORR. Our work demonstrates the potential of language models as generative tools for catalyst discovery.
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# すべてのノイズが等しく生成されるわけではない:拡散雑音の選択と最適化

Not All Noises Are Created Equally:Diffusion Noise Selection and Optimization ( http://arxiv.org/abs/2407.14041v1 )

ライセンス: Link先を確認
Zipeng Qi, Lichen Bai, Haoyi Xiong, and Zeke Xie, (参考訳) ランダムにサンプリングされたガウスノイズから高品質なデータを生成する拡散モデルは、学術と産業の両方において主要な生成方法となっている。 ランダムサンプリングされたガウス雑音は拡散モデルに等しく良いか? 多くの研究が拡散モデルを理解し、改善しようとしたが、以前の研究は、サンプルノイズを選択し、最適化し、拡散モデルを改善するためにサンプルノイズを選択し、最適化する可能性を見落としていた。 本稿では主に3つの貢献を行った。 まず、拡散モデルに対して全てのノイズが等しく生成されるわけではないことを報告する。 我々は,拡散モデルの生成品質が雑音の反転安定性に大きく依存する,という仮説と経験的考察を初めて行った。 これにより、反転安定性に応じたノイズ選択法が自然に提供される。 次に,任意の雑音の反転安定性を積極的に向上する新しい雑音最適化手法を提案する。 提案手法は, ノイズ空間に係わる最初の手法であり, 微調整拡散モデルを使わずに, 一般に発生する結果を改善する。 第3に,提案手法は,人間の嗜好や他の客観的評価指標の観点から,SDXLやSDXL-turboなどの代表拡散モデルを大幅に改善することを示す。 例えば、DrawBenchでは、ベースライン上でのノイズ選択とノイズ最適化の人間の選好勝利率は、それぞれ57%と72.5%である。

Diffusion models that can generate high-quality data from randomly sampled Gaussian noises have become the mainstream generative method in both academia and industry. Are randomly sampled Gaussian noises equally good for diffusion models? While a large body of works tried to understand and improve diffusion models, previous works overlooked the possibility to select or optimize the sampled noise the possibility of selecting or optimizing sampled noises for improving diffusion models. In this paper, we mainly made three contributions. First, we report that not all noises are created equally for diffusion models. We are the first to hypothesize and empirically observe that the generation quality of diffusion models significantly depend on the noise inversion stability. This naturally provides us a noise selection method according to the inversion stability. Second, we further propose a novel noise optimization method that actively enhances the inversion stability of arbitrary given noises. Our method is the first one that works on noise space to generally improve generated results without fine-tuning diffusion models. Third, our extensive experiments demonstrate that the proposed noise selection and noise optimization methods both significantly improve representative diffusion models, such as SDXL and SDXL-turbo, in terms of human preference and other objective evaluation metrics. For example, the human preference winning rates of noise selection and noise optimization over the baselines can be up to 57% and 72.5%, respectively, on DrawBench.
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# キネマティクスに基づく単一視点からの3次元人-物体インタラクション再構成

Kinematics-based 3D Human-Object Interaction Reconstruction from Single View ( http://arxiv.org/abs/2407.14043v1 )

ライセンス: Link先を確認
Yuhang Chen, Chenxing Wang, (参考訳) シングルビューRGB画像からの3次元人-物体相互作用(HOI)の再構成は、深度情報や潜在的な閉塞が欠如しているため困難である。 既存の方法では、身体のポーズは単に屋内のデータセットのネットワークトレーニングにのみ依存しているだけであり、容易に見える閉塞のために身体の一部が見えない場合、結果の合理性を保証することはできない。 ロボット工学におけるエンドエフェクタローカライゼーションタスクに着想を得て,人体と物体の接触領域を正確に駆動するキネマティクスに基づく手法を提案する。 改良された前方運動学アルゴリズムが提案された後、逆運動学の解法に多層知覚論を導入し、関節のポーズを決定する。 さらに, 接触領域認識ネットワーク (CRRNet) も提案され, 単一視点映像を用いて接触領域を頑健に判定する。 実験結果から,本手法はベンチマークBEHAVEにおいて最先端の手法よりも優れていることが示された。 さらに,本手法はポータビリティが良好であり,最適化のための他の手法にシームレスに統合できる。

Reconstructing 3D human-object interaction (HOI) from single-view RGB images is challenging due to the absence of depth information and potential occlusions. Existing methods simply predict the body poses merely rely on network training on some indoor datasets, which cannot guarantee the rationality of the results if some body parts are invisible due to occlusions that appear easily. Inspired by the end-effector localization task in robotics, we propose a kinematics-based method that can drive the joints of human body to the human-object contact regions accurately. After an improved forward kinematics algorithm is proposed, the Multi-Layer Perceptron is introduced into the solution of inverse kinematics process to determine the poses of joints, which achieves precise results than the commonly-used numerical methods in robotics. Besides, a Contact Region Recognition Network (CRRNet) is also proposed to robustly determine the contact regions using a single-view video. Experimental results demonstrate that our method outperforms the state-of-the-art on benchmark BEHAVE. Additionally, our approach shows good portability and can be seamlessly integrated into other methods for optimizations.
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# ECCO: 機能的正確さを犠牲にすることなく、モデル生成コードの効率を向上できるか?

ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness? ( http://arxiv.org/abs/2407.14044v1 )

ライセンス: Link先を確認
Siddhant Waghjale, Vishruth Veerendranath, Zora Zhiruo Wang, Daniel Fried, (参考訳) 大規模言語モデル(LLM)は機能的に正しいプログラムを生成することに大きく成功しているが、効率的な解を生成するための条件付けモデルは依然として課題である。 さらに、コードの効率をベンチマークする際の信頼性の欠如は、Pythonのような一般的なインタプリタ言語に対する様々なハードウェア仕様のハードルである。 本稿では,自然言語(NL)に基づくコード生成と履歴に基づくコード編集という,プログラム効率を評価するための再現可能なベンチマークECCOを提案する。 ECCO上では、テキスト内学習、実行やNLフィードバックによる反復的改善、実行履歴と編集履歴の微調整という、最も有望な3つのLCMベースのアプローチを適応し、徹底的に検討する。 ほとんどの手法は機能的正当性を低下させ、プログラム効率を適度に向上させるが、実行情報の追加は機能的正当性を維持するのに役立ち、NLフィードバックは効率を向上する。 LLMベースの効率的なコード生成に関する今後の作業を支援するため、我々のベンチマークをリリースする。

Although large language models (LLMs) have been largely successful in generating functionally correct programs, conditioning models to produce efficient solutions while ensuring correctness remains a challenge. Further, unreliability in benchmarking code efficiency is a hurdle across varying hardware specifications for popular interpreted languages such as Python. In this paper, we present ECCO, a reproducible benchmark for evaluating program efficiency via two paradigms: natural language (NL) based code generation and history-based code editing. On ECCO, we adapt and thoroughly investigate the three most promising existing LLM-based approaches: in-context learning, iterative refinement with execution or NL feedback, and fine-tuning conditioned on execution and editing history. While most methods degrade functional correctness and moderately increase program efficiency, we find that adding execution information often helps maintain functional correctness, and NL feedback enhances more on efficiency. We release our benchmark to support future work on LLM-based generation of efficient code.
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# 動インダクタンスパラメトリックコンバータ

Kinetic Inductance Parametric Converter ( http://arxiv.org/abs/2407.14046v1 )

ライセンス: Link先を確認
M. Khalifa, P. Feldmann, J. Salfi, (参考訳) パラメトリックコンバータ(英: Parametric converter)は、2つの空間的に分離された非退化モードを混合するパラメトリック増幅器であり、一般に量子コンピューティングやセンシングにおいてマイクロ波信号を増幅・スキューズするために使用される。 ジョセフソンパラメトリック変換器において、ジョセフソンジャンクションの強い局所化非線形性は、現在のデバイスにおける増幅とスクイージングおよびダイナミックレンジを制限する。 対照的に、弱い分散非線形性は、汚れた超伝導体の運動インダクタンス(KI)ナノワイヤとして実装される場合、より高利得とダイナミックレンジを提供することができ、磁場に対するレジリエンス、高温動作、簡易な製造などの利点がある。 本稿では,KIナノワイヤの弱い分散非線形性に依存するKIパラメトリックコンバータの性能について,実験,解析を行った。 直流電流バイアスによって誘導される3波混合を利用する。 位相感度の高い高利得を有する非退化パラメトリック増幅器として動作し, 0.8GHzで分離した2つの共振器に対する2モード増幅とデアンプの$\sim$30 dBに達した。 我々は30dBのゲインで108~dBmのダイナミックレンジを観測した。 我々の装置は、位相保存増幅や2モードのスクイーズを含む量子制限信号処理装置の応用を大幅に拡張することができる。

Parametric converters are parametric amplifiers that mix two spatially separate nondegenerate modes and are commonly used for amplifying and squeezing microwave signals in quantum computing and sensing. In Josephson parametric converters, the strong localized nonlinearity of the Josephson Junction limits the amplification and squeezing, as well as the dynamic range, in current devices. In contrast, a weak distributed nonlinearity can provide higher gain and dynamic range, when implemented as a kinetic inductance (KI) nanowire of a dirty superconductor, and has additional benefits such as resilience to magnetic field, higher-temperature operation, and simplified fabrication. Here, we propose, demonstrate, and analyze the performance of a KI parametric converter that relies on the weak distributed nonlinearity of a KI nanowire. The device utilizes three-wave mixing induced by a DC current bias. We demonstrate its operation as a nondegenerate parametric amplifier with high phase-sensitive gain, reaching two-mode amplification and deamplification of $\sim$30 dB for two resonances separated by 0.8 GHz, in excellent agreement with our theory of the device. We observe a dynamic range of -108~dBm at 30 dB gain. Our device can significantly broaden applications of quantum-limited signal processing devices including phase-preserving amplification and two-mode squeezing.
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# OCTrack: Open-Corpus Multi-Object Trackingのベンチマーク

OCTrack: Benchmarking the Open-Corpus Multi-Object Tracking ( http://arxiv.org/abs/2407.14047v1 )

ライセンス: Link先を確認
Zekun Qian, Ruize Han, Wei Feng, Junhui Hou, Linqi Song, Song Wang, (参考訳) オープンコーパス・マルチオブジェクト・トラッキング(OCMOT)の新たな実践的問題として,MOT をローカライズ・アソシエイト・アソシエイト・アンド・認識に拡張した。 この問題を研究する上で最優先事項は、ベンチマークを構築することだ。 本研究では,大規模かつ包括的なベンチマークであるOCTrackBを構築し,OCMOT問題に対する標準評価プラットフォームを提供する。 以前のデータセットと比較すると、OCTrackBはより豊富でバランスの取れたベース/ノーベルクラスを持ち、それに対応するサンプルはバイアスが少なく評価できる。 また,OCMOTにおける生成オブジェクト認識をよりよく評価するための,新しい多粒度認識指標を提案する。 我々は,OCTrackBの有用性と利点だけでなく,OCMOTの理論的根拠を示す様々な最先端手法の結果を評価・分析する。

We study a novel yet practical problem of open-corpus multi-object tracking (OCMOT), which extends the MOT into localizing, associating, and recognizing generic-category objects of both seen (base) and unseen (novel) classes, but without the category text list as prompt. To study this problem, the top priority is to build a benchmark. In this work, we build OCTrackB, a large-scale and comprehensive benchmark, to provide a standard evaluation platform for the OCMOT problem. Compared to previous datasets, OCTrackB has more abundant and balanced base/novel classes and the corresponding samples for evaluation with less bias. We also propose a new multi-granularity recognition metric to better evaluate the generative object recognition in OCMOT. By conducting the extensive benchmark evaluation, we report and analyze the results of various state-of-the-art methods, which demonstrate the rationale of OCMOT, as well as the usefulness and advantages of OCTrackB.
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# 定量的要約のための突発的アスペクトキーポイント解析

Prompted Aspect Key Point Analysis for Quantitative Review Summarization ( http://arxiv.org/abs/2407.14049v1 )

ライセンス: Link先を確認
An Quang Tang, Xiuzhen Zhang, Minh Ngoc Dinh, Erik Cambria, (参考訳) キーポイント分析(KPA)は、キーポイント(KP)を簡潔なテキスト要約として提供し、その頻度を計測する定量化を目的としている。 議論とレビューのためのKPA研究が文献で報告されている。 レビューのためのKPA研究の大半は、KPの量化に関するコメントをレビューするためにKPと一致する前に、短い文章をKPとして抽出するために教師付き学習を採用する。 最近の抽象的アプローチでは、文に基づいてKPが生成され、しばしば重複して幻覚的な意見を持つKPが生成され、不正確な定量化が行われる。 本稿では,定量的な要約のためのPAKPA(Prompted Aspect Key Point Analysis)を提案する。 PAKPAはアスペクト感情分析を採用し、Large Language Models (LLMs) を用いてコンテキスト内学習を行い、ビジネスエンティティの側面に根ざしたKPを生成し定量化し、正確な定量化によって忠実なKPを実現し、教師付きトレーニングのための大量の注釈付きデータの必要性を取り除く。 人気レビューデータセットYelpとアスペクト指向レビュー要約データセットSPACEの実験は、我々のフレームワークが最先端のパフォーマンスを達成することを示す。 ソースコードとデータは、https://github.com/antangrocket1312/PAKPAで入手できる。

Key Point Analysis (KPA) aims for quantitative summarization that provides key points (KPs) as succinct textual summaries and quantities measuring their prevalence. KPA studies for arguments and reviews have been reported in the literature. A majority of KPA studies for reviews adopt supervised learning to extract short sentences as KPs before matching KPs to review comments for quantification of KP prevalence. Recent abstractive approaches still generate KPs based on sentences, often leading to KPs with overlapping and hallucinated opinions, and inaccurate quantification. In this paper, we propose Prompted Aspect Key Point Analysis (PAKPA) for quantitative review summarization. PAKPA employs aspect sentiment analysis and prompted in-context learning with Large Language Models (LLMs) to generate and quantify KPs grounded in aspects for business entities, which achieves faithful KPs with accurate quantification, and removes the need for large amounts of annotated data for supervised training. Experiments on the popular review dataset Yelp and the aspect-oriented review summarization dataset SPACE show that our framework achieves state-of-the-art performance. Source code and data are available at: https://github.com/antangrocket1312/PAKPA
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# ガウス開量子系における環境誘起絡み合い

Environment induced entanglement in Gaussian open quantum systems ( http://arxiv.org/abs/2407.14050v1 )

ライセンス: Link先を確認
A. Dhahri, F. Fagnola, D. Poletti, H. J. Yoo, (参考訳) 我々は、外部ガウス環境と相互作用する二部形式ガウス量子系が独自のガウス交絡定常状態を持ち、任意の初期状態がこの定常状態に収束することを示した。 温度と相互作用強度に対する絡み合いの依存性を議論し、低温と弱い相互作用でのみ絡み合う定常状態を見いだせることを示す。

We show that a bipartite Gaussian quantum system interacting with an external Gaussian environment may possess a unique Gaussian entangled stationary state and that any initial state converges towards this stationary state. We discuss dependence of entanglement on temperature and interaction strength and show that one can find entangled stationary states only for low temperatures and weak interactions.
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# DirectL:3D照明用高効率放射界レンダリング

DirectL: Efficient Radiance Fields Rendering for 3D Light Field Displays ( http://arxiv.org/abs/2407.14053v1 )

ライセンス: Link先を確認
Zongyuan Yang, Baolin Liu, Yingde Song, Yongping Xiong, Lan Yi, Zhaohe Zhang, Xunbo Yu, (参考訳) 数十年にわたる開発にもかかわらず、オートステレオディスプレイは広範囲の応用を達成していない。 革新的な3D表現としてのラジアンスフィールドの出現は、3D再構成と生成の領域を大きく革命させた。 この技術は、一般的なユーザのための3Dコンテンツ作成を大幅に単純化し、光フィールドディスプレイ(LFD)の適用性を広げる。 しかし、これらの2つの場の組み合わせはほとんど未解明のままである。 パララックスベースの光界表示のための最適なコンテンツを作成するための標準パラダイムは、1フレームあたりの高解像度で少なくとも45個の微調整されたビューをレンダリングすることを要求している。 我々は3Dディスプレイ上での放射場のための新しいレンダリングパラダイムであるDirectLを紹介する。 我々は、空間線をスクリーンサブピクセルに織り込んだマッピングを徹底的に分析し、人間の目に入る光線を正確に判定し、レンダリングに必要なピクセル数を著しく削減するためにサブピクセル再取得を提案する。 ニューラルラジアンス場(Neural Radiance Fields,NeRF)と3次元ガウススプラッティング(3DGS)の2つの主要放射場を対象として,多視点画像ではなく光画像を直接描画する最適化されたレンダリングパイプラインを提案する。 様々なディスプレイやユーザによる大規模な実験により、DirectLは視覚的品質を犠牲にすることなく、標準パラダイムに比べて最大40倍レンダリングを高速化することが示された。 レンダリングプロセスのみの修正により、その後のラディアンスフィールドタスクへのシームレスな統合が可能になる。 最後に、DirectLを多様なアプリケーションに統合し、目覚しい視覚体験とLFDとRadiance Fieldsの相乗効果を示し、商用化アプリケーションにとって大きな可能性を明らかにします。 \href{direct-l.github.io}{\textbf{Project Homepage}

Autostereoscopic display, despite decades of development, has not achieved extensive application, primarily due to the daunting challenge of 3D content creation for non-specialists. The emergence of Radiance Field as an innovative 3D representation has markedly revolutionized the domains of 3D reconstruction and generation. This technology greatly simplifies 3D content creation for common users, broadening the applicability of Light Field Displays (LFDs). However, the combination of these two fields remains largely unexplored. The standard paradigm to create optimal content for parallax-based light field displays demands rendering at least 45 slightly shifted views preferably at high resolution per frame, a substantial hurdle for real-time rendering. We introduce DirectL, a novel rendering paradigm for Radiance Fields on 3D displays. We thoroughly analyze the interweaved mapping of spatial rays to screen subpixels, precisely determine the light rays entering the human eye, and propose subpixel repurposing to significantly reduce the pixel count required for rendering. Tailored for the two predominant radiance fields--Neural Radiance Fields (NeRFs) and 3D Gaussian Splatting (3DGS), we propose corresponding optimized rendering pipelines that directly render the light field images instead of multi-view images. Extensive experiments across various displays and user study demonstrate that DirectL accelerates rendering by up to 40 times compared to the standard paradigm without sacrificing visual quality. Its rendering process-only modification allows seamless integration into subsequent radiance field tasks. Finally, we integrate DirectL into diverse applications, showcasing the stunning visual experiences and the synergy between LFDs and Radiance Fields, which unveils tremendous potential for commercialization applications. \href{direct-l.github.io}{\textbf{Project Homepage}
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# PointRegGPT: 学習用ジェネレーティブポイントクラウドペアによる3Dポイントクラウド登録の促進

PointRegGPT: Boosting 3D Point Cloud Registration using Generative Point-Cloud Pairs for Training ( http://arxiv.org/abs/2407.14054v1 )

ライセンス: Link先を確認
Suyi Chen, Hao Xu, Haipeng Li, Kunming Luo, Guanghui Liu, Chi-Wing Fu, Ping Tan, Shuaicheng Liu, (参考訳) データは3Dポイントクラウド登録のための学習ベースのメソッドのトレーニングにおいて重要な役割を果たす。 しかし、実際のデータセットの構築にはコストがかかり、レンダリングベースの合成データはドメインギャップに悩まされる。 本稿では,3Dポイントクラウドの登録を3Dポイントクラウドペアで促進するPointRegGPTを提案する。 1つの深度マップが与えられた場合、まずランダムなカメラの動きを適用してターゲットの深度マップに再投影する。 ポイントクラウドに変換することで、トレーニングペアが提供される。 データリアリズムを高めるために、生成モデルを拡散に影響を及ぼす深さとして定式化し、ターゲット深度マップと再投影した震源深度マップを条件として処理する。 また、再投射時の点透過によるアーティファクトを緩和する深度補正モジュールを設計する。 我々の知る限り、これは屋内のクラウド登録のためのリアルなデータ生成を探求する最初の生成的アプローチである。 提案手法を適用すれば,最近のアルゴリズムにより性能が大幅に向上し,2つの共通ベンチマーク上で一貫したSOTAを実現することができる。 コードとデータセットはhttps://github.com/Chen-Suyi/PointRegGPTでリリースされる。

Data plays a crucial role in training learning-based methods for 3D point cloud registration. However, the real-world dataset is expensive to build, while rendering-based synthetic data suffers from domain gaps. In this work, we present PointRegGPT, boosting 3D point cloud registration using generative point-cloud pairs for training. Given a single depth map, we first apply a random camera motion to re-project it into a target depth map. Converting them to point clouds gives a training pair. To enhance the data realism, we formulate a generative model as a depth inpainting diffusion to process the target depth map with the re-projected source depth map as the condition. Also, we design a depth correction module to alleviate artifacts caused by point penetration during the re-projection. To our knowledge, this is the first generative approach that explores realistic data generation for indoor point cloud registration. When equipped with our approach, several recent algorithms can improve their performance significantly and achieve SOTA consistently on two common benchmarks. The code and dataset will be released on https://github.com/Chen-Suyi/PointRegGPT.
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# データ再ロード分類器のための量子ハミルトニアン埋め込み

Quantum Hamiltonian Embedding of Images for Data Reuploading Classifiers ( http://arxiv.org/abs/2407.14055v1 )

ライセンス: Link先を確認
Peiyong Wang, Casey R. Myers, Lloyd C. L. Hollenberg, Udaya Parampalli, (参考訳) 機械学習タスクに量子コンピューティングを適用する場合、最初の考慮事項の1つは、量子機械学習モデル自体の設計である。 従来、量子機械学習アルゴリズムの設計は古典的学習アルゴリズムの「量子化」に依存しており、例えば量子線形代数を用いて古典的アルゴリズムの重要なサブルーチンを実装している。 しかし、最近の研究では、スピードアップによる量子アドバンテージが量子機械学習の正しい目標であるかどうかを疑問視する研究が始まっている。 量子文脈性(quantum contextuality)のような量子システム特有の特性を利用して量子機械学習モデル [2] を設計する研究も行われている。 本稿では,古典的なディープラーニングアルゴリズムの設計から量子ニューラルネットワークの設計へのヒューリスティックスと経験的エビデンスを取り入れた代替手法を提案する。 まず、量子ハミルトンデータ埋め込みユニタリ[4]を用いて、データ再ロード回路[3]に基づくモデルを構築する。 有名なMNISTデータセットやFashionMNISTデータセットを含む画像データセットに関する数値実験を通じて、我々のモデルは量子畳み込みニューラルネットワーク(QCNN)[5]を大きなマージン(最大40%のMNISTテストセット)で上回っていることを実証した。 モデル設計プロセスと数値結果に基づいて、量子機械学習モデル、特に量子ニューラルネットワークを設計するための6つの原則を概説した。

When applying quantum computing to machine learning tasks, one of the first considerations is the design of the quantum machine learning model itself. Conventionally, the design of quantum machine learning algorithms relies on the ``quantisation" of classical learning algorithms, such as using quantum linear algebra to implement important subroutines of classical algorithms, if not the entire algorithm, seeking to achieve quantum advantage through possible run-time accelerations brought by quantum computing. However, recent research has started questioning whether quantum advantage via speedup is the right goal for quantum machine learning [1]. Research also has been undertaken to exploit properties that are unique to quantum systems, such as quantum contextuality, to better design quantum machine learning models [2]. In this paper, we take an alternative approach by incorporating the heuristics and empirical evidences from the design of classical deep learning algorithms to the design of quantum neural networks. We first construct a model based on the data reuploading circuit [3] with the quantum Hamiltonian data embedding unitary [4]. Through numerical experiments on images datasets, including the famous MNIST and FashionMNIST datasets, we demonstrate that our model outperforms the quantum convolutional neural network (QCNN)[5] by a large margin (up to over 40% on MNIST test set). Based on the model design process and numerical results, we then laid out six principles for designing quantum machine learning models, especially quantum neural networks.
翻訳日:2024-07-22 18:43:32 公開日:2024-07-19
# Rasa:低リソース環境下でのインド言語のための表現型音声合成システムの構築

Rasa: Building Expressive Speech Synthesis Systems for Indian Languages in Low-resource Settings ( http://arxiv.org/abs/2407.14056v1 )

ライセンス: Link先を確認
Praveen Srinivasa Varadhan, Ashwin Sankar, Giri Raju, Mitesh M. Khapra, (参考訳) このデータセットは、アサメ、ベンガル、タミルの3つの言語をカバーする6つのエクマン感情のそれぞれに対して、10時間の中立なスピーチと1-3時間の表現的なスピーチを含む。 我々のアブレーション研究では、MUSHRAのスコアが示すように、中立な1時間と表現的なデータの30分でフェアなシステムが得られることが判明した。 中性データを10時間まで増加させ、最小限の表現データで表現性を著しく向上させる。 これはリソース制約のある言語に実用的なレシピを提供し、少ない量の表現的データとともに容易に入手可能な中立データを優先順位付けする。 我々は,表現力を高めるために,音節的にバランスの取れたデータとプール感情の重要性を示す。 また、恐怖や驚きといった特定の感情を生み出す上での課題も強調します。

We release Rasa, the first multilingual expressive TTS dataset for any Indian language, which contains 10 hours of neutral speech and 1-3 hours of expressive speech for each of the 6 Ekman emotions covering 3 languages: Assamese, Bengali, & Tamil. Our ablation studies reveal that just 1 hour of neutral and 30 minutes of expressive data can yield a Fair system as indicated by MUSHRA scores. Increasing neutral data to 10 hours, with minimal expressive data, significantly enhances expressiveness. This offers a practical recipe for resource-constrained languages, prioritizing easily obtainable neutral data alongside smaller amounts of expressive data. We show the importance of syllabically balanced data and pooling emotions to enhance expressiveness. We also highlight challenges in generating specific emotions, e.g., fear and surprise.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# LazyLLM: 効率的なLLM推論のための動的トーケンプルーニング

LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference ( http://arxiv.org/abs/2407.14057v1 )

ライセンス: Link先を確認
Qichen Fu, Minsik Cho, Thomas Merth, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi, (参考訳) 変圧器に基づく大言語モデルの推論は、2つの逐次段階から構成される。 1)プロンプトのKVキャッシュを計算し、最初のトークンを生成するための準備段階 2) その後のトークンを生成するデコードステージ。 長時間のプロンプトでは、KVキャッシュはプリフィル段階ですべてのトークンに対して計算されなければならない。 これにより、前処理段階が生成過程のボトルネックとなる可能性がある。 オープンな疑問は、最初のトークンを生成するためにすべてのプロンプトトークンが必須かどうかである。 そこで本研究では,前処理と復号処理の両方において,次のトークン予測に重要なトークンのKVを選択的に計算する新しい手法であるLazyLLMを提案する。 LazyLLMは、プロンプトを一度にプルーンする静的プルーニングアプローチとは対照的に、以前のステップでプルーニングされたとしても、異なる生成ステップでコンテキストから異なるトークンのサブセットを動的に選択することができる。 さまざまなタスクにわたる標準データセットに関する大規模な実験により、LazyLLMは既存の言語モデルとシームレスに統合され、微調整なしで生成を大幅に高速化できる汎用的な方法であることが示された。 例えば、多文書質問回答タスクでは、LazyLLMは精度を維持しながらLLama 2 7Bモデルのプリフィルステージを2.34倍高速化する。

The inference of transformer-based large language models consists of two sequential stages: 1) a prefilling stage to compute the KV cache of prompts and generate the first token, and 2) a decoding stage to generate subsequent tokens. For long prompts, the KV cache must be computed for all tokens during the prefilling stage, which can significantly increase the time needed to generate the first token. Consequently, the prefilling stage may become a bottleneck in the generation process. An open question remains whether all prompt tokens are essential for generating the first token. To answer this, we introduce a novel method, LazyLLM, that selectively computes the KV for tokens important for the next token prediction in both the prefilling and decoding stages. Contrary to static pruning approaches that prune the prompt at once, LazyLLM allows language models to dynamically select different subsets of tokens from the context in different generation steps, even though they might be pruned in previous steps. Extensive experiments on standard datasets across various tasks demonstrate that LazyLLM is a generic method that can be seamlessly integrated with existing language models to significantly accelerate the generation without fine-tuning. For instance, in the multi-document question-answering task, LazyLLM accelerates the prefilling stage of the LLama 2 7B model by 2.34x while maintaining accuracy.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# マルチモーダル表現学習における因果的十分性と必要性について

On the Causal Sufficiency and Necessity of Multi-Modal Representation Learning ( http://arxiv.org/abs/2407.14058v1 )

ライセンス: Link先を確認
Jingyao Wang, Wenwen Qiang, Jiangmeng Li, Lingyu Si, Changwen Zheng, Bing Su, (参考訳) マルチモーダル学習(MML)の効果的なパラダイムは、モーダル間の統一表現を学習することである。 因果的観点では、異なるモダリティ間の一貫性を制約することは、一次事象を伝達する因果的表現をマイニングすることができる。 しかし、このような単純な一貫性は、不必要な情報や不必要な情報を学習するリスクに直面することがある:必要だが不十分な原因は、モダリティ間で不変であるが、必要な正確性を持っていないかもしれない; 十分だが不必要な原因は、特定のモダリティに順応する傾向があるが、新しいデータに適応することが困難である。 本稿では,MMLにおける因果的かつ必要な表現,すなわち因果完全原因(C^3$)を学習することを目的とする。 まず、MMLに対する$C^3$という概念を定義し、因果便宜と必要性の確率を反映する。 また、実際に学習した表現のC^3$のスコアを確実に計算するために、C^3$の識別可能性と測定値、すなわち、C^3$のリスクも提案する。 次に,MMLの性能保証を厳密な一般化境界で確立することにより,$C^3$リスクの有効性を理論的に証明する。 これらの理論結果に基づいて, 因果完全因果正規化(C^3$R)と呼ばれるプラグ・アンド・プレイ法を提案し, リスクバウンドを制約することで因果完全表現を学習する。 様々なベンチマークデータセットで行った大規模な実験は、C^3$Rの有効性を実証的に実証した。

An effective paradigm of multi-modal learning (MML) is to learn unified representations among modalities. From a causal perspective, constraining the consistency between different modalities can mine causal representations that convey primary events. However, such simple consistency may face the risk of learning insufficient or unnecessary information: a necessary but insufficient cause is invariant across modalities but may not have the required accuracy; a sufficient but unnecessary cause tends to adapt well to specific modalities but may be hard to adapt to new data. To address this issue, in this paper, we aim to learn representations that are both causal sufficient and necessary, i.e., Causal Complete Cause ($C^3$), for MML. Firstly, we define the concept of $C^3$ for MML, which reflects the probability of being causal sufficiency and necessity. We also propose the identifiability and measurement of $C^3$, i.e., $C^3$ risk, to ensure calculating the learned representations' $C^3$ scores in practice. Then, we theoretically prove the effectiveness of $C^3$ risk by establishing the performance guarantee of MML with a tight generalization bound. Based on these theoretical results, we propose a plug-and-play method, namely Causal Complete Cause Regularization ($C^3$R), to learn causal complete representations by constraining the $C^3$ risk bound. Extensive experiments conducted on various benchmark datasets empirically demonstrate the effectiveness of $C^3$R.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# 運動場を用いた規則化動的放射場

Regularizing Dynamic Radiance Fields with Kinematic Fields ( http://arxiv.org/abs/2407.14059v1 )

ライセンス: Link先を確認
Woobin Im, Geonho Cha, Sebin Lee, Jumin Lee, Juhyeong Seon, Dongyoon Wee, Sung-Eui Yoon, (参考訳) 本稿では,モノクロビデオから動的放射場を再構成する新しい手法を提案する。 我々はキネマティクスを動的放射場と統合し、モノクラービデオのスパースな性質と現実世界の物理のギャップを埋める。 本手法は運動場を導入し,運動量(速度,加速度,ジャーク)を計測する。 運動場は運動場真理を伴わずに測光損失を最小化することにより動的放射場と共に学習される。 さらに、キネマティクスを基礎とした物理駆動型正則化器により、我々の手法をさらに強化する。 本稿では, 物理駆動型正則化器を提案し, 予測運動量の物理的妥当性を保証し, 対流加速度やジャーク等について検討する。 さらに,予測運動量で形成される剛性方程式に基づいて運動軌跡を制御する。 実験では,実世界のモノクロビデオにおいて,物理的な動きパターンをキャプチャすることで,最先端の技術を向上する。

This paper presents a novel approach for reconstructing dynamic radiance fields from monocular videos. We integrate kinematics with dynamic radiance fields, bridging the gap between the sparse nature of monocular videos and the real-world physics. Our method introduces the kinematic field, capturing motion through kinematic quantities: velocity, acceleration, and jerk. The kinematic field is jointly learned with the dynamic radiance field by minimizing the photometric loss without motion ground truth. We further augment our method with physics-driven regularizers grounded in kinematics. We propose physics-driven regularizers that ensure the physical validity of predicted kinematic quantities, including advective acceleration and jerk. Additionally, we control the motion trajectory based on rigidity equations formed with the predicted kinematic quantities. In experiments, our method outperforms the state-of-the-arts by capturing physical motion patterns within challenging real-world monocular videos.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# ヒトグラフ生成のための分解ベクトル量子変分オートエンコーダ

Decomposed Vector-Quantized Variational Autoencoder for Human Grasp Generation ( http://arxiv.org/abs/2407.14062v1 )

ライセンス: Link先を確認
Zhe Zhao, Mengshi Qi, Huadong Ma, (参考訳) コンピュータグラフィックスやロボット工学におけるオブジェクト操作を含むアプリケーションにとって、現実的な人間の握りを生成することは、非常に難しい課題である。 既存の手法では、すべての指がオブジェクトと効果的に相互作用する、きめ細かな人間の把握を生成するのに苦労することが多い。 本稿では,DVQ-VAE(Decomposed Vector-Quantized Variational Autoencoder)を提案する。 この部分認識分解アーキテクチャは、手とオブジェクトの各コンポーネント間のインタラクションをより正確に管理し、生成された人間の把握の全体的な現実性を高める。 さらに,両段階の復号化戦略を設計し,まず骨格の物理的制約下での把握のタイプを判断し,その位置を同定し,検証精度を大幅に向上させるとともに,手-物体の相互作用を未確認にするためのモデルの適応性を向上する。 実験では,4つの広く評価されたベンチマークの最先端手法と比較して,品質指標の14.1%の相対的な改善が得られた。 ソースコードはhttps://github.com/florasion/D-VQVAE.comで公開されています。

Generating realistic human grasps is a crucial yet challenging task for applications involving object manipulation in computer graphics and robotics. Existing methods often struggle with generating fine-grained realistic human grasps that ensure all fingers effectively interact with objects, as they focus on encoding hand with the whole representation and then estimating both hand posture and position in a single step. In this paper, we propose a novel Decomposed Vector-Quantized Variational Autoencoder (DVQ-VAE) to address this limitation by decomposing hand into several distinct parts and encoding them separately. This part-aware decomposed architecture facilitates more precise management of the interaction between each component of hand and object, enhancing the overall reality of generated human grasps. Furthermore, we design a newly dual-stage decoding strategy, by first determining the type of grasping under skeletal physical constraints, and then identifying the location of the grasp, which can greatly improve the verisimilitude as well as adaptability of the model to unseen hand-object interaction. In experiments, our model achieved about 14.1% relative improvement in the quality index compared to the state-of-the-art methods in four widely-adopted benchmarks. Our source code is available at https://github.com/florasion/D-VQVAE.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# CXRイメージングにおけるリフィング結核検出:解釈可能性によるディープニューラルネットワークのバイアス対応

Refining Tuberculosis Detection in CXR Imaging: Addressing Bias in Deep Neural Networks via Interpretability ( http://arxiv.org/abs/2407.14064v1 )

ライセンス: Link先を確認
Özgür Acar Güler, Manuel Günther, André Anjos, (参考訳) 胸部X線画像からの活性結核の自動分類は、特に熟練した専門家が不足する低所得国や中所得国において、命を救う可能性がある。 このようなシステムをトレーニングするためのラベル付きデータが不足していることや、公開されているデータセットのバランスの取れていない性質を考えると、ディープラーニングモデルの信頼性は、たとえテストデータに対して完全な分類精度が得られたとしても、限定的であると論じる。 このようなシステムの信頼性を評価する方法の1つは、モデルが入力画像の同じ領域を医療専門家が予測するために使用することを保証することである。 本稿では、大規模プロキシタスク上でのディープニューラルネットワークの事前トレーニングと、事前トレーニングと微調整の異なるクラスのバランスをとる技術であるMOON(Mixed objective Optimization Network)を用いることにより、ターゲットデータセット上で直接訓練されたモデルと比較して、モデルと専門家間の決定基盤の整合性を改善することができることを示す。 同時に、これらの手法は、テストセット上の受信機動作特性曲線(AUROC)の領域に応じて完全な分類精度を維持し、独立して見えないデータセットの一般化を改善する。 再現性のため、ソースコードをオンラインで公開しています。

Automatic classification of active tuberculosis from chest X-ray images has the potential to save lives, especially in low- and mid-income countries where skilled human experts can be scarce. Given the lack of available labeled data to train such systems and the unbalanced nature of publicly available datasets, we argue that the reliability of deep learning models is limited, even if they can be shown to obtain perfect classification accuracy on the test data. One way of evaluating the reliability of such systems is to ensure that models use the same regions of input images for predictions as medical experts would. In this paper, we show that pre-training a deep neural network on a large-scale proxy task, as well as using mixed objective optimization network (MOON), a technique to balance different classes during pre-training and fine-tuning, can improve the alignment of decision foundations between models and experts, as compared to a model directly trained on the target dataset. At the same time, these approaches keep perfect classification accuracy according to the area under the receiver operating characteristic curve (AUROC) on the test set, and improve generalization on an independent, unseen dataset. For the purpose of reproducibility, our source code is made available online.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# MSCT:Murginal Structure Causal Transformer による事故後交通予測のための時間変化対応

MSCT: Addressing Time-Varying Confounding with Marginal Structural Causal Transformer for Counterfactual Post-Crash Traffic Prediction ( http://arxiv.org/abs/2407.14065v1 )

ライセンス: Link先を確認
Shuang Li, Ziyuan Pu, Nan Zhang, Duxin Chen, Lu Dong, Daniel J. Graham, Yinhai Wang, (参考訳) 交通事故は交通効率を著しく損ない、経済的課題を引き起こす。 事故後の交通状況の正確な予測は、交通摂動の評価と効果的なソリューションの開発に不可欠な情報を提供する。 これまでの研究では、交通状況を予測するための一連のディープラーニングモデルが確立されてきたが、これらの相関に基づく手法は、時間変化のある共同設立者によるバイアスと、クラッシュの異質な影響に適応できない。 事故後の交通予測モデルでは, 交通要因間の因果関係の理解の必要性を実証するために, 様々な条件下での仮説的事故に対する交通速度応答を推定する必要がある。 そこで本論文では,非現実的なトラフィック予測を目的とした新しい深層学習モデルであるMarginal Structure Causal Transformer (MSCT)を提案する。 時間的差分バイアスの問題に対処するため、MSCTはMarginal Structure Modelsにインスパイアされた構造を導入し、不変因果的特徴の学習を容易にするバランスの取れた損失関数を導入した。 提案モデルでは, 仮説的衝突介入戦略の下での交通速度の理解と予測に特化して, 処理を意識したモデルを提案する。 地上構造データがない場合には, 交通速度, 衝突, 共変量間の因果関係をエミュレートする合成データ生成手法が提案される。 このモデルは、合成データと実世界のデータの両方を用いて検証され、MSCTがマルチステップ・アヘッド予測性能において最先端モデルより優れていることを示す。 本研究は, 時間変化の共起バイアスとデータセット分布がモデル性能に与える影響を系統的に分析し, インテリジェント交通システムに対する対実予測に有意な洞察をもたらした。

Traffic crashes profoundly impede traffic efficiency and pose economic challenges. Accurate prediction of post-crash traffic status provides essential information for evaluating traffic perturbations and developing effective solutions. Previous studies have established a series of deep learning models to predict post-crash traffic conditions, however, these correlation-based methods cannot accommodate the biases caused by time-varying confounders and the heterogeneous effects of crashes. The post-crash traffic prediction model needs to estimate the counterfactual traffic speed response to hypothetical crashes under various conditions, which demonstrates the necessity of understanding the causal relationship between traffic factors. Therefore, this paper presents the Marginal Structural Causal Transformer (MSCT), a novel deep learning model designed for counterfactual post-crash traffic prediction. To address the issue of time-varying confounding bias, MSCT incorporates a structure inspired by Marginal Structural Models and introduces a balanced loss function to facilitate learning of invariant causal features. The proposed model is treatment-aware, with a specific focus on comprehending and predicting traffic speed under hypothetical crash intervention strategies. In the absence of ground-truth data, a synthetic data generation procedure is proposed to emulate the causal mechanism between traffic speed, crashes, and covariates. The model is validated using both synthetic and real-world data, demonstrating that MSCT outperforms state-of-the-art models in multi-step-ahead prediction performance. This study also systematically analyzes the impact of time-varying confounding bias and dataset distribution on model performance, contributing valuable insights into counterfactual prediction for intelligent transportation systems.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# 360VFI: 全方向ビデオフレーム補間のためのデータセットとベンチマーク

360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation ( http://arxiv.org/abs/2407.14066v1 )

ライセンス: Link先を確認
Wenxuan Lu, Mengshun Hu, Yansheng Qiu, Liang Liao, Zheng Wang, (参考訳) VR関連技術の開発により、視聴者はヘッドマウントディスプレイを通じてリアルで没入感のある体験を楽しめる一方、フレームレートの低い全方位ビデオはユーザーのめまいにつながる。 しかし, 平面フレーム補間法は, 主に, 強い歪みを伴う映像に合わせたモデルが欠如していることから, 全方向ビデオフレーム補間のための貴重なデータセットが不足していることから, 全方向ビデオ補間には適していない。 本稿では,Omnidirectional Video Frame Interpolationのためのベンチマークデータセットである360VFIを紹介する。 本稿では,全方向ビデオの歪みをネットワークに導入し,歪みを変調する実用的な実装を提案する。 特に,等角射影(ERP)形式の特徴を先行情報として用いたピラミッド歪み感性特徴抽出器を提案する。 さらに,アフィン変換を用いて中間フレームの合成を容易にするデコーダを考案した。 360VFIは、Omnidirectional Video Frame Interpolationの課題を探求する最初のデータセットとベンチマークである。 提案した360VFIデータセットに4つの異なる歪み条件を呈示し、補間時の歪みに起因する課題を評価する。 さらに, 全方向歪みのモデル化により, 全方向ビデオ補間を効果的に改善できることを示した。

With the development of VR-related techniques, viewers can enjoy a realistic and immersive experience through a head-mounted display, while omnidirectional video with a low frame rate can lead to user dizziness. However, the prevailing plane frame interpolation methodologies are unsuitable for Omnidirectional Video Interpolation, chiefly due to the lack of models tailored to such videos with strong distortion, compounded by the scarcity of valuable datasets for Omnidirectional Video Frame Interpolation. In this paper, we introduce the benchmark dataset, 360VFI, for Omnidirectional Video Frame Interpolation. We present a practical implementation that introduces a distortion prior from omnidirectional video into the network to modulate distortions. We especially propose a pyramid distortion-sensitive feature extractor that uses the unique characteristics of equirectangular projection (ERP) format as prior information. Moreover, we devise a decoder that uses an affine transformation to facilitate the synthesis of intermediate frames further. 360VFI is the first dataset and benchmark that explores the challenge of Omnidirectional Video Frame Interpolation. Through our benchmark analysis, we presented four different distortion conditions scenes in the proposed 360VFI dataset to evaluate the challenge triggered by distortion during interpolation. Besides, experimental results demonstrate that Omnidirectional Video Interpolation can be effectively improved by modeling for omnidirectional distortion.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# 量子チャネルにおける量子-古典対応

Quantum-classical correspondence in quantum channels ( http://arxiv.org/abs/2407.14067v1 )

ライセンス: Link先を確認
Bidhi Vijaywargia, Arul Lakshminarayan, (参考訳) 量子チャネルはサブシステムまたはオープンシステムの進化を記述する。 位相空間上の関数を進化させる古典的クープマン作用素を用いて、4つの古典的クープマンチャネルを、2部集合における4つの可能な量子チャネルのアナログとして同定する。 したがって、完全進化が量子古典的対応を持つ場合、サブユニットチャネルのレベルでの対応を研究することができる。 古典的かつ量子的なチャネルは、ノイズの多い単一粒子系と解釈できる。 古典的および量子演算子を平行に持つことで、これらの主要な制限理論の詳細な詳細を研究するための新たなアクセスが可能になる。 組み合わせたキックローターを一般的な例として用いて、量子チャネルと古典チャネルのスペクトルを比較し比較する。 量子チャネルの最大の非自明なモードは、主に古典位相空間の安定な部分によって決定される。 力学がカオスのかなりの割合を持つ場合、スペクトルは、ランダム行列理論の単環定理によって概ね記述される顕著な環状密度を持ち、古典的極限に近づくと環は小さくなる。 しかし、古典的極限を生き残る固有値とモードは、不安定な多様体によって傷つくか、あるいはそれらが存在する場合、安定周期軌道によって傷つくかのように見える。

Quantum channels describe subsystem or open system evolution. Using the classical Koopman operator that evolves functions on phase space, 4 classical Koopman channels are identified that are analogs of the 4 possible quantum channels in a bipartite setting. Thus when the complete evolution has a quantum-classical correspondence the correspondence at the level of the subunitary channels can be studied. The channels, both classical and quantum can be interpreted as noisy single particle systems. Having parallel classical and quantum operators gives us new access to study fine details of these major limiting theories. Using a coupled kicked rotor as a generic example, we contrast and compare spectra of the quantum and classical channel. The largest nontrivial mode of the quantum channel is seen to be mostly determined by the stable parts of the classical phase space, even those that are surprisingly small in relation to the scale of an effective $\hbar$. In the case when the dynamics has a significant fraction of chaos the spectrum has a prominent annular density that is approximately described by the single-ring theorem of random matrix theory, and the ring shrinks in size when the classical limit is approached. However, the eigenvalues and modes that survive the classical limit seem to be either scarred by unstable manifolds or, if they exist, stable periodic orbits.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# ヒューリスティック非結合視点における自己監督型映像表現学習

Self-Supervised Video Representation Learning in a Heuristic Decoupled Perspective ( http://arxiv.org/abs/2407.14069v1 )

ライセンス: Link先を確認
Zeen Song, Jingyao Wang, Jianqi Zhang, Changwen Zheng, Wenwen Qiang, (参考訳) ビデオコントラッシブ・ラーニング(v-CL)は教師なしビデオ表現学習の先駆的フレームワークとして注目され、アクション分類や検出といった様々なタスクにおいて印象的なパフォーマンスを示す。 映像表現学習の分野では、特徴抽出器は静的意味論と動的意味論の両方を理想的に捉えるべきである。 しかし,我々の一連の実験により,既存のv-CL法は静的セマンティクスを主に捕捉し,動的セマンティクスのキャプチャに制限があることが明らかとなった。 v-CLの目的は動的特徴の明示的なモデリングを欠き、動的類似性の測定は静的意味論によって、静的類似性の測定は動的意味論によって、さらに動的類似性の測定は動的意味論によって、構成される。 そこで本研究では,動的セマンティクスと静的セマンティクスの両方を疎結合で捉えるために,二段階学習力学とデカップリング・インターベンション(BOLD-DI)を提案する。 提案手法は既存のv-CL手法とシームレスに統合でき, 実験結果から重要な改善点が浮き彫りにされている。

Video contrastive learning (v-CL) has gained prominence as a leading framework for unsupervised video representation learning, showcasing impressive performance across various tasks such as action classification and detection. In the field of video representation learning, a feature extractor should ideally capture both static and dynamic semantics. However, our series of experiments reveals that existing v-CL methods predominantly capture static semantics, with limited capturing of dynamic semantics. Through causal analysis, we identify the root cause: the v-CL objective lacks explicit modeling of dynamic features and the measurement of dynamic similarity is confounded by static semantics, while the measurement of static similarity is confounded by dynamic semantics. In response, we propose "Bi-level Optimization of Learning Dynamic with Decoupling and Intervention" (BOLD-DI) to capture both static and dynamic semantics in a decoupled manner. Our method can be seamlessly integrated into the existing v-CL methods and experimental results highlight the significant improvements.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# ファンデルワールスヘテロ構造におけるh-BN単一光子源の電気励起

Electrical pumping of h-BN single-photon sources in van der Waals heterostructures ( http://arxiv.org/abs/2407.14070v1 )

ライセンス: Link先を確認
Mihyang Yu, Jeonghan Lee, Kenji Watanabe, Takashi Taniguchi, Jieun Lee, (参考訳) 固体の原子欠陥は、様々な統合システムにおける量子現象と情報科学の研究と実現のための汎用的な基礎を提供する。 ダイヤモンド、炭化ケイ素、酸化亜鉛の発色中心を含むいくつかのプラットフォームにおいて、単一欠陥の全ての電界励起が実現されており、これは電気的に誘起される単一光子源の回路ネットワークに繋がる可能性がある。 しかし, 欠陥部位当たりのキャリア注入を減少させる広い伝導チャネルが大きな障害となっている。 そこで我々は、原子面精度のファンデルワールス積層構造を用いて、電気的に励起された単一光子源を構築する新しい装置の概念を考案し、実現した。 グラフェンとNbSe2電極に原子的に薄いh-BN層を挟む欠陥誘起トンネル電流は、h-BNから持続的かつ反復的に非古典的な光を生成する。 収集された発光光子エネルギーは1.4から2.9eVの範囲で、様々な原子欠陥の電気的励起を示す。 観測エミッタの双極子軸を解析することにより、エミッタがh-BN結晶の結晶欠陥複合体であることをさらに確認する。 我々の研究は、ファンデルワールスプラットフォームにおける量子光学応用に向けた、効率的で小型化された単一光子デバイスの実装を容易にする。

Atomic defects in solids offer a versatile basis to study and realize quantum phenomena and information science in various integrated systems. All-electrical pumping of single defects to create quantum light emission has been realized in several platforms including color centers in diamond, silicon carbide, and zinc oxide, which could lead to the circuit network of electrically triggered single-photon sources. However, a wide conduction channel which reduces the carrier injection per defect site has been a major obstacle. Here, we conceive and realize a novel device concept to construct electrically pumped single-photon sources using a van der Waals stacked structure with atomic plane precision. Defect-induced tunneling currents across graphene and NbSe2 electrodes sandwiching an atomically thin h-BN layer allows persistent and repeatable generation of non-classical light from h-BN. The collected emission photon energies range between 1.4 and 2.9 eV, revealing the electrical excitation of a variety of atomic defects. By analyzing the dipole axis of observed emitters, we further confirm that emitters are crystallographic defect complexes of h-BN crystal. Our work facilitates implementing efficient and miniaturized single-photon devices in van der Waals platforms toward applications in quantum optoelectronics.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# LoAS:デュアルスパーススパイクニューラルネットワークのためのフルテンポラルパラレルデータフロー

LoAS: Fully Temporal-Parallel Datatflow for Dual-Sparse Spiking Neural Networks ( http://arxiv.org/abs/2407.14073v1 )

ライセンス: Link先を確認
Ruokai Yin, Youngeun Kim, Di Wu, Priyadarshini Panda, (参考訳) スパイキングニューラルネットワーク(SNN)は、リソースに制約のあるエッジデバイスを駆動する可能性から、過去10年間で大きな研究注目を集めている。 既存のSNNアクセラレーターはスパーススパイクを高効率で処理できるが、スパースウェイトを持つSNNでは、二重スパースシティの機会は少ない。 本研究では,スパース行列-スパース行列乗算(spMspM)のコア演算に着目し,二重スパースSNNの高速化について検討する。 両スパースニューラルネットワーク(ANN)用に設計された既存のspMspMアクセラレータ上で、双スパースSNNを鼻で動作させることで、準最適効率を示す。 主な課題は、SNNの自然な性質である処理タイムステップが、ANNspMspMに余分なループを導入し、レイテンシが長くなり、メモリトラフィックが増加することだ。 この問題に対処するために、時間ステップ間のデータ移動と、二重スパースSNNのエンドツーエンド遅延を最小化する、完全時相並列(FTP)データフローを提案する。 FTPデータフローの効率を最大化するために,単一ビットのスパイクを効率よく圧縮し,連続的なメモリアクセスを確保するFTPフレンドリーなスパイク圧縮機構を提案する。 さらに、スループットのペナルティがほとんどない高価なプレフィックスサム回路のコストを低減できるFTPフレンドリーなインナージョイント回路を提案する。 FTPデータフローのすべてのテクニックは、デュアルスパースSNN用の低遅延推論加速器であるLoASにカプセル化されている。 FTPデータフロー、圧縮、インナージョイントでは、LOAS上でデュアルスパースSNNワークロードを実行すると、以前のデュアルスパースアクセラレーターで実行する場合と比較して、大幅なスピードアップ(最大8.51\times$)とエネルギー削減(最大3.68\times$)が示される。

Spiking Neural Networks (SNNs) have gained significant research attention in the last decade due to their potential to drive resource-constrained edge devices. Though existing SNN accelerators offer high efficiency in processing sparse spikes with dense weights, opportunities are less explored in SNNs with sparse weights, i.e., dual-sparsity. In this work, we study the acceleration of dual-sparse SNNs, focusing on their core operation, sparse-matrix-sparse-matrix multiplication (spMspM). We observe that naively running a dual-sparse SNN on existing spMspM accelerators designed for dual-sparse Artificial Neural Networks (ANNs) exhibits sub-optimal efficiency. The main challenge is that processing timesteps, a natural property of SNNs, introduces an extra loop to ANN spMspM, leading to longer latency and more memory traffic. To address the problem, we propose a fully temporal-parallel (FTP) dataflow, which minimizes both data movement across timesteps and the end-to-end latency of dual-sparse SNNs. To maximize the efficiency of FTP dataflow, we propose an FTP-friendly spike compression mechanism that efficiently compresses single-bit spikes and ensures contiguous memory access. We further propose an FTP-friendly inner-join circuit that can lower the cost of the expensive prefix-sum circuits with almost no throughput penalty. All the above techniques for FTP dataflow are encapsulated in LoAS, a Low-latency inference Accelerator for dual-sparse SNNs. With FTP dataflow, compression, and inner-join, running dual-sparse SNN workloads on LoAS demonstrates significant speedup (up to $8.51\times$) and energy reduction (up to $3.68\times$) compared to running it on prior dual-sparse accelerators.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# 言語モデルのドメイン特化事前学習:医学領域における比較研究

Domain-Specific Pretraining of Language Models: A Comparative Study in the Medical Field ( http://arxiv.org/abs/2407.14076v1 )

ライセンス: Link先を確認
Tobias Kerner, (参考訳) LLMが単一のドメインで特定のタスクに使用されるケースは多い。 これらは通常、より一般的ではなく、よりドメイン固有の知識を必要とする。 高機能で汎用的なGPT-4やClaude-3-opusのような言語モデルは、そのようなタスクによく使用されるが、非常に大きく、プロプライエタリでない場合でもローカルでは実行できない。 センシティブなデータを扱う場合、これは問題になる可能性がある。 本稿では、ドメイン固有および混合ドメイン事前学習を、特定の言語モデルに対する一般的な事前学習よりも効率的な方法として論じる。 専門的な言語モデルのベンチマーク結果を汎用言語モデルと比較し、特に医療領域におけるドメイン固有の事前訓練に関する作業について考察する。

There are many cases where LLMs are used for specific tasks in a single domain. These usually require less general, but more domain-specific knowledge. Highly capable, general-purpose state-of-the-art language models like GPT-4 or Claude-3-opus can often be used for such tasks, but they are very large and cannot be run locally, even if they were not proprietary. This can be a problem when working with sensitive data. This paper focuses on domain-specific and mixed-domain pretraining as potentially more efficient methods than general pretraining for specialized language models. We will take a look at work related to domain-specific pretraining, specifically in the medical area, and compare benchmark results of specialized language models to general-purpose language models.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# 安定ヘア:拡散モデルによる実世界のヘアトランスファー

Stable-Hair: Real-World Hair Transfer via Diffusion Model ( http://arxiv.org/abs/2407.14078v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Qing Zhang, Yiren Song, Jiaming Liu, (参考訳) 現在のヘアトランスファー法は多様で複雑なヘアスタイルを扱うのに苦労しており、現実のシナリオでは適用性が制限される。 本稿では,現実世界のヘアスタイルを仮想ヘアアップのためにユーザが提供する顔に頑健に転送する,新しい拡散型ヘアトランスファーフレームワークである「textit{Stable-Hair}」を提案する。 この目標を達成するため、私たちのStable-Hairフレームワークは2段階のパイプラインとして設計されています。 第1段階では、安定した拡散とともにバルドコンバータを訓練し、ユーザが提供する顔画像から毛髪を除去し、ハゲ画像を生成する。 第2段階では, ヘアエクストラクタ, ラテントアイデンティティネット, ヘアクロスアテンション層という3つのモジュールを設計した。 具体的には、ヘアエクストラクターは、所望のヘアスタイルで参照画像をエンコードするように訓練されている。 ソース画像と転送結果の同一性と背景の整合性を維持するため,Latent IdentityNetを用いてソース画像のエンコードを行う。 U-Netのヘアクロス・アテンション・レイヤの助けを借りて、高精細で高忠実なヘアスタイルをハゲ画像に正確に正確に転送することができる。 既存のヘアトランスファー法では,本手法がSOTA(State-of-the-art (SOTA))の結果をもたらすことが実証されている。 プロジェクトページ: \textcolor{red}{\url{https://xiaojiu-z.github.io/Stable-Hair.github.io/}}

Current hair transfer methods struggle to handle diverse and intricate hairstyles, thus limiting their applicability in real-world scenarios. In this paper, we propose a novel diffusion-based hair transfer framework, named \textit{Stable-Hair}, which robustly transfers a wide range of real-world hairstyles onto user-provided faces for virtual hair try-on. To achieve this goal, our Stable-Hair framework is designed as a two-stage pipeline. In the first stage, we train a Bald Converter alongside stable diffusion to remove hair from the user-provided face images, resulting in bald images. In the second stage, we specifically designed three modules: a Hair Extractor, a Latent IdentityNet, and Hair Cross-Attention Layers to transfer the target hairstyle with highly detailed and high-fidelity to the bald image. Specifically, the Hair Extractor is trained to encode reference images with the desired hairstyles. To preserve the consistency of identity content and background between the source images and the transfer results, we employ a Latent IdentityNet to encode the source images. With the assistance of our Hair Cross-Attention Layers in the U-Net, we can accurately and precisely transfer the highly detailed and high-fidelity hairstyle to the bald image. Extensive experiments have demonstrated that our approach delivers state-of-the-art (SOTA) results among existing hair transfer methods. Project page: \textcolor{red}{\url{https://xiaojiu-z.github.io/Stable-Hair.github.io/}}
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# DisenSemi: アンタングル表現学習による半教師付きグラフ分類

DisenSemi: Semi-supervised Graph Classification via Disentangled Representation Learning ( http://arxiv.org/abs/2407.14081v1 )

ライセンス: Link先を確認
Yifan Wang, Xiao Luo, Chong Chen, Xian-Sheng Hua, Ming Zhang, Wei Ju, (参考訳) グラフ分類は多くのマルチメディアアプリケーションにおいて重要なタスクであり、画像、ビデオ、ソーシャルネットワークを含む様々な種類のマルチメディアデータを表現するためにグラフが使用される。 それでも、実世界のシナリオでは、ラベル付きグラフデータは制限されるか不足する可能性がある。 この問題に対処するために,ラベル付きおよびラベルなしデータから学習する教師なしモデルと教師なしモデルの両方を含む半教師付きグラフ分類の問題に焦点をあてる。 教師なしモデルから教師なしモデルへ知識全体を伝達する最近のアプローチとは対照的に、効果的な伝達は教師付きタスクとうまく整合する関連する意味論のみを保持するべきであると論じる。 本稿では,半教師付きグラフ分類のためのアンタングル表現を学習するDisenSemiという新しいフレームワークを提案する。 具体的には,非教師付きモデルと教師なしモデルの両方に対して因子ワイドグラフ表現を生成するために,非教師付きグラフエンコーダを提案する。 次に、教師付き客観情報と相互情報(MI)に基づく制約により、2つのモデルを訓練する。 教師なしエンコーダから教師なしエンコーダへの知識の有意義な伝達を保証するため,MIに基づく2つのモデル間の不整合整合正則化を定義し,現在のグラフ分類タスクとよく一致した対応する理性を特定する。 公開データセットのさまざまな実験結果から,DisenSemiの有効性が明らかとなった。

Graph classification is a critical task in numerous multimedia applications, where graphs are employed to represent diverse types of multimedia data, including images, videos, and social networks. Nevertheless, in real-world scenarios, labeled graph data can be limited or scarce. To address this issue, we focus on the problem of semi-supervised graph classification, which involves both supervised and unsupervised models learning from labeled and unlabeled data. In contrast to recent approaches that transfer the entire knowledge from the unsupervised model to the supervised one, we argue that an effective transfer should only retain the relevant semantics that align well with the supervised task. In this paper, we propose a novel framework named DisenSemi, which learns disentangled representation for semi-supervised graph classification. Specifically, a disentangled graph encoder is proposed to generate factor-wise graph representations for both supervised and unsupervised models. Then we train two models via supervised objective and mutual information (MI)-based constraints respectively. To ensure the meaningful transfer of knowledge from the unsupervised encoder to the supervised one, we further define an MI-based disentangled consistency regularization between two models and identify the corresponding rationale that aligns well with the current graph classification task. Experimental results on a range of publicly accessible datasets reveal the effectiveness of our DisenSemi.
翻訳日:2024-07-22 18:33:40 公開日:2024-07-19
# クラス固有のキーワード抽出法の改良--ドイツのビジネスレジストリを事例として

An Improved Method for Class-specific Keyword Extraction: A Case Study in the German Business Registry ( http://arxiv.org/abs/2407.14085v1 )

ライセンス: Link先を確認
Stephen Meisenbacher, Tim Schopf, Weixin Yan, Patrick Holl, Florian Matthes, (参考訳) $\textit{keyword extract}$のタスクは、しばしば教師なし情報抽出における重要な初期ステップであり、トピックモデリングや文書分類といったタスクの基礎を形成する。 最近のメソッドはキーワードの抽出に非常に効果的であることが証明されているが、$\textit{class-specific}$キーワードの識別は、事前に定義されたクラスに関連するもののみである。 本稿では,クラス固有のキーワード抽出の改良手法を提案する。この手法は人気の高い$\textbf{keyBERT}$ライブラリ上に構築され,$\textit{seed keywords}$で記述されたクラスに関連するキーワードのみを識別する。 本稿では,ドイツのビジネスレジストリエントリのデータセットを用いて,各ビジネスを経済セクターに応じて分類することを目的とする。 提案手法は従来の手法で大幅に改善され,$\textit{class-specific}$キーワード抽出の新しい標準が設定された。

The task of $\textit{keyword extraction}$ is often an important initial step in unsupervised information extraction, forming the basis for tasks such as topic modeling or document classification. While recent methods have proven to be quite effective in the extraction of keywords, the identification of $\textit{class-specific}$ keywords, or only those pertaining to a predefined class, remains challenging. In this work, we propose an improved method for class-specific keyword extraction, which builds upon the popular $\textbf{KeyBERT}$ library to identify only keywords related to a class described by $\textit{seed keywords}$. We test this method using a dataset of German business registry entries, where the goal is to classify each business according to an economic sector. Our results reveal that our method greatly improves upon previous approaches, setting a new standard for $\textit{class-specific}$ keyword extraction.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# 埋め込みと時間相関:JDEに基づくリアルタイムマルチオブジェクト追跡の第2世代に向けて

Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking ( http://arxiv.org/abs/2407.14086v1 )

ライセンス: Link先を確認
Yunfei Zhang, Chao Liang, Jin Gao, Zhipeng Zhang, Weiming Hu, Stephen Maybank, Xue Zhou, Liang Li, (参考訳) 共同検出・埋め込み(JDE)トラッカーは,マルチオブジェクト追跡(MOT)タスクにおいて,ReID(Re-Identification Task)を検出器に埋め込んで外観特徴の抽出を補助タスクとして取り入れ,推論速度と追跡性能のバランスをとることにより,優れた性能を示した。 しかし,検出器と特徴抽出器の競合を解消することは常に困難であった。 また、ReIDタスクを直接MOTに埋め込むという問題は未解決のままである。 外観の特徴に高い差別性が欠如していることは、その実用性に限界をもたらす。 本稿では,オブジェクトの時間的情報を取得するために相互相関を用いた新しい学習手法を提案する。 特徴抽出ネットワークは、もはや各フレームの外観特徴のみに基づいて訓練されるのではなく、連続するフレームからの特徴ヒートマップを利用してよりリッチな動作特徴を学習し、クラス間特徴類似性の課題に対処する。 さらに,提案手法をより軽量な特徴抽出ネットワークに適用し,特徴マッチングスコアを補助的手がかりではなく強い手がかりとして扱い,得られた特徴とMOTタスクとの整合性を反映した適切な重み計算を用いる。 TCBTrackと名付けられた私たちのトラッカーは、複数の公開ベンチマーク、すなわちMOT17、MOT20、DanceTrackデータセットで最先端のパフォーマンスを実現しています。 特に、DanceTrackテストセットでは56.8 HOTA、58.1 IDF1、92.5 MOTAを達成しており、リアルタイムのパフォーマンスを実現するオンライントラッカーとしては最高のものとなっている。 他のトラッカーとの比較により,トラッカーの速度,頑健性,精度のバランスが良好であることが確認された。

Joint Detection and Embedding(JDE) trackers have demonstrated excellent performance in Multi-Object Tracking(MOT) tasks by incorporating the extraction of appearance features as auxiliary tasks through embedding Re-Identification task(ReID) into the detector, achieving a balance between inference speed and tracking performance. However, solving the competition between the detector and the feature extractor has always been a challenge. Also, the issue of directly embedding the ReID task into MOT has remained unresolved. The lack of high discriminability in appearance features results in their limited utility. In this paper, we propose a new learning approach using cross-correlation to capture temporal information of objects. The feature extraction network is no longer trained solely on appearance features from each frame but learns richer motion features by utilizing feature heatmaps from consecutive frames, addressing the challenge of inter-class feature similarity. Furthermore, we apply our learning approach to a more lightweight feature extraction network, and treat the feature matching scores as strong cues rather than auxiliary cues, employing a appropriate weight calculation to reflect the compatibility between our obtained features and the MOT task. Our tracker, named TCBTrack, achieves state-of-the-art performance on multiple public benchmarks, i.e., MOT17, MOT20, and DanceTrack datasets. Specifically, on the DanceTrack test set, we achieve 56.8 HOTA, 58.1 IDF1 and 92.5 MOTA, making it the best online tracker that can achieve real-time performance. Comparative evaluations with other trackers prove that our tracker achieves the best balance between speed, robustness and accuracy.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# 顔認識におけるデモグラフィックフェアネスのためのスコア正規化

Score Normalization for Demographic Fairness in Face Recognition ( http://arxiv.org/abs/2407.14087v1 )

ライセンス: Link先を確認
Yu Linghu, Tiago des Freitas Pereira, Christophe Ecabert, Sébastien Marcel, Manuel Günther, (参考訳) 公平なバイオメトリックアルゴリズムは、一つの決定しきい値が与えられた異なる人口集団間で同様の検証性能を有する。 残念ながら、最先端の顔認識ネットワークでは、スコアの分布は人口統計によって異なる。 余分なトレーニングや微調整によってこれらの分散を調整しようとする作業とは対照的に、私たちは単にポストプロセッシングの方法のスコアに重点を置いています。 証明されたように、よく知られたサンプル中心のスコア正規化手法であるZノルムとTノルムは、高セキュリティ動作点の公平性を向上しない。 そこで我々は、標準Z/Tノルムを拡張して、正規化における人口統計情報を統合する。 さらに,各個体群ごとのコホート類似性を具現化して,異なる操作点間の公平性を向上する可能性についても検討した。 我々は、異なる人口層(性別と民族)を持つ2つのデータセットで実験を行い、我々の技術が一般的に、検証性能を低下させることなく、5つの最先端の顔認識ネットワークの全体的な公正性を改善することを示す。 また,FMR(False Match Rate)とFNMR(False Non-Match Rate)の等価寄与が,高い利得に対して必要であることを示す。 コードとプロトコルが利用可能である。

Fair biometric algorithms have similar verification performance across different demographic groups given a single decision threshold. Unfortunately, for state-of-the-art face recognition networks, score distributions differ between demographics. Contrary to work that tries to align those distributions by extra training or fine-tuning, we solely focus on score post-processing methods. As proved, well-known sample-centered score normalization techniques, Z-norm and T-norm, do not improve fairness for high-security operating points. Thus, we extend the standard Z/T-norm to integrate demographic information in normalization. Additionally, we investigate several possibilities to incorporate cohort similarities for both genuine and impostor pairs per demographic to improve fairness across different operating points. We run experiments on two datasets with different demographics (gender and ethnicity) and show that our techniques generally improve the overall fairness of five state-of-the-art pre-trained face recognition networks, without downgrading verification performance. We also indicate that an equal contribution of False Match Rate (FMR) and False Non-Match Rate (FNMR) in fairness evaluation is required for the highest gains. Code and protocols are available.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# データ・テキスト・ジェネレーションにおけるモデルサイズが微調整LDM性能に及ぼす影響:現状調査

Impact of Model Size on Fine-tuned LLM Performance in Data-to-Text Generation: A State-of-the-Art Investigation ( http://arxiv.org/abs/2407.14088v1 )

ライセンス: Link先を確認
Joy Mahapatra, Utpal Garain, (参考訳) Data-to-text (D2T) の生成は、テーブルやグラフなどの半構造化データから可読なテキストを生成することを目的としている。 最近のD2Tの成功は、LLMの進歩によるところが大きい。 LLMの成功にもかかわらず、D2Tタスクの微調整LDMの性能に及ぼすモデルサイズの影響を示す研究は行われていない。 D2Tモデルの性能は一般に3つの重要な性質に基づいて評価される: \textit{readability} (流布とコヒーレンスを示す)、 \textit{informativeness} (コンテンツ類似性を測定する)、 \textit{faithfulness} (事実情報の一貫性を評価する)。 現在,LLMのサイズを増大させることでD2Tタスクの性能が向上するかどうかは不明である。 本研究の目的は,D2Tタスクにおける微調整LDMの性能をモデルサイズの観点から検討することである。 広範の比較分析により,広く使用されている5つのD2Tデータセット(E2E, ViGGo, WikiTableText, DART, WebNLG)と,5つのLLMファミリー(T5, BART, OPT, BLOOM, Llama 2)から異なるサイズを持つ12の最先端のLLMを対象とするモデルサイズスケーリングのメリットと限界の両立を図る。 D2Tモデルの3つの重要な品質をすべて包括的にカバーするために、広く認識されている6つの自動メトリクス - \textsc{BLEU}, \textsc{METEOR}, \textsc{BERTScore}, \textsc{MoverScore}, \textsc{Parent}, \textsc{BARTScore} - が組み込まれている。 また、D2Tタスクの重要な側面であるソース参照分散の存在下でのモデルサイズに関するLLM性能を詳細に分析する。 本研究は, LLMのサイズが大きくなると, D2Tタスクにおいて, \textit{readability} と \textit{informativeness} が向上するが, LLM が大きくなると \textit{faithfulness} が犠牲になる可能性があることを示す。 さらに,LLMの小型化は,ソース参照のばらつきが存在する場合よりも高いレジリエンスを示す。

Data-to-text (D2T) generation aims to generate human-readable text from semi-structured data, such as tables and graphs. The recent success of D2T is largely attributed to advancements in LLMs. Despite the success of LLMs, no research has been conducted to illustrate the impact of model size on the performance of fine-tuned LLMs for D2T tasks. D2T model performance is typically assessed based on three key qualities: \textit{readability} (indicates fluency and coherence), \textit{informativeness} (measures content similarity), and \textit{faithfulness} (assesses consistency of factual information). It is currently uncertain whether increasing the size of LLMs effectively improves performance in D2T tasks across these three qualities. The objective of this study is to investigate the performance of fine-tuned LLMs in D2T tasks in terms of model size. Through extensive comparative analysis, we aim to elucidate both the advantages and limitations of scaling model sizes across five widely used D2T datasets (E2E, ViGGo, WikiTableText, DART, and WebNLG) and twelve state-of-the-art LLMs with varying sizes from five different LLM families (T5, BART, OPT, BLOOM, and Llama 2). To comprehensively cover all the three essential qualities of D2T models, we incorporate six widely recognized automatic metrics -- \textsc{BLEU}, \textsc{METEOR}, \textsc{BERTScore}, \textsc{MoverScore}, \textsc{Parent}, and \textsc{BARTScore}. We also provide an in-depth analysis of LLM performance concerning model size in the presence of source-reference divergence, a critical aspect of D2T tasks. Our investigation reveals that increasing LLM size enhances \textit{readability} and \textit{informativeness} in D2T tasks, but larger (in terms of size) LLMs may sacrifice \textit{faithfulness}. Moreover, small-sized LLMs show more resilience than larger ones when source-reference divergence is present.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# ゴール指向効果的な通信のための統合プッシュ・アンド・プル更新モデル

Integrated Push-and-Pull Update Model for Goal-Oriented Effective Communication ( http://arxiv.org/abs/2407.14092v1 )

ライセンス: Link先を確認
Pouya Agheli, Nikolaos Pappas, Petar Popovski, Marios Kountouris, (参考訳) 本稿では,ゴール指向の効果的なコミュニケーションのための意思決定について検討する。 我々は、センサエージェント(SA)がソースを観察し、アクティベーションエージェント(AA)に更新を生成し、送信するエンド・ツー・エンドのステータス更新システムについて検討する。 我々はプッシュ・アンド・プル・モデルにプッシュ・アンド・プル・モデルを統合することで,SAの送信コントローラがAAとAAのクエリコントローラに更新をプッシュすることで,特定のインスタンスでクエリを起動することで更新をプルすることができる。 有効性を評価するために、更新の鮮度、有用性、行動のタイムラインを質的属性として組み込んだGoE( grade of effectiveness)メトリクスを利用する。 次に、コスト誘導による更新効果の期待値の削減を最大化するために、効果認識ポリシーを導出する。 SAのエフェクト・アウェア・ポリシーは、エンドポイントにおける通信更新の有効性を考慮し、AAではソースの確率論的進化と生成された更新の重要性を考慮に入れている。 提案したプッシュ・アンド・プルモデルでは,効率と効率の両面から,プッシュ・アンド・プルの更新のみに基づくモデルよりも優れていることを示す。 さらに、双方のエージェントにおけるエフェクト・アウェア・ポリシーの使用は、周期的および/または確率的エフェクト・アグノスティック・ポリシーのいずれかのエージェントにおけるエフェクト・アウェア・ポリシーと比較して効果を高める。

This paper studies decision-making for goal-oriented effective communication. We consider an end-to-end status update system where a sensing agent (SA) observes a source, generates and transmits updates to an actuation agent (AA), while the AA takes actions to accomplish a goal at the endpoint. We integrate the push- and pull-based update communication models to obtain a push-and-pull model, which allows the transmission controller at the SA to decide to push an update to the AA and the query controller at the AA to pull updates by raising queries at specific time instances. To gauge effectiveness, we utilize a grade of effectiveness (GoE) metric incorporating updates' freshness, usefulness, and timeliness of actions as qualitative attributes. We then derive effect-aware policies to maximize the expected discounted sum of updates' effectiveness subject to induced costs. The effect-aware policy at the SA considers the potential effectiveness of communicated updates at the endpoint, while at the AA, it accounts for the probabilistic evolution of the source and importance of generated updates. Our results show the proposed push-and-pull model outperforms models solely based on push- or pull-based updates both in terms of efficiency and effectiveness. Additionally, using effect-aware policies at both agents enhances effectiveness compared to periodic and/or probabilistic effect-agnostic policies at either or both agents.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# 二重影響を考慮したレコメンダシステムにおけるユーザ・クリータ特性のダイナミクス

User-Creator Feature Dynamics in Recommender Systems with Dual Influence ( http://arxiv.org/abs/2407.14094v1 )

ライセンス: Link先を確認
Tao Lin, Kun Jin, Andrew Estornell, Xiaoying Zhang, Yiling Chen, Yang Liu, (参考訳) レコメンダシステムはユーザに対して関連するコンテンツを提示し、コンテンツクリエーターがターゲットのオーディエンスにリーチするのを手助けする。 これらのシステムの二重性はユーザとクリエーターの両方に影響を与え、ユーザの好みは推奨されるアイテムに影響され、クリエーターはより頻繁に推奨されるようにコンテンツを変更するインセンティブを与える。 我々は,レコメンデータシステムの2つの影響を捉えるために,ユーザ・クリエータ機能ダイナミクスと呼ばれるモデルを定義した。 我々は、二重影響のレコメンデータシステムが偏光を保証し、システムの多様性を損なうことを証明した。 次に、理論的にも経験的にも、リコメンダシステムにおける偏光緩和と多様性促進のためのアプローチについて検討する。 必然的に、共通多様性促進手法は二重影響の存在下では機能しないが、トップ・ドル・レコメンデーションのような関連性最適化手法は偏光を防止し、システムの多様性を改善することができる。

Recommender systems present relevant contents to users and help content creators reach their target audience. The dual nature of these systems influences both users and creators: users' preferences are affected by the items they are recommended, while creators are incentivized to alter their contents such that it is recommended more frequently. We define a model, called user-creator feature dynamics, to capture the dual influences of recommender systems. We prove that a recommender system with dual influence is guaranteed to polarize, causing diversity loss in the system. We then investigate, both theoretically and empirically, approaches for mitigating polarization and promoting diversity in recommender systems. Unexpectedly, we find that common diversity-promoting approaches do not work in the presence of dual influence, while relevancy-optimizing methods like top-$k$ recommendation can prevent polarization and improve diversity of the system.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# 人々は新しいゲームを推論するために高速でゴール指向のシミュレーションを使う

People use fast, goal-directed simulation to reason about novel games ( http://arxiv.org/abs/2407.14095v1 )

ライセンス: Link先を確認
Cedegao E. Zhang, Katherine M. Collins, Lionel Wong, Adrian Weller, Joshua B. Tenenbaum, (参考訳) 問題を効果的に解決する前に、問題の特徴とその潜在的な解決策を評価することができる。 例えば、今までプレイしたことのないゲームを考えるとき、ゲーム学習に時間を費やすか、うまくプレイしようとするかを決める前に、単にゲームルールを聴くだけで、チャレンジ、フェア、あるいは楽しいかどうかを推測するかもしれません。 ゲームプレイの多くの研究は、最適性と専門性に重点を置いており、人や計算モデルが適度から広範囲な探索に基づいてどのように機能するかを特徴づけてきた。 本稿では,シンプルなが斬新なコネクテッドnスタイルのボードゲームについて,人々がどう考えるかを検討する。 ゲームについて考えると、実際に誰かとプレイする前に1分程度、ゲームについて考えるだけで、ごく少数の部分的なゲームシミュレーションだけで判断を捉えることができるリソース限定モデルを提案します。

We can evaluate features of problems and their potential solutions well before we can effectively solve them. When considering a game we have never played, for instance, we might infer whether it is likely to be challenging, fair, or fun simply from hearing the game rules, prior to deciding whether to invest time in learning the game or trying to play it well. Many studies of game play have focused on optimality and expertise, characterizing how people and computational models play based on moderate to extensive search and after playing a game dozens (if not thousands or millions) of times. Here, we study how people reason about a range of simple but novel connect-n style board games. We ask people to judge how fair and how fun the games are from very little experience: just thinking about the game for a minute or so, before they have ever actually played with anyone else, and we propose a resource-limited model that captures their judgments using only a small number of partial game simulations and almost no lookahead search.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# 前向き学習アルゴリズムを用いたオープンワールドシナリオにおける完全スポーキングニューラルネットワークのロバスト性について

On the Robustness of Fully-Spiking Neural Networks in Open-World Scenarios using Forward-Only Learning Algorithms ( http://arxiv.org/abs/2407.14097v1 )

ライセンス: Link先を確認
Erik B. Terres-Escudero, Javier Del Ser, Aitor Martínez-Seras, Pablo Garcia-Bringas, (参考訳) 過去10年間で、人工知能(AI)モデルは、優れたモデリング性能によって推進される生産パイプラインに急速に統合されている。 しかし,これらのモデルの開発は,学習領域外のアウト・オブ・ディストリビューション(OoD)インプットに対して堅牢な動作を保証できないアルゴリズムの進歩と一致していない。 さらに、AIモデルの持続可能性や、トレーニングフェーズと推論フェーズの両方で必要なエネルギー消費に懸念が高まっている。 これらの問題を緩和するために、モデル全体のエネルギー効率を高めるためにスパイキング領域に適応したバックプロパゲーションの生物学的に妥当な代替品であるフォワードフォワードアルゴリズム(FFA)の使用を検討する。 我々は,FFAで訓練されたモデルの潜在空間から高表現性トポロジーを生かして,OoD検出のための新しいFF-SCPアルゴリズムを開発した。 提案手法は, 標本の潜在表現からクラス表現多様体への距離を用いて, 分布内(ID)データに属するサンプルの確率を測定する。 さらに,OoDパイプラインのより深い洞察を得るために,任意のクラスの分布から分離するサンプルの特徴を強調表示する勾配のない属性手法を提案する。 スパイクFFA適応を用いた複数の実験により、達成された精度は、バックプロパゲーションによって訓練されたアナログネットワークで見られるものと同等であることが示された。 さらに、複数のデータセット上でのOoD検出実験により、FF-SCPは、この領域で使用されるいくつかの指標で、スパイキング領域内のアバンギャルドOoD検出器より優れていることが証明された。 また,本手法が組込みアーティファクトや欠落領域などのOoD特徴を検出する精度を明らかにすることによって,説明可能性に関する定性的な分析を行う。

In the last decade, Artificial Intelligence (AI) models have rapidly integrated into production pipelines propelled by their excellent modeling performance. However, the development of these models has not been matched by advancements in algorithms ensuring their safety, failing to guarantee robust behavior against Out-of-Distribution (OoD) inputs outside their learning domain. Furthermore, there is a growing concern with the sustainability of AI models and their required energy consumption in both training and inference phases. To mitigate these issues, this work explores the use of the Forward-Forward Algorithm (FFA), a biologically plausible alternative to Backpropagation, adapted to the spiking domain to enhance the overall energy efficiency of the model. By capitalizing on the highly expressive topology emerging from the latent space of models trained with FFA, we develop a novel FF-SCP algorithm for OoD Detection. Our approach measures the likelihood of a sample belonging to the in-distribution (ID) data by using the distance from the latent representation of samples to class-representative manifolds. Additionally, to provide deeper insights into our OoD pipeline, we propose a gradient-free attribution technique that highlights the features of a sample pushing it away from the distribution of any class. Multiple experiments using our spiking FFA adaptation demonstrate that the achieved accuracy levels are comparable to those seen in analog networks trained via back-propagation. Furthermore, OoD detection experiments on multiple datasets prove that FF-SCP outperforms avant-garde OoD detectors within the spiking domain in terms of several metrics used in this area. We also present a qualitative analysis of our explainability technique, exposing the precision by which the method detects OoD features, such as embedded artifacts or missing regions.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# ParamsDrag:画像空間ドラッグによるインタラクティブパラメータ空間探索

ParamsDrag: Interactive Parameter Space Exploration via Image-Space Dragging ( http://arxiv.org/abs/2407.14100v1 )

ライセンス: Link先を確認
Guan Li, Yang Liu, Guihua Shan, Shiyu Cheng, Weiqun Cao, Junpeng Wang, Ko-Chih Wang, (参考訳) 数値シミュレーションは科学モデリングの基盤として機能するが、微調整シミュレーションパラメータのプロセスは重大な課題をもたらす。 従来、パラメータ調整は広範な数値シミュレーション、データ分析、専門家の洞察に依存しており、計算コストと効率の低下をもたらす。 近年のディープラーニングの出現は、パラメータ空間のより効率的な探索に有望な道をもたらした。 しかし、既存の手法は正確なパラメータ調整と最適化のための直感的な手法を欠いていることが多い。 これらの課題に対処するために、可視化と直接対話することでパラメータ空間探索を容易にするParamsDragを導入する。 DragGANにインスパイアされた私たちのParamsDragモデルは、3つのステップで動作します。 第一に、ParamsDragの生成成分は、入力シミュレーションパラメータに基づいて視覚化を生成する。 第2に、可視化において構造関連機能を直接ドラッグすることで、ユーザーは異なるパラメータの制御効果を直感的に理解することができる。 第三に、初期のステップから理解することで、ユーザはParamsDragを操り、ダイナミックな視覚的な結果を生み出すことができる。 実世界のシミュレーションおよび最先端のディープラーニングベースのアプローチとの比較実験を通じて,本ソリューションの有効性を実証した。

Numerical simulation serves as a cornerstone in scientific modeling, yet the process of fine-tuning simulation parameters poses significant challenges. Conventionally, parameter adjustment relies on extensive numerical simulations, data analysis, and expert insights, resulting in substantial computational costs and low efficiency. The emergence of deep learning in recent years has provided promising avenues for more efficient exploration of parameter spaces. However, existing approaches often lack intuitive methods for precise parameter adjustment and optimization. To tackle these challenges, we introduce ParamsDrag, a model that facilitates parameter space exploration through direct interaction with visualizations. Inspired by DragGAN, our ParamsDrag model operates in three steps. First, the generative component of ParamsDrag generates visualizations based on the input simulation parameters. Second, by directly dragging structure-related features in the visualizations, users can intuitively understand the controlling effect of different parameters. Third, with the understanding from the earlier step, users can steer ParamsDrag to produce dynamic visual outcomes. Through experiments conducted on real-world simulations and comparisons with state-of-the-art deep learning-based approaches, we demonstrate the efficacy of our solution.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# ゼロショット水中ジェスチャー認識

Zero-Shot Underwater Gesture Recognition ( http://arxiv.org/abs/2407.14103v1 )

ライセンス: Link先を確認
Sandipan Sarma, Gundameedi Sai Ram Mohan, Hariansh Sehgal, Arijit Sur, (参考訳) 手のジェスチャー認識は、人間が非言語で機械と対話することを可能にする。 近年,CADDIANと呼ばれるジェスチャーベースの言語がダイバー向けに考案され,高精度なジェスチャー認識のための教師あり学習法が適用されている。 しかし、このような手法は、目に見えないジェスチャーにリアルタイムで遭遇すると失敗する。 本研究では,ゼロショット水中ジェスチャー認識(ZSUGR)の必要性を提唱する。目的は,少数の‘seen'クラスからのジェスチャーの視覚的サンプルを用いてモデルを訓練し,テスト時に得られた知識を伝達することにより,意味的に類似しないジェスチャークラスも認識することである。 問題とデータセット固有の課題について議論した後、我々はCADDYデータセットにおけるジェスチャークラスに対する新しい見知らぬ分割を提案する。 次に,新しいトランスフォーマーが強い視覚的ジェスチャーを学習し,特徴分布を模倣する条件付き生成対向ネットワークに供給する2段階の枠組みを提案する。 トレーニングされたジェネレータを未確認クラスのフィーチャーシンセサイザーとして使用し、ゼロショット学習を可能にした。 大規模な実験により,本手法は既存のゼロショット技術より優れていることが示された。 フレームワークに関する有用な洞察を提供し、今後の研究の方向性を提案することで締めくくります。

Hand gesture recognition allows humans to interact with machines non-verbally, which has a huge application in underwater exploration using autonomous underwater vehicles. Recently, a new gesture-based language called CADDIAN has been devised for divers, and supervised learning methods have been applied to recognize the gestures with high accuracy. However, such methods fail when they encounter unseen gestures in real time. In this work, we advocate the need for zero-shot underwater gesture recognition (ZSUGR), where the objective is to train a model with visual samples of gestures from a few ``seen'' classes only and transfer the gained knowledge at test time to recognize semantically-similar unseen gesture classes as well. After discussing the problem and dataset-specific challenges, we propose new seen-unseen splits for gesture classes in CADDY dataset. Then, we present a two-stage framework, where a novel transformer learns strong visual gesture cues and feeds them to a conditional generative adversarial network that learns to mimic feature distribution. We use the trained generator as a feature synthesizer for unseen classes, enabling zero-shot learning. Extensive experiments demonstrate that our method outperforms the existing zero-shot techniques. We conclude by providing useful insights into our framework and suggesting directions for future research.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# TorchGT:大規模グラフトランストレーニングのためのホロスティックシステム

TorchGT: A Holistic System for Large-scale Graph Transformer Training ( http://arxiv.org/abs/2407.14106v1 )

ライセンス: Link先を確認
Meng Zhang, Jie Sun, Qinghao Hu, Peng Sun, Zeke Wang, Yonggang Wen, Tianwei Zhang, (参考訳) Graph Transformerは、グラフ学習においてGNNを上回る新しいアーキテクチャである。 アルゴリズムの進歩は目覚ましいが、その実践的採用は、特に数百万のノードを含む現実世界のグラフではまだ限られている。 既存のグラフトランスフォーマーが大規模グラフでフェールするのは,計算量が多いこと,スケーラビリティが限られていること,モデル品質が劣っていることなどが主な原因である。 これらの観測から得られたTorchGTは,最初の効率的でスケーラブルで正確なグラフトランスフォーマートレーニングシステムである。 TorchGTは異なるレベルのトレーニングを最適化する。 アルゴリズムレベルでは、グラフの間隔を活用することで、TorchGTは計算効率と正確性を維持するDual-Interleaved Attentionを導入する。 実行時レベルでは、TorchGTは通信ライトのクラスタ対応グラフ並列処理を使用して、ワーカ間のトレーニングをスケールする。 カーネルレベルでは、Elastic Computation Reformationは動的にメモリアクセス遅延を減らして計算をさらに最適化する。 大規模な実験により、TorchGTは最大62.7倍のトレーニングを加速し、最大1Mのグラフシーケンス長をサポートすることが示されている。

Graph Transformer is a new architecture that surpasses GNNs in graph learning. While there emerge inspiring algorithm advancements, their practical adoption is still limited, particularly on real-world graphs involving up to millions of nodes. We observe existing graph transformers fail on large-scale graphs mainly due to heavy computation, limited scalability and inferior model quality. Motivated by these observations, we propose TorchGT, the first efficient, scalable, and accurate graph transformer training system. TorchGT optimizes training at different levels. At algorithm level, by harnessing the graph sparsity, TorchGT introduces a Dual-interleaved Attention which is computation-efficient and accuracy-maintained. At runtime level, TorchGT scales training across workers with a communication-light Cluster-aware Graph Parallelism. At kernel level, an Elastic Computation Reformation further optimizes the computation by reducing memory access latency in a dynamic way. Extensive experiments demonstrate that TorchGT boosts training by up to 62.7x and supports graph sequence lengths of up to 1M.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# GaussianBeV:3D Gaussian Representation meets Perception Models for BeV Segmentation

GaussianBeV: 3D Gaussian Representation meets Perception Models for BeV Segmentation ( http://arxiv.org/abs/2407.14108v1 )

ライセンス: Link先を確認
Florian Chabot, Nicolas Granger, Guillaume Lapouge, (参考訳) Bird's-eye View (BeV)表現は、多視点カメラ画像からの3次元知覚に広く用いられている。 異なるカメラの機能を共通空間にマージし、3Dシーンを統一的に表現することができる。 キーとなるコンポーネントはビュー変換器で、画像ビューをBeVに変換する。 しかし、3次元空間のサブサンプリングが環境の微細構造をモデル化するのに最適でないため、幾何学的あるいは横断的意図に基づく実際のビュートランスフォーマー手法はシーンの十分な詳細な表現を提供していない。 本稿では,画像特徴をBeVに変換する新しい手法であるGaussianBeVを提案する。 この表現は、ガウススプラッティングに基づく3次元表現レンダリングの最近の進歩に適応して、BeV特徴写像を生成するためにスプラッタ化される。 GaussianBeVは、この3Dガウスモデリングと3Dシーンレンダリングプロセスをオンラインで利用する最初のアプローチである。 実験の結果、提案した表現は極めて効果的であり、nuScenesデータセット上のBeVセマンティックセグメンテーションタスクにおいて、GaussianBeVを新たな最先端技術として位置づけている。

The Bird's-eye View (BeV) representation is widely used for 3D perception from multi-view camera images. It allows to merge features from different cameras into a common space, providing a unified representation of the 3D scene. The key component is the view transformer, which transforms image views into the BeV. However, actual view transformer methods based on geometry or cross-attention do not provide a sufficiently detailed representation of the scene, as they use a sub-sampling of the 3D space that is non-optimal for modeling the fine structures of the environment. In this paper, we propose GaussianBeV, a novel method for transforming image features to BeV by finely representing the scene using a set of 3D gaussians located and oriented in 3D space. This representation is then splattered to produce the BeV feature map by adapting recent advances in 3D representation rendering based on gaussian splatting. GaussianBeV is the first approach to use this 3D gaussian modeling and 3D scene rendering process online, i.e. without optimizing it on a specific scene and directly integrated into a single stage model for BeV scene understanding. Experiments show that the proposed representation is highly effective and place GaussianBeV as the new state-of-the-art on the BeV semantic segmentation task on the nuScenes dataset.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# 量子光学離散モデルにおける動的1光子局在

Dynamic One Photon Localization in a Discrete Model of Quantum Optics ( http://arxiv.org/abs/2407.14109v1 )

ライセンス: Link先を確認
Joseph Kraisler, Jeffrey Schenker, John C. Schotland, (参考訳) 最近提案された2レベル原子のランダム媒質中の1光子状態の伝播モデルについて考察する。 我々は、原子の共鳴エネルギーを中心としたエネルギーバンドにおける単光子状態のアンダーソン局在の存在を実証する。 さらに、原子のボソニックモデルでは、結果を複数の光子状態に拡張することができる。

We consider a recently proposed model for the propagation of one-photon states in a random medium of two-level atoms. We demonstrate the existence of Anderson localization of single photon states in an energy band centered at the resonant energy of the atoms. Additionally, for a Bosonic model of the atoms the results can be extended to multiple photon states.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# MC-PanDA:Panoptic Domain Adaptationにおけるマスク信頼度

MC-PanDA: Mask Confidence for Panoptic Domain Adaptation ( http://arxiv.org/abs/2407.14110v1 )

ライセンス: Link先を確認
Ivan Martinović, Josip Šarić, Siniša Šegvić, (参考訳) ドメイン適応型パノプティックセグメンテーションは、自然なシーン理解においてコーナーケースの長い尾を解消することを約束する。 従来の最先端技術では、クロスタスク一貫性、注意深いシステムレベルの最適化、教師予測のヒューリスティックな改善などによってこの問題に対処している。 対照的に,マスク変圧器の顕著な能力を利用して,予測の不確実性を推定することを提案する。 提案手法は, 教師の予測の微粒化を活かして, 雑音増幅を回避する。 特に,不確実な教師や自信ある学生を対象とする画素のマスク幅の信頼度とバックプロパゲーションの低下を補正する。 標準ベンチマーク実験の結果,提案手法の有効性が示唆された。 本報告では,Synthia to Cityscapesの47.4PQについて報告する。 ソースコードはhttps://github.com/helen1c/MC-PanDAで入手できる。

Domain adaptive panoptic segmentation promises to resolve the long tail of corner cases in natural scene understanding. Previous state of the art addresses this problem with cross-task consistency, careful system-level optimization and heuristic improvement of teacher predictions. In contrast, we propose to build upon remarkable capability of mask transformers to estimate their own prediction uncertainty. Our method avoids noise amplification by leveraging fine-grained confidence of panoptic teacher predictions. In particular, we modulate the loss with mask-wide confidence and discourage back-propagation in pixels with uncertain teacher or confident student. Experimental evaluation on standard benchmarks reveals a substantial contribution of the proposed selection techniques. We report 47.4 PQ on Synthia to Cityscapes, which corresponds to an improvement of 6.2 percentage points over the state of the art. The source code is available at https://github.com/helen1c/MC-PanDA.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# 破壊耐性分散勾配ディフレクションのためのミラーディフレクションに基づくアルゴリズム

A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent ( http://arxiv.org/abs/2407.14111v1 )

ライセンス: Link先を確認
Shuche Wang, Vincent Y. F. Tan, (参考訳) 分散勾配降下アルゴリズムは、現代の機械学習において、特に、複数のワーカーに分散した大規模なデータセットの処理を並列化する際に、注目されている。 しかし, ランダムノイズではなく, 対向汚職の存在下での分散勾配降下アルゴリズムの挙動を解析するためには, 注意が払われている。 本稿では,分散学習システムに敵対的腐敗が存在するという,新たな問題を定式化する。 汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。 ステップサイズの異なる選択に対して、(強く)凸損失関数に対する集中収束解析が提供される。 我々は,アルゴリズムの収束を早めるために,段階的なスケジュールを慎重に最適化すると同時に,時間の経過とともに腐敗の影響を償却する。 MNISTデータセットの線形回帰,サポートベクトル分類,ソフトマックス分類に基づく実験は,我々の理論的知見を裏付けるものである。

Distributed gradient descent algorithms have come to the fore in modern machine learning, especially in parallelizing the handling of large datasets that are distributed across several workers. However, scant attention has been paid to analyzing the behavior of distributed gradient descent algorithms in the presence of adversarial corruptions instead of random noise. In this paper, we formulate a novel problem in which adversarial corruptions are present in a distributed learning system. We show how to use ideas from (lazy) mirror descent to design a corruption-tolerant distributed optimization algorithm. Extensive convergence analysis for (strongly) convex loss functions is provided for different choices of the stepsize. We carefully optimize the stepsize schedule to accelerate the convergence of the algorithm, while at the same time amortizing the effect of the corruption over time. Experiments based on linear regression, support vector classification, and softmax classification on the MNIST dataset corroborate our theoretical findings.
翻訳日:2024-07-22 18:23:52 公開日:2024-07-19
# A3Rank: 深層学習モデルにおける過信欠陥サンプルの優先順位付けのための拡張アライメント分析

A3Rank: Augmentation Alignment Analysis for Prioritizing Overconfident Failing Samples for Deep Learning Models ( http://arxiv.org/abs/2407.14114v1 )

ライセンス: Link先を確認
Zhengyuan Wei, Haipeng Wang, Qilin Zhou, W. K. Chan, (参考訳) 決定境界に近い例でトレーニングすることで、ディープラーニングモデルをシャープにすることは、よく知られたベストプラクティスです。 それでも、これらのモデルは予測の生成において依然としてエラーを起こしやすい。 実際には、多くのアプリケーションシステムにおけるディープラーニングモデルの推論は、信頼に基づくリジェクタなどのリジェクタによって保護され、予測信頼性が不十分なサンプルをフィルタリングする。 このような信頼に基づく拒絶者は、信頼性の高い失敗するサンプルを効果的に保護することはできない。 既存のテストケース優先順位付け技術は、信頼性のあるサンプルから混乱するサンプルを効果的に区別し、混乱しているサンプルの中から失敗するサンプルを識別するが、多くの信頼性の高いサンプルの間で失敗するサンプルを優先順位付けすることは困難である。 本稿では,この問題を解決するために,拡張アライメント解析を用いた新しいテストケース優先順位付け手法である$A^3$Rankを提案する。 A^3$Rankは、各テストケースの拡張バージョンを生成し、これらの拡張バージョンと一致していないテストケースの予測結果の範囲を評価します。 A^3$Rank は,信頼度に基づくリジェクタの検査から逃れたサンプルを効果的にランク付けできることを示した。 また,これらのリジェクタを補強して,これらのサンプルを保護するための検出器を構築するための枠組みも提供する。

Sharpening deep learning models by training them with examples close to the decision boundary is a well-known best practice. Nonetheless, these models are still error-prone in producing predictions. In practice, the inference of the deep learning models in many application systems is guarded by a rejector, such as a confidence-based rejector, to filter out samples with insufficient prediction confidence. Such confidence-based rejectors cannot effectively guard against failing samples with high confidence. Existing test case prioritization techniques effectively distinguish confusing samples from confident samples to identify failing samples among the confusing ones, yet prioritizing the failing ones high among many confident ones is challenging. In this paper, we propose $A^3$Rank, a novel test case prioritization technique with augmentation alignment analysis, to address this problem. $A^3$Rank generates augmented versions of each test case and assesses the extent of the prediction result for the test case misaligned with these of the augmented versions and vice versa. Our experiment shows that $A^3$Rank can effectively rank failing samples escaping from the checking of confidence-based rejectors, which significantly outperforms the peer techniques by 163.63\% in the detection ratio of top-ranked samples. We also provide a framework to construct a detector devoted to augmenting these rejectors to defend these failing samples, and our detector can achieve a significantly higher defense success rate.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# AuditNet:AIベースのセキュリティアシスタント(DEMO)

AuditNet: A Conversational AI-based Security Assistant [DEMO] ( http://arxiv.org/abs/2407.14116v1 )

ライセンス: Link先を確認
Shohreh Deldari, Mohammad Goudarzi, Aditya Joshi, Arash Shaghaghi, Simon Finn, Flora D. Salim, Sanjay Jha, (参考訳) 情報過剰の時代、様々な分野のプロフェッショナルは、大量のドキュメントと絶え間なく進化する標準をナビゲートするという課題に直面しています。 標準、規則、契約上の義務の遵守を保証することは、様々な専門分野において重要なが、複雑な作業である。 我々は,ネットワークインフラストラクチャ,法律契約,教育基準,環境規制,政府方針など,さまざまな領域において,goのコンプライアンスチェックを容易にするために設計された多種多様な対話型AIアシスタントフレームワークを提案する。 大規模言語モデルを用いた検索強化生成の活用により,関連するコンテキスト認識情報のレビュー,索引付け,検索を自動化し,確立されたガイドラインや要件への適合性を検証するプロセスの合理化を図る。 このAIアシスタントは、コンプライアンスチェックに関わる手作業の削減だけでなく、正確性と効率の向上、高度なプラクティス標準の維持と各分野における規制コンプライアンスの確保を支援する。 AuditNetは、IoTネットワークセキュリティの専門家を支援するために設計された最初の会話型AIセキュリティアシスタントで、セキュリティ標準、ポリシー、規制への即時アクセスを提供する。

In the age of information overload, professionals across various fields face the challenge of navigating vast amounts of documentation and ever-evolving standards. Ensuring compliance with standards, regulations, and contractual obligations is a critical yet complex task across various professional fields. We propose a versatile conversational AI assistant framework designed to facilitate compliance checking on the go, in diverse domains, including but not limited to network infrastructure, legal contracts, educational standards, environmental regulations, and government policies. By leveraging retrieval-augmented generation using large language models, our framework automates the review, indexing, and retrieval of relevant, context-aware information, streamlining the process of verifying adherence to established guidelines and requirements. This AI assistant not only reduces the manual effort involved in compliance checks but also enhances accuracy and efficiency, supporting professionals in maintaining high standards of practice and ensuring regulatory compliance in their respective fields. We propose and demonstrate AuditNet, the first conversational AI security assistant designed to assist IoT network security experts by providing instant access to security standards, policies, and regulations.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# ローショットCLIP適応における視覚的コンテンツリファインメントの再考

Rethinking Visual Content Refinement in Low-Shot CLIP Adaptation ( http://arxiv.org/abs/2407.14117v1 )

ライセンス: Link先を確認
Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang, (参考訳) 近年の適応は、知識伝達を効果的に促進することにより、CLIP(Contrastive Vision-Language Pre-Training)の低ショット能力を高めることができる。 しかしながら、これらの適応法は通常、入力画像のグローバルなビューに基づいて動作し、画像の部分的な局所的な詳細の知覚に偏りが生じる。 そこで本研究では,テスト段階の適応計算に先立って,視覚的コンテンツリファインメント(VCR)を提案する。 具体的には、まずテスト画像を異なるスケールに分解し、特徴抽出器の注意を画像の詳細にシフトさせる。 次に、各スケールで最大予測マージンで画像ビューを選択し、ノイズの多い画像ビューをフィルタリングし、事前学習されたCLIPモデルから予測マージンを算出する。 最後に、上述した画像ビューの内容をそのスケールに基づいてマージし、新しいロバストな表現を構築する。 したがって、マージされたコンテンツは、追加のトレーニングパラメータなしで、アダプタがグローバル部分とローカル部分の両方にフォーカスするのに役立つ。 提案手法を,13のデータセットを用いた3つの一般的なローショットベンチマークタスクに適用し,最先端の手法よりも大幅に改善した。 例えば、少数ショット分類タスクのベースライン(Tip-Adapter)と比較して、トレーニング不要設定とトレーニング不要設定の両方で平均26%の改善が達成される。

Recent adaptations can boost the low-shot capability of Contrastive Vision-Language Pre-training (CLIP) by effectively facilitating knowledge transfer. However, these adaptation methods are usually operated on the global view of an input image, and thus biased perception of partial local details of the image. To solve this problem, we propose a Visual Content Refinement (VCR) before the adaptation calculation during the test stage. Specifically, we first decompose the test image into different scales to shift the feature extractor's attention to the details of the image. Then, we select the image view with the max prediction margin in each scale to filter out the noisy image views, where the prediction margins are calculated from the pre-trained CLIP model. Finally, we merge the content of the aforementioned selected image views based on their scales to construct a new robust representation. Thus, the merged content can be directly used to help the adapter focus on both global and local parts without any extra training parameters. We apply our method to 3 popular low-shot benchmark tasks with 13 datasets and achieve a significant improvement over state-of-the-art methods. For example, compared to the baseline (Tip-Adapter) on the few-shot classification task, our method achieves about 2\% average improvement for both training-free and training-need settings.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# コード生成を超えて: コードLLM成熟度をポストコンディションで評価する

Beyond Code Generation: Assessing Code LLM Maturity with Postconditions ( http://arxiv.org/abs/2407.14118v1 )

ライセンス: Link先を確認
Fusen He, Juan Zhai, Minxue Pan, (参考訳) ほとんどの既存のコードLarge Language Model (LLM)ベンチマーク、例えばEvalPlusは、コード生成タスクに焦点を当てている。 すなわち、問題を自然言語で記述し、LLMにその問題を解決するためにコードを書くように要求する。 コードLLMの品質を評価するのに必要なすべての機能をキャプチャするわけではない、と私たちは主張する。 本稿では,ポストコンディション生成問題に基づくコードLLM成熟度モデルを提案し,より完全なコードLLM機能を実現する。 我々は、意味論、自然言語を含むコードを理解するのに必要なコードLLMと、プログラミング言語(つまり、生成能力)であいまいな後条件を生成する能力を持つため、後条件生成問題を選択する。 さらに、ポストコンディションには様々なタイプがあり、これらの能力のレベルが異なるため、コードLLMの成熟度を評価するのに適している。 設計した成熟度モデルに基づいて,EvalPlusデータセットをポストコンディションテストベンチマークに拡張し,複数のオープンソースモデルを評価した。 我々の結果は、コードのためのより良いLLMに必要な改善点を浮き彫りにした。 コード:https://github.com/MatureModel/PostcondGen

Most existing code Large Language Model (LLM) benchmarks, e.g., EvalPlus, focus on the code generation tasks. Namely, they contain a natural language description of a problem and ask the LLM to write code to solve the problem. We argue that they do not capture all capabilities needed to assess the quality of a code LLM. In this paper, we propose a code LLM maturity model, based on the postcondition generation problem, to access a more complete set of code LLM capabilities. We choose the postcondition generation problem as it requires the code LLM to understand the code including semantics, natural language, and also have the capability to generate unambiguous postconditions in programming languages (i.e., the generation capablity). Moreover, postconditions have various types, requiring different levels of these capabilities, making it suitable to evaluate the maturity of the code LLM. Based on our designed maturity model, we augment the EvalPlus dataset to a postcondition testing benchmark, and evaluated several open-sourced models. Our results highlight the necessary improvements needed for better LLMs for code. Code: https://github.com/MatureModel/PostcondGen
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# 精密農業における作物・雑草分別のための形状とスタイルGANに基づく多スペクトルデータ拡張

Shape and Style GAN-based Multispectral Data Augmentation for Crop/Weed Segmentation in Precision Farming ( http://arxiv.org/abs/2407.14119v1 )

ライセンス: Link先を確認
Mulham Fawakherji, Vincenzo Suriani, Daniele Nardi, Domenico Daniele Bloisi, (参考訳) 精密農業における深層学習の活用が注目されている。 しかし,この分野における学習データの収集は,関心の育成段階の異なる段階において情報を取得する必要があるため,特に困難かつコストがかかる。 本稿では,2つのGANを用いて人工画像を作成し,トレーニングデータを増強するデータ拡張手法を提案する。 シーン全体を再現する代わりに、画像の質を高め、興味のあるオブジェクトを含むパッチのみを、異なる形状とスタイルを持つ新しいオブジェクトを含む人工パッチに置き換える。 これを行うには、前景(作物のサンプル)と背景(土)の両方を考慮する。 公開データセットを用いた定量的実験により,提案手法の有効性を実証した。 この作業で議論されたソースコードとデータは、オープンソースとして利用可能である。

The use of deep learning methods for precision farming is gaining increasing interest. However, collecting training data in this application field is particularly challenging and costly due to the need of acquiring information during the different growing stages of the cultivation of interest. In this paper, we present a method for data augmentation that uses two GANs to create artificial images to augment the training data. To obtain a higher image quality, instead of re-creating the entire scene, we take original images and replace only the patches containing objects of interest with artificial ones containing new objects with different shapes and styles. In doing this, we take into account both the foreground (i.e., crop samples) and the background (i.e., the soil) of the patches. Quantitative experiments, conducted on publicly available datasets, demonstrate the effectiveness of the proposed approach. The source code and data discussed in this work are available as open source.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# サッカーボールグラフのコード集合同定とリモートセンシングへの応用

The Cardinality of Identifying Code Sets for Soccer Ball Graph with Application to Remote Sensing ( http://arxiv.org/abs/2407.14120v1 )

ライセンス: Link先を確認
Anna L. D. Latour, Arunabha Sen, Kaustav Basu, Chenyang Zhou, Kuldeep S. Meel, (参考訳) 地球の衛星観測の文脈では、地球の表面が一組の領域に分割されていると仮定できる。 我々は、大きな社会的・環境的な出来事の影響が近隣地域に流出していると仮定する。 ICSe(Identifying Code Sets)を使用することで、イベントが発生する領域を、リージョンよりも少ないセンサーでも、独自に識別可能な方法で、センサをデプロイすることが可能になります。 地球はほぼ球体なので、私たちはサッカーボールをモデルとして使います。 サッカーボールグラフ(SBG)を構築し,人間指向の解析的証明を提供する。 1)SBGは、少なくとも26個のICSを持ち、地球を観測するために10個の衛星を配置する少なくとも26の異なる方法が存在することを示唆している。 2) SBGの最小識別符号集合(MICS)の濃度が少なくとも9であること。 次に、SBGのMICSの濃度が実際には10であり、SBGモデルで地球を監視するために少なくとも10個の衛星を配置しなければならないというマシン指向の公式な証明を提供する。 また、SBGには正確に26のICSが存在するというマシン指向の証明も提供する。

In the context of satellite monitoring of the earth, we can assume that the surface of the earth is divided into a set of regions. We assume that the impact of a big social/environmental event spills into neighboring regions. Using Identifying Code Sets (ICSes), we can deploy sensors in such a way that the region in which an event takes place can be uniquely identified, even with fewer sensors than regions. As Earth is almost a sphere, we use a soccer ball as a model. We construct a Soccer Ball Graph (SBG), and provide human-oriented, analytical proofs that 1) the SBG has at least 26 ICSes of cardinality ten, implying that there are at least 26 different ways to deploy ten satellites to monitor the Earth and 2) that the cardinality of the minimum Identifying Code Set (MICS) for the SBG is at least nine. We then provide a machine-oriented formal proof that the cardinality of the MICS for the SBG is in fact ten, meaning that one must deploy at least ten satellites to monitor the Earth in the SBG model. We also provide machine-oriented proof that there are exactly 26 ICSes of cardinality ten for the SBG.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# 地震断層SAM:軽量モジュールによるSAM適応と2.5次元断層検出戦略

Seismic Fault SAM: Adapting SAM with Lightweight Modules and 2.5D Strategy for Fault Detection ( http://arxiv.org/abs/2407.14121v1 )

ライセンス: Link先を確認
Ran Chen, Zeren Zhang, Jinwen Ma, (参考訳) 地震断層検出は、地下構造解釈と資源探査の専門家を支援する重要な地理的および実用的な応用価値を持っている。 深層学習に基づく自動手法の進歩にもかかわらず、地震領域の研究は特に、高品質で大規模でオープンソースで多様なデータセットを得ることが困難であり、一般的な基盤モデルの開発を妨げているため、重大な課題に直面している。 そこで本研究では, 一般学習基礎モデルであるSegment Anything Model-Segment Anything Model(SAM)を地震断層解釈に適用した地震断層SAMを提案する。 この手法は、大量の画像から学んだ普遍的な知識と、アダプタ設計による耐震領域のタスクとを一致させる。 具体的には、軽量なAdapterモジュールの設計、トレーニング済みの重みの大部分の凍結、モデルの収束を迅速かつ効果的に学習するために少数のパラメータのみを更新すること、2.5D入力戦略を組み合わせて3次元空間パターンを2次元モデルにキャプチャすること、モデルの一般化能力を高めるために事前ベースのデータ拡張技術を通じてモデルに地質的制約を統合すること、などです。 その結果,提案手法はOISおよびODS測定値の既存の3次元モデルを超え,最先端性能を達成し,ラベル付きデータに欠ける他の地震域下流タスクに対する効果的な拡張スキームを提供することができた。

Seismic fault detection holds significant geographical and practical application value, aiding experts in subsurface structure interpretation and resource exploration. Despite some progress made by automated methods based on deep learning, research in the seismic domain faces significant challenges, particularly because it is difficult to obtain high-quality, large-scale, open-source, and diverse datasets, which hinders the development of general foundation models. Therefore, this paper proposes Seismic Fault SAM, which, for the first time, applies the general pre-training foundation model-Segment Anything Model (SAM)-to seismic fault interpretation. This method aligns the universal knowledge learned from a vast amount of images with the seismic domain tasks through an Adapter design. Specifically, our innovative points include designing lightweight Adapter modules, freezing most of the pre-training weights, and only updating a small number of parameters to allow the model to converge quickly and effectively learn fault features; combining 2.5D input strategy to capture 3D spatial patterns with 2D models; integrating geological constraints into the model through prior-based data augmentation techniques to enhance the model's generalization capability. Experimental results on the largest publicly available seismic dataset, Thebe, show that our method surpasses existing 3D models on both OIS and ODS metrics, achieving state-of-the-art performance and providing an effective extension scheme for other seismic domain downstream tasks that lack labeled data.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# Mono-ViFI: 自己教師型シングルフレームおよびマルチフレーム単眼深度推定のための統一学習フレームワーク

Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation ( http://arxiv.org/abs/2407.14126v1 )

ライセンス: Link先を確認
Jinfeng Liu, Lingtong Kong, Bo Li, Zerong Wang, Hong Gu, Jinwei Chen, (参考訳) 自己教師付き単眼深度推定は、深度アノテーションへの依存からトレーニングを解放できるため、注目すべき関心を集めている。 近年のモノクロビデオトレーニングでは、既存のカメラビュー間でのみビュー合成が行われており、ガイダンスが不十分である。 これを解決するために、フローベースビデオフレーム補間(VFI)により、より仮想的なカメラビューを合成し、時間的拡張(temporal augmentation)と呼ぶ。 マルチフレーム推論では,MultiDepthのような明示的な幾何学的手法で発生する動的オブジェクトの問題を横取りするために,フローベースVFIモデルにより得られた動き情報と閉塞情報を用いて,特徴融合パラダイムに戻り,VFIを利用した多フレーム融合モジュールを設計する。 最後に,単一フレームと複数フレームの深度を双方向に接続する,Mono-ViFIという自己教師型学習フレームワークを構築した。 本フレームワークでは, 画像アフィン変換による空間データ拡張をデータ多様性に応用し, 正規化のための三重項深度整合損失を発生させる。 シングルフレームおよびマルチフレームモデルは重みを共有でき、我々のフレームワークはコンパクトでメモリ効率が良い。 大規模な実験により、我々の手法が現在の高度なアーキテクチャに大幅な改善をもたらすことが実証された。 ソースコードはhttps://github.com/LiuJF1226/Mono-ViFIで入手できる。

Self-supervised monocular depth estimation has gathered notable interest since it can liberate training from dependency on depth annotations. In monocular video training case, recent methods only conduct view synthesis between existing camera views, leading to insufficient guidance. To tackle this, we try to synthesize more virtual camera views by flow-based video frame interpolation (VFI), termed as temporal augmentation. For multi-frame inference, to sidestep the problem of dynamic objects encountered by explicit geometry-based methods like ManyDepth, we return to the feature fusion paradigm and design a VFI-assisted multi-frame fusion module to align and aggregate multi-frame features, using motion and occlusion information obtained by the flow-based VFI model. Finally, we construct a unified self-supervised learning framework, named Mono-ViFI, to bilaterally connect single- and multi-frame depth. In this framework, spatial data augmentation through image affine transformation is incorporated for data diversity, along with a triplet depth consistency loss for regularization. The single- and multi-frame models can share weights, making our framework compact and memory-efficient. Extensive experiments demonstrate that our method can bring significant improvements to current advanced architectures. Source code is available at https://github.com/LiuJF1226/Mono-ViFI.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# OCTolyzer:光コヒーレンストモグラフィー(OCT)と走査型レーザー眼科検査(SLO)データにおけるセグメンテーションと特徴抽出のための完全自動解析ツールキット

OCTolyzer: Fully automatic analysis toolkit for segmentation and feature extracting in optical coherence tomography (OCT) and scanning laser ophthalmoscopy (SLO) data ( http://arxiv.org/abs/2407.14128v1 )

ライセンス: Link先を確認
Jamie Burke, Justin Engelmann, Samuel Gibbon, Charlene Hamid, Diana Moukaddem, Dan Pugh, Tariq Farrah, Niall Strang, Neeraj Dhaun, Tom MacGillivray, Stuart King, Ian J. C. MacCormick, (参考訳) 目的:OCTolyzer:光コヒーレンス断層撮影(OCT)および走査型レーザー眼科検査(SLO)画像におけるレチノコロイド解析のためのオープンソースツールキットについて述べる。 方法:OCTolyzerにはSLOとOCTの2つの解析スイートがある。 前者では、解剖学的分節と、前者網膜血管の特徴測定が可能である。 後者は網膜層セグメンテーションと深層学習に基づく脈絡膜セグメンテーションのための画像メタデータを活用し、厚さや体積などの網膜脈絡膜計測を計算する。 我々はOCTolyzerを導入し、脈絡膜分析のためのOCT分析スイートの再現性を評価する。 結果: 集団レベルでは, 脈絡膜面積は高い再現性を示した(平均絶対誤差/ピアソン/スピアマン相関は, 黄体体積脈絡膜厚 (CT): 6.7$\mu$m/0.9933/0.9969, macular B-scan CT: 11.6$\mu$m/0.9858/0.9889, peripapillary CT:5.0$\mu$m/0.9942/0.9940)。 CVI:0.0271/0.9669/0.9655, B-scan CVI:0.0130/0.9090/0.9145。 視線レベルでは、地域と船舶の計測値における測定誤差は、それぞれ人口の変動率の5%以下と20%以下であった。 主な異常値は, 厚い脈絡膜と見えない脈絡膜境界を有する品質の悪いBスキャンであった。 結論:OCTolyzerはOCT/SLOデータを再現性および臨床的に有意な網膜脈絡膜計測に変換する最初のオープンソースパイプラインである。 標準的なラップトップCPUでのOCT処理は、黄斑または乳頭周囲のBスキャンでは2秒以下、ボリュームスキャンでは85秒以下である。 OCTolyzerはOCT/SLO画像解析の分野における標準化の助けとなり、https://github.com/jaburke166/OCTolyzer.com/OCTolyzerで無料で利用できる。

Purpose: To describe OCTolyzer: an open-source toolkit for retinochoroidal analysis in optical coherence tomography (OCT) and scanning laser ophthalmoscopy (SLO) images. Method: OCTolyzer has two analysis suites, for SLO and OCT images. The former enables anatomical segmentation and feature measurement of the en face retinal vessels. The latter leverages image metadata for retinal layer segmentations and deep learning-based choroid layer segmentation to compute retinochoroidal measurements such as thickness and volume. We introduce OCTolyzer and assess the reproducibility of its OCT analysis suite for choroid analysis. Results: At the population-level, choroid region metrics were highly reproducible (Mean absolute error/Pearson/Spearman correlation for macular volume choroid thickness (CT):6.7$\mu$m/0.9933/0.9969, macular B-scan CT:11.6$\mu$m/0.9858/0.9889, peripapillary CT:5.0$\mu$m/0.9942/0.9940). Macular choroid vascular index (CVI) had good reproducibility (volume CVI:0.0271/0.9669/0.9655, B-scan CVI:0.0130/0.9090/0.9145). At the eye-level, measurement error in regional and vessel metrics were below 5% and 20% of the population's variability, respectively. Major outliers were from poor quality B-scans with thick choroids and invisible choroid-sclera boundary. Conclusions: OCTolyzer is the first open-source pipeline to convert OCT/SLO data into reproducible and clinically meaningful retinochoroidal measurements. OCT processing on a standard laptop CPU takes under 2 seconds for macular or peripapillary B-scans and 85 seconds for volume scans. OCTolyzer can help improve standardisation in the field of OCT/SLO image analysis and is freely available here: https://github.com/jaburke166/OCTolyzer.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# ナビエ-ストークの深層学習天気予報バックボーンと大気動態の比較と対比

Comparing and Contrasting Deep Learning Weather Prediction Backbones on Navier-Stokes and Atmospheric Dynamics ( http://arxiv.org/abs/2407.14129v1 )

ライセンス: Link先を確認
Matthias Karlbauer, Danielle C. Maddix, Abdul Fatir Ansari, Boran Han, Gaurav Gupta, Yuyang Wang, Andrew Stuart, Michael W. Mahoney, (参考訳) 深層学習天気予報(DLWP)モデルの開発における顕著な進歩は、従来の数値気象予報(NWP)モデルと競合する位置にある。 実際、U-Net、Transformer、Graph Neural Network(GNN)、Fourier Neural Operator(FNO)など、さまざまなバックボーンをベースとしたDLWPアーキテクチャが、大気状態を予測できる可能性を示している。 しかしながら、トレーニングプロトコルや予測地平線、データ選択の違いから、これらの手法やアーキテクチャのどれが天気予報や将来のモデル開発に最も適しているかは、いまだ不明である。 ここでは,最も顕著なDLWPモデルと背骨との比較と対比を行い,制御条件下での詳細な実験分析を行う。 合成2次元非圧縮性ナビエストークスと実世界の気象動態を予測してこれを達成した。 正確性、メモリ消費、実行時間の観点から、我々の結果は様々なトレードオフを示している。 例えば、合成データでは、FNOの良好な性能を観測し、実際のWeatherBenchデータセットでは、短距離から中距離の予測に対するConvLSTMとSwinTransformerの適合性を実証した。 365日間の長期にわたる気象観測のために、球面データ表現、すなわちGraphCastとSpherical FNOを定式化したアーキテクチャにおいて、優れた安定性と物理的健全性を観察する。 さらに、これらのモデルバックボーンのすべて 'saturate'' は、いずれもいわゆるニューラルスケーリングを示しておらず、これらのモデルと関連するモデルに関する今後の研究にとって重要な方向を示す。

Remarkable progress in the development of Deep Learning Weather Prediction (DLWP) models positions them to become competitive with traditional numerical weather prediction (NWP) models. Indeed, a wide number of DLWP architectures -- based on various backbones, including U-Net, Transformer, Graph Neural Network (GNN), and Fourier Neural Operator (FNO) -- have demonstrated their potential at forecasting atmospheric states. However, due to differences in training protocols, forecast horizons, and data choices, it remains unclear which (if any) of these methods and architectures are most suitable for weather forecasting and for future model development. Here, we step back and provide a detailed empirical analysis, under controlled conditions, comparing and contrasting the most prominent DLWP models, along with their backbones. We accomplish this by predicting synthetic two-dimensional incompressible Navier-Stokes and real-world global weather dynamics. In terms of accuracy, memory consumption, and runtime, our results illustrate various tradeoffs. For example, on synthetic data, we observe favorable performance of FNO; and on the real-world WeatherBench dataset, our results demonstrate the suitability of ConvLSTM and SwinTransformer for short-to-mid-ranged forecasts. For long-ranged weather rollouts of up to 365 days, we observe superior stability and physical soundness in architectures that formulate a spherical data representation, i.e., GraphCast and Spherical FNO. In addition, we observe that all of these model backbones ``saturate,'' i.e., none of them exhibit so-called neural scaling, which highlights an important direction for future work on these and related models.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# 3次元再構成による視覚言語モデルにおける空間推論の強化

I Know About "Up"! Enhancing Spatial Reasoning in Visual Language Models Through 3D Reconstruction ( http://arxiv.org/abs/2407.14133v1 )

ライセンス: Link先を確認
Zaiqiao Meng, Hao Zhou, Yifang Chen, (参考訳) 視覚言語モデル(VLM)は、堅牢なマルチモーダル情報統合、視覚的推論機能、文脈認識など、様々なタスク、特に視覚的推論タスクに必須である。 しかしながら、既存の「VLMs{}」の視覚的空間推論能力はしばしば不十分であり、左と右を区別するといった基本的なタスクでも苦労している。 そこで本研究では,VLMSの空間的推論能力を高めるために,このモデルを提案する。 ZeroVLMは、入力画像の異なるビューを取得するための3次元再構成モデルであるZero-1-to-3を採用し、視覚空間推論をさらに改善するためのプロンプト機構を組み込んでいる。 4つの空間的推論データセットによる実験結果から,最大19.48%の精度向上が達成され,ZeroVLMの3次元再構成の有効性と促進機構が示された。

Visual Language Models (VLMs) are essential for various tasks, particularly visual reasoning tasks, due to their robust multi-modal information integration, visual reasoning capabilities, and contextual awareness. However, existing \VLMs{}' visual spatial reasoning capabilities are often inadequate, struggling even with basic tasks such as distinguishing left from right. To address this, we propose the \ours{} model, designed to enhance the visual spatial reasoning abilities of VLMS. ZeroVLM employs Zero-1-to-3, a 3D reconstruction model for obtaining different views of the input images and incorporates a prompting mechanism to further improve visual spatial reasoning. Experimental results on four visual spatial reasoning datasets show that our \ours{} achieves up to 19.48% accuracy improvement, which indicates the effectiveness of the 3D reconstruction and prompting mechanisms of our ZeroVLM.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# 顔形状と両方向の明示的相互作用による6DoFヘッドポース推定

6DoF Head Pose Estimation through Explicit Bidirectional Interaction with Face Geometry ( http://arxiv.org/abs/2407.14136v1 )

ライセンス: Link先を確認
Sungho Chun, Ju Yong Chang, (参考訳) 本研究は,6自由度 (6DoF) の頭部ポーズ推定の文脈において,頭部翻訳を推定する難題に対処し,より一般的に研究されている頭部回転よりも,この側面に重点を置いている。 既存の手法のギャップを同定し,顔形状と頭部翻訳の相乗効果が不十分であることを確認した。 このギャップを埋めるために,頭部翻訳,回転,顔幾何ネットワーク (TRG) と呼ばれる新しい手法を提案する。 この構造は顔形状と頭部翻訳の相補的関係を活用するために慎重に設計されており、頭部ポーズ推定の分野における顕著な進歩を示している。 コントリビューションには、バウンディングボックス補正パラメータを推定する戦略や、ランドマークを画像にアライメントする手法の開発も含まれる。 これら2つのイノベーションは、6DoFヘッドポーズ推定タスクにおいて優れたパフォーマンスを示す。 ARKitFaceとBIWIデータセットによる大規模な実験により、提案手法が現在の最先端技術より優れていることを確認した。 コードはhttps://github.com/asw91666/TRG-Release.comで公開されている。

This study addresses the nuanced challenge of estimating head translations within the context of six-degrees-of-freedom (6DoF) head pose estimation, placing emphasis on this aspect over the more commonly studied head rotations. Identifying a gap in existing methodologies, we recognized the underutilized potential synergy between facial geometry and head translation. To bridge this gap, we propose a novel approach called the head Translation, Rotation, and face Geometry network (TRG), which stands out for its explicit bidirectional interaction structure. This structure has been carefully designed to leverage the complementary relationship between face geometry and head translation, marking a significant advancement in the field of head pose estimation. Our contributions also include the development of a strategy for estimating bounding box correction parameters and a technique for aligning landmarks to image. Both of these innovations demonstrate superior performance in 6DoF head pose estimation tasks. Extensive experiments conducted on ARKitFace and BIWI datasets confirm that the proposed method outperforms current state-of-the-art techniques. Codes are released at https://github.com/asw91666/TRG-Release.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# 野生におけるビジュアルテキスト生成

Visual Text Generation in the Wild ( http://arxiv.org/abs/2407.14138v1 )

ライセンス: Link先を確認
Yuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang, (参考訳) 近年、生成モデルの急速な進歩により、視覚テキスト生成の分野は大きな進歩を遂げている。 しかし, 高品質なテキストイメージを現実のシナリオでレンダリングすることは,(1) 忠実さ: 生成したテキストイメージはフォトリアリスティックで, 内容は指定した条件と同じである,(2) 理性: 生成したテキストの領域と内容がシーンと結びつく,(3) 実用性: 生成したテキストイメージは関連するタスク(例えば, テキストの検出と認識)を促進できる,という3つの重要な基準を満たすことが依然として困難である。 調査の結果,既存の手法はレンダリングベースでも拡散ベースでも,これらすべての側面を同時に満たすことができず,アプリケーション範囲が制限されることが判明した。 そこで本稿では,高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。 2段階のパラダイムに従って、SceneVTGはマルチモーダル大言語モデルを利用して、条件付き拡散モデルによってテキスト画像を生成する条件として使用される、複数のスケールとレベルにわたる妥当なテキスト領域と内容を推奨する。 広汎な実験により,提案手法は従来のレンダリング法や最近の拡散法よりも忠実度や理性に優れていた。 さらに、生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。 コードとデータセットはAdvancedLiterateMachineryで入手できる。

Recently, with the rapid advancements of generative models, the field of visual text generation has witnessed significant progress. However, it is still challenging to render high-quality text images in real-world scenarios, as three critical criteria should be satisfied: (1) Fidelity: the generated text images should be photo-realistic and the contents are expected to be the same as specified in the given conditions; (2) Reasonability: the regions and contents of the generated text should cohere with the scene; (3) Utility: the generated text images can facilitate related tasks (e.g., text detection and recognition). Upon investigation, we find that existing methods, either rendering-based or diffusion-based, can hardly meet all these aspects simultaneously, limiting their application range. Therefore, we propose in this paper a visual text generator (termed SceneVTG), which can produce high-quality text images in the wild. Following a two-stage paradigm, SceneVTG leverages a Multimodal Large Language Model to recommend reasonable text regions and contents across multiple scales and levels, which are used by a conditional diffusion model as conditions to generate text images. Extensive experiments demonstrate that the proposed SceneVTG significantly outperforms traditional rendering-based methods and recent diffusion-based methods in terms of fidelity and reasonability. Besides, the generated images provide superior utility for tasks involving text detection and text recognition. Code and datasets are available at AdvancedLiterateMachinery.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# クラスインクリメンタルセマンティックセグメンテーションのための新しい分類器の事前調整

Early Preparation Pays Off: New Classifier Pre-tuning for Class Incremental Semantic Segmentation ( http://arxiv.org/abs/2407.14142v1 )

ライセンス: Link先を確認
Zhengyuan Xie, Haiquan Lu, Jia-wen Xiao, Enguang Wang, Le Zhang, Xialei Liu, (参考訳) クラスインクリメンタルセマンティックセグメンテーションは、新しいタスクを学習しながら古い知識を保存することを目的としている。 以前の研究は、新しい分類器を初期化する上で重要なことを示し、主に、バックグラウンド分類器から知識を転送することや、将来のクラスのための分類器を準備し、新しい分類器の柔軟性と分散を無視することに焦点を当てている。 本稿では,従来の分類器からの変換を学習し,新しい分類器のパラメータを直接チューニングするのではなく,初期化のための新しい分類器を生成する。 提案手法は,新しい分類器をバックボーンと整合させ,新しいデータに適応させることで,新しいクラスを学習する際に特徴抽出器の劇的な変化を防止できる。 さらに,変換に使用する行列の初期化とクロスタスククラスの類似性を考慮した戦略を設計し,安定性と塑性のトレードオフを実現する。 Pascal VOC 2012 と ADE20K データセットの実験により、提案手法は従来の手法の性能を大幅に改善できることが示された。 コードは \url{https://github.com/zhengyuan-xie/ECCV24_NeST} で公開されている。

Class incremental semantic segmentation aims to preserve old knowledge while learning new tasks, however, it is impeded by catastrophic forgetting and background shift issues. Prior works indicate the pivotal importance of initializing new classifiers and mainly focus on transferring knowledge from the background classifier or preparing classifiers for future classes, neglecting the flexibility and variance of new classifiers. In this paper, we propose a new classifier pre-tuning~(NeST) method applied before the formal training process, learning a transformation from old classifiers to generate new classifiers for initialization rather than directly tuning the parameters of new classifiers. Our method can make new classifiers align with the backbone and adapt to the new data, preventing drastic changes in the feature extractor when learning new classes. Besides, we design a strategy considering the cross-task class similarity to initialize matrices used in the transformation, helping achieve the stability-plasticity trade-off. Experiments on Pascal VOC 2012 and ADE20K datasets show that the proposed strategy can significantly improve the performance of previous methods. The code is available at \url{https://github.com/zhengyuan-xie/ECCV24_NeST}.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# CLIPによるクラスインクリメンタル学習:適応的表現調整とパラメータ融合

Class-Incremental Learning with CLIP: Adaptive Representation Adjustment and Parameter Fusion ( http://arxiv.org/abs/2407.14143v1 )

ライセンス: Link先を確認
Linlan Huang, Xusheng Cao, Haori Lu, Xialei Liu, (参考訳) クラス増分学習(class-incremental learning)は難しい問題であり、目標は、時間とともに増加するクラスからデータを分類できるモデルをトレーニングすることである。 CLIPのような視覚言語による事前学習モデルの進歩により、完全に凍結されたパラメータを持つクラス増分学習において、優れた一般化能力を示す。 しかし、単にモデルを微調整することで、下流タスクへのさらなる適応は、ひどく忘れてしまう。 事前訓練されたモデルを用いた既存の研究の多くは、モデルが新しい知識を得るとき、古いクラスを忘れることは一様であると仮定している。 本稿では,適応表現調整とパラメータ融合 (RAPF) という手法を提案する。 新たなデータのトレーニング中に,新しいクラスが古いクラスに与える影響を測定し,テキスト機能を用いて表現を調整する。 訓練後, 分割パラメータ融合を用いて, アダプタモジュールの微調整時の忘れの軽減を図る。 いくつかの従来のベンチマーク実験により,本手法は最先端の結果が得られることが示された。 私たちのコードは \url{https://github.com/linlany/RAPF} で利用可能です。

Class-incremental learning is a challenging problem, where the goal is to train a model that can classify data from an increasing number of classes over time. With the advancement of vision-language pre-trained models such as CLIP, they demonstrate good generalization ability that allows them to excel in class-incremental learning with completely frozen parameters. However, further adaptation to downstream tasks by simply fine-tuning the model leads to severe forgetting. Most existing works with pre-trained models assume that the forgetting of old classes is uniform when the model acquires new knowledge. In this paper, we propose a method named Adaptive Representation Adjustment and Parameter Fusion (RAPF). During training for new data, we measure the influence of new classes on old ones and adjust the representations, using textual features. After training, we employ a decomposed parameter fusion to further mitigate forgetting during adapter module fine-tuning. Experiments on several conventional benchmarks show that our method achieves state-of-the-art results. Our code is available at \url{https://github.com/linlany/RAPF}.
翻訳日:2024-07-22 18:13:50 公開日:2024-07-19
# PassTSL:2段階学習による人為的パスワードのモデル化

PassTSL: Modeling Human-Created Passwords through Two-Stage Learning ( http://arxiv.org/abs/2407.14145v1 )

ライセンス: Link先を確認
Yangde Wang, Haozhang Li, Weidong Qiu, Shujun Li, Peng Tang, (参考訳) テキストパスワードは依然として最も広く使われているユーザー認証メカニズムである。 テキストパスワードと自然言語の密接な関係のため、自然言語処理(NLP)と機械学習(ML)の高度な技術は、人間のパスワード生成行動の研究やより高度なパスワードクラッキング手法の開発など、さまざまな目的のためにパスワードをモデル化するために用いられる。 本稿では,NLPと深層学習(DL)で一般的な事前学習ファインタニングフレームワークに触発されたPassTSLを提案する。 本稿では,PassTSLの事前トレーニング設定の違いがPassTSLに与える影響を報告し,その効果を6つの大きなパスワードデータベースに適用した。 実験の結果、パスワードの推測において、SOTA(State-of-the-art)パスワードクラッキング法が最大で4.11%から64.69%の差で上回っていることがわかった。 PassTSLをベースとしたパスワード強度計(PSM)も実装し、ニューラルネットワークベースの手法とzxcvbnを併用することで、他の2つのSOTA PSMよりも安全性の低いエラー(パスワード強度を過大評価する)を発生させることができることを示した。 さらに,複数の微調整設定を検討した結果,事前訓練したデータの0.1%に留まらず,少量のトレーニングデータでも平均3%以上のパスワード推測の改善が期待できることがわかった。 また,JS(Jensen-Shannon)の発散に基づく微調整パスワードの選択に対するヒューリスティックなアプローチを提案し,その有用性を検証した。 要約すると、パスワードのモデリングとひび割れに高度なNLPおよびML手法を適用する可能性と可能性を示す。

Textual passwords are still the most widely used user authentication mechanism. Due to the close connections between textual passwords and natural languages, advanced technologies in natural language processing (NLP) and machine learning (ML) could be used to model passwords for different purposes such as studying human password-creation behaviors and developing more advanced password cracking methods for informing better defence mechanisms. In this paper, we propose PassTSL (modeling human-created Passwords through Two-Stage Learning), inspired by the popular pretraining-finetuning framework in NLP and deep learning (DL). We report how different pretraining settings affected PassTSL and proved its effectiveness by applying it to six large leaked password databases. Experimental results showed that it outperforms five state-of-the-art (SOTA) password cracking methods on password guessing by a significant margin ranging from 4.11% to 64.69% at the maximum point. Based on PassTSL, we also implemented a password strength meter (PSM), and our experiments showed that it was able to estimate password strength more accurately, causing fewer unsafe errors (overestimating the password strength) than two other SOTA PSMs when they produce the same rate of safe errors (underestimating the password strength): a neural-network based method and zxcvbn. Furthermore, we explored multiple finetuning settings, and our evaluations showed that, even a small amount of additional training data, e.g., only 0.1% of the pretrained data, can lead to over 3% improvement in password guessing on average. We also proposed a heuristic approach to selecting finetuning passwords based on JS (Jensen-Shannon) divergence and experimental results validated its usefulness. In summary, our contributions demonstrate the potential and feasibility of applying advanced NLP and ML methods to password modeling and cracking.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# 運動的不確かさ関係における量子コヒーレンスの役割

Role of Quantum Coherence in Kinetic Uncertainty Relations ( http://arxiv.org/abs/2407.14147v1 )

ライセンス: Link先を確認
Kacper Prech, Patrick P. Potts, Gabriel T. Landi, (参考訳) 動力学的不確実性関係 (KUR) は、動力学的活動として知られる単位時間当たりの遷移数の観点から確率的電流の信号-雑音比を定めている。 この境界は古典的な文脈で導出され、コヒーレント効果によって量子状態に違反することができる。 しかし、KUR違反と量子コヒーレンスとの正確な関係は、重大な研究にもかかわらず、いまだ解明されていない。 本研究では、コヒーレンスがKUR違反の原因となる可能性を正確に特定する修正境界を導出することにより、この問題を解決する。 我々の境界は、量子マスター方程式の特定の種類の解法に敏感である。 したがって、量子ジャンプと量子拡散を比較することができ、それぞれの場合において、量子コヒーレンスが変動にどのように影響するかを理解することができる。 電子電流は電子ジャンプ検出または連続拡散電荷測定によって測定される。

The Kinetic Uncertainty Relation (KUR) bounds the signal-to-noise ratio of stochastic currents in terms of the number of transitions per unit time, known as the dynamical activity. This bound was derived in a classical context, and can be violated in the quantum regime due to coherent effects. However, the precise connection between KUR violations and quantum coherence has so far remained elusive, despite significant investigation. In this work, we solve this problem by deriving a modified bound that exactly pinpoints how, and when, coherence might lead to KUR violations. Our bound is sensitive to the specific kind of unraveling of the quantum master equation. It therefore allows one to compare quantum jumps and quantum diffusion, and understand, in each case, how quantum coherence affects fluctuations. We illustrate our result on a double quantum dot, where the electron current is monitored either by electron jump detection or with continuous diffusive charge measurement.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# 深層強化学習モデルの比較研究:DQN対PPO対A2C

A Comparative Study of Deep Reinforcement Learning Models: DQN vs PPO vs A2C ( http://arxiv.org/abs/2407.14151v1 )

ライセンス: Link先を確認
Neil De La Fuente, Daniel A. Vidal Guerra, (参考訳) 本研究では,Deep Q-Networks (DQN), Proximal Policy Optimization (PPO), Advantage Actor-Critic (A2C) の3つの高度な深層強化学習モデルの比較分析を行った。 本研究は,これらのモデルの性能と効果を制御された環境で評価する。 厳密な実験を通じて,各モデルの学習効率,戦略開発,動的ゲーム条件下での適応性について検討する。 この知見はゲームベースの学習環境におけるこれらのモデルの実践的応用に関する批判的な洞察を与え、それらの能力のより広範な理解に寄与する。 コードはgithub.com/Neilus03/DRL_comparative_studyで公開されている。

This study conducts a comparative analysis of three advanced Deep Reinforcement Learning models: Deep Q-Networks (DQN), Proximal Policy Optimization (PPO), and Advantage Actor-Critic (A2C), within the BreakOut Atari game environment. Our research assesses the performance and effectiveness of these models in a controlled setting. Through rigorous experimentation, we examine each model's learning efficiency, strategy development, and adaptability under dynamic game conditions. The findings provide critical insights into the practical applications of these models in game-based learning environments and contribute to the broader understanding of their capabilities. The code is publicly available at github.com/Neilus03/DRL_comparative_study.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# ESP-MedSAM:Universal Domain-Generalized Medical Image Segmentationのための効率的なセルフプロンピングSAM

ESP-MedSAM: Efficient Self-Prompting SAM for Universal Domain-Generalized Medical Image Segmentation ( http://arxiv.org/abs/2407.14153v1 )

ライセンス: Link先を確認
Qing Xu, Jiaxuan Li, Xiangjian He, Ziyu Liu, Zhen Chen, Wenting Duan, Chenxin Li, Maggie M. He, Fiseha B. Tesema, Wooi P. Cheah, Yi Wang, Rong Qu, Jonathan M. Garibaldi, (参考訳) SAM(Segment Anything Model)は、医用画像のセグメンテーションに顕著な適応を示したが、3つの大きな課題に直面している。 まず、SAMの膨大な計算コストが実世界の適用性を制限している。 第2に、SAMは手動のアノテーション(例えば、ポイント、ボックス)をプロンプトとして依存する。 第3に、SAMは全てのセグメンテーションターゲットを等しく扱い、これは固有の不均一性を持つ多様な医学的モダリティに最適である。 これらの課題に対処するために,ESP-MedSAMという医用画像分割のための効率的なセルフプロンピングSAMを提案する。 我々は,共通画像知識とドメイン固有の医療知識を基礎モデルから駆除し,軽量画像エンコーダとモダリティコントローラを訓練するためのマルチモーダルデカップリング知識蒸留(MMDKD)戦略を考案した。 さらに、SPPG(Self-Patch Prompt Generator)とQDMD(Query-Decoupled Modality Decoder)を組み合わせてESP-MedSAMを構築する。 具体的には、SPPGはパッチプロンプトを自動生成することを目的としており、QDMDは1対1の戦略を活用し、すべてのモダリティに対して独立したデコードチャネルを提供する。 広範な実験により、ESP-MedSAMは様々な医用画像のセグメンテーションにおける最先端技術よりも優れ、優れたゼロショット学習とモダリティ伝達能力を示すことが示されている。 特に、SAM-Baseと比較して、我々のフレームワークは31.4%しかパラメータを使用しません。

The Segment Anything Model (SAM) has demonstrated outstanding adaptation to medical image segmentation but still faces three major challenges. Firstly, the huge computational costs of SAM limit its real-world applicability. Secondly, SAM depends on manual annotations (e.g., points, boxes) as prompts, which are laborious and impractical in clinical scenarios. Thirdly, SAM handles all segmentation targets equally, which is suboptimal for diverse medical modalities with inherent heterogeneity. To address these issues, we propose an Efficient Self-Prompting SAM for universal medical image segmentation, named ESP-MedSAM. We devise a Multi-Modal Decoupled Knowledge Distillation (MMDKD) strategy to distil common image knowledge and domain-specific medical knowledge from the foundation model to train a lightweight image encoder and a modality controller. Further, they combine with the additionally introduced Self-Patch Prompt Generator (SPPG) and Query-Decoupled Modality Decoder (QDMD) to construct ESP-MedSAM. Specifically, SPPG aims to generate a set of patch prompts automatically and QDMD leverages a one-to-one strategy to provide an independent decoding channel for every modality. Extensive experiments indicate that ESP-MedSAM outperforms state-of-the-arts in diverse medical imaging segmentation takes, displaying superior zero-shot learning and modality transfer ability. Especially, our framework uses only 31.4% parameters compared to SAM-Base.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# 私のフェデレーションラーニング研究のためのテストベッドはどこにありますか?

Where is the Testbed for my Federated Learning Research? ( http://arxiv.org/abs/2407.14154v1 )

ライセンス: Link先を確認
Janez Božič, Amândio R. Faustino, Boris Radovič, Marco Canini, Veljko Pejović, (参考訳) しかし、分散AIソリューション、特に様々な連邦学習(FL)アルゴリズムは、しばしば包括的に評価されないため、研究コミュニティは最も有望なアプローチを特定し、実践者が特定のソリューションがデプロイ可能なものであることを確信することができない。 FLアルゴリズム評価の最大のハードルは、さまざまなFLクライアントデバイスやさまざまなプラットフォーム上で実世界の実験を行うのが困難であることだ。 本稿では,FL研究のための実世界テストベッドであるColexTについて述べる。 CoLExTは、シングルボードコンピュータからスマートフォンまで多種多様なエッジデバイスを備えた、リッチなテストベッド構成空間におけるカスタムFLアルゴリズムの実験を合理化し、自動計測によって様々なメトリクスのリアルタイム収集と可視化を提供するように設計されている。 我々の評価によると、FLアルゴリズムをCoLExTに移植するには、開発者による最小限の関与が必要であり、インスツルメンテーションはリソース使用のオーバーヘッドを最小限にする。 さらに、CLExT上で動作する一般的なFLアルゴリズムに関する最初の調査を通じて、これまで未知のトレードオフ、非効率性、およびプログラミングバグを明らかにした。

Progressing beyond centralized AI is of paramount importance, yet, distributed AI solutions, in particular various federated learning (FL) algorithms, are often not comprehensively assessed, which prevents the research community from identifying the most promising approaches and practitioners from being convinced that a certain solution is deployment-ready. The largest hurdle towards FL algorithm evaluation is the difficulty of conducting real-world experiments over a variety of FL client devices and different platforms, with different datasets and data distribution, all while assessing various dimensions of algorithm performance, such as inference accuracy, energy consumption, and time to convergence, to name a few. In this paper, we present CoLExT, a real-world testbed for FL research. CoLExT is designed to streamline experimentation with custom FL algorithms in a rich testbed configuration space, with a large number of heterogeneous edge devices, ranging from single-board computers to smartphones, and provides real-time collection and visualization of a variety of metrics through automatic instrumentation. According to our evaluation, porting FL algorithms to CoLExT requires minimal involvement from the developer, and the instrumentation introduces minimal resource usage overhead. Furthermore, through an initial investigation involving popular FL algorithms running on CoLExT, we reveal previously unknown trade-offs, inefficiencies, and programming bugs.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# 拡散モデルを用いたkmスケール地域気候シミュレーションによる降水の機械学習エミュレーション

Machine learning emulation of precipitation from km-scale regional climate simulations using a diffusion model ( http://arxiv.org/abs/2407.14158v1 )

ライセンス: Link先を確認
Henry Addison, Elizabeth Kendon, Suman Ravuri, Laurence Aitchison, Peter AG Watson, (参考訳) 高解像度の気候シミュレーションは、気候変動の影響を理解し、適応策を計画するのに非常に有用である。 これは、対流嵐のような重要な小規模の大気過程を捉えるのに十分な解像度で地域気候モデルを使用することを動機付けている。 しかし、これらの地域モデルは計算コストが非常に高く、適用性が制限される。 CPMGEMは,イングランドやウェールズの高分解能モデルから降水シミュレーションを高速にエミュレートするための,生成機械学習モデル,拡散モデルの新しい応用法である。 このエミュレータは、地球規模の気候モデルから、粗解像度(60km)の気象条件下での日平均降水サンプルである高分解能(8.8km)の確率的な生成を可能にする。 アウトプットは、洪水浸水モデリングのようなアプリケーションでの使用には十分である。 エミュレータは、現実的な強度と空間構造を持つ降水予測を生成し、21世紀の気候変動信号のほとんどを捉えている。 我々は,エミュレータが最大100年以内の強度を含む極端なイベントのスキルを持っていることを示す。 潜在的な応用としては、大規模な気候シミュレーションのための高解像度降水予測の作成や、異なる気候モデルと気候変動シナリオのダウンスケールにより、局所的なスケールでの気候変動の不確実性のサンプリングを改善することが挙げられる。

High-resolution climate simulations are very valuable for understanding climate change impacts and planning adaptation measures. This has motivated use of regional climate models at sufficiently fine resolution to capture important small-scale atmospheric processes, such as convective storms. However, these regional models have very high computational costs, limiting their applicability. We present CPMGEM, a novel application of a generative machine learning model, a diffusion model, to skilfully emulate precipitation simulations from such a high-resolution model over England and Wales at much lower cost. This emulator enables stochastic generation of high-resolution (8.8km), daily-mean precipitation samples conditioned on coarse-resolution (60km) weather states from a global climate model. The output is fine enough for use in applications such as flood inundation modelling. The emulator produces precipitation predictions with realistic intensities and spatial structures and captures most of the 21st century climate change signal. We show evidence that the emulator has skill for extreme events up to and including 1-in-100 year intensities. Potential applications include producing high-resolution precipitation predictions for large-ensemble climate simulations and downscaling different climate models and climate change scenarios to better sample uncertainty in climate changes at local-scale.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# 大規模量子多体シミュレーションのための部分空間に基づく変分量子回路の局所コンパイル

Subspace-Based Local Compilation of Variational Quantum Circuits for Large-Scale Quantum Many-Body Simulation ( http://arxiv.org/abs/2407.14163v1 )

ライセンス: Link先を確認
Shota Kanasugi, Yuichiro Hidaka, Yuya O. Nakagawa, Shoichiro Tsutsui, Norifumi Matsumoto, Kazunori Maruyama, Hirotaka Oshima, Shintaro Sato, (参考訳) 量子多体系のシミュレーションは量子コンピュータの有望な応用である。 しかし,時間進化演算子を資源不足の短期デバイス上で効率よく量子回路として実装することは困難である。 トロタライゼーションのような標準的なアプローチは、しばしば深い回路を必要とするため、実用的ではない。 本稿では、時間進化演算子をコンパイルするローカル部分空間変分量子コンパイル(LSVQC)と呼ばれるハイブリッド量子古典アルゴリズムを提案する。 LSVQCは、物理的に合理的な部分空間内のターゲット時間進化演算子の動作を再現するために変分最適化を使用する。 最適化は、Lieb-Robinson境界に基づく小さなローカルサブシステム上で行われ、小型の量子デバイスや古典的コンピュータを用いたコスト関数の評価を可能にする。 スピン格子モデルと$\mathit{\text{ab initio}}$強相関物質Sr$_2$CuO$_3$の有効モデルに関する数値シミュレーションは、アルゴリズムの有効性を実証する。 LSVQCは、精度を保ちながら、トロッタライゼーションに比べて95%の回路深さの低減を実現している。 サブスペース制限はまた、リソースの要求を減らし、精度を向上させる。 さらに,LSVQCを用いて,雑音の多い中間スケールあるいは早期のフォールトトレラント量子コンピューティング時代において,短期量子コンピューティングアーキテクチャ上での量子シミュレーションを実行するために必要なゲート数を推定する。 我々の推定では, LSVQCの物理ゲート誤り率はトロッタライズよりも有意に大きいことが示唆された。

Simulation of quantum many-body systems is a promising application of quantum computers. However, implementing the time-evolution operator as a quantum circuit efficiently on near-term devices with limited resources is challenging. Standard approaches like Trotterization often require deep circuits, making them impractical. This paper proposes a hybrid quantum-classical algorithm called Local Subspace Variational Quantum Compilation (LSVQC) for compiling the time-evolution operator. The LSVQC uses variational optimization to reproduce the action of the target time-evolution operator within a physically reasonable subspace. Optimization is performed on small local subsystems based on the Lieb-Robinson bound, allowing for cost function evaluation using small-scale quantum devices or classical computers. Numerical simulations on a spin-lattice model and an $\mathit{\text{ab initio}}$ effective model of strongly correlated material Sr$_2$CuO$_3$ demonstrate the algorithm's effectiveness. It is shown that the LSVQC achieves a 95% reduction in circuit depth compared to Trotterization while maintaining accuracy. The subspace restriction also reduces resource requirements and improves accuracy. Furthermore, we estimate the gate count needed to execute the quantum simulations using the LSVQC on near-term quantum computing architectures in the noisy intermediate-scale or early fault-tolerant quantum computing era. Our estimation suggests that the acceptable physical gate error rate for the LSVQC can be significantly larger than for Trotterization.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# 最大エントロピー線形特徴インバージョンについて

On Maximum Entropy Linear Feature Inversion ( http://arxiv.org/abs/2407.14166v1 )

ライセンス: Link先を確認
Paul M Baggenstoss, (参考訳) 我々は、最大エントロピー(MaxEnt)基準を用いて次元還元線型写像を反転させる古典的問題を再考する。 文献では、解は問題に依存し、矛盾し、異なるエントロピー測度を使用する。 我々は、既存のアプローチに特化するだけでなく、データ値が[0, 1]に制約された場合など、機械学習に新たな応用をもたらすような、新しいケースに対するソリューションを提供する、新しい統一アプローチを提案する。

We revisit the classical problem of inverting dimension-reducing linear mappings using the maximum entropy (MaxEnt) criterion. In the literature, solutions are problem-dependent, inconsistent, and use different entropy measures. We propose a new unified approach that not only specializes to the existing approaches, but offers solutions to new cases, such as when data values are constrained to [0, 1], which has new applications in machine learning.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# Forbes: バックプロパゲーション・リファインメント・スキームによる顔難読化レンダリング

Forbes: Face Obfuscation Rendering via Backpropagation Refinement Scheme ( http://arxiv.org/abs/2407.14170v1 )

ライセンス: Link先を確認
Jintae Kim, Seungwon yang, Seong-Gyun Jeong, Chang-Su Kim, (参考訳) 本稿では,人間の顔の表情を難読化することを目的とした顔の難読化のための新しいアルゴリズム Forbes を提案する。 Forbesはまず、ランダムなパラメータを持つ複数の難読化変換を画像に適用し、人間の識別可能な識別情報を除去する。 そして、バックプロパゲーション・リファインメント・スキームに基づいて、変換された画像を機械で解読できるようにパラメータを最適化する。 最後に、最適化されたパラメータで変換を適用することで、難読化画像をレンダリングする。 様々なデータセットの実験結果から、Forbesは人間の非解読性と機械の解読性の両方を良好に達成することを示した。 ソースコードはhttps://github.com/mcljtkim/Forbes.comで入手できる。

A novel algorithm for face obfuscation, called Forbes, which aims to obfuscate facial appearance recognizable by humans but preserve the identity and attributes decipherable by machines, is proposed in this paper. Forbes first applies multiple obfuscating transformations with random parameters to an image to remove the identity information distinguishable by humans. Then, it optimizes the parameters to make the transformed image decipherable by machines based on the backpropagation refinement scheme. Finally, it renders an obfuscated image by applying the transformations with the optimized parameters. Experimental results on various datasets demonstrate that Forbes achieves both human indecipherability and machine decipherability excellently. The source codes are available at https://github.com/mcljtkim/Forbes.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# 超伝導ナノワイヤ単光子検出器

Current-Crowding-Free Superconducting Nanowire Single-Photon Detectors ( http://arxiv.org/abs/2407.14171v1 )

ライセンス: Link先を確認
Stefan Strohauer, Fabian Wietschorke, Christian Schmid, Stefanie Grotowski, Lucio Zugliani, Björn Jonas, Kai Müller, Jonathan J. Finley, (参考訳) 暗黒物質の検出、量子科学と技術、バイオメディカルイメージングなどの応用には、単一光子の検出が不可欠である。 超伝導ナノワイヤ単光子検出器(SNSPD)は、その近ユニティ検出効率、サブHzの暗カウントレート、ピコ秒タイミングジッタにより、このタスクに優れる。 しかし,メランダ形SNSPDの屈曲部における電流密度(現在の集束)の局所的な増加は,これらの性能指標を制限している。 局所照射したSNSPDは比較的飽和板幅が37%,完全照射後のSNSPDは10%であった。 この大きな相対プラトー幅は、低い相対バイアス電流での動作を可能にし、単一の光子を効率よく検出しながら暗カウントレートを低減させる。 飽和検出効率の開始付近で暗カウントレート7mHzの780nmの波長に対して、内部検出効率94%を達成する。

Detecting single photons is essential for applications such as dark matter detection, quantum science and technology, and biomedical imaging. Superconducting nanowire single-photon detectors (SNSPDs) excel in this task due to their near-unity detection efficiency, sub-Hz dark count rates, and picosecond timing jitter. However, a local increase of current density (current crowding) in the bends of meander-shaped SNSPDs limits these performance metrics. By locally irradiating the straight segments of SNSPDs with helium ions while leaving the bends unirradiated, we realize current-crowding-free SNSPDs with simultaneously enhanced sensitivity: after irradiation with 800 ions/nm$\unicode{xB2}$, locally irradiated SNSPDs showed a relative saturation plateau width of 37% while fully irradiated SNSPDs reached only 10%. This larger relative plateau width allows operation at lower relative bias currents, thereby reducing the dark count rate while still detecting single photons efficiently. We achieve an internal detection efficiency of 94% for a wavelength of 780 nm with a dark count rate of 7 mHz near the onset of saturating detection efficiency.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# 分散強化学習における政策評価アルゴリズムについて

On Policy Evaluation Algorithms in Distributional Reinforcement Learning ( http://arxiv.org/abs/2407.14175v1 )

ライセンス: Link先を確認
Julian Gerstenberg, Ralph Neininger, Denis Spiegel, (参考訳) 本稿では,分散強化学習(DRL)の政策評価問題において,未知の戻り値分布を効率的に近似するアルゴリズムを新たに導入する。 提案した分散動的プログラミングアルゴリズムは,任意の確率的報奨機構を持つマルコフ決定過程(MDP)に適合する。 提案したアルゴリズムの単純な例では、ワッサーシュタインとコルモゴロフ-スミルノフ距離の両方において誤差境界を証明する。 さらに、確率密度関数を持つ戻り分布に対しては、アルゴリズムはこれらの密度を近似し、誤差境界は上限ノルム内で与えられる。 シミュレーション実験で有望な結果を示すアルゴリズムを考案するために,量子スパインの離散化の概念を導入する。 アルゴリズムの性能は厳密に分析できるが、多種多様なMDPに適用できる普遍的なブラックボックスアルゴリズムと見なすことができる。 また,我々の量的分析に基づくDRLでよく用いられる確率指標の新たな特性を導出する。

We introduce a novel class of algorithms to efficiently approximate the unknown return distributions in policy evaluation problems from distributional reinforcement learning (DRL). The proposed distributional dynamic programming algorithms are suitable for underlying Markov decision processes (MDPs) having an arbitrary probabilistic reward mechanism, including continuous reward distributions with unbounded support being potentially heavy-tailed. For a plain instance of our proposed class of algorithms we prove error bounds, both within Wasserstein and Kolmogorov--Smirnov distances. Furthermore, for return distributions having probability density functions the algorithms yield approximations for these densities; error bounds are given within supremum norm. We introduce the concept of quantile-spline discretizations to come up with algorithms showing promising results in simulation experiments. While the performance of our algorithms can rigorously be analysed they can be seen as universal black box algorithms applicable to a large class of MDPs. We also derive new properties of probability metrics commonly used in DRL on which our quantitative analysis is based.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# EVLM:視覚理解のための効率的な視覚言語モデル

EVLM: An Efficient Vision-Language Model for Visual Understanding ( http://arxiv.org/abs/2407.14177v1 )

ライセンス: Link先を確認
Kaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang, (参考訳) マルチモーダル言語モデルの分野では、ほとんどのメソッドはLLaVAに似たアーキテクチャで構築されている。 これらのモデルは、視覚的なプロンプトとしてシングルレイヤのViT機能を使用し、テキストトークンとともに言語モデルに直接入力する。 しかし、視覚信号やビデオなどの入力の長いシーケンスを扱う場合、言語モデルの自己認識機構は計算オーバーヘッドを著しく高める可能性がある。 さらに、シングルレイヤのViT機能を使用することで、大きな言語モデルが視覚信号を完全に知覚することが難しくなる。 本稿では,視覚信号の包括的認識を可能とし,計算コストを最小限に抑えるために,効率的なマルチモーダル言語モデルを提案する。 1)Flamingoに似た画像とテキストのインタラクションに相互アテンションを用いること。 2) 階層型 ViT 機能を利用する。 (3)モデルの有効性を高めるためのMixture of Experts(MoE)メカニズムを導入する。 画像キャプションやビデオキャプションといったタスクにおいて,公開マルチモーダルベンチマークの競合スコアを達成し,良好な性能を発揮する。

In the field of multi-modal language models, the majority of methods are built on an architecture similar to LLaVA. These models use a single-layer ViT feature as a visual prompt, directly feeding it into the language models alongside textual tokens. However, when dealing with long sequences of visual signals or inputs such as videos, the self-attention mechanism of language models can lead to significant computational overhead. Additionally, using single-layer ViT features makes it challenging for large language models to perceive visual signals fully. This paper proposes an efficient multi-modal language model to minimize computational costs while enabling the model to perceive visual signals as comprehensively as possible. Our method primarily includes: (1) employing cross-attention to image-text interaction similar to Flamingo. (2) utilize hierarchical ViT features. (3) introduce the Mixture of Experts (MoE) mechanism to enhance model effectiveness. Our model achieves competitive scores on public multi-modal benchmarks and performs well in tasks such as image captioning and video captioning.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# 光行列乗算による量子コンピューティングのシミュレーション

Emulating quantum computing with optical matrix multiplication ( http://arxiv.org/abs/2407.14178v1 )

ライセンス: Link先を確認
Mwezi Koni, Hadrian Bezuidenhout, Isaac Nape, (参考訳) 光コンピューティングは光速を利用して行列ベクトル演算を効率的に行う。 並列計算を可能にするために、量子コンピューティングアルゴリズムの基盤である干渉を利用する。 この研究では、量子コンピューティングと古典的な構造を持つ光を織り交ぜる。 これは、状態重畳のような量子力学的原理を用いてフォトニック行列乗法を定式化し、後によく知られたアルゴリズム、すなわちDeutsch-Jozsaのアルゴリズムを実証することによって達成される。 これは、直交する光の自由度で固有のテンソル積構造を解明することで達成される。 この目的のために、格子状に配置された局所ガウスモードを用いて離散基底を確立し、アダマール門の動作を実証する。 空間光変調器の再生可能およびデジタル機能を活用し、レンズによるフーリエ変換と組み合わせることで、我々は様々なアルゴリズムに適応できることを証明した。 そこで本研究は,量子情報処理における構造化光の利用を推し進める。

Optical computing harnesses the speed of light to perform matrix-vector operations efficiently. It leverages interference, a cornerstone of quantum computing algorithms, to enable parallel computations. In this work, we interweave quantum computing with classical structured light. This is achieved by formulating the process of photonic matrix multiplication using quantum mechanical principles such as state superposition and subsequently demonstrate a well known algorithm, namely the Deutsch-Jozsa's algorithm. This is accomplished by elucidating the inherent tensor product structure within the Cartesian transverse degrees of freedom of light. To this end, we establish a discrete basis using localized Gaussian modes arranged in a lattice formation and demonstrate the operation of a Hadamard Gate. Leveraging the reprogrammable and digital capabilities of spatial light modulators, coupled with Fourier transforms by lenses, our approach proves adaptable to various algorithms. Therefore our work advances the use of structured light for quantum information processing.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# ニュースニュースにおけるニュース記事の自動分類 : ジェンダーバイアス表現解析への応用

Automatic Classification of News Subjects in Broadcast News: Application to a Gender Bias Representation Analysis ( http://arxiv.org/abs/2407.14180v1 )

ライセンス: Link先を確認
Valentin Pelloin, Lena Dodson, Émile Chapuis, Nicolas Hervé, David Doukhan, (参考訳) 本稿では,フランステレビやラジオニュースで取り上げられる話題におけるジェンダー分布の偏りを列挙する計算フレームワークを提案する。 我々は、2023年に21のフランス語チャンネルで放送された11.7k時間のデータセットを転写した。 LLM(Large Language Model)は、これらの文字のトピック分類を得るために、数ショットの会話モードで使用される。 生成されたLLMアノテーションを用いて,より小さな分類モデルの微調整を行い,計算コストを削減する。 これらのモデルの性能を評価するために,804対話のデータセットを構築し,注釈付けする。 このデータセットは研究目的で無償で利用できる。 スポーツ,政治,紛争などの主題において,女性が顕著に表現されていないことを示す。 逆に、天気、商業、健康などのトピックでは、女性は全科目の平均よりも話す時間が多い。 また、プライベート・サービス・チャンネルとパブリック・サービス・チャンネルの差異を観察する。

This paper introduces a computational framework designed to delineate gender distribution biases in topics covered by French TV and radio news. We transcribe a dataset of 11.7k hours, broadcasted in 2023 on 21 French channels. A Large Language Model (LLM) is used in few-shot conversation mode to obtain a topic classification on those transcriptions. Using the generated LLM annotations, we explore the finetuning of a specialized smaller classification model, to reduce the computational cost. To evaluate the performances of these models, we construct and annotate a dataset of 804 dialogues. This dataset is made available free of charge for research purposes. We show that women are notably underrepresented in subjects such as sports, politics and conflicts. Conversely, on topics such as weather, commercials and health, women have more speaking time than their overall average across all subjects. We also observe representations differences between private and public service channels.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# 薬物発見における高精度意思決定の達成:ニューラルネットワークに基づく構造活性モデルを用いた包括的校正研究

Achieving Well-Informed Decision-Making in Drug Discovery: A Comprehensive Calibration Study using Neural Network-Based Structure-Activity Models ( http://arxiv.org/abs/2407.14185v1 )

ライセンス: Link先を確認
Hannah Rosa Friesacher, Ola Engkvist, Lewis Mervin, Yves Moreau, Adam Arany, (参考訳) 医薬品発見プロセスにおいて、医薬品と標的の相互作用を予測する計算モデルは、新しい治療薬の開発を加速するための貴重なツールである。 これらのニューラルネットワーク予測に固有の不確実性を推定することは、リスクアセスメントが不可欠である場合に最適な意思決定を容易にする貴重な情報を提供する。 しかし、そのようなモデルはキャリブレーションが不十分であり、真の予測の不確実性を反映しない信頼できない不確実性推定をもたらす。 本研究では,モデルパラメータチューニングに使用される精度と校正スコアなど,さまざまな指標を比較し,モデル選択戦略がよく校正されたモデルを実現するかを検討する。 さらに,ベースラインニューラルネットワークの隠れ層に装着したベイズ論理回帰のパラメータのサンプルを得るために,ハミルトンモンテカルロ(HMC)軌道を生成するベイズ線形探索(BLP)という計算効率の良いベイズ不確実性推定手法を提案する。 我々は,BLPがモデルキャリブレーションを改善し,不確実性推定と確率キャリブレーションの利点を組み合わせることで,共通不確実性定量化手法の性能を実現することを報告した。 最後に, ポストホックキャリブレーション法と不確実性定量化手法を組み合わせることで, モデルの精度とキャリブレーションを向上できることを示す。

In the drug discovery process, where experiments can be costly and time-consuming, computational models that predict drug-target interactions are valuable tools to accelerate the development of new therapeutic agents. Estimating the uncertainty inherent in these neural network predictions provides valuable information that facilitates optimal decision-making when risk assessment is crucial. However, such models can be poorly calibrated, which results in unreliable uncertainty estimates that do not reflect the true predictive uncertainty. In this study, we compare different metrics, including accuracy and calibration scores, used for model hyperparameter tuning to investigate which model selection strategy achieves well-calibrated models. Furthermore, we propose to use a computationally efficient Bayesian uncertainty estimation method named Bayesian Linear Probing (BLP), which generates Hamiltonian Monte Carlo (HMC) trajectories to obtain samples for the parameters of a Bayesian Logistic Regression fitted to the hidden layer of the baseline neural network. We report that BLP improves model calibration and achieves the performance of common uncertainty quantification methods by combining the benefits of uncertainty estimation and probability calibration methods. Finally, we show that combining post hoc calibration method with well-performing uncertainty quantification approaches can boost model accuracy and calibration.
翻訳日:2024-07-22 18:04:03 公開日:2024-07-19
# TaGAT:マルチモーダル網膜画像融合のためのトポロジー対応グラフアテンションネットワーク

TaGAT: Topology-Aware Graph Attention Network For Multi-modal Retinal Image Fusion ( http://arxiv.org/abs/2407.14188v1 )

ライセンス: Link先を確認
Xin Tian, Nantheera Anantrasirichai, Lindsay Nicholson, Alin Achim, (参考訳) 医用画像融合の分野では、様々なモダリティからの情報を統合することが診断や治療計画の改善に不可欠であり、特に網膜の健康において重要な特徴は異なる画像モダリティで異なる。 既存のディープラーニングベースのアプローチは、網膜画像融合に十分に焦点を合わせていないため、十分な解剖学的構造と網膜画像融合における細血管の細部を保存できない。 そこで我々は,マルチモーダル網膜画像融合のためのTopology-Aware Graph Attention Network (TaGAT)を提案する。 TAEは、網膜画像からロングショートレンジ(LSR)エンコーダを介して抽出されたベースと詳細の特徴を網膜血管から抽出したグラフにエンコードする。 TAE内では、GATベースのグラフ情報更新(GIU)ブロックが動的に洗練され、ノード機能を集約し、トポロジ対応グラフ機能を生成する。 ベース機能とディテール機能を備えた更新されたグラフ機能は、融合されたイメージとして組み合わせてデコードされる。 われわれはFluorescein Fundus Angiography (FFA) においてColor Fundus (CF) と光コヒーレンス・トモグラフィー (OCT) を併用し, 共焦点顕微鏡による網膜核融合を行った。 ソースコードはhttps://github.com/xintian-99/TaGATでアクセスできる。

In the realm of medical image fusion, integrating information from various modalities is crucial for improving diagnostics and treatment planning, especially in retinal health, where the important features exhibit differently in different imaging modalities. Existing deep learning-based approaches insufficiently focus on retinal image fusion, and thus fail to preserve enough anatomical structure and fine vessel details in retinal image fusion. To address this, we propose the Topology-Aware Graph Attention Network (TaGAT) for multi-modal retinal image fusion, leveraging a novel Topology-Aware Encoder (TAE) with Graph Attention Networks (GAT) to effectively enhance spatial features with retinal vasculature's graph topology across modalities. The TAE encodes the base and detail features, extracted via a Long-short Range (LSR) encoder from retinal images, into the graph extracted from the retinal vessel. Within the TAE, the GAT-based Graph Information Update (GIU) block dynamically refines and aggregates the node features to generate topology-aware graph features. The updated graph features with base and detail features are combined and decoded as a fused image. Our model outperforms state-of-the-art methods in Fluorescein Fundus Angiography (FFA) with Color Fundus (CF) and Optical Coherence Tomography (OCT) with confocal microscopy retinal image fusion. The source code can be accessed via https://github.com/xintian-99/TaGAT.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# ノルム拡散型オートエンコーダ : 筋萎縮性側索硬化症への応用

Normative Diffusion Autoencoders: Application to Amyotrophic Lateral Sclerosis ( http://arxiv.org/abs/2407.14191v1 )

ライセンス: Link先を確認
Ayodeji Ijishakin, Adamos Hadjasavilou, Ahmed Abdulaal, Nina Montana-Brown, Florence Townend, Edoardo Spinelli, Massimo Fillipi, Federica Agosta, James Cole, Andrea Malaspina, (参考訳) 筋萎縮性側索硬化症(ALS)の生存予測は難しい課題である。 磁気共鳴画像(MRI)データは、脳の健康に関する生体内知見を提供するが、その状態の低頻度と結果の少ないデータ不足により、予測モデルのためのトレーニングセットのサイズが制限される。 生存モデルは、ALS関連神経変性の微妙でしばしば高度に局在したプロファイルによってさらに妨げられる。 ノルメティヴモデルは、大きな健康コホートを活用することで、統計力を増加させる解を示す。 拡散モデルは、加速された脳の老化の微妙な兆候を含む画像に埋め込まれた意味を捉え、ALSの生存を予測するのに役立つ。 ここでは、規範拡散オートエンコーダフレームワークを導入することにより、生成的および規範的モデリングの利点を組み合わせる。 我々の知る限り、これは拡散オートエンコーダにおける規範的モデリングの最初の使用であり、ALSへの規範的モデリングの最初の応用である。 提案手法はALS予測における生成的および非生成的規範モデルベンチマークよりも優れており,ALS生存予測や規範モデル全般の文脈における予測精度の向上が示されている。

Predicting survival in Amyotrophic Lateral Sclerosis (ALS) is a challenging task. Magnetic resonance imaging (MRI) data provide in vivo insight into brain health, but the low prevalence of the condition and resultant data scarcity limit training set sizes for prediction models. Survival models are further hindered by the subtle and often highly localised profile of ALS-related neurodegeneration. Normative models present a solution as they increase statistical power by leveraging large healthy cohorts. Separately, diffusion models excel in capturing the semantics embedded within images including subtle signs of accelerated brain ageing, which may help predict survival in ALS. Here, we combine the benefits of generative and normative modelling by introducing the normative diffusion autoencoder framework. To our knowledge, this is the first use of normative modelling within a diffusion autoencoder, as well as the first application of normative modelling to ALS. Our approach outperforms generative and non-generative normative modelling benchmarks in ALS prognostication, demonstrating enhanced predictive accuracy in the context of ALS survival prediction and normative modelling in general.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# LeKUBE: 法的な知識のアップデートベンチマーク

LeKUBE: A Legal Knowledge Update BEnchmark ( http://arxiv.org/abs/2407.14192v1 )

ライセンス: Link先を確認
Changyue Wang, Weihang Su, Hu Yiran, Qingyao Ai, Yueyue Wu, Cheng Luo, Yiqun Liu, Min Zhang, Shaoping Ma, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、法的な知性の研究を含む、複数の分野におけるAIの応用を大きく形作っている。 法規や法的文書を含む広範な法的文書に基づいて訓練された法律LLMは、重要な法的知識/概念を効果的に捉え、法律コンサルタントのような下流の法的応用に対する重要な支援を提供する。 しかし、法規や解釈の動的な性質は、法的な応用にLLMを使うことに新たな課題をもたらす。 特に, LLMの法的知識を効果的かつ効率的に更新する方法は, 実際に重要な研究課題となっている。 知識更新手法を評価するための既存のベンチマークは、主にオープンドメインのために設計されており、新しい法的な知識の曖昧な適用、法的な規制の複雑さと長所性、そして法的な推論の複雑な性質など、法的な領域の特定の課題に対処できない。 このギャップに対処するために、法的なLLMの知識更新手法を5次元にわたって評価する法的な知識更新ベンチマーク(LeKUBE)を導入する。 具体的には、法律専門家の助けを借りて、法律分野における知識更新の必要性を分類し、その後、法律学校からアノテータを雇い、中国刑事民法を総合的に更新すると同時に、その更新後にどの回答が変わるかという一連の質問を行う。 現状の知識更新手法を総合的に評価することにより,既存の知識更新手法と法域のユニークなニーズとの間に顕著なギャップを生じさせ,法的LLMに適した知識更新機構のさらなる研究・開発の必要性を強調した。

Recent advances in Large Language Models (LLMs) have significantly shaped the applications of AI in multiple fields, including the studies of legal intelligence. Trained on extensive legal texts, including statutes and legal documents, the legal LLMs can capture important legal knowledge/concepts effectively and provide important support for downstream legal applications such as legal consultancy. Yet, the dynamic nature of legal statutes and interpretations also poses new challenges to the use of LLMs in legal applications. Particularly, how to update the legal knowledge of LLMs effectively and efficiently has become an important research problem in practice. Existing benchmarks for evaluating knowledge update methods are mostly designed for the open domain and cannot address the specific challenges of the legal domain, such as the nuanced application of new legal knowledge, the complexity and lengthiness of legal regulations, and the intricate nature of legal reasoning. To address this gap, we introduce the Legal Knowledge Update BEnchmark, i.e. LeKUBE, which evaluates knowledge update methods for legal LLMs across five dimensions. Specifically, we categorize the needs of knowledge updates in the legal domain with the help of legal professionals, and then hire annotators from law schools to create synthetic updates to the Chinese Criminal and Civil Code as well as sets of questions of which the answers would change after the updates. Through a comprehensive evaluation of state-of-the-art knowledge update methods, we reveal a notable gap between existing knowledge update methods and the unique needs of the legal domain, emphasizing the need for further research and development of knowledge update mechanisms tailored for legal LLMs.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# ランダム林における多様性の重要性を高める:グローバル感性分析の新しい応用

Enhancing Variable Importance in Random Forests: A Novel Application of Global Sensitivity Analysis ( http://arxiv.org/abs/2407.14194v1 )

ライセンス: Link先を確認
Giulia Vannucci, Roberta Siciliano, Andrea Saltelli, (参考訳) 本研究は,Global Sensitivity Analysisをランダムフォレストなどの教師あり機械学習手法に適用する。 これらの手法はブラックボックスとして機能し、システムに新しいデータが供給された際の予測において正確な分類器を提供するために高次元データセットの特徴を選択する。 教師付き機械学習では、予測者は最終的な予測への貢献に基づいて、一般的に重要度によってランク付けされる。 グローバル感度解析は、入力変数の不確かさが出力に与える影響を調べるために主に数学的モデリングで用いられる。 本稿では,データ生成プロセスの説明可能性に重点を置くことで,入力特徴のランク付けを行う新しい手法として,予測器の依存構造によって応答がどのように決定されるかを示す。 シミュレーション研究により,提案手法は,効率,説明能力,あるいは既存の結果の確認方法によって,どのような進歩が達成できるかを探索するために有効であることが示唆された。

The present work provides an application of Global Sensitivity Analysis to supervised machine learning methods such as Random Forests. These methods act as black boxes, selecting features in high--dimensional data sets as to provide accurate classifiers in terms of prediction when new data are fed into the system. In supervised machine learning, predictors are generally ranked by importance based on their contribution to the final prediction. Global Sensitivity Analysis is primarily used in mathematical modelling to investigate the effect of the uncertainties of the input variables on the output. We apply it here as a novel way to rank the input features by their importance to the explainability of the data generating process, shedding light on how the response is determined by the dependence structure of its predictors. A simulation study shows that our proposal can be used to explore what advances can be achieved either in terms of efficiency, explanatory ability, or simply by way of confirming existing results.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# イオン鎖の密閉・分離のための最適表面イオントラップ設計

Optimized surface ion trap design for tight confinement and separation of ion chains ( http://arxiv.org/abs/2407.14195v1 )

ライセンス: Link先を確認
Ilya Gerasin, Nikita Zhadnov, Konstantin Kudeyarov, Ksienia Khabarova, Nikolay Kolachevsky, Ilya Semerikov, (参考訳) 閉じ込められた超低温イオンに基づく量子ビットシステムは、量子コンピューティング分野における主要な位置の1つを勝ち取り、これまでで最も複雑な量子アルゴリズムを実証した。 イオン閉じ込めのためのSurface Paulトラップは、量子プロセッサを数百量子ビットに拡張し、イオンの高結合性操作を可能にする機会を開く。 このようなシステムを特定の特性で製造するには、表面電極構造の特別な設計が必要である。 また, トラップ電位の深さ, 安定性パラメータ, 世俗周波数, イオンとトラップ表面との距離を最適化し, 良好な性能が期待できる。 ここでは,高忠実度プリミティブ(タイトイオン閉じ込め,レーザー冷却,広光アクセス)を実現するための,比較的単純な表面トラップの設計を提案する。 提案されたトラップ設計により、イオン鎖を2つに分割する重要な基本的な操作を行うこともできる。

Qubit systems based on trapped ultracold ions win one of the leading positions in the quantum computing field, demonstrating quantum algorithms with the highest complexity to date. Surface Paul traps for ion confinement open the opportunity to scale quantum processors to hundreds of qubits and enable high-connectivity manipulations on ions. To fabricate such a system with certain characteristics, the special design of a surface electrode structure is required. The depth of the trapping potential, the stability parameter, the secular frequency and the distance between an ion and the trap surface should be optimized for better performance. Here we present the optimized design of a relatively simple surface trap that allows several important high-fidelity primitives: tight ion confinement, laser cooling, and wide optical access. The suggested trap design also allows to perform an important basic operation, namely, splitting an ion chain into two parts.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# ガウス平滑化圧縮と品質評価のためのベンチマーク

A Benchmark for Gaussian Splatting Compression and Quality Assessment Study ( http://arxiv.org/abs/2407.14197v1 )

ライセンス: Link先を確認
Qi Yang, Kaifa Yang, Yuke Xing, Yiling Xu, Zhu Li, (参考訳) 本稿では,従来のGS圧縮手法のギャップを埋めるために,グラフベースGS圧縮(GGSC)と呼ばれる簡易かつ効果的なGSデータ圧縮アンカーを提案する。 GGSCはグラフ信号処理理論にインスパイアされ、2つの分岐を使って原始中心と属性を圧縮する。 KDTreeを介して全GSサンプルを分割し、グラフフーリエ変換後に高周波成分をクリップする。 量子化に追従して、G-PCCと適応算術符号を用いてプリミティブ中心と属性残差行列を圧縮し、ビットレートファイルを生成する。 GGSSは従来のGS圧縮を探求する最初の研究であり、高周波クリッピングや量子化などの典型的な圧縮操作に対応するGS歪み特性を明らかにする利点がある。 第2に,GGSCに基づいて,120個のサンプルを用いたGSQAデータセットを作成する。 実験室環境で主観的な実験を行い、GSをPVS(Processed Video Sequences)にレンダリングした後、主観的なスコアを収集する。 平均オピニオンスコア(MOS)に基づいて異なるGS歪みの特性を解析し、異なる属性歪みの視覚的品質に対する感受性を示す。 GGSCコードとGSサンプル、MOS、PVSを含むデータセットはhttps://github.com/Qi-Yangsjtu/GGSCで公開されている。

To fill the gap of traditional GS compression method, in this paper, we first propose a simple and effective GS data compression anchor called Graph-based GS Compression (GGSC). GGSC is inspired by graph signal processing theory and uses two branches to compress the primitive center and attributes. We split the whole GS sample via KDTree and clip the high-frequency components after the graph Fourier transform. Followed by quantization, G-PCC and adaptive arithmetic coding are used to compress the primitive center and attribute residual matrix to generate the bitrate file. GGSS is the first work to explore traditional GS compression, with advantages that can reveal the GS distortion characteristics corresponding to typical compression operation, such as high-frequency clipping and quantization. Second, based on GGSC, we create a GS Quality Assessment dataset (GSQA) with 120 samples. A subjective experiment is conducted in a laboratory environment to collect subjective scores after rendering GS into Processed Video Sequences (PVS). We analyze the characteristics of different GS distortions based on Mean Opinion Scores (MOS), demonstrating the sensitivity of different attributes distortion to visual quality. The GGSC code and the dataset, including GS samples, MOS, and PVS, are made publicly available at https://github.com/Qi-Yangsjtu/GGSC.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# デュアルブランチネットワークを用いたダブルショット3次元形状計測

Double-Shot 3D Shape Measurement with a Dual-Branch Network ( http://arxiv.org/abs/2407.14198v1 )

ライセンス: Link先を確認
Mingyang Lei, Jingfan Fan, Long Shao, Hong Song, Deqiang Xiao, Danni Ai, Tianyu Fu, Ying Gu, Jian Yang, (参考訳) 深層学習を用いた構造化光 (SL) を用いた3次元計測技術は広く研究されており, スペックル投射プロファイロメトリー (SPP) とFPP投射プロファイロメトリー (FPP) は2つの一般的な手法である。 しかし、一般に1つの投影パターンを再構成に用いており、その結果、外周方向の曖昧さや再現精度の低下が生じる。 これらの問題を緩和するために,並列二重分岐畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。 PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。 並列アテンションサブネットワークによるマルチスケール空間構造情報を集約する2ストリームアテンションアグリゲーションモジュール(DAAM)を設計する。 このモジュールは局所表現と大域表現を最大限に動的に保持することができる。 さらに,両モードガウス分布を持つ適応混合密度ヘッドを提案し,不連続に近い表現を正確に学習する。 標準の異方性回帰戦略と比較して、この適応混合ヘッドはオブジェクト境界における性能を効果的に向上させることができる。 大規模な実験により,本手法は,自己生成データセット上で高精度な結果が得られる一方で,外周方向の曖昧さを低減できることが示された。 また,提案アーキテクチャは,赤外線可視画像融合タスクの可能性を明らかにする。

The structured light (SL)-based 3D measurement techniques with deep learning have been widely studied, among which speckle projection profilometry (SPP) and fringe projection profilometry (FPP) are two popular methods. However, they generally use a single projection pattern for reconstruction, resulting in fringe order ambiguity or poor reconstruction accuracy. To alleviate these problems, we propose a parallel dual-branch Convolutional Neural Network (CNN)-Transformer network (PDCNet), to take advantage of convolutional operations and self-attention mechanisms for processing different SL modalities. Within PDCNet, a Transformer branch is used to capture global perception in the fringe images, while a CNN branch is designed to collect local details in the speckle images. To fully integrate complementary features, we design a double-stream attention aggregation module (DAAM) that consist of a parallel attention subnetwork for aggregating multi-scale spatial structure information. This module can dynamically retain local and global representations to the maximum extent. Moreover, an adaptive mixture density head with bimodal Gaussian distribution is proposed for learning a representation that is precise near discontinuities. Compared to the standard disparity regression strategy, this adaptive mixture head can effectively improves performance at object boundaries. Extensive experiments demonstrate that our method can reduce fringe order ambiguity while producing high-accuracy results on a self-made dataset. We also show that the proposed architecture reveals the potential in infrared-visible image fusion task.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# SHS: Scorpion Hunting Strategy Swarm Algorithm

SHS: Scorpion Hunting Strategy Swarm Algorithm ( http://arxiv.org/abs/2407.14202v1 )

ライセンス: Link先を確認
Abhilash Singh, Seyed Muhammad Hossein Mousavi, Kumar Gaurav, (参考訳) 我々はScorpion Hunting Strategy (SHS)を導入した。 このアルゴリズムは、アルファ振動子とベータ振動子を用いて獲物を識別、発見、捕獲するスコーピオンの狩猟戦略からインスピレーションを得ている。 これらのオペレータは、SHSアルゴリズムのエクスプロイトと探索能力を制御する。 最適化法を定式化するために,これらの動的事象と挙動を数学的にシミュレートする。 本研究では,20個のベンチマーク関数(従来の10関数とCEC2020関数を含む10個のCEC2020関数を含む)を定性的および定量的に解析し,SHSアルゴリズムの有効性を評価する。 12の最先端メタヒューリスティックアルゴリズムとの比較分析により,提案アルゴリズムが極めて有望な結果をもたらすことを示す。 これらの結果は、Wilcoxon rank sum testによって得られた統計的に重要な結果によってさらに裏付けられている。 さらに、Friedmanテストから導かれる平均ランクによって決定されるSHSのランクは、他のアルゴリズムと比較して前方に位置する。 理論的検証を超えて、6つの異なる実世界の最適化タスクに適用することにより、SHSアルゴリズムの実用性を示す。 これらの応用は、複雑な最適化問題に対処するアルゴリズムの可能性を示している。 要約すると、この研究は革新的なSHSアルゴリズムを導入するだけでなく、厳密なベンチマークや実世界の問題解決シナリオを通じて、その効果と汎用性を裏付けるものである。

We introduced the Scorpion Hunting Strategy (SHS), a novel population-based, nature-inspired optimisation algorithm. This algorithm draws inspiration from the hunting strategy of scorpions, which identify, locate, and capture their prey using the alpha and beta vibration operators. These operators control the SHS algorithm's exploitation and exploration abilities. To formulate an optimisation method, we mathematically simulate these dynamic events and behaviors. We evaluate the effectiveness of the SHS algorithm by employing 20 benchmark functions (including 10 conventional and 10 CEC2020 functions), using both qualitative and quantitative analyses. Through a comparative analysis with 12 state-of-the-art meta-heuristic algorithms, we demonstrate that the proposed SHS algorithm yields exceptionally promising results. These findings are further supported by statistically significant results obtained through the Wilcoxon rank sum test. Additionally, the ranking of SHS, as determined by the average rank derived from the Friedman test, positions it at the forefront when compared to other algorithms. Going beyond theoretical validation, we showcase the practical utility of the SHS algorithm by applying it to six distinct real-world optimisation tasks. These applications illustrate the algorithm's potential in addressing complex optimisation challenges. In summary, this work not only introduces the innovative SHS algorithm but also substantiates its effectiveness and versatility through rigorous benchmarking and real-world problem-solving scenarios.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# 物体検出器の効率的な訓練のためのバケット式ランキングベース損失

Bucketed Ranking-based Losses for Efficient Training of Object Detectors ( http://arxiv.org/abs/2407.14204v1 )

ライセンス: Link先を確認
Feyza Yavuz, Baris Can Cam, Adnan Harun Dogan, Kemal Oksuz, Emre Akbas, Sinan Kalkan, (参考訳) Average Precision Loss や Rank&Sort Loss のようなランクに基づく損失関数は、オブジェクト検出においてスコアベースの損失よりも優れている。 これらの損失関数は評価基準とよく一致し、ハイパーパラメータを少なくし、正クラスと負クラスの不均衡に対して堅牢性を提供する。 しかし、それらは、$P$陽性と$N$負の予測のペアワイズ比較を必要とし、$\mathcal{O}(PN)$という時間複雑性を導入する。 それらの優位性にもかかわらず、ランキングベースの損失が広く採用されることは、その時間と空間の複雑さによって妨げられている。 本稿では,ランキングに基づく損失関数の効率向上に焦点をあてる。 この目的を達成するために、Bucketed Ranking-based Lossesを提案する。これは、負の予測をB$ buckets(B \ll N$)にグループ化し、ペア比較の数を減らすことで、時間的複雑さを低減できる。 我々の手法は時間の複雑さを高め、$\mathcal{O}(\max (N \log(N, P^2))$に還元する。 提案手法を検証し,その汎用性を示すために,2つの異なるタスク,3つの異なるデータセット,7つの異なる検出器の実験を行った。 我々は,Bucketed Ranking-based (BR) Lossesが,非接触型と同じ精度で,平均2ドル以上の高速トレーニングを提供することを示した。 また、BRの効率のおかげで、ランキングベースの損失を利用してトランスフォーマーベースの物体検出器を初めて訓練しました。 BRロスを用いて、最先端のトランスフォーマーベースの物体検出器であるCoDETRを訓練すると、元の結果を複数のバックボーンで一貫して上回ります。 コードはhttps://github.com/blisgard/BucketedRankingBasedLossesで入手できる。

Ranking-based loss functions, such as Average Precision Loss and Rank&Sort Loss, outperform widely used score-based losses in object detection. These loss functions better align with the evaluation criteria, have fewer hyperparameters, and offer robustness against the imbalance between positive and negative classes. However, they require pairwise comparisons among $P$ positive and $N$ negative predictions, introducing a time complexity of $\mathcal{O}(PN)$, which is prohibitive since $N$ is often large (e.g., $10^8$ in ATSS). Despite their advantages, the widespread adoption of ranking-based losses has been hindered by their high time and space complexities. In this paper, we focus on improving the efficiency of ranking-based loss functions. To this end, we propose Bucketed Ranking-based Losses which group negative predictions into $B$ buckets ($B \ll N$) in order to reduce the number of pairwise comparisons so that time complexity can be reduced. Our method enhances the time complexity, reducing it to $\mathcal{O}(\max (N \log(N), P^2))$. To validate our method and show its generality, we conducted experiments on 2 different tasks, 3 different datasets, 7 different detectors. We show that Bucketed Ranking-based (BR) Losses yield the same accuracy with the unbucketed versions and provide $2\times$ faster training on average. We also train, for the first time, transformer-based object detectors using ranking-based losses, thanks to the efficiency of our BR. When we train CoDETR, a state-of-the-art transformer-based object detector, using our BR Loss, we consistently outperform its original results over several different backbones. Code is available at https://github.com/blisgard/BucketedRankingBasedLosses
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# 言語モデルに対する透かしの平滑化攻撃

Watermark Smoothing Attacks against Language Models ( http://arxiv.org/abs/2407.14206v1 )

ライセンス: Link先を確認
Hongyan Chang, Hamed Hassani, Reza Shokri, (参考訳) ウォーターマーキング(英: Watermarking)とは、大きな言語モデル(LLM)が生成するテキストの確率分布に隠れた信号を埋め込む手法である。 我々はスムースな攻撃を導入し、既存の透かし手法がテキストの小さな修正に対して堅牢でないことを示す。 敵対者は、より弱い言語モデルを用いて、生成されたテキストの品質を著しく損なうことなく、透かしによって引き起こされる分散摂動を円滑にすることができる。 スムーズな攻撃による修正されたテキストは、元のモデル(透かしを含まない)が生成したであろうテキストの分布に近いままである。 我々の攻撃は幅広い透かし技術の基本的限界を明らかにしている。

Watermarking is a technique used to embed a hidden signal in the probability distribution of text generated by large language models (LLMs), enabling attribution of the text to the originating model. We introduce smoothing attacks and show that existing watermarking methods are not robust against minor modifications of text. An adversary can use weaker language models to smooth out the distribution perturbations caused by watermarks without significantly compromising the quality of the generated text. The modified text resulting from the smoothing attack remains close to the distribution of text that the original model (without watermark) would have produced. Our attack reveals a fundamental limitation of a wide range of watermarking techniques.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# Longhorn: ステートスペースモデルはオンライン学習者の記憶に残るもの

Longhorn: State Space Models are Amortized Online Learners ( http://arxiv.org/abs/2407.14207v1 )

ライセンス: Link先を確認
Bo Liu, Rui Wang, Lemeng Wu, Yihao Feng, Peter Stone, Qiang Liu, (参考訳) LLM(Large Language Models)のような現代のAIメソッドの最も基本的な能力は、'sequence modeling'として知られる長いトークン列で次のトークンを予測する能力である。 「トランスフォーマーモデルは、現在、シーケンスモデリングにおいて支配的なアプローチであるが、シーケンス長に関する2次計算コストは、大きな欠点である。 ステートスペースモデル(SSM)は、線形復号効率と訓練中の高い並列化性のために、有望な代替手段を提供する。 しかし、既存のSSMは、しばしばアドホックな線形リカレンス設計に依存している。 本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。 このアプローチは、SSM設計と正確なオンライン学習目標の定式化を結びつけ、これらの目的を最適化した状態遷移規則を導出する。 この知見に基づいて,オンライン回帰目標を最適化するための暗黙の更新に基づく,新しい深層SSMアーキテクチャを提案する。 実験の結果,我々のモデルは,標準シーケンスモデリングベンチマークや言語モデリングタスクにおいて,Mambaモデルを含む最先端のSSMよりも優れていることがわかった。

The most fundamental capability of modern AI methods such as Large Language Models (LLMs) is the ability to predict the next token in a long sequence of tokens, known as ``sequence modeling." Although the Transformers model is the current dominant approach to sequence modeling, its quadratic computational cost with respect to sequence length is a significant drawback. State-space models (SSMs) offer a promising alternative due to their linear decoding efficiency and high parallelizability during training. However, existing SSMs often rely on seemingly ad hoc linear recurrence designs. In this work, we explore SSM design through the lens of online learning, conceptualizing SSMs as meta-modules for specific online learning problems. This approach links SSM design to formulating precise online learning objectives, with state transition rules derived from optimizing these objectives. Based on this insight, we introduce a novel deep SSM architecture based on the implicit update for optimizing an online regression objective. Our experimental results show that our models outperform state-of-the-art SSMs, including the Mamba model, on standard sequence modeling benchmarks and language modeling tasks.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# ガウス混合モデルを用いたオンラインソースフリーユニバーサルドメイン適応のためのメモリ効率の良い擬似ラベル

Memory-Efficient Pseudo-Labeling for Online Source-Free Universal Domain Adaptation using a Gaussian Mixture Model ( http://arxiv.org/abs/2407.14208v1 )

ライセンス: Link先を確認
Pascal Schlachter, Simon Wagner, Bin Yang, (参考訳) 実際には、トレーニングデータとテストデータの間にドメインシフトが発生する可能性があり、トレーニング済みのソースモデルをターゲットドメインに調整するためには、ドメイン適応(DA)が必要である。 近年、ユニバーサルドメイン適応(UniDA)は、ソースとターゲットドメインの間の追加のカテゴリ(ラベル)シフトの可能性に注目されている。 つまり、ターゲットデータに新しいクラスが現れる可能性があるし、一部のソースクラスはもはや存在しないかもしれないし、同時にその両方を表示することもできる。 実際に適用するには、UniDAメソッドはソースフリーとオンラインの両方のシナリオを処理し、ソースデータにアクセスせずに適応し、予測と並行してバッチワイズ更新を実行する必要がある。 オンライン環境では、バッチ間で知識を保存することが重要です。 しかし、既存の手法ではメモリキューを使用するなど、メモリが制限され、特に組み込みシステムでは価値があるため、実行不可能である場合が多い。 そこで本稿では,メモリ効率を追加制約として検討する。 メモリ効率のよいオンラインソースフリーユニバーサルドメイン適応(SF-UniDA)を実現するために,ガウス混合モデル(GMM)を用いて特徴空間における既知のクラスの分布を連続的にキャプチャする手法を提案する。 このアプローチとエントロピーに基づくアウト・オブ・ディストリビューション検出を組み合わせることで、信頼できる擬似ラベルを生成することができる。 最後に、コントラスト損失とKL分散損失を組み合わせて適応を行う。 我々のアプローチは、DomainNetデータセットのすべての実験で最先端の結果を達成するだけでなく、挑戦的なVisDA-Cデータセット上で既存の手法よりも大幅に優れており、オンラインSF-UniDAの新しいベンチマークを設定しています。 私たちのコードはhttps://github.com/pascalschlachter/GMMで公開されています。

In practice, domain shifts are likely to occur between training and test data, necessitating domain adaptation (DA) to adjust the pre-trained source model to the target domain. Recently, universal domain adaptation (UniDA) has gained attention for addressing the possibility of an additional category (label) shift between the source and target domain. This means new classes can appear in the target data, some source classes may no longer be present, or both at the same time. For practical applicability, UniDA methods must handle both source-free and online scenarios, enabling adaptation without access to the source data and performing batch-wise updates in parallel with prediction. In an online setting, preserving knowledge across batches is crucial. However, existing methods often require substantial memory, e.g. by using memory queues, which is impractical because memory is limited and valuable, in particular on embedded systems. Therefore, we consider memory-efficiency as an additional constraint in this paper. To achieve memory-efficient online source-free universal domain adaptation (SF-UniDA), we propose a novel method that continuously captures the distribution of known classes in the feature space using a Gaussian mixture model (GMM). This approach, combined with entropy-based out-of-distribution detection, allows for the generation of reliable pseudo-labels. Finally, we combine a contrastive loss with a KL divergence loss to perform the adaptation. Our approach not only achieves state-of-the-art results in all experiments on the DomainNet dataset but also significantly outperforms the existing methods on the challenging VisDA-C dataset, setting a new benchmark for online SF-UniDA. Our code is available at https://github.com/pascalschlachter/GMM.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# テキスト・ビデオ拡散モデルからの未学習概念

Unlearning Concepts from Text-to-Video Diffusion Models ( http://arxiv.org/abs/2407.14209v1 )

ライセンス: Link先を確認
Shiqi Liu, Yihua Tan, (参考訳) コンピュータビジョンと自然言語処理の進歩により,テキスト・ビデオ拡散モデルによって実現されたテキスト・ビデオ生成が普及している。 これらのモデルは、インターネットから大量のデータを使って訓練されている。 しかし、トレーニングデータには、漫画のキャラクターアイコンやアーティストスタイル、プライベートポートレート、安全でないビデオなど、著作権のあるコンテンツが含まれていることが多い。 データのフィルタリングとモデルの再訓練が難しいため,テキスト・ビデオ拡散モデルから特定の概念を学習する手法が研究されている。 しかし,高い計算複雑性と比較的大きな最適化スケールのため,テキスト・ビデオ拡散モデルの未学習手法についてはほとんど研究されていない。 本稿では,テキスト間拡散モデルのテキストエンコーダの非学習能力をテキスト間拡散モデルに転送することで,新しい概念アンラーニング手法を提案する。 具体的には、テキストエンコーダを数発のアンラーニングで最適化し、複数の生成された画像を使用する。 次に、テキスト間拡散モデルに最適化されたテキストエンコーダを用いてビデオを生成する。 提案手法は計算資源の削減と最適化の小型化を目的としている。 概念を学習した後に生成されたビデオについて論じる。 提案手法は,著作権のある漫画キャラクタ,アーティストのスタイル,対象物,人の顔の特徴を解放できることを示す。 RTX 3070で約100秒以内に概念を解くことができる。 これまで,テキスト・ビデオ拡散モデルに未学習の概念は存在しなかったので,テキスト・ビデオ領域において,非学習が実現可能で,よりアクセスしやすいものにしている。

With the advancement of computer vision and natural language processing, text-to-video generation, enabled by text-to-video diffusion models, has become more prevalent. These models are trained using a large amount of data from the internet. However, the training data often contain copyrighted content, including cartoon character icons and artist styles, private portraits, and unsafe videos. Since filtering the data and retraining the model is challenging, methods for unlearning specific concepts from text-to-video diffusion models have been investigated. However, due to the high computational complexity and relative large optimization scale, there is little work on unlearning methods for text-to-video diffusion models. We propose a novel concept-unlearning method by transferring the unlearning capability of the text encoder of text-to-image diffusion models to text-to-video diffusion models. Specifically, the method optimizes the text encoder using few-shot unlearning, where several generated images are used. We then use the optimized text encoder in text-to-video diffusion models to generate videos. Our method costs low computation resources and has small optimization scale. We discuss the generated videos after unlearning a concept. The experiments demonstrates that our method can unlearn copyrighted cartoon characters, artist styles, objects and people's facial characteristics. Our method can unlearn a concept within about 100 seconds on an RTX 3070. Since there was no concept unlearning method for text-to-video diffusion models before, we make concept unlearning feasible and more accessible in the text-to-video domain.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# Fair Overlap Number of Balls (Fair-ONB): バイアス低減のためのデータ構造に基づくアンダーサンプリング法

Fair Overlap Number of Balls (Fair-ONB): A Data-Morphology-based Undersampling Method for Bias Reduction ( http://arxiv.org/abs/2407.14210v1 )

ライセンス: Link先を確認
José Daniel Pascual-Triana, Alberto Fernández, Paulo Novais, Francisco Herrera, (参考訳) 現在、量と速度の両方でデータ生成の規模を考えると、機械学習の利用はますます重要になっている。 データに差別を引き起こす可能性のある保護機能が含まれている場合、特別な注意が必要である。 このようなケースでは、トレーニングデータのバイアスが分類モデルに反映されるため、データ品質が重要になります。 これは壊滅的な結果となり、現在の規制に従わなかった。 データ中心人工知能は、その品質を改善するためにデータセット修正を提案する。 アンダーサンプリングによるインスタンス選択は、クラスと保護された特徴値のバランスの取れた学習を促進することができる。 このようなアンダーサンプリングが決定境界に近づくと、分類器への影響が強化される。 本研究は,異なるデータ群(クラスと保護された特徴値の組み合わせから得られる)のデータ形態を利用するアンダーサンプリング手法であるフェアオーバーラップボール数(Fair-ONB)を提案する。 これは、半径、カバーされたインスタンス数、密度などのグループのボールカバレッジの属性を使用して、アンダーサンプリングとバイアス低減に最も適した領域を選択する。 その結果,Fair-ONB法は,分類器の予測性能に低い影響でバイアスを低減できることがわかった。

Given the magnitude of data generation currently, both in quantity and speed, the use of machine learning is increasingly important. When data include protected features that might give rise to discrimination, special care must be taken. Data quality is critical in these cases, as biases in training data can be reflected in classification models. This has devastating consequences and fails to comply with current regulations. Data-Centric Artificial Intelligence proposes dataset modifications to improve its quality. Instance selection via undersampling can foster balanced learning of classes and protected feature values in the classifier. When such undersampling is done close to the decision boundary, the effect on the classifier would be bolstered. This work proposes Fair Overlap Number of Balls (Fair-ONB), an undersampling method that harnesses the data morphology of the different data groups (obtained from the combination of classes and protected feature values) to perform guided undersampling in the areas where they overlap. It employs attributes of the ball coverage of the groups, such as the radius, number of covered instances and density, to select the most suitable areas for undersampling and reduce bias. Results show that the Fair-ONB method reduces bias with low impact on the classifier's predictive performance.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# 深層学習によるICU脳卒中患者の死亡予測

Enhanced Mortality Prediction in ICU Stroke Patients via Deep Learning ( http://arxiv.org/abs/2407.14211v1 )

ライセンス: Link先を確認
Armin Abdollahi, Xinghong Ma, Jiahao Zhang, Daijia Wu, Tongshou Wu, Zizheng Ye, Maryam Pishgar, (参考訳) 背景:ストロークは成人の障害と死亡の第二の要因である。 毎年1700万人が脳卒中を患っており、約85%が虚血性脳卒中である。 集中治療室(ICU)における虚血性脳卒中患者の死亡予測は、治療戦略の最適化、資源配分、生存率の向上に不可欠である。 方法:MIMIC-IVデータベースからICU虚血性脳卒中患者の診断,バイタルサイン,臨床検査,治療,治療,臨床ノートなどのデータを得た。 ストローク患者は無作為にトレーニング (70%, n=2441), テスト (15%, n=523), 検証 (15%, n=523) に分けた。 データ不均衡に対処するために、SMOTE(Synthetic Minority Over-Sampling Technique)を適用した。 モデル開発のために30の特徴を選定し,最も優れた研究で使用される1095から特徴数を著しく減らした。 我々は、死亡リスクを評価するためのディープラーニングモデルを開発し、比較のためにいくつかのベースライン機械学習モデルを実装した。 結果: 特徴選択と深層学習にXGBoostを併用したXGB-DLモデルにより, 偽陽性を効果的に最小化した。 Model AUROC は初日 0.865 (95% CI: 0.821 - 0.905) から 4日で 0.903 (95% CI: 0.868 - 0.936) に改善された。 他のMLモデルもAUROCの観点からは良好に動作したが、より具体的な点からDeep Learningを選択した。 結論: 改良された特徴選択とデータクリーニングにより, 既存モデルに比べて13%のAUROC改善が得られたが, 以前の研究では1095から30に減少した。

Background: Stroke is second-leading cause of disability and death among adults. Approximately 17 million people suffer from a stroke annually, with about 85% being ischemic strokes. Predicting mortality of ischemic stroke patients in intensive care unit (ICU) is crucial for optimizing treatment strategies, allocating resources, and improving survival rates. Methods: We acquired data on ICU ischemic stroke patients from MIMIC-IV database, including diagnoses, vital signs, laboratory tests, medications, procedures, treatments, and clinical notes. Stroke patients were randomly divided into training (70%, n=2441), test (15%, n=523), and validation (15%, n=523) sets. To address data imbalances, we applied Synthetic Minority Over-sampling Technique (SMOTE). We selected 30 features for model development, significantly reducing feature number from 1095 used in the best study. We developed a deep learning model to assess mortality risk and implemented several baseline machine learning models for comparison. Results: XGB-DL model, combining XGBoost for feature selection and deep learning, effectively minimized false positives. Model AUROC improved from 0.865 (95% CI: 0.821 - 0.905) on first day to 0.903 (95% CI: 0.868 - 0.936) by fourth day using data from 3,646 ICU mortality patients in the MIMIC-IV database with 0.945 AUROC (95% CI: 0.944 - 0.947) during training. Although other ML models also performed well in terms of AUROC, we chose Deep Learning for its higher specificity. Conclusions: Through enhanced feature selection and data cleaning, proposed model demonstrates a 13% AUROC improvement compared to existing models while reducing feature number from 1095 in previous studies to 30.
翻訳日:2024-07-22 17:54:18 公開日:2024-07-19
# 点字音声生成:CLIPとFastspeech2の結合微細調整に基づくオーディオ生成

Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2 ( http://arxiv.org/abs/2407.14212v1 )

ライセンス: Link先を確認
Chun Xu, En-Wei Sun, (参考訳) 多くの中国人が視覚障害の度合いに悩まされているため、視野内の単一の画像やビデオフレームと研究ホットスポットと同じ情報を表現した音声とのモーダル変換が実現している。 OCR+VocoderやIm2Wavのようなディープラーニング技術は、英語の音声合成や画像と音声のマッチングを、自己管理的に実現している。 しかし、訓練に使用される音声データは限られており、教育レベルの異なる視覚障害者には英語は普遍的ではない。 そこで, 視覚障害者の読取効率を向上させるために, データ量と言語適用性の問題を解決するために, 中国語の文脈に基づく画像合成フレームワークCLIP-KNN-Fastspeech2のセットを構築した。 このフレームワークは、複数の基本モデルを統合し、独立した事前学習と共同微調整の戦略を採用する。 まず、中国のCLIPとFastspeech2のテキスト音声モデルは、MUGEとBakerの2つの公開データセットで事前訓練され、それらの収束が検証された。 その後、自作の点字画像データセットを用いて共同微調整を行った。 VGGSound、Flickr8k、ImageHear、自作の点字データセットBIT-DPなどの複数の公開データセットの実験結果は、BLEU4、FAD(Fr\echet Audio Distance)、WER(Word Error Ratio)、推論速度などの客観的指標を改善したことを示している。 このことは、構築されたモデルにはまだ、限られたデータの下で高品質な音声を合成できる能力があることを検証し、また、複数の基本モデルを統合する共同訓練戦略の有効性を証明している。

An increasing number of Chinese people are troubled by different degrees of visual impairment, which has made the modal conversion between a single image or video frame in the visual field and the audio expressing the same information a research hotspot. Deep learning technologies such as OCR+Vocoder and Im2Wav enable English audio synthesis or image-to-sound matching in a self-supervised manner. However, the audio data used for training is limited and English is not universal for visually impaired people with different educational levels. Therefore, for the sake of solving the problems of data volume and language applicability to improve the reading efficiency of visually impaired people, a set of image-to-speech framework CLIP-KNN-Fastspeech2 based on the Chinese context was constructed. The framework integrates multiple basic models and adopts the strategy of independent pre-training and joint fine-tuning. First, the Chinese CLIP and Fastspeech2 text-to-speech models were pre-trained on two public datasets, MUGE and Baker, respectively, and their convergence was verified. Subsequently, joint fine-tuning was performed using a self-built Braille image dataset. Experimental results on multiple public datasets such as VGGSound, Flickr8k, ImageHear, and the self-built Braille dataset BIT-DP show that the model has improved objective indicators such as BLEU4,FAD(Fr\'echet Audio Distance), WER(Word Error Ratio), and even inference speed. This verifies that the constructed model still has the ability to synthesize high-quality speech under limited data, and also proves the effectiveness of the joint training strategy that integrates multiple basic models.
翻訳日:2024-07-22 17:44:34 公開日:2024-07-19
# 産業時系列予測のための非現実的推論によるドメイン適応

Domain Adaptation for Industrial Time-series Forecasting via Counterfactual Inference ( http://arxiv.org/abs/2407.14214v1 )

ライセンス: Link先を確認
Chao Min, Guoquan Wen, Jiangru Yuan, Jun Yi, Xing Guo, (参考訳) 産業時系列は、構造データが生産工程情報に応答するので、産業生産工程を効果的に監視するためのデータ駆動意思決定に利用することができる。 しかし、データ不足による少数ショットの予測や、不明な治療方針による意思決定の理解など、業界における時系列予測にはいくつかの課題がある。 これらの問題に対処するため、限られたデータ(ターゲット)で関心領域の性能を向上させるために、新しい因果ドメイン適応フレームワーク、因果ドメイン適応(CDA)予測器を提案する。 まず、治療とともに存在する因果関係を分析し、時間とともに共有因果関係を確実にする。 次に,両領域間の共用因果関係によるドメイン不変表現を実現するための応答に基づくアテンション機構を提案する。 次に、ソースドメインとターゲットドメインを共同でトレーニングする処理と成果をモデル化する新しいドメイン適応を構築します。 主な洞察は、設計された回答に基づく注意機構により、異なる処理であっても、ターゲットドメインがソース時系列に存在する因果性を活用することができ、予測器は産業時系列の反実的な結果、すなわち生産過程におけるガイダンスを予測できるということである。 一般的なベースラインと比較すると,本手法は実世界の油田データセットおよび合成油田データセットを用いて,ドメイン間予測の有効性と生産プロセスの指導における実用性を示す。

Industrial time-series, as a structural data responds to production process information, can be utilized to perform data-driven decision-making for effective monitoring of industrial production process. However, there are some challenges for time-series forecasting in industry, e.g., predicting few-shot caused by data shortage, and decision-confusing caused by unknown treatment policy. To cope with the problems, we propose a novel causal domain adaptation framework, Causal Domain Adaptation (CDA) forecaster to improve the performance on the interested domain with limited data (target). Firstly, we analyze the causality existing along with treatments, and thus ensure the shared causality over time. Subsequently, we propose an answer-based attention mechanism to achieve domain-invariant representation by the shared causality in both domains. Then, a novel domain-adaptation is built to model treatments and outcomes jointly training on source and target domain. The main insights are that our designed answer-based attention mechanism allows the target domain to leverage the existed causality in source time-series even with different treatments, and our forecaster can predict the counterfactual outcome of industrial time-series, meaning a guidance in production process. Compared with commonly baselines, our method on real-world and synthetic oilfield datasets demonstrates the effectiveness in across-domain prediction and the practicality in guiding production process
翻訳日:2024-07-22 17:44:33 公開日:2024-07-19
# 量子状態における瞬時量子回路冷却の探索

Probing instantaneous quantum circuit refrigeration in the quantum regime ( http://arxiv.org/abs/2407.14219v1 )

ライセンス: Link先を確認
Shuji Nakamura, Teruaki Yoshioka, Sergei Lemziakov, Dmitrii Lvov, Hiroto Mukai, Akiyoshi Tomonaga, Shintaro Takada, Yuma Okazaki, Nobu-Hisa Kaneko, Jukka Pekola, Jaw-Shen Tsa, (参考訳) 近年の量子力学の進歩により、量子系における単一エネルギー量子の正確な操作と検出が可能になった。 量子回路冷凍機(QCR)は、超伝導共振器や量子ビットなどの量子系の励起集団を、超伝導体-絶縁体-正規金属接合内の準粒子の光子支援トンネルにより電気的に冷却することができる。 本研究では,量子状態における瞬時QCRを実証した。 超伝導共振器内におけるQCR誘起光子数冷却の時間分解測定を行い, 量子ビットを光子検出器として利用した。 交流スタークシフト量から推定した共振器の光子損失率の増大から,QCRの冷却力は約300 aWであった。 さらに、単一エネルギー量子より下でも、QCRは熱平衡から100 nsのパルスで共振器内の光子の数を減少させることができる。 Lindbladマスター方程式に基づく数値計算は、これらの実験結果をうまく再現した。

Recent advancements in circuit quantum electrodynamics have enabled precise manipulation and detection of the single energy quantum in quantum systems. A quantum circuit refrigerator (QCR) is capable of electrically cooling the excited population of quantum systems, such as superconducting resonators and qubits, through photon-assisted tunneling of quasi-particles within a superconductor-insulator-normal metal junction. In this study, we demonstrated instantaneous QCR in the quantum regime. We performed the time-resolved measurement of the QCR-induced cooling of photon number inside the superconducting resonator by harnessing a qubit as a photon detector. From the enhanced photon loss rate of the resonator estimated from the amount of the AC Stark shift, the QCR was shown to have a cooling power of approximately 300 aW. Furthermore, even below the single energy quantum, the QCR can reduce the number of photons inside the resonator with 100 ns pulse from thermal equilibrium. Numerical calculations based on the Lindblad master equation successfully reproduced these experimental results.
翻訳日:2024-07-22 17:44:33 公開日:2024-07-19
# 階層型ウィンドウ付きグラフ注意ネットワークとインド手話認識のための大規模データセット

Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition ( http://arxiv.org/abs/2407.14224v1 )

ライセンス: Link先を確認
Suvajit Patra, Arkadip Maitra, Megha Tiwari, K. Kumaran, Swathy Prabhu, Swami Punyeshwarananda, Soumitra Samanta, (参考訳) 自動手話(SL)認識はコンピュータビジョンコミュニティにおいて重要な課題である。 堅牢なSL認識システムを構築するためには,特にインド手話(ISL)に欠けている大量のデータが必要である。 本稿では,骨格グラフ構造に基づく大規模孤立型ISLデータセットと新しいSL認識モデルを提案する。 このデータセットは、20名(男性10名、女性10名)の聴覚障害者が記録した聴覚障害者コミュニティで、毎日2,002語の共通語をカバーしている(ビデオは40033本)。 本稿では,人体上半身の骨格構造を利用して,階層型ウィンドウドグラフ注意ネットワーク(HWGAT)というSL認識モデルを提案する。 HWGATは、ヒト骨格グラフ構造によって誘導される異なる身体部位に注意を向けることで、特徴的な動きを捉えようとする。 提案するデータセットの有用性と本モデルの有用性を,広範囲な実験により評価した。 InCLUDE, LSA64, AUTSL, WLASLの各モデルに比較して, 提案したデータセットを事前学習し, 各種手話データセットを微調整し, さらにINCLUDE, LSA64, AUTSL, WLASLの1.10, 0.46, 0.78および6.84ポイントの性能向上を図った。

Automatic Sign Language (SL) recognition is an important task in the computer vision community. To build a robust SL recognition system, we need a considerable amount of data which is lacking particularly in Indian sign language (ISL). In this paper, we propose a large-scale isolated ISL dataset and a novel SL recognition model based on skeleton graph structure. The dataset covers 2,002 daily used common words in the deaf community recorded by 20 (10 male and 10 female) deaf adult signers (contains 40033 videos). We propose a SL recognition model namely Hierarchical Windowed Graph Attention Network (HWGAT) by utilizing the human upper body skeleton graph structure. The HWGAT tries to capture distinctive motions by giving attention to different body parts induced by the human skeleton graph structure. The utility of the proposed dataset and the usefulness of our model are evaluated through extensive experiments. We pre-trained the proposed model on the proposed dataset and fine-tuned it across different sign language datasets further boosting the performance of 1.10, 0.46, 0.78, and 6.84 percentage points on INCLUDE, LSA64, AUTSL and WLASL respectively compared to the existing state-of-the-art skeleton-based models.
翻訳日:2024-07-22 17:44:33 公開日:2024-07-19
# チャネル閉鎖近傍における共鳴励起ヘリウムイオンの多光子イオン化における円二色性

Circular Dichroism in Multiphoton Ionization of Resonantly Excited Helium Ions near Channel Closing ( http://arxiv.org/abs/2407.14227v1 )

ライセンス: Link先を確認
Rene Wagner, Markus Ilchen, Nicolas Douguet, Philipp Schmidt, Niclas Wieland, Carlo Callegari, Zachary Delk, Michele Di Fraia, Jiri Hofbrucker, Valerija Music, Oksana Plekan, Kevin C. Prince, Daniel E. Rivas, Alexei N. Grum-Grzhimailo, Klaus Bartschat, Michael Meyer, (参考訳) 励起He^+イオンの多光子イオン化による近赤外(NIR)レーザーパルスによる光電子の円二色性(CD)を、円偏極極極性極紫外(XUV)パルス(3p,m=+1)状態で調製し、実験的に理論的に検討した。 CDの複雑な変化は、XUVパルスの偏光に対する円偏光NIRパルスと反回転に対する強度依存性と偏光依存性のフリーマン共鳴の結果として観察される。 実験結果は、実験により観測されたCDの顕著な変動を識別・解釈するために、時間依存的なシュリンガー方程式の数値解と比較した。

The circular dichroism (CD) of photoelectrons generated by near-infrared (NIR) laser pulses using multiphoton ionization of excited He^+ ions, which were prepared in the (3p,m=+1) state by circularly polarized extreme ultraviolet (XUV) pulses, is examined experimentally and theoretically. A complex variation of the CD is observed as a result of intensity- and polarization-dependent Freeman resonances for circularly polarized NIR pulses co- and counter-rotating relative to the polarization of the XUV pulse, with and without additional dichroic AC-Stark shifts. The experimental results are compared with numerical solutions of the time-dependent Schr\"odinger equation to identify and interpret the pronounced variation of the experimentally observed CD.
翻訳日:2024-07-22 17:44:33 公開日:2024-07-19
# Words2Contact:基礎モデルを用いた言語指導からのサポートコンタクトの同定

Words2Contact: Identifying Support Contacts from Verbal Instructions Using Foundation Models ( http://arxiv.org/abs/2407.14229v1 )

ライセンス: Link先を確認
Dionis Totsila, Quentin Rouxel, Jean-Baptiste Mouret, Serena Ivaldi, (参考訳) 本稿では,大規模言語モデルと視覚言語モデルを活用した言語誘導型多言語配置パイプラインであるWords2Contactを提案する。 本手法は,ロボットに対して,人体が自然言語で手を伸ばしたり操作したりする前に,ロボットに支援相手を配置するように指示する,言語支援遠隔操作と人間ロボット協調のための重要な要素である。 Words2Contactは、人間の操作者の言葉による指示を接触配置予測に変換し、ロボットの視野で特定された接触位置に人が満足するまで、反復的な修正も処理する。 我々は,接触予測におけるサイズと性能について,最先端のLDMとVLMのベンチマークを行った。 提案手法の有効性を実証し, ユーザが, 素直でも, システムに正確な位置を求める方法を素早く学べるようにした。 最後に,タロス人型ロボットを用いた実世界実験において,Words2Contactの有効性を検証する。

This paper presents Words2Contact, a language-guided multi-contact placement pipeline leveraging large language models and vision language models. Our method is a key component for language-assisted teleoperation and human-robot cooperation, where human operators can instruct the robots where to place their support contacts before whole-body reaching or manipulation using natural language. Words2Contact transforms the verbal instructions of a human operator into contact placement predictions; it also deals with iterative corrections, until the human is satisfied with the contact location identified in the robot's field of view. We benchmark state-of-the-art LLMs and VLMs for size and performance in contact prediction. We demonstrate the effectiveness of the iterative correction process, showing that users, even naive, quickly learn how to instruct the system to obtain accurate locations. Finally, we validate Words2Contact in real-world experiments with the Talos humanoid robot, instructed by human operators to place support contacts on different locations and surfaces to avoid falling when reaching for distant objects.
翻訳日:2024-07-22 17:44:33 公開日:2024-07-19
# ETSCL:マルチモーダル緑内障解析のためのエビデンス理論に基づく教師付きコントラスト学習フレームワーク

ETSCL: An Evidence Theory-Based Supervised Contrastive Learning Framework for Multi-modal Glaucoma Grading ( http://arxiv.org/abs/2407.14230v1 )

ライセンス: Link先を確認
Zhiyuan Yang, Bo Zhang, Yufei Shi, Ningze Zhong, Johnathan Loh, Huihui Fang, Yanwu Xu, Si Yong Yeo, (参考訳) 緑内障は視覚障害の主要な原因の1つである。 カラーファンドス撮影(CFP)や光コヒーレンス断層撮影(OCT)などのデジタルイメージング技術は、緑内障の定量的かつ非侵襲的な診断方法を提供する。 近年,コンピュータ支援緑内障診断の分野では,CFP法とOCT法を統合したマルチモーダリティ法が単一モーダリティ法よりも高い診断精度を実現している。 しかし,医用画像の類似度が高いことと,不均衡なマルチモーダルデータ分布のため,信頼性の高い特徴を抽出することは依然として困難である。 さらに、既存手法は、異なるモードの不確実性推定を見逃し、信頼できない予測をもたらす。 これらの課題に対処するために、コントラストのある特徴抽出段階と決定レベルの融合段階からなる新しいフレームワークであるETSCLを提案する。 具体的には、特徴抽出過程における識別力を高めるために、教師付きコントラスト損失を用いて、より効果的な特徴を与える。 さらに,Frangiの船体性アルゴリズムを前処理のステップとして利用して,船体情報を組み込んで予測を支援する。 決定レベル融合段階では、証拠理論に基づくマルチモーダリティ分類器を用いて、マルチソース情報と不確実性推定を組み合わせる。 大規模な実験により,本手法が最先端の性能を達成できることが実証された。 コードは \url{https://github.com/master-Shix/ETSCL} で公開されている。

Glaucoma is one of the leading causes of vision impairment. Digital imaging techniques, such as color fundus photography (CFP) and optical coherence tomography (OCT), provide quantitative and noninvasive methods for glaucoma diagnosis. Recently, in the field of computer-aided glaucoma diagnosis, multi-modality methods that integrate the CFP and OCT modalities have achieved greater diagnostic accuracy compared to single-modality methods. However, it remains challenging to extract reliable features due to the high similarity of medical images and the unbalanced multi-modal data distribution. Moreover, existing methods overlook the uncertainty estimation of different modalities, leading to unreliable predictions. To address these challenges, we propose a novel framework, namely ETSCL, which consists of a contrastive feature extraction stage and a decision-level fusion stage. Specifically, the supervised contrastive loss is employed to enhance the discriminative power in the feature extraction process, resulting in more effective features. In addition, we utilize the Frangi vesselness algorithm as a preprocessing step to incorporate vessel information to assist in the prediction. In the decision-level fusion stage, an evidence theory-based multi-modality classifier is employed to combine multi-source information with uncertainty estimation. Extensive experiments demonstrate that our method achieves state-of-the-art performance. The code is available at \url{https://github.com/master-Shix/ETSCL}.
翻訳日:2024-07-22 17:44:33 公開日:2024-07-19
# テスト時間適応アルゴリズムの現実的評価:教師なしハイパーパラメータ選択

Realistic Evaluation of Test-Time Adaptation Algorithms: Unsupervised Hyperparameter Selection ( http://arxiv.org/abs/2407.14231v1 )

ライセンス: Link先を確認
Sebastian Cygert, Damian Sójka, Tomasz Trzciński, Bartłomiej Twardowski, (参考訳) テスト時間適応(TTA)は、最近、ラベルにアクセスせずに推論中にモデルを適応することにより、分散シフトの下での機械学習モデルロバストネスの問題に取り組むための有望な戦略として登場した。 タスク困難のため、ハイパーパラメータは適応の有効性に強く影響を及ぼす。 しかし、この文献は最適なハイパーパラメータ選択についてはほとんど調査を行っていない。 本研究では,サロゲートベースのhp選択戦略(テストラベルへのアクセスを前提としない)を用いて既存のTTA手法の評価を行い,より現実的な性能評価を実現する。 近年の最先端手法のいくつかは、我々のより現実的な評価設定を使用する場合、従来のアルゴリズムと比べて性能が劣っていることを示す。 さらに、hp選択に頑健な唯一の方法として、TTAでは、各ステップでモデルが初期状態にリセットされることが依然として問題であることを示す。 さまざまなタイプの教師なし選択戦略を分析し、ほとんどのシナリオで合理的に機能するが、一貫して機能する唯一の戦略は、ある種の監督(注釈付きテストサンプルの数が少ないか、事前学習データを使用すること)をうまく利用している。 我々の発見は、より厳密なベンチマークでさらなる研究の必要性を浮き彫りにして、我々のコードをオープンソース化するためのモデル選択戦略を明確に述べています。

Test-Time Adaptation (TTA) has recently emerged as a promising strategy for tackling the problem of machine learning model robustness under distribution shifts by adapting the model during inference without access to any labels. Because of task difficulty, hyperparameters strongly influence the effectiveness of adaptation. However, the literature has provided little exploration into optimal hyperparameter selection. In this work, we tackle this problem by evaluating existing TTA methods using surrogate-based hp-selection strategies (which do not assume access to the test labels) to obtain a more realistic evaluation of their performance. We show that some of the recent state-of-the-art methods exhibit inferior performance compared to the previous algorithms when using our more realistic evaluation setup. Further, we show that forgetting is still a problem in TTA as the only method that is robust to hp-selection resets the model to the initial state at every step. We analyze different types of unsupervised selection strategies, and while they work reasonably well in most scenarios, the only strategies that work consistently well use some kind of supervision (either by a limited number of annotated test samples or by using pretraining data). Our findings underscore the need for further research with more rigorous benchmarking by explicitly stating model selection strategies, to facilitate which we open-source our code.
翻訳日:2024-07-22 17:44:33 公開日:2024-07-19
# ハイパーヒューリスティックス、グローバルな変動オペレーターから利益を得る

Hyper-Heuristics Can Profit From Global Variation Operators ( http://arxiv.org/abs/2407.14237v1 )

ライセンス: Link先を確認
Benjamin Doerr, Johannes F. Lutzeyer, (参考訳) 最近の研究で、Lissovoi, Oliveto, and Warwicker (Artificial Intelligence (2023)) は、Move Acceptance Hyper-Heuristic (MAHH) がマルチモーダルCLIFFベンチマークの局所的な最適化を著しく効率よく残していることを示した。 MAHHの$O(n^3)$ランタイムは、ほぼすべての崖幅に対して$d\ge 2,$は、CLIFF上の単純なエリート主義進化アルゴリズム(EA)の$\Theta(n^d)$ランタイムよりもはるかに優れている。 本稿では,この優位性はCLIFF問題に特有であり,ランダム化探索ヒューリスティックス理論において最も顕著なマルチモーダルベンチマークであるJUMPベンチマークに拡張されないことを示す。 我々は、MAHH選択パラメータ$p$の任意の選択に対して、ギャップサイズ$m = O(n^{1/2})$が少なくとも$\Omega(n^{2m-1} / (2m-1)! )$。 これは単純なエリート主義EAの$O(n^m)$ランタイムよりもかなり遅い。 また、MAHHの局所的な1ビット突然変異演算子を、EAで一般的に使用されるグローバルビットワイズ演算子に置き換えると、JUMP関数上の$\min\{1, O(\frac{e\ln(n)}{m})^m\} \, O(n^m)$のランタイムが得られることを示す。 これは、少なくとも単純なエリート主義EAのランタイムと同じくらい良いです。 m$の大きい値の場合、この結果は単純なEAよりも漸近的なパフォーマンスの向上を示す。 我々の証明が示すように、MAHHは低目標値の谷を適度な規模で歩く能力から利益を得ており、常に劣る解を受け入れている。 このような最適化行動が数学的手法で証明されたのはこれが初めてである。 概して, 局所的最適性, グローバルな突然変異, 劣等な解を受け入れる2つの方法を組み合わせることで, 性能が著しく向上する可能性が示唆された。

In recent work, Lissovoi, Oliveto, and Warwicker (Artificial Intelligence (2023)) proved that the Move Acceptance Hyper-Heuristic (MAHH) leaves the local optimum of the multimodal CLIFF benchmark with remarkable efficiency. The $O(n^3)$ runtime of the MAHH, for almost all cliff widths $d\ge 2,$ is significantly better than the $\Theta(n^d)$ runtime of simple elitist evolutionary algorithms (EAs) on CLIFF. In this work, we first show that this advantage is specific to the CLIFF problem and does not extend to the JUMP benchmark, the most prominent multi-modal benchmark in the theory of randomized search heuristics. We prove that for any choice of the MAHH selection parameter $p$, the expected runtime of the MAHH on a JUMP function with gap size $m = O(n^{1/2})$ is at least $\Omega(n^{2m-1} / (2m-1)!)$. This is significantly slower than the $O(n^m)$ runtime of simple elitist EAs. Encouragingly, we also show that replacing the local one-bit mutation operator in the MAHH with the global bit-wise mutation operator, commonly used in EAs, yields a runtime of $\min\{1, O(\frac{e\ln(n)}{m})^m\} \, O(n^m)$ on JUMP functions. This is at least as good as the runtime of simple elitist EAs. For larger values of $m$, this result proves an asymptotic performance gain over simple EAs. As our proofs reveal, the MAHH profits from its ability to walk through the valley of lower objective values in moderate-size steps, always accepting inferior solutions. This is the first time that such an optimization behavior is proven via mathematical means. Generally, our result shows that combining two ways of coping with local optima, global mutation and accepting inferior solutions, can lead to considerable performance gains.
翻訳日:2024-07-22 17:44:33 公開日:2024-07-19
# KoMA: 大規模言語モデルを用いた自律走行のための知識駆動型マルチエージェントフレームワーク

KoMA: Knowledge-driven Multi-agent Framework for Autonomous Driving with Large Language Models ( http://arxiv.org/abs/2407.14239v1 )

ライセンス: Link先を確認
Kemou Jiang, Xuan Cai, Zhiyong Cui, Aoyong Li, Yilong Ren, Haiyang Yu, Hao Yang, Daocheng Fu, Licheng Wen, Pinlong Cai, (参考訳) 自律エージェントとしての大規模言語モデル(LLM)は、知識駆動的な方法で現実の課題に取り組むための新しい道筋を提供する。 これらのLCM強化手法は一般化と解釈可能性に優れる。 しかし、運転タスクの複雑さは、複数の異種エージェントの協調を必要とすることが多く、協調的な知識共有と認知シナジーに携わるLLM駆動エージェントの必要性を浮き彫りにする。 LLMの約束にもかかわらず、現在のアプリケーションは主に単一のエージェントシナリオを中心にしている。 知識駆動型戦略の地平を広げ、自律エージェントの一般化能力を高めるために、複雑な運転シナリオにおけるマルチエージェントの意思決定を強化するために、マルチエージェントインタラクション、マルチステップ計画、共有メモリ、ランキングベースのリフレクションモジュールからなるKoMAフレームワークを提案する。 フレームワークが生成した運転シナリオのテキスト記述に基づいて、マルチエージェントインタラクションモジュールは、LLMエージェントが人間の認識に似た、周囲の車両の意図を分析し、推測することを可能にする。 マルチステップ計画モジュールは、LLMエージェントが最終アクション決定層を層ごとに分析して取得し、短期アクション決定のための一貫した目標を確実にすることを可能にする。 共有メモリモジュールは、集合的な経験を蓄積し、優れた意思決定を行うことができ、ランキングベースのリフレクションモジュールは、運転安全性と効率を向上させることを目的として、エージェントの動作を評価し改善することができる。 KoMAフレームワークは、自律運転エージェントの堅牢性と適応性を向上するだけでなく、さまざまなシナリオにまたがる一般化能力を著しく高めている。 実証実験の結果、従来の手法よりも、特に複雑な予測不可能な運転環境を広範囲に再訓練することなく扱えるという点において、我々のアプローチが優れていることが示された。

Large language models (LLMs) as autonomous agents offer a novel avenue for tackling real-world challenges through a knowledge-driven manner. These LLM-enhanced methodologies excel in generalization and interpretability. However, the complexity of driving tasks often necessitates the collaboration of multiple, heterogeneous agents, underscoring the need for such LLM-driven agents to engage in cooperative knowledge sharing and cognitive synergy. Despite the promise of LLMs, current applications predominantly center around single agent scenarios. To broaden the horizons of knowledge-driven strategies and bolster the generalization capabilities of autonomous agents, we propose the KoMA framework consisting of multi-agent interaction, multi-step planning, shared-memory, and ranking-based reflection modules to enhance multi-agents' decision-making in complex driving scenarios. Based on the framework's generated text descriptions of driving scenarios, the multi-agent interaction module enables LLM agents to analyze and infer the intentions of surrounding vehicles, akin to human cognition. The multi-step planning module enables LLM agents to analyze and obtain final action decisions layer by layer to ensure consistent goals for short-term action decisions. The shared memory module can accumulate collective experience to make superior decisions, and the ranking-based reflection module can evaluate and improve agent behavior with the aim of enhancing driving safety and efficiency. The KoMA framework not only enhances the robustness and adaptability of autonomous driving agents but also significantly elevates their generalization capabilities across diverse scenarios. Empirical results demonstrate the superiority of our approach over traditional methods, particularly in its ability to handle complex, unpredictable driving environments without extensive retraining.
翻訳日:2024-07-22 17:44:33 公開日:2024-07-19
# 着飾った半導体量子ドットのフロケ干渉計

Floquet interferometry of a dressed semiconductor quantum dot ( http://arxiv.org/abs/2407.14241v1 )

ライセンス: Link先を確認
Felix-Ekkehard von Horstig, Lorenzo Peri, Sylvain Barraud, Sergey N. Shevchenko, Christopher J. B. Ford, M. Fernando Gonzalez-Zalba, (参考訳) 時間周期励起と相互作用する量子系は、系の光子数の増加と混合するハイブリッド固有状態のはしごを生成する。 この機構はドレッシング(英語版)と呼ばれ、原子、分子、固体量子ビットのように変化する系の光-物質相互作用の文脈で観察されている。 本研究では、電荷貯槽に結合した半導体量子ドットトンネルにおける状態ドレッシングを実証する。 多光子共振器の干渉端として現れる高周波数電気応答におけるフロッケ状態の出現を観測した。 本研究では, 貯水池温度, 電荷寿命, 励起振幅を変化させながら, 着飾った量子ドットについて検討し, フロケ・ラダーの量子力学に基づく理論を考案し, 理論の基本的な性質を明らかにする。 さらに,半導体量子ドットの精密静電特性化への応用について述べる。

A quantum system interacting with a time-periodic excitation creates a ladder of hybrid eigenstates in which the system is mixed with an increasing number of photons. This mechanism, referred to as dressing, has been observed in the context of light-matter interaction in systems as varied as atoms, molecules and solid-state qubits. In this work, we demonstrate state dressing in a semiconductor quantum dot tunnel-coupled to a charge reservoir. We observe the emergence of a Floquet ladder of states in the system's high-frequency electrical response, manifesting as interference fringes at the multiphoton resonances despite the system lacking an avoided crossing. We study the dressed quantum dot while changing reservoir temperature, charge lifetime, and excitation amplitude and reveal the fundamental nature of the mechanism by developing a theory based on the quantum dynamics of the Floquet ladder, which is in excellent agreement with the data. Furthermore, we show how the technique finds applications in the accurate electrostatic characterisation of semiconductor quantum dots.
翻訳日:2024-07-22 17:44:33 公開日:2024-07-19
# 連続的パノプティカル知覚:リモートセンシング画像の多モードインクリメンタル解釈に向けて

Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images ( http://arxiv.org/abs/2407.14242v1 )

ライセンス: Link先を確認
Bo Yuan, Danpei Zhao, Zhuoran Liu, Wentao Li, Tian Li, (参考訳) 継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。 しかし、現在のCLメソッドは主に単一タスクに焦点を当てている。 さらに、CLモデルは、複雑な粒度のセマンティクスのためにしばしばリモートセンシングの解釈で起こる古いデータがないため、破滅的な忘れと意味の漂流に悩まされている。 本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,画像レベルの認識を網羅したマルチタスク共同学習モデルであるContinuous Panoptic Perception (CPP)を提案する。 具体的には、画素分類とキャプション生成を同期的にサポートする、入力画像の特徴を抽出するコラボレーティブなクロスモーダルエンコーダ(CCE)を提案する。 メモリを使用せずに古いモデルから知識を継承するために,クロスモーダル最適化とタスク非対称な擬似ラベル(TPL)を利用したタスク対話型知識蒸留(TKD)手法を提案する。 さらに,エンド・ツー・エンドのマルチモーダル・パノプティブ知覚を実現するための共同最適化機構を提案する。 また,提案モデルの有効性を検証し,その精度を13%以上向上させることで,共同最適化によってサブタスクCLの効率が向上することが実証された。

Continual learning (CL) breaks off the one-way training manner and enables a model to adapt to new data, semantics and tasks continuously. However, current CL methods mainly focus on single tasks. Besides, CL models are plagued by catastrophic forgetting and semantic drift since the lack of old data, which often occurs in remote-sensing interpretation due to the intricate fine-grained semantics. In this paper, we propose Continual Panoptic Perception (CPP), a unified continual learning model that leverages multi-task joint learning covering pixel-level classification, instance-level segmentation and image-level perception for universal interpretation in remote sensing images. Concretely, we propose a collaborative cross-modal encoder (CCE) to extract the input image features, which supports pixel classification and caption generation synchronously. To inherit the knowledge from the old model without exemplar memory, we propose a task-interactive knowledge distillation (TKD) method, which leverages cross-modal optimization and task-asymmetric pseudo-labeling (TPL) to alleviate catastrophic forgetting. Furthermore, we also propose a joint optimization mechanism to achieve end-to-end multi-modal panoptic perception. Experimental results on the fine-grained panoptic perception dataset validate the effectiveness of the proposed model, and also prove that joint optimization can boost sub-task CL efficiency with over 13\% relative improvement on panoptic quality.
翻訳日:2024-07-22 17:44:33 公開日:2024-07-19
# 自動訓練軌道によるデータセット蒸留

Dataset Distillation by Automatic Training Trajectories ( http://arxiv.org/abs/2407.14245v1 )

ライセンス: Link先を確認
Dai Liu, Jindong Gu, Hu Cao, Carsten Trinitis, Martin Schulz, (参考訳) データセット蒸留(Dataset Distillation)は、トレーニング目的のために元のデータセットを置き換えることができる簡潔で情報に富んだ合成データセットを作成するために使用される。 この領域におけるいくつかの主要な手法は、様々な専門家の訓練軌跡に合わせるために、合成データセット上に一定数のステップ(NS)でトレーニング軌跡をアンロールすることを含む、長距離マッチングを優先する。 しかし、従来の長距離マッチング手法にはオーバーフィットのような問題があり、固定ステップサイズ NS は合成データセットを歪曲的に専門家の訓練軌跡に適合させるよう強制する。 本稿では, AMP に対処するための軌道長 NS を動的かつ適応的に調整する新しい手法である Automatic Training Trajectories (ATT) を提案する。 本手法は, クロスアーキテクチャを含むテストにおいて, 既存の手法よりも優れている。 さらに適応性から,パラメータ変動の面においても安定性が向上している。

Dataset Distillation is used to create a concise, yet informative, synthetic dataset that can replace the original dataset for training purposes. Some leading methods in this domain prioritize long-range matching, involving the unrolling of training trajectories with a fixed number of steps (NS) on the synthetic dataset to align with various expert training trajectories. However, traditional long-range matching methods possess an overfitting-like problem, the fixed step size NS forces synthetic dataset to distortedly conform seen expert training trajectories, resulting in a loss of generality-especially to those from unencountered architecture. We refer to this as the Accumulated Mismatching Problem (AMP), and propose a new approach, Automatic Training Trajectories (ATT), which dynamically and adaptively adjusts trajectory length NS to address the AMP. Our method outperforms existing methods particularly in tests involving cross-architectures. Moreover, owing to its adaptive nature, it exhibits enhanced stability in the face of parameter variations.
翻訳日:2024-07-22 17:44:33 公開日:2024-07-19
# 情報検索のための条件付きChat-GPT:Unipa-GPTケーススタディ

Conditioning Chat-GPT for information retrieval: the Unipa-GPT case study ( http://arxiv.org/abs/2407.14246v1 )

ライセンス: Link先を確認
Irene Siragusa, Roberto Pirrone, (参考訳) 本稿では,パレルモ大学における学士課程選択を支援するために開発された,大規模言語モデルに基づくチャットボットUnipa-GPTのアーキテクチャと訓練について述べる。 Unipa-GPT は gpt-3.5-turbo に依存しており、ヨーロッパ研究者の夜 (SHARPER night) の文脈で提示された。 実験では,RAG(Retrieval Augmented Generation)アプローチと微調整を併用してシステムを開発した。 Unipa-GPTのアーキテクチャ全体を示し、RAGと微調整システムを比較し、その性能に関する簡単な議論を報告する。 その他の大規模言語モデルとの比較と,SHARPERの夜間実験結果について述べる。

This paper illustrates the architecture and training of Unipa-GPT, a chatbot relying on a Large Language Model, developed for assisting students in choosing a bachelor/master degree course at the University of Palermo. Unipa-GPT relies on gpt-3.5-turbo, it was presented in the context of the European Researchers' Night (SHARPER night). In our experiments we adopted both the Retrieval Augmented Generation (RAG) approach and fine-tuning to develop the system. The whole architecture of Unipa-GPT is presented, both the RAG and the fine-tuned systems are compared, and a brief discussion on their performance is reported. Further comparison with other Large Language Models and the experimental results during the SHARPER night are illustrated.
翻訳日:2024-07-22 17:44:33 公開日:2024-07-19
# 複数ラベル連続学習のための注意ベースベースライン

An Attention-based Representation Distillation Baseline for Multi-Label Continual Learning ( http://arxiv.org/abs/2407.14249v1 )

ライセンス: Link先を確認
Martin Menabue, Emanuele Frascaroli, Matteo Boschini, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara, (参考訳) 連続学習(CL)の分野は長年にわたって多くの研究者を刺激し、破滅的な忘れ方の問題への対策がますます進んだ。 ほとんどの研究はシングルクラスのシナリオに焦点を合わせており、それぞれの例には1つのラベルが付けられている。 最近の文献はそのような状況にうまく取り組み、印象的な成果を上げている。 異なるのは、実世界のオープンな問題にもっと代表的であると感じているため、マルチラベルのシナリオに注意を向けることです。 本研究は,従来のCL手法では満足な性能が得られず,近年の真の進歩に疑問を呈するものである。 そこで我々は,従来の手法と新しい戦略の両方を評価し,その上でSCAD (Selective Class Attention Distillation) というアプローチを提案する。 学生ネットワークの表現を -- 継続的にトレーニングし、忘れることの対象となる -- と、事前訓練と凍結の維持を行う教師との整合性を求める知識伝達技術に依存している。 重要なこととして,本手法では,教師から生徒に関連情報を選択的に転送することができ,オンライン学習における生徒のパフォーマンスに悪影響を及ぼすおそれのない情報を防止できる。 提案手法の利点を実証するために,2つの異なる多ラベルデータセットを用いて実験を行い,本手法が現在最先端の連続学習手法より優れていることを示す。 本研究は,連続学習分野における多言語環境がもたらす固有の課題に対処することの重要性を強調した。 SCADのコードはhttps://github.com/aimagelab/SCAD-LOD-2024で公開されている。

The field of Continual Learning (CL) has inspired numerous researchers over the years, leading to increasingly advanced countermeasures to the issue of catastrophic forgetting. Most studies have focused on the single-class scenario, where each example comes with a single label. The recent literature has successfully tackled such a setting, with impressive results. Differently, we shift our attention to the multi-label scenario, as we feel it to be more representative of real-world open problems. In our work, we show that existing state-of-the-art CL methods fail to achieve satisfactory performance, thus questioning the real advance claimed in recent years. Therefore, we assess both old-style and novel strategies and propose, on top of them, an approach called Selective Class Attention Distillation (SCAD). It relies on a knowledge transfer technique that seeks to align the representations of the student network -- which trains continuously and is subject to forgetting -- with the teacher ones, which is pretrained and kept frozen. Importantly, our method is able to selectively transfer the relevant information from the teacher to the student, thereby preventing irrelevant information from harming the student's performance during online training. To demonstrate the merits of our approach, we conduct experiments on two different multi-label datasets, showing that our method outperforms the current state-of-the-art Continual Learning methods. Our findings highlight the importance of addressing the unique challenges posed by multi-label environments in the field of Continual Learning. The code of SCAD is available at https://github.com/aimagelab/SCAD-LOD-2024.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# パーソナライズされた多層フェデレーションラーニング

Personalized Multi-tier Federated Learning ( http://arxiv.org/abs/2407.14251v1 )

ライセンス: Link先を確認
Sourasekhar Banerjee, Ali Dadras, Alp Yurtsever, Monowar Bhuyan, (参考訳) パーソナライズド・フェデレーション・ラーニング(PerFL)の鍵となる課題は、安価な通信でデータの統計的不均一性を捕捉し、参加するデバイスに対してカスタマイズされたパフォーマンスを得ることである。 これらの問題に対処するために、多層アーキテクチャ(PerMFL)におけるパーソナライズされたフェデレーション学習を導入し、デバイス間でチーム構造が知られている場合に、最適化されたパーソナライズされたローカルモデルを得る。 我々は、滑らかな凸問題に対する線形収束率と滑らかな非凸問題に対する線形収束率を提供するPerMFLの理論的保証を提供する。 我々はPerMFLの強靭な経験的性能を実証する数値実験を行い、複数の個別化学習タスクにおいて最先端の学習性能を上回った。

The key challenge of personalized federated learning (PerFL) is to capture the statistical heterogeneity properties of data with inexpensive communications and gain customized performance for participating devices. To address these, we introduced personalized federated learning in multi-tier architecture (PerMFL) to obtain optimized and personalized local models when there are known team structures across devices. We provide theoretical guarantees of PerMFL, which offers linear convergence rates for smooth strongly convex problems and sub-linear convergence rates for smooth non-convex problems. We conduct numerical experiments demonstrating the robust empirical performance of PerMFL, outperforming the state-of-the-art in multiple personalized federated learning tasks.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# 環境騒音がDNAの電荷拡散に及ぼす影響 : 生合成過程におけるエピジェネティックな影響のモデル化に向けて

Effect of environmental noise on charge diffusion in DNA: Towards modeling its potential epigenetic impact in live processes ( http://arxiv.org/abs/2407.14252v1 )

ライセンス: Link先を確認
Mirko Rossini, Ole Ammerpohl, Reiner Siebert, Joachim Ankerhold, (参考訳) デオキシリボヌクレイン酸 (DNA) による電荷拡散は物理化学的現象であり、一方は技術的目的のために研究されており、他方では生命の様々な情報処理に自然に応用されている。 後者については、DNAを介した電荷拡散がDNA複製と修復の基本的なステップ、およびDNAメチル化やタンパク質のDNA結合といったエピジェネティックな機構による遺伝子発現の調節に関与することが実験的および理論的に証明されている。 物理学の観点からは、DNAは長距離電荷移動を伴う金属のような挙動をサポートする。 しかし、特に生活環境を考えると、DNAの電荷移動は、すべてのノイズと障害を考慮する必要がある。 そこで本研究では,DNAにインスパイアされた2次元強結合格子に沿った単一電荷の量子拡散を,固有および環境変動の異なる源の存在下で解析する。 二重鎖格子はDNA配列の原子計算によってパラメータ化され、部位間の経路の複雑なネットワークを提供し、長距離コヒーレンス現象を引き起こす可能性があることが示されている。 これらの効果は、キャリアタイプ(電子、ホール)、格子(構成)のエネルギー的プロファイル、およびノイズや障害の種類に強く依存する。 特に興味深いのは、空間的に相関した低周波変動であり、これはいくつかの部位の距離におけるコヒーレント電荷移動をサポートする。 以上の結果から,DNA内および人工プラットフォーム上での電荷移動性の調査を目的とした,さらなる実験的活動が引き起こされる可能性がある。

Charge diffusion through desoxyribonucleic acid (DNA) is a physico-chemical phenomenon that on the one hand is being explored for technological purposes, on the other hand is applied by nature for various informational processes in life. With regard to the latter, increasing experimental and theoretical evidence indicates that charge diffusion through DNA is involved in basic steps of DNA replication and repair, as well as regulation of gene expression via epigenetic mechanisms such as DNA methylation or DNA binding of proteins. From the physics point of view, DNA supports a metallic-like behavior with long-range charge mobility. Nevertheless, particularly considering a living environment, charge mobility in DNA needs to take into account omnipresent noise and disorder. Here, we analyze quantum diffusion of single charges along DNA-inspired two-dimensional tight-binding lattices in presence of different sources of intrinsic and environmental fluctuations. It is shown that double-strand lattices, parametrized according to atomistic calculations of DNA sequences, offer a complex network of pathways between sites and may give rise to long-distance coherence phenomena. These effects strongly depend on carrier type (electrons, holes), the energetic profile of the lattice (composition) as well as the type of noise and disorder. Of particular interest are spatially correlated low-frequency fluctuations which may support coherent charge transfer over distances of a few sites. Our results may trigger further experimental activities aiming at investigating charge mobility in DNA both in the native in-vivo context as well as on artificial platforms.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# ギャップを埋める: 調査インフォームド倫理的ハッキングツールの調査と分類

Bridging the Gap: A Survey and Classification of Research-Informed Ethical Hacking Tools ( http://arxiv.org/abs/2407.14255v1 )

ライセンス: Link先を確認
Paolo Modesti, Lewis Golightly, Louis Holmes, Chidimma Opara, Marco Moscini, (参考訳) 侵入試験に使用される倫理的ハッキング(Ethical Hacking, EH)ツールの大半は、業界や地下社会の実践者によって開発されている。 同様に、研究者はセキュリティツールの開発にも貢献している。 しかし、この領域における学術的貢献の実践者の間では認識が限られているようで、産業と学術のEHツールへの貢献との間に大きなギャップが生じる。 本研究は,EH研究の現状を調査することを目的としており,主に研究インフォームドセキュリティツールに焦点をあてている。 これらのツールをプロセスベースのフレームワーク(PTESやMitre ATT\&CKなど)と知識ベースのフレームワーク(CyBOKやACM CCSなど)に分類します。 この分類は、その機能と応用領域を考慮して、新しい、研究のインフォームドツールの包括的概要を提供する。 この分析は、ライセンス、リリース日、ソースコードの可用性、開発活動、ピアレビューのステータスをカバーし、この分野の研究状況に関する貴重な洞察を提供する。

The majority of Ethical Hacking (EH) tools utilised in penetration testing are developed by practitioners within the industry or underground communities. Similarly, academic researchers have also contributed to developing security tools. However, there appears to be limited awareness among practitioners of academic contributions in this domain, creating a significant gap between industry and academia's contributions to EH tools. This research paper aims to survey the current state of EH academic research, primarily focusing on research-informed security tools. We categorise these tools into process-based frameworks (such as PTES and Mitre ATT\&CK) and knowledge-based frameworks (such as CyBOK and ACM CCS). This classification provides a comprehensive overview of novel, research-informed tools, considering their functionality and application areas. The analysis covers licensing, release dates, source code availability, development activity, and peer review status, providing valuable insights into the current state of research in this field.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# リモートID対応ドローンの難読化位置開示

Obfuscated Location Disclosure for Remote ID Enabled Drones ( http://arxiv.org/abs/2407.14256v1 )

ライセンス: Link先を確認
Alessandro Brighente, Mauro Conti, Matthijs Schotsman, Savio Sciancalepore, (参考訳) リモートID(RID)規制は、最近世界中のいくつかの航空当局(米国やEUを含む)によって導入され、商用ドローンに無線チャンネルで定期的に(毎秒)平文メッセージをブロードキャストさせ、ドローンの識別子や現在位置に関する情報を提供する。 これらの規制は、ドローンの操作の説明責任を高め、トラフィック管理を改善するが、悪意のあるユーザは、その情報を通じてドローンを追跡することができ、ドローンの捕獲と深刻なプライバシー漏洩につながる可能性がある。 本稿では、ドローンの位置情報を保護しながら、RID規制を変更し拡張するソリューションである、RID対応ドローン(OLO-RID)の難読化位置情報開示を提案する。 実際のドローンの位置を開示する代わりに、OLO-RIDを搭載したドローンは、モバイルシナリオで異なるプライベートな難解な場所を開示する。 OLO-RIDはまた、暗号化された位置情報でRIDメッセージを拡張し、認証されたエンティティによってのみアクセスでき、安全上重要なユースケースで現在のドローンの位置情報を取得するのに価値がある。 Raspberry Pi 3上でOLO-RIDを設計、実装、デプロイし、実装のコードをオープンソースとしてリリースします。 また、処理、通信、メモリ、エネルギー消費の観点から、ソリューションの実行時のオーバーヘッドを広範囲に評価する。 我々は、OLO-RIDが制約されたデバイス上で0.16秒未満でRIDメッセージを生成できることを示し、また、DJI Mini 2のエネルギーの0.0236%)、関連するデバイスに最小限のエネルギー料金を要求することを示した。 また、ドローンの位置情報利用に関する3つの参照ユースケースの文脈において、提案手法の有用性を評価し、位置プライバシーと次世代RID対応ドローンエコシステムの実用性をトレードオフする場合に、最小限の性能劣化を実証する。

The Remote ID (RID) regulation recently introduced by several aviation authorities worldwide (including the US and EU) forces commercial drones to regularly (max. every second) broadcast plaintext messages on the wireless channel, providing information about the drone identifier and current location, among others. Although these regulations increase the accountability of drone operations and improve traffic management, they allow malicious users to track drones via the disclosed information, possibly leading to drone capture and severe privacy leaks. In this paper, we propose Obfuscated Location disclOsure for RID-enabled drones (OLO-RID), a solution modifying and extending the RID regulation while preserving drones' location privacy. Rather than disclosing the actual drone's location, drones equipped with OLO-RID disclose a differentially private obfuscated location in a mobile scenario. OLO-RID also extends RID messages with encrypted location information, accessible only by authorized entities and valuable to obtain the current drone's location in safety-critical use cases. We design, implement, and deploy OLO-RID on a Raspberry Pi 3 and release the code of our implementation as open-source. We also perform an extensive performance assessment of the runtime overhead of our solution in terms of processing, communication, memory, and energy consumption. We show that OLO-RID can generate RID messages on a constrained device in less than 0.16 s while also requiring a minimal energy toll on a relevant device (0.0236% of energy for a DJI Mini 2). We also evaluate the utility of the proposed approach in the context of three reference use cases involving the drones' location usage, demonstrating minimal performance degradation when trading off location privacy and utility for next-generation RID-compliant drone ecosystems.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# SparseCraft: ステレオプシス誘導幾何線形化によるFew-Shotニューラルリコンストラクション

SparseCraft: Few-Shot Neural Reconstruction through Stereopsis Guided Geometric Linearization ( http://arxiv.org/abs/2407.14257v1 )

ライセンス: Link先を確認
Mae Younes, Amine Ouasfi, Adnane Boukhayma, (参考訳) 本稿では,数枚のカラー画像から3次元形状とビュー依存外観を復元し,効率的な3次元再構成と新しいビュー合成を実現するための新しいアプローチを提案する。 本手法は,信号距離関数 (Signed Distance Function, SDF) と放射場 (Radiance Field) の形式で暗黙的なニューラル表現を学習する。 このモデルは、レイマーチング可能なボリュームレンダリングによって徐々に訓練され、学習不要なマルチビューステレオ(MVS)で正規化される。 私たちの貢献の鍵となるのは、SDFフィールドが可能な限りレベルセット近くで線形であることを促す、暗黙の神経形状関数学習戦略です。 SparseCraftと呼ばれる事前トレーニングを使わずに、標準ベンチマークのスパースビューからの新規ビュー合成と再構築の両面で最先端のパフォーマンスを達成し、トレーニングに10分未満の時間を要する。

We present a novel approach for recovering 3D shape and view dependent appearance from a few colored images, enabling efficient 3D reconstruction and novel view synthesis. Our method learns an implicit neural representation in the form of a Signed Distance Function (SDF) and a radiance field. The model is trained progressively through ray marching enabled volumetric rendering, and regularized with learning-free multi-view stereo (MVS) cues. Key to our contribution is a novel implicit neural shape function learning strategy that encourages our SDF field to be as linear as possible near the level-set, hence robustifying the training against noise emanating from the supervision and regularization signals. Without using any pretrained priors, our method, called SparseCraft, achieves state-of-the-art performances both in novel-view synthesis and reconstruction from sparse views in standard benchmarks, while requiring less than 10 minutes for training.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# 群衆の声:ユニークな視点のクラスタを探す

Voices in a Crowd: Searching for Clusters of Unique Perspectives ( http://arxiv.org/abs/2407.14259v1 )

ライセンス: Link先を確認
Nikolas Vitsakis, Amit Parekh, Ioannis Konstas, (参考訳) 言語モデルは、トレーニングデータに存在する基盤となるバイアスを再現することが示されている。 提案されたソリューションは、アノテータの不一致をモデル化したり、共有メタデータに基づいてアノテータをグループ化することで、少数派の視点を捉えることを目的としている。 本稿では,アノテータのメタデータを符号化せずにモデルを訓練し,アノテータの動作によって通知される潜伏埋め込みを抽出し,類似した意見のクラスタを生成するフレームワークを提案する。 結果のクラスタは、内部および外部の定量的メトリクスを通じて、各クラスタが表現する音声のタイプを特定する定性的な分析を通じて、ポストホックで検証される。 本研究は,クラスタが適切に堅牢であること,および2つの異なるデータセットの異なる人口統計因子に基づいて少数視点を捉えることにより,我々のフレームワークの強力な一般化能力を示すものである。

Language models have been shown to reproduce underlying biases existing in their training data, which is the majority perspective by default. Proposed solutions aim to capture minority perspectives by either modelling annotator disagreements or grouping annotators based on shared metadata, both of which face significant challenges. We propose a framework that trains models without encoding annotator metadata, extracts latent embeddings informed by annotator behaviour, and creates clusters of similar opinions, that we refer to as voices. Resulting clusters are validated post-hoc via internal and external quantitative metrics, as well a qualitative analysis to identify the type of voice that each cluster represents. Our results demonstrate the strong generalisation capability of our framework, indicated by resulting clusters being adequately robust, while also capturing minority perspectives based on different demographic factors throughout two distinct datasets.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# 強化学習に基づく運転戦略のハイパーパラメータ最適化

Hyperparameter Optimization for Driving Strategies Based on Reinforcement Learning ( http://arxiv.org/abs/2407.14262v1 )

ライセンス: Link先を確認
Nihal Acharya Adde, Hanno Gottschalk, Andreas Ebert, (参考訳) 本稿では,強化学習に基づく自律走行戦略のハイパーパラメータ最適化に焦点を当てた。 シミュレーション環境におけるRLエージェントのトレーニングの詳細な説明を提供する。 次に、RLにおける超パラメータ最適化にガウスプロセスフィッティングを用いる効率的なグローバル最適化アルゴリズムを用いる。 この最適化フェーズの前に、ラテンハイパーキューブサンプリングを用いてハイパーパラメータセットを生成するサロゲートモデルに適合するためにガウス過程補間を適用する。 評価を加速するため、並列化技術が採用されている。 ハイパーパラメータ最適化手順の後、一連のハイパーパラメータが同定され、全体としての駆動性能が向上する。 既存の手動調整パラメータとラテンハイパーキューブサンプリングを用いて初期化過程で発見されたハイパーパラメータと比較すると, 実質的な増加率は4\%である。 最適化後、得られた結果を徹底的に分析し、学習した自律運転戦略の堅牢性と一般化能力を評価するための感度解析を行う。 本研究は, ガウス過程に基づくベイズ最適化の進歩に寄与し, RLにおける自律走行のためのハイパーパラメーターを最適化し, 効率的かつ信頼性の高い自律走行システムの開発に有用な知見を提供する。

This paper focuses on hyperparameter optimization for autonomous driving strategies based on Reinforcement Learning. We provide a detailed description of training the RL agent in a simulation environment. Subsequently, we employ Efficient Global Optimization algorithm that uses Gaussian Process fitting for hyperparameter optimization in RL. Before this optimization phase, Gaussian process interpolation is applied to fit the surrogate model, for which the hyperparameter set is generated using Latin hypercube sampling. To accelerate the evaluation, parallelization techniques are employed. Following the hyperparameter optimization procedure, a set of hyperparameters is identified, resulting in a noteworthy enhancement in overall driving performance. There is a substantial increase of 4\% when compared to existing manually tuned parameters and the hyperparameters discovered during the initialization process using Latin hypercube sampling. After the optimization, we analyze the obtained results thoroughly and conduct a sensitivity analysis to assess the robustness and generalization capabilities of the learned autonomous driving strategies. The findings from this study contribute to the advancement of Gaussian process based Bayesian optimization to optimize the hyperparameters for autonomous driving in RL, providing valuable insights for the development of efficient and reliable autonomous driving systems.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# L^2CL:グラフ協調フィルタリングのための驚くほど単純な層間コントラスト学習

L^2CL: Embarrassingly Simple Layer-to-Layer Contrastive Learning for Graph Collaborative Filtering ( http://arxiv.org/abs/2407.14266v1 )

ライセンス: Link先を確認
Xinzhou Jin, Jintang Li, Liang Chen, Chenyun Yu, Yuanzhen Xie, Tao Xie, Chengxiang Zhuo, Zang Li, Zibin Zheng, (参考訳) グラフニューラルネットワーク(GNN)は、最近、協調フィルタリングにおいて近隣の信号をモデル化するための効果的なアプローチとして登場した。 この研究ラインに向けて、グラフコントラスト学習(GCL)は、大規模な自己監督信号を生成することにより、監督ラベル不足問題に対処する堅牢な能力を示す。 有効性にもかかわらず、推奨のためのGCLは2つの大きな課題に深刻に悩まされている。 一)GCLは、キー情報を妨害し、望ましくない雑音を生じさせる可能性のあるコントラストのための意味的に異なるビューを生成するために、グラフ拡張に依存している。 i) GCLの現在の研究は、高次相互作用を捉えるために洗練されたネットワークアーキテクチャ(通常はディープ)を用いた表現の対比に重点を置いており、計算複雑性が増大し、準最適トレーニング効率が向上している。 そこで本研究では,レイヤ間コントラスト学習の原則であるL2CLを提案する。 異なる層間のセマンティックな類似性を整合させることで、L2CLは複雑な構造関係の学習を可能にし、確率的データ拡張におけるノイズ摂動を取り除く。 驚くべきことに、L2CLは1ホップのコントラスト学習パラダイムのみを使用して、固有の意味構造をキャプチャし、ノード表現の質を向上させることができ、シンプルで効果的なアーキテクチャへと繋がる。 また,タスク関連情報の最小化におけるL2CLの理論的保証も提供する。 5つの実世界のデータセットに対する大規模な実験は、様々な最先端の協調フィルタリング手法よりも、我々のモデルの方が優れていることを示した。 私たちのコードはhttps://github.com/downeykking/L2CLで利用可能です。

Graph neural networks (GNNs) have recently emerged as an effective approach to model neighborhood signals in collaborative filtering. Towards this research line, graph contrastive learning (GCL) demonstrates robust capabilities to address the supervision label shortage issue through generating massive self-supervised signals. Despite its effectiveness, GCL for recommendation suffers seriously from two main challenges: i) GCL relies on graph augmentation to generate semantically different views for contrasting, which could potentially disrupt key information and introduce unwanted noise; ii) current works for GCL primarily focus on contrasting representations using sophisticated networks architecture (usually deep) to capture high-order interactions, which leads to increased computational complexity and suboptimal training efficiency. To this end, we propose L2CL, a principled Layer-to-Layer Contrastive Learning framework that contrasts representations from different layers. By aligning the semantic similarities between different layers, L2CL enables the learning of complex structural relationships and gets rid of the noise perturbation in stochastic data augmentation. Surprisingly, we find that L2CL, using only one-hop contrastive learning paradigm, is able to capture intrinsic semantic structures and improve the quality of node representation, leading to a simple yet effective architecture. We also provide theoretical guarantees for L2CL in minimizing task-irrelevant information. Extensive experiments on five real-world datasets demonstrate the superiority of our model over various state-of-the-art collaborative filtering methods. Our code is available at https://github.com/downeykking/L2CL.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# RISC-Vコア上の混合精度ニューラルネットワーク:マルチポンプソフトSIMD動作のためのISA拡張

Mixed-precision Neural Networks on RISC-V Cores: ISA extensions for Multi-Pumped Soft SIMD Operations ( http://arxiv.org/abs/2407.14274v1 )

ライセンス: Link先を確認
Giorgos Armeniakos, Alexis Maras, Sotirios Xydis, Dimitrios Soudris, (参考訳) 量子化と混合精度アプローチの最近の進歩は、ニューラルネットワーク(NN)の速度とエネルギー効率を改善するための大きな機会を提供する。 研究により、精度の低い個々のパラメータが、完全精度のパラメータに匹敵する精度に達することが示されている。 しかし、現代の組み込みマイクロプロセッサは、命令セットアーキテクチャ(ISA)拡張と、そのハードウェア設計の両方に関する混合精度NNを非常に限定的にサポートし、混合精度操作の効率的な実行を可能にしている。 本研究は、RISC-VのCPUアーキテクチャにおけるエネルギー効率の高いDNN推論をターゲットとした、混合精度ハードウェア最適化に適したISA拡張を初めて実現したものである。 そこで本研究では,協調ハードウェア設計,混合精度量子化,ISA拡張,サイクル精度エミュレーションにおける推論を可能にするハードウェア・ソフトウェア共同設計フレームワークを提案する。 ハードウェアレベルでは、まずALUユニットを概念実証のマイクロアーキテクチャに拡張し、設定可能な微粒混合精度演算をサポートする。 その後,実行遅延を最小限に抑えるためにマルチポンピングを実装し,ソフトSIMDの最適化を2ビット演算に適用した。 ISAレベルでは、3つの異なるMAC命令がRISC-V ISAを拡張してエンコードされ、それぞれ異なる混合精度オペレーティングモードに対応するコンパイラレベルに露出する。 CIFAR10やImageNetのような広く使われているDNNやデータセットに対する大規模な実験により、我々のフレームワークは平均15倍のエネルギー削減を1%未満の精度損失で達成でき、ISA非依存のRISC-Vコアよりも優れた性能を発揮することが示された。

Recent advancements in quantization and mixed-precision approaches offers substantial opportunities to improve the speed and energy efficiency of Neural Networks (NN). Research has shown that individual parameters with varying low precision, can attain accuracies comparable to full-precision counterparts. However, modern embedded microprocessors provide very limited support for mixed-precision NNs regarding both Instruction Set Architecture (ISA) extensions and their hardware design for efficient execution of mixed-precision operations, i.e., introducing several performance bottlenecks due to numerous instructions for data packing and unpacking, arithmetic unit under-utilizations etc. In this work, we bring together, for the first time, ISA extensions tailored to mixed-precision hardware optimizations, targeting energy-efficient DNN inference on leading RISC-V CPU architectures. To this end, we introduce a hardware-software co-design framework that enables cooperative hardware design, mixed-precision quantization, ISA extensions and inference in cycle-accurate emulations. At hardware level, we firstly expand the ALU unit within our proof-of-concept micro-architecture to support configurable fine grained mixed-precision arithmetic operations. Subsequently, we implement multi-pumping to minimize execution latency, with an additional soft SIMD optimization applied for 2-bit operations. At the ISA level, three distinct MAC instructions are encoded extending the RISC-V ISA, and exposed up to the compiler level, each corresponding to a different mixed-precision operational mode. Our extensive experimental evaluation over widely used DNNs and datasets, such as CIFAR10 and ImageNet, demonstrates that our framework can achieve, on average, 15x energy reduction for less than 1% accuracy loss and outperforms the ISA-agnostic state-of-the-art RISC-V cores.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# メカニカルローテーションによる量子非局所エンタングルメントの生成

Generating quantum non-local entanglement with mechanical rotations ( http://arxiv.org/abs/2407.14276v1 )

ライセンス: Link先を確認
Marko Toroš, Maria Chiara Braidotti, Mauro Paternostro, Miles Padgett, Daniele Faccio, (参考訳) 最近の実験では、非慣性運動が粒子の絡み合いに与える影響の証拠を探索している。 これらの試みの成功は、非慣性運動が起こっている空間スケールと比較して、そのようなテストが「局所的」な空間スケールで行われたという事実によって妨げられている。 本稿では,このようなボトルネックに挑戦することで,フォトニック干渉計の機械的回転によって引き起こされる機構によって絡み合った状態を実現することができるサニャック型干渉計を提案する。 その結果、ベル・クライザー=ホルン=シモニー=ホルト(CHSH)の不等式はツィレルソン境界まで破られ、強い量子非局所性を示す。 本研究は, 量子非局所性制御のための資源として, 曲がった時空と非慣性運動の量子的性質を探索できる実験法を提案するものである。

Recent experiments have searched for evidence of the impact of non-inertial motion on the entanglement of particles. The success of these endeavours has been hindered by the fact that such tests were performed within spatial scales that were only "local" when compared to the spatial scales over which the non-inertial motion was taking place. We propose a Sagnac-like interferometer that, by challenging such bottlenecks, is able to achieve entangled states through a mechanism induced by the mechanical rotation of a photonic interferometer. The resulting states violate the Bell-Clauser-Horne-Shimony-Holt (CHSH) inequality all the way up to the Tsirelson bound, thus signaling strong quantum nonlocality. Our results demonstrate that mechanical rotation can be thought of as resource for controlling quantum non-locality with implications also for recent proposals for experiments that can probe the quantum nature of curved spacetimes and non-inertial motion.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# アルツハイマー病分類のためのパッチベース直観型多型ネットワーク(PIMPNet)

Patch-based Intuitive Multimodal Prototypes Network (PIMPNet) for Alzheimer's Disease classification ( http://arxiv.org/abs/2407.14277v1 )

ライセンス: Link先を確認
Lisa Anita De Santi, Jörg Schlötterer, Meike Nauta, Vincenzo Positano, Christin Seifert, (参考訳) アルツハイマー病(AD)のような認知症の臨床診断を支援するために、構造的磁気共鳴画像(sMRI)のようなボリューム神経画像検査が日常的に適用されている。 神経放射線学者は3D sMRIを用いて、大域および局所脳萎縮や特徴構造の形状変化など、ADによる脳形態の異常を検出し、監視する。 深層学習(DL)モデルに基づく診断システムの開発には,ADのためのsMRIを解析する研究が盛んに行われている。 しかし, sMRI検査から抽出した解剖学的情報は, 正常な加齢によるADパターンと正常な変化とを区別するために, 患者の年齢とともに解釈する必要がある。 この文脈において、部分プロトタイプニューラルネットワークは、DLの計算上の利点を解釈可能な設計アーキテクチャに統合し、医療画像応用において有望な結果を示した。 PIMPNetは3次元画像と人口統計学のための最初の解釈可能なマルチモーダルモデルであり、3次元sMRIと患者の年齢からADのバイナリ分類に適用した。 老朽化プロトタイプは単一モダリティモデルと比較して予測性能を向上しないが、モデルの設計とマルチモーダルプロトタイプトレーニングプロセスの方向性における今後の研究の基盤となる。

Volumetric neuroimaging examinations like structural Magnetic Resonance Imaging (sMRI) are routinely applied to support the clinical diagnosis of dementia like Alzheimer's Disease (AD). Neuroradiologists examine 3D sMRI to detect and monitor abnormalities in brain morphology due to AD, like global and/or local brain atrophy and shape alteration of characteristic structures. There is a strong research interest in developing diagnostic systems based on Deep Learning (DL) models to analyse sMRI for AD. However, anatomical information extracted from an sMRI examination needs to be interpreted together with patient's age to distinguish AD patterns from the regular alteration due to a normal ageing process. In this context, part-prototype neural networks integrate the computational advantages of DL in an interpretable-by-design architecture and showed promising results in medical imaging applications. We present PIMPNet, the first interpretable multimodal model for 3D images and demographics applied to the binary classification of AD from 3D sMRI and patient's age. Despite age prototypes do not improve predictive performance compared to the single modality model, this lays the foundation for future work in the direction of the model's design and multimodal prototype training process
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# ハウスホルダー変換を用いたフラッメント量子埋め込み-アンサンブルに基づく多状態展開

Fragment quantum embedding using the Householder transformation: a multi-state extension based on ensembles ( http://arxiv.org/abs/2407.14278v1 )

ライセンス: Link先を確認
Filip Cernatic, Emmanuel Fromager, Saad Yalouz, (参考訳) Yalouz et al (J. Chem. Phys. 157, 214112, 2022) と Sekaran et al (Phys. Rev. B 104, 035121, 2021; Computation 10, 45, 2022) による最近の研究では、拡張されたシステムに断片を埋め込む新しいツールとしてハウステリア変換を用いて密度行列埋め込み理論 (DMET) が再構成されている。 この変換を参照非干渉型1電子還元密度行列に適用し、破片の浴軌道を構築し、その後の基底状態の計算に不可欠である。 本研究は, これまでの展開を拡大し, 地中および励起状態を含む複数の電子状態の記述への世帯変換の利用を拡大するものである。 アンサンブル非相互作用密度行列に基づいて, 連続した世帯変換によって正確な断片を埋め込むことが可能であり, 浴槽軌道の集合が大きくなることを示す。 解析により, 入浴軌道の数は, 基準アンサンブル密度行列における天然軌道の分数的占有数と直接的に一致することを示した。 また、通常のDMET浴場との接続も行う。 次に、このアンサンブル埋め込みツールを単発DMET計算に用いて、ハバード格子モデルとアブイニシアト水素系において、基底状態と第1励起状態の両方を記述する。 最後に,自己整合性によるアンサンブル埋め込みの促進と今後の展望について考察する。

In recent works by Yalouz et al. (J. Chem. Phys. 157, 214112, 2022) and Sekaran et al. (Phys. Rev. B 104, 035121, 2021; Computation 10, 45, 2022), Density Matrix Embedding Theory (DMET) has been reformulated through the use of the Householder transformation as a novel tool to embed a fragment within extended systems. The transformation was applied to a reference non-interacting one-electron reduced density matrix to construct fragments' bath orbitals, which are crucial for subsequent ground state calculations. In the present work, we expand upon these previous developments and extend the utilization of the Householder transformation to the description of multiple electronic states, including ground and excited states. Based on an ensemble noninteracting density matrix, we demonstrate the feasibility of achieving exact fragment embedding through successive Householder transformations, resulting in a larger set of bath orbitals. We analytically prove that the number of additional bath orbitals scales directly with the number of fractionally occupied natural orbitals in the reference ensemble density matrix. A connection with the regular DMET bath construction is also made. Then, we illustrate the use of this ensemble embedding tool in single-shot DMET calculations to describe both ground and first excited states in a Hubbard lattice model and an ab initio hydrogen system. Lastly, we discuss avenues for enhancing ensemble embedding through self-consistency and explore potential future directions.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# OpenSU3D: ファンデーションモデルを用いたオープンワールド3Dシーン理解

OpenSU3D: Open World 3D Scene Understanding using Foundation Models ( http://arxiv.org/abs/2407.14279v1 )

ライセンス: Link先を確認
Rafay Mohiuddin, Sai Manoj Prakhya, Fiona Collins, Ziyuan Liu, André Borrmann, (参考訳) 本稿では,3次元環境のオープンワールド理解を推し進めるオープンセット,インスタンスレベルの3次元シーン表現を構築するための,新しいスケーラブルなアプローチを提案する。 既存の手法では、事前に構築された3Dシーンと、ポイント単位の機能ベクトル学習によるスケーラビリティの問題があり、複雑なクエリでの有効性が制限される。 提案手法は,2次元基礎モデルを用いてインスタンスレベルのシーン表現を段階的に構築し,マスクや特徴ベクトル,名前,キャプションなどのインスタンスレベルの詳細を効率的に集約することで,これらの制限を克服する。 複雑なクエリ上でのコンテキスト知識と性能を高めるために,特徴ベクトルの融合スキームを導入する。 さらに,ロバストな自動アノテーションと空間推論タスクのための大規模言語モデルについても検討する。 我々は,ScanNetとReplicaの複数のシーンに対する提案手法を,オープンワールド3Dシーン理解における最先端の手法を超越して,ゼロショットの一般化能力を示すデータセットから評価した。

In this paper, we present a novel, scalable approach for constructing open set, instance-level 3D scene representations, advancing open world understanding of 3D environments. Existing methods require pre-constructed 3D scenes and face scalability issues due to per-point feature vector learning, limiting their efficacy with complex queries. Our method overcomes these limitations by incrementally building instance-level 3D scene representations using 2D foundation models, efficiently aggregating instance-level details such as masks, feature vectors, names, and captions. We introduce fusion schemes for feature vectors to enhance their contextual knowledge and performance on complex queries. Additionally, we explore large language models for robust automatic annotation and spatial reasoning tasks. We evaluate our proposed approach on multiple scenes from ScanNet and Replica datasets demonstrating zero-shot generalization capabilities, exceeding current state-of-the-art methods in open world 3D scene understanding.
翻訳日:2024-07-22 17:34:39 公開日:2024-07-19
# 拡散モデルにおけるブレンド概念

How to Blend Concepts in Diffusion Models ( http://arxiv.org/abs/2407.14280v1 )

ライセンス: Link先を確認
Giorgio Longari, Lorenzo Olearo, Simone Melzi, Rafael Peñaloza, Alessandro Raganato, (参考訳) 過去10年間、多次元(ラテント)空間を使って概念を表現しようとする動きがあったが、それでもこれらの概念や理由をどう操作するかは明らかになっていない。 最近の手法では複数の潜在表現とその関連性を利用しており、この研究はさらに絡み合っている。 我々のゴールは、潜在空間における操作が根底にある概念にどのように影響するかを理解することです。 そこで本研究では,拡散モデルを用いた概念ブレンディングの課題について検討する。 拡散モデルは、テキストプロンプトの潜時表現と画像再構成と生成を可能にする潜時空間との間の接続に基づいている。 このタスクにより、異なるテキストベースの組み合わせ戦略を試すことができ、視覚分析により容易に評価できる。 我々の結論は、宇宙操作によるブレンドの概念は可能であるが、最良の戦略はブレンドの文脈に依存する。

For the last decade, there has been a push to use multi-dimensional (latent) spaces to represent concepts; and yet how to manipulate these concepts or reason with them remains largely unclear. Some recent methods exploit multiple latent representations and their connection, making this research question even more entangled. Our goal is to understand how operations in the latent space affect the underlying concepts. To that end, we explore the task of concept blending through diffusion models. Diffusion models are based on a connection between a latent representation of textual prompts and a latent space that enables image reconstruction and generation. This task allows us to try different text-based combination strategies, and evaluate easily through a visual analysis. Our conclusion is that concept blending through space manipulation is possible, although the best strategy depends on the context of the blend.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# QuOp: Nodeの量子演算子表現

QuOp: A Quantum Operator Representation for Nodes ( http://arxiv.org/abs/2407.14281v1 )

ライセンス: Link先を確認
Andrew Vlasic, Salvador Aguinaga, (参考訳) 特殊ユニタリ演算子(英語版)や量子演算子(英語版)を持つグラフ内のノードを表す直感的で斬新な手法が導出され、パラメータ訓練を必要とせず、ノード間の類似性を評価する古典的手法と競合する。 この方法は、ネットワーク構造内の異常を検出する必要があるNLPや他のアプリケーションに量子アルゴリズムを適用する将来の可能性を開く。 具体的には、この手法は高次元ヒルベルト空間のノードを表す量子計算の利点を利用する。 表現を作成するために、所定の数のホップを持つ各ノードの周りの局所位相を計算し、各隣接行列を用いてハミルトニアンを導出する。 ハミルトニアンを導出するノードの局所位相は、グラフの量子回路への自然な拡張であるが、我々の方法は、表現の量子演算子を先入観として仮定するのではなく、隣接行列が表現を定めることによって異なる。 この単純さの結果として、大きさ 2^n \times 2^n$ の隣接行列の集合は特殊ユニタリ作用素のリー代数の部分ベクトル空間 $\mathfrak{su}(2^n)$ を生成する。 この部分ベクトル空間は、特殊ユニタリ作用素のリー群の部分群、$\mathrm{SU}(2^n)$を生成する。 量子埋め込み法の適用例として,GloVe(自然言語処理埋め込み法)やFastRP(グラフ埋め込み法)と比較して,グラフ構造におけるノード間の類似性の測定において優れた性能を示す。

We derive an intuitive and novel method to represent nodes in a graph with special unitary operators, or quantum operators, which does not require parameter training and is competitive with classical methods on scoring similarity between nodes. This method opens up future possibilities to apply quantum algorithms for NLP or other applications that need to detect anomalies within a network structure. Specifically, this technique leverages the advantage of quantum computation, representing nodes in higher dimensional Hilbert spaces. To create the representations, the local topology around each node with a predetermined number of hops is calculated and the respective adjacency matrix is used to derive the Hamiltonian. While using the local topology of a node to derive a Hamiltonian is a natural extension of a graph into a quantum circuit, our method differs by not assuming the quantum operators in the representation a priori, but letting the adjacency matrix dictate the representation. As a consequence of this simplicity, the set of adjacency matrices of size $2^n \times 2^n$ generates a sub-vector space of the Lie algebra of the special unitary operators, $\mathfrak{su}(2^n)$. This sub-vector space in turn generates a subgroup of the Lie group of special unitary operators, $\mathrm{SU}(2^n)$. Applications of our quantum embedding method, in comparison with the classical algorithms GloVe (a natural language processing embedding method) and FastRP (a general graph embedding method, display superior performance in measuring similarity between nodes in graph structures.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# PACCOR4ESP: Platform Attribute Certificatesを使用した組み込みデバイスセキュリティ証明

PACCOR4ESP: Embedded Device Security Attestation using Platform Attribute Certificates ( http://arxiv.org/abs/2407.14286v1 )

ライセンス: Link先を確認
Thomas Grübl, Jan von der Assen, Markus Knecht, Burkhard Stiller, (参考訳) デバイスをセキュアに動作させるためには、組み込みデバイス特性の整合性を検証する必要がある。 1つの中心的な課題は、将来の検証のためにデバイス固有の構成を安全に抽出し、保存することである。 既存のデバイス認証スキームは、標準化の欠如や、プラットフォーム固有のハードウェアとソフトウェアのすべての側面を包含できないなど、顕著な制限に悩まされている。 本稿では、広く使われているマイクロコントローラシリーズであるESP32向けの、NSAサイバーセキュリティ局のプラットフォーム属性認証作成者(PACCOR)の拡張を提案する。 Trusted Computing GroupのPlatform Certificate Profileによると、Platform Attribute Certificatesはデバイス特性を格納する。 現在,組込みデバイス上でのPlatform Attribute Certificatesを利用したハイブリッド認証方式についてはほとんど研究されていない。 本稿では,PACCOR4ESPを用いて攻撃を検知する手法を提案する。 このツールキットは、ファームウェアハッシュ、ブートローダハッシュ、GPIOピン構成、およびセキュア要素の保持キーへの参照などのESP32−S3からセキュリティ関連情報を抽出し、プラットフォーム属性証明書に自動的に埋め込む。 最後に、この研究は、PACCOR4ESPがRAS、CRAFT、SEDAといった既存の組み込みデバイス認証フレームワークとどのように統合できるかを示している。

Verifying the integrity of embedded device characteristics is required to ensure secure operation of a device. One central challenge is to securely extract and store device-specific configurations for future verification. Existing device attestation schemes suffer from notable limitations, including a lack of standardization and a failure to encompass all hardware and software aspects inherent to a platform. This paper proposes an extension of the NSA Cybersecurity Directorate's Platform Attribute Certificate Creator (PACCOR) for the ESP32, a widely-used microcontroller series. Platform Attribute Certificates store device characteristics as per the Trusted Computing Group's Platform Certificate Profile. As of today, there is little research on hybrid attestation schemes utilizing Platform Attribute Certificates on embedded devices, which this work addresses. This paper presents a collection of attacks that can be detected using PACCOR4ESP. The toolkit extracts security-relevant information from an ESP32-S3, such as the firmware hash, bootloader hash, GPIO pin configuration, and a reference to the endorsement key of the secure element, and automatically embeds it into a Platform Attribute Certificate. Lastly, this work shows how PACCOR4ESP can be integrated with existing embedded device attestation frameworks, such as RAS, CRAFT, and SEDA.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# 単一画像レイニングのための適応周波数拡張ネットワーク

Adaptive Frequency Enhancement Network for Single Image Deraining ( http://arxiv.org/abs/2407.14292v1 )

ライセンス: Link先を確認
Fei Yan, Yuhong He, Keyu Chen, En Cheng, Jikang Ma, (参考訳) 画像デライン化は、雨害、雨滴、雨蓄積などの劣化要素を除去することを目的として、雨害による画像の視認性を向上することを目的としている。 多くの単一画像デライン法は、空間領域内での画像強調に有望な結果を示しているが、実際の降雨は、画像全体の周波数スペクトルに不均一な損傷をもたらすことが多く、これらの手法が異なる周波数成分を増強する上での課題となっている。 本稿では,各周波数の画像を適応的に拡張する単一画像デライニングに特化した,新しいエンドツーエンド適応周波数拡張ネットワーク(AFENet)を提案する。 我々は、画像周波数帯域を適応的に分解するために異なるスケールの畳み込みを採用し、異なる周波数成分の特徴を増強する特徴拡張モジュールを導入し、様々な周波数分岐から情報を交換・統合するための新しい相互作用モジュールを提案する。 同時に、周波数帯域の異なる特徴を効率的にかつ適応的に融合し、周波数スペクトル全体の拡張を容易にする特徴集約モジュールを提案する。 このアプローチにより,多様で複雑な降雨パターンを排除し,画像の細部を正確に再構築することが可能になる。 実シーンおよび合成シーンの広汎な実験により,本手法は視覚的にアピールするだけでなく,既存の性能向上手法を超越していることが示された。

Image deraining aims to improve the visibility of images damaged by rainy conditions, targeting the removal of degradation elements such as rain streaks, raindrops, and rain accumulation. While numerous single image deraining methods have shown promising results in image enhancement within the spatial domain, real-world rain degradation often causes uneven damage across an image's entire frequency spectrum, posing challenges for these methods in enhancing different frequency components. In this paper, we introduce a novel end-to-end Adaptive Frequency Enhancement Network (AFENet) specifically for single image deraining that adaptively enhances images across various frequencies. We employ convolutions of different scales to adaptively decompose image frequency bands, introduce a feature enhancement module to boost the features of different frequency components and present a novel interaction module for interchanging and merging information from various frequency branches. Simultaneously, we propose a feature aggregation module that efficiently and adaptively fuses features from different frequency bands, facilitating enhancements across the entire frequency spectrum. This approach empowers the deraining network to eliminate diverse and complex rainy patterns and to reconstruct image details accurately. Extensive experiments on both real and synthetic scenes demonstrate that our method not only achieves visually appealing enhancement results but also surpasses existing methods in performance.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# CoVoSwitch: イントネーション単位に基づく合成コード変換テキストの機械翻訳

CoVoSwitch: Machine Translation of Synthetic Code-Switched Text Based on Intonation Units ( http://arxiv.org/abs/2407.14295v1 )

ライセンス: Link先を確認
Yeeun Kang, (参考訳) 多言語コードスイッチングの研究は、しばしば利用可能なデータセットの欠如と言語的に偏った状態によって妨げられる。 音声からテキストへの変換データセットであるCoVoST 2を用いて、OpenAIのWhisperから微調整された音声セグメント化モデルPSSTで検出されたインネーション単位を置き換えることで、言語表現を拡張するために、コードスイッチングデータを合成する。 13言語にまたがるデータセットであるCoVoSwitchを用いて、M2M-100 418MとNLLB-200 600Mという2つの多言語翻訳モデルのコードスイッチング翻訳性能を評価する。 コードスイッチング・ユニットを組み込むことでモノリンガル・セッティングよりも高い翻訳性能が得られ、非英語よりもコードスイッチング・ユニットを英語に翻訳する方が優れたモデルであることが判明した。 さらに、低リソース言語は、英語に翻訳する際にコードスイッチされたユニットを統合することで、最も多くを得るが、非英語に翻訳する場合はずっと少ない。 低リソース言語への翻訳は、生のコード変更入力よりもパフォーマンスが悪くなります。 我々は,英語のトークンを複写することに長けているが,非英語のトークンに苦しむシステムや,モノリンガル設定におけるオフターゲット問題もコードスイッチング設定に関係していること,および原文の両文に欠落した単語を導入して,コードスイッチング翻訳に幻覚を与えるモデルがあることを見出した。 CoVoSwitchとコードはhttps://github.com/sophiayk20/covoswitch.comで入手できる。

Multilingual code-switching research is often hindered by the lack and linguistically biased status of available datasets. To expand language representation, we synthesize code-switching data by replacing intonation units detected through PSST, a speech segmentation model fine-tuned from OpenAI's Whisper, using a speech-to-text translation dataset, CoVoST 2. With our dataset, CoVoSwitch, spanning 13 languages, we evaluate the code-switching translation performance of two multilingual translation models, M2M-100 418M and NLLB-200 600M. We reveal that the inclusion of code-switching units results in higher translation performance than monolingual settings and that models are better at code-switching translation into English than non-English. Further, low-resource languages gain most from integration of code-switched units when translating into English but much less when translating into non-English. Translations into low-resource languages also perform worse than even raw code-switched inputs. We find that systems excel at copying English tokens but struggle with non-English tokens, that the off-target problem in monolingual settings is also relevant in code-switching settings, and that models hallucinate in code-switching translation by introducing words absent in both of the original source sentences. CoVoSwitch and code are available at https://github.com/sophiayk20/covoswitch.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# 非構造環境における自律ロボットの基礎モデル

Foundation Models for Autonomous Robots in Unstructured Environments ( http://arxiv.org/abs/2407.14296v1 )

ライセンス: Link先を確認
Hossein Naderi, Alireza Shojaei, (参考訳) 建設現場などの非構造環境におけるロボットによる作業の自動化は長年にわたって望まれてきた。 しかし、これらの設定における予測不可能なイベントの度合いは、製造のようなより構造化された設定よりもはるかに少ない。 近年,Large Language Models (LLMs) のような事前訓練された基礎モデルは,学習データに存在しない問題に対するゼロショットソリューションを提供することによって,非構造化環境にロボットを導入するための潜在的な解決策として提案されている。 そこで本研究では,多次元的観点から,事前学習した基礎モデルの潜在可能性と課題について検討する。 この研究は、ロボットと非構造環境の2つの分野における基礎モデルの応用を体系的にレビューし、それらを熟考的行動理論で合成した。 LLMの言語能力は、人間とロボットの相互作用の知覚を改善するために、他の特徴よりも利用されてきた。 一方, LLMの使用は, 建設におけるプロジェクト管理と安全, 災害管理における自然災害検出により多くの応用があることが示唆された。 これらの知見を合成し、この分野の最先端の技術を5段階の自動化スケールに配置し、条件付き自動化に配置した。 この評価は、自律的な安全な非構造環境に対する将来のシナリオ、課題、解決策を想定するために使用された。 私たちの研究は、その将来に向けての進捗を追跡するためのベンチマークと見なすことができます。

Automating activities through robots in unstructured environments, such as construction sites, has been a long-standing desire. However, the high degree of unpredictable events in these settings has resulted in far less adoption compared to more structured settings, such as manufacturing, where robots can be hard-coded or trained on narrowly defined datasets. Recently, pretrained foundation models, such as Large Language Models (LLMs), have demonstrated superior generalization capabilities by providing zero-shot solutions for problems do not present in the training data, proposing them as a potential solution for introducing robots to unstructured environments. To this end, this study investigates potential opportunities and challenges of pretrained foundation models from a multi-dimensional perspective. The study systematically reviews application of foundation models in two field of robotic and unstructured environment and then synthesized them with deliberative acting theory. Findings showed that linguistic capabilities of LLMs have been utilized more than other features for improving perception in human-robot interactions. On the other hand, findings showed that the use of LLMs demonstrated more applications in project management and safety in construction, and natural hazard detection in disaster management. Synthesizing these findings, we located the current state-of-the-art in this field on a five-level scale of automation, placing them at conditional automation. This assessment was then used to envision future scenarios, challenges, and solutions toward autonomous safe unstructured environments. Our study can be seen as a benchmark to track our progress toward that future.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# ビザンチン系耐故障性コンセンサスブロックチェーンにおけるブロック時間分布の理論解析

Theoretical Analysis on Block Time Distributions in Byzantine Fault-Tolerant Consensus Blockchains ( http://arxiv.org/abs/2407.14299v1 )

ライセンス: Link先を確認
Akihiro Fujihara, (参考訳) いくつかのブロックチェーンネットワークでは、ビザンツのフォールトトレランスを特徴とする分散コンセンサスアルゴリズムを採用している。 特に、コスモスやテゾスのような公共チェーンでは、このアルゴリズムが採用されている。 これらのブロックチェーンは、ほぼ一定のブロック生成時間を維持していると一般的に仮定されているが、経験的分析では、この間隔での変動が明らかになっている。 本稿では,ブロック時間の確率分布を理論的に解析することを目的とした,ビザンチンのフォールトトレラントコンセンサスブロックチェーンにおけるブロック伝搬と検証の過程を考慮した数学的モデルを提案する。 まず,検証ノード間の放送通信を管理する確率過程を提案する。 その結果,検証ノード間の放送時間の確率分布がガムベル分布に依存していることが理論的に証明された。 この発見は、ブロック時間の分布が典型的に複数のガムベル分布から生じることを示している。 さらに,データ解析に適したブロック時間分布の近似式を導出する。 この近似を実世界のブロック時間データに適用することにより、ブロック時間分布パラメータの一貫した推定を実証する。

Some blockchain networks employ a distributed consensus algorithm featuring Byzantine fault tolerance. Notably, certain public chains, such as Cosmos and Tezos, which operate on a proof-of-stake mechanism, have adopted this algorithm. While it is commonly assumed that these blockchains maintain a nearly constant block creation time, empirical analysis reveals fluctuations in this interval; this phenomenon has received limited attention. In this paper, we propose a mathematical model to account for the processes of block propagation and validation within Byzantine fault-tolerant consensus blockchains, aiming to theoretically analyze the probability distribution of block time. First, we propose stochastic processes governing the broadcasting communications among validator nodes. Consequently, we theoretically demonstrate that the probability distribution of broadcast time among validator nodes adheres to the Gumbel distribution. This finding indicates that the distribution of block time typically arises from convolving multiple Gumbel distributions. Additionally, we derive an approximate formula for the block time distribution suitable for data analysis purposes. By fitting this approximation to real-world block time data, we demonstrate the consistent estimation of block time distribution parameters.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# Dyn-Adapter:効率的な視覚認識のためのアンタングル表現に向けて

Dyn-Adapter: Towards Disentangled Representation for Efficient Visual Recognition ( http://arxiv.org/abs/2407.14302v1 )

ライセンス: Link先を確認
Yurong Zhang, Honghao Chen, Xinyu Zhang, Xiangxiang Chu, Li Song, (参考訳) パラメータ効率変換学習(PETL)は,大規模事前学習モデルの下流タスクへの適応を比較的控えめなコストで実現する,有望な課題である。 しかし、現在のPETL法は計算複雑性の圧縮に苦慮し、完全なフォワードプロセスのために重い推論負荷を負う。 本稿では,複数のレベルの特徴を包含することによってPETL効率を向上させる動的適応(Dyn-Adapter)と呼ばれる,効率的な視覚認識パラダイムを提案する。 まず、適応的なトレーニング戦略とともに、複数レベルの特徴抽出のためのバランスの取れた初期ヘッドを持つ動的アーキテクチャを考案します。 第二に、強力な一般化能力の追求による双方向の疎性戦略を導入する。 これらの特性により、推論中のFLOPを50%削減し、高い認識精度を維持したり、取得したりすることができる。 多様なデータセットと事前訓練されたバックボーンに関する広範な実験は、視覚認識タスクにおけるPETLの一般的な効率向上剤として機能するDyn-Adapterの可能性を示している。

Parameter-efficient transfer learning (PETL) is a promising task, aiming to adapt the large-scale pre-trained model to downstream tasks with a relatively modest cost. However, current PETL methods struggle in compressing computational complexity and bear a heavy inference burden due to the complete forward process. This paper presents an efficient visual recognition paradigm, called Dynamic Adapter (Dyn-Adapter), that boosts PETL efficiency by subtly disentangling features in multiple levels. Our approach is simple: first, we devise a dynamic architecture with balanced early heads for multi-level feature extraction, along with adaptive training strategy. Second, we introduce a bidirectional sparsity strategy driven by the pursuit of powerful generalization ability. These qualities enable us to fine-tune efficiently and effectively: we reduce FLOPs during inference by 50%, while maintaining or even yielding higher recognition accuracy. Extensive experiments on diverse datasets and pretrained backbones demonstrate the potential of Dyn-Adapter serving as a general efficiency booster for PETL in vision recognition tasks.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# 時空間マネーアライメントを用いた多変量信号のマルチソース・テスト時間領域適応

Multi-Source and Test-Time Domain Adaptation on Multivariate Signals using Spatio-Temporal Monge Alignment ( http://arxiv.org/abs/2407.14303v1 )

ライセンス: Link先を確認
Théo Gnassounou, Antoine Collas, Rémi Flamary, Karim Lounici, Alexandre Gramfort, (参考訳) コンピュータビジョンやバイオメディカルデータなどの信号に対する機械学習の応用は、ハードウェアデバイスやセッション記録にまたがる変動のため、しばしば重大な課題に直面している。 この可変性は、データ分散のトレーニングとテストがしばしば異なるため、ドメイン適応(DA)問題を引き起こす。 本研究では,これらの変動を緩和するために,時空間モンジュアライメント(STMA)を提案する。 この最適輸送(OT)に基づく手法は、多変量信号のクロスパワースペクトル密度(クロスPSD)を、ソースドメイン(マルチソースDA)のWassersteinバリセンタにマッピングすることで適用する。 新しいドメインの予測は、ソースデータ(テストタイムDA)でモデルを再トレーニングすることなく、フィルタリングによって行うことができる。 また,TMA(Temporal Monge Alignment)とSMA(Spatial Monge Alignment)の2つの特殊な事例について検討した。 非漸近濃度境界は写像推定のために導出され、信号長が$n_\ell$の分散減衰率$\mathcal{O}(n_\ell^{-1/2})$のバイアス+分散誤差構造を示す。 この理論的な保証は、提案した計算スキーマの効率性を示す。 多変量バイオシグナーと画像データに関する数値実験により、STMAは、非常に異なる設定で取得したデータセット間で有意かつ一貫したパフォーマンス向上をもたらすことが示された。 特にSTMAは、最先端のディープラーニング手法を補完する前処理ステップである。

Machine learning applications on signals such as computer vision or biomedical data often face significant challenges due to the variability that exists across hardware devices or session recordings. This variability poses a Domain Adaptation (DA) problem, as training and testing data distributions often differ. In this work, we propose Spatio-Temporal Monge Alignment (STMA) to mitigate these variabilities. This Optimal Transport (OT) based method adapts the cross-power spectrum density (cross-PSD) of multivariate signals by mapping them to the Wasserstein barycenter of source domains (multi-source DA). Predictions for new domains can be done with a filtering without the need for retraining a model with source data (test-time DA). We also study and discuss two special cases of the method, Temporal Monge Alignment (TMA) and Spatial Monge Alignment (SMA). Non-asymptotic concentration bounds are derived for the mappings estimation, which reveals a bias-plus-variance error structure with a variance decay rate of $\mathcal{O}(n_\ell^{-1/2})$ with $n_\ell$ the signal length. This theoretical guarantee demonstrates the efficiency of the proposed computational schema. Numerical experiments on multivariate biosignals and image data show that STMA leads to significant and consistent performance gains between datasets acquired with very different settings. Notably, STMA is a pre-processing step complementary to state-of-the-art deep learning methods.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# 実世界モデル故障検出のための補完学習

Complementary Learning for Real-World Model Failure Detection ( http://arxiv.org/abs/2407.14306v1 )

ライセンス: Link先を確認
Daniel Bogdoll, Finn Sartoris, Vincent Geppert, Svetlana Pavlitska, J. Marius Zöllner, (参考訳) 実世界の自動運転において、ディープラーニングモデルは、トレーニングデータと遭遇した運転条件の間の分散シフトによる性能劣化を経験することができる。 機械学習の典型例であるように、大規模で潜在的に代表的なラベル付きテストセットを取得して、野に展開する準備としてモデルを検証することは困難である。 本研究では,異なる学習パラダイムから学習した特徴をモデルエラーの検出に用いる補完学習を紹介する。 本手法は, 点群における意味的および予測的動作ラベルを, 教師付きかつ自己監督的な方法で学習し, モデルの違いを検出し, 分類することによって実証する。 我々は大規模定性解析を行い、LidarCODAはライダー点雲にラベル付き異常を持つ最初のデータセットであり、広範囲な定量的解析を行う。

In real-world autonomous driving, deep learning models can experience performance degradation due to distributional shifts between the training data and the driving conditions encountered. As is typical in machine learning, it is difficult to acquire a large and potentially representative labeled test set to validate models in preparation for deployment in the wild. In this work, we introduce complementary learning, where we use learned characteristics from different training paradigms to detect model errors. We demonstrate our approach by learning semantic and predictive motion labels in point clouds in a supervised and self-supervised manner and detect and classify model discrepancies subsequently. We perform a large-scale qualitative analysis and present LidarCODA, the first dataset with labeled anomalies in lidar point clouds, for an extensive quantitative analysis.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# 読者をエンゲージする方法 : アクティブリーディングを促進するための指導的質問の生成

How to Engage Your Readers? Generating Guiding Questions to Promote Active Reading ( http://arxiv.org/abs/2407.14309v1 )

ライセンス: Link先を確認
Peng Cui, Vilém Zouhar, Xiaoyu Zhang, Mrinmaya Sachan, (参考訳) テキストで質問を使うことは、読みやすさを高める効果的な戦略である。 しかし、アクティブ・リーディング・質問がよいもの、これらの質問の言語的役割がどのようなもので、人間の読書にどのような影響を及ぼすかは、いまだ検討されていない。 教科書や科学論文から10Kのインテキスト質問のデータセットであるGuidingQを紹介した。 データセットを解析することにより,これらの質問の使用,分布,言語的特徴を包括的に理解する。 そこで本稿では,言語モデルを用いてこのような質問を生成するための様々なアプローチについて検討する。 本研究は,質問間の関係を捉えることの重要性と,これらの質問を生成する上での質問位置識別の課題を強調した。 最後に,このような質問が読解に与える影響を理解するために人間による研究を行う。 生成した質問は高品質であり、読者の記憶と理解を改善するという意味では、人間による質問と同程度に効果的であることがわかった。

Using questions in written text is an effective strategy to enhance readability. However, what makes an active reading question good, what the linguistic role of these questions is, and what is their impact on human reading remains understudied. We introduce GuidingQ, a dataset of 10K in-text questions from textbooks and scientific articles. By analyzing the dataset, we present a comprehensive understanding of the use, distribution, and linguistic characteristics of these questions. Then, we explore various approaches to generate such questions using language models. Our results highlight the importance of capturing inter-question relationships and the challenge of question position identification in generating these questions. Finally, we conduct a human study to understand the implication of such questions on reading comprehension. We find that the generated questions are of high quality and are almost as effective as human-written questions in terms of improving readers' memorization and comprehension.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# 可視・近赤外領域におけるFe(Te,Se)超伝導体のナノメートル薄膜の温度依存性光学定数

Temperature-Dependent Optical Constants of Nanometer-thin Flakes of Fe(Te,Se) Superconductor in the Visible and Near-Infrared Regime ( http://arxiv.org/abs/2407.14310v1 )

ライセンス: Link先を確認
Aswini K. Pattanayak, Jagi Rout, Pankaj K. Jha, (参考訳) Fe(Te,Se) などの鉄カルコゲナイド超伝導体は, 比較的簡単な合成プロセス, 高温超伝導, 内在的トポロジカルバンド構造, 強磁性による非伝統的な超伝導のペアリングにより, 結晶構造が著しく注目されている。 本稿では, 単結晶FeTe$_{\text{0.6}}$Se$_{\text{0.4}}$ 450〜1100 nmの光子波長を4K〜295Kの範囲で測定し, 多バンド超伝導体であるFe(Te,Se)の誘電関数に対する2次元モデルを用いて, 絶対反射スペクトルを固定した。 可視から近赤外域における高い消光係数は、ナノメートルの薄いFe(Te,Se)を光検出のための有望な材料にする。

Iron chalcogenides superconductors, such as Fe(Te,Se) have recently garnered significant attention due to their simple crystal structure with a relatively easy synthesis process, high-temperature superconductivity, intrinsic topological band structure, and an unconventional pairing of superconductivity with ferromagnetism. Here, we report the complex in-plane refractive index measurement of nanometer-thin Fe(Te,Se) flake exfoliated from a single crystal FeTe$_{\text{0.6}}$Se$_{\text{0.4}}$ for photon wavelengths from 450 to 1100 nm over a temperature range from 4 K to 295 K. The results were obtained by employing a two-Drude model for the dielectric function of Fe(Te,Se), a multiband superconductor, and fitting the absolute optical reflection spectra using the transfer matrix method. A high extinction coefficient in the visible to near-infrared range makes nanometer-thin Fe(Te,Se) flakes a promising material for photodetection applications.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# EmoCAM:CNNをベースとした感情認識の理解に向けて

EmoCAM: Toward Understanding What Drives CNN-based Emotion Recognition ( http://arxiv.org/abs/2407.14314v1 )

ライセンス: Link先を確認
Youssef Doulfoukar, Laurent Mertens, Joost Vennekens, (参考訳) 畳み込みニューラルネットワークは、画像分類、オブジェクト認識、イメージセグメンテーションなどの画像解析タスクに特に適している。 しかし、他のニューラルネットワークと同様に、それらは「ブラックボックス」モデルであり、説明性に乏しい。 この研究は、画像からの感情認識の特定の下流タスクに関係しており、CAMベースの手法とコーパスレベルでのオブジェクト検出を組み合わせたフレームワークを提案し、特定のモデル、例えばEmoNetでは、イメージに特定の感情を割り当てることに頼っている。 モデルは主に人間の特徴に焦点をあてるが、特定の画像修正の顕著な効果についても検討する。

Convolutional Neural Networks are particularly suited for image analysis tasks, such as Image Classification, Object Recognition or Image Segmentation. Like all Artificial Neural Networks, however, they are "black box" models, and suffer from poor explainability. This work is concerned with the specific downstream task of Emotion Recognition from images, and proposes a framework that combines CAM-based techniques with Object Detection on a corpus level to better understand on which image cues a particular model, in our case EmoNet, relies to assign a specific emotion to an image. We demonstrate that the model mostly focuses on human characteristics, but also explore the pronounced effect of specific image modifications.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# ジョイントまたはディジョイント:初期モデルのための混合トレーニングレジーム

Joint or Disjoint: Mixing Training Regimes for Early-Exit Models ( http://arxiv.org/abs/2407.14320v1 )

ライセンス: Link先を確認
Bartłomiej Krzepkowski, Monika Michaluk, Franciszek Szarwacki, Piotr Kubaty, Jary Pomponi, Tomasz Trzciński, Bartosz Wójcik, Kamil Adamczewski, (参考訳) アーリーエグジットは、ディープニューラルネットワークに統合された重要な効率メカニズムであり、ネットワークのフォワードパスが終了して、すべてのレイヤを処理できるようになる。 信頼度の高い少ない入力に対する推論プロセスの早期停止を可能にすることで、早期終了は計算量を大幅に削減した。 早期終了メソッドはトレーニングプロセスにおいてより複雑になるトレーニング可能な内部分類器を追加する。 しかし、早期出口法の訓練方法のアプローチについては一貫した検証は行わず、そのようなモデルを統一的に訓練する方法も存在しない。 初期の出口法のほとんどは、バックボーンネットワークと出口ヘッドを同時に訓練するか、出口ヘッドを別々に訓練する訓練戦略を採用している。 本稿では,バックボーンを自力でトレーニングし,その後にバックボーンと出口ヘッドを併用したトレーニング手法を提案する。 そこで我々は,早期退学訓練戦略を3つの異なるカテゴリに整理し,その性能と効率性について検証することを提唱する。 本ベンチマークでは,早期退学訓練体制の理論的および経験的分析を行う。 本手法は,情報フロー,損失景観,アクティベーションの数値的ランクといった観点から検討し,各種アーキテクチャやデータセットに対するレジームの適合性を評価する。

Early exits are an important efficiency mechanism integrated into deep neural networks that allows for the termination of the network's forward pass before processing through all its layers. By allowing early halting of the inference process for less complex inputs that reached high confidence, early exits significantly reduce the amount of computation required. Early exit methods add trainable internal classifiers which leads to more intricacy in the training process. However, there is no consistent verification of the approaches of training of early exit methods, and no unified scheme of training such models. Most early exit methods employ a training strategy that either simultaneously trains the backbone network and the exit heads or trains the exit heads separately. We propose a training approach where the backbone is initially trained on its own, followed by a phase where both the backbone and the exit heads are trained together. Thus, we advocate for organizing early-exit training strategies into three distinct categories, and then validate them for their performance and efficiency. In this benchmark, we perform both theoretical and empirical analysis of early-exit training regimes. We study the methods in terms of information flow, loss landscape and numerical rank of activations and gauge the suitability of regimes for various architectures and datasets.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# 大規模視覚言語モデルを用いたマルチモーダル誤情報検出

Multimodal Misinformation Detection using Large Vision-Language Models ( http://arxiv.org/abs/2407.14321v1 )

ライセンス: Link先を確認
Sahar Tahmasebi, Eric Müller-Budack, Ralph Ewerth, (参考訳) 誤情報の増加とその脅威的影響は、誤情報検出と事実確認のためのアプローチを開発するために、産業と学術の両方を動機付けている。 大規模言語モデル(LLM)の最近の進歩は、様々なタスクにおいて顕著な性能を示しているが、LLMが誤情報検出にどのように役立つかは、まだ明らかにされていない。 既存の最先端のアプローチのほとんどは、証拠を考慮せず、主張に関連する特徴のみに焦点を当てるか、提供すべき証拠を仮定する。 誤情報検出の一部としてエビデンス検索を考えるアプローチはほとんどないが、微調整モデルに依存している。 本稿では,ゼロショット設定における誤情報検出のためのLLMの可能性について検討する。 このプロセスには証拠検索コンポーネントが組み込まれており,クレームの正確性を検出するために,さまざまなソースから関連する情報を収集することが重要である。 そこで本研究では,LLMと大規模視覚言語モデル(LVLM)を併用したマルチモーダルエビデンス検索手法を提案する。 得られたエビデンスサンプル(画像とテキスト)は、マルチモーダル事実検証(LVLM4FV)のためのLVLMベースのアプローチの入力となる。 公平な評価を可能にするため,既存の証拠検索データセットにおいて,画像検索とテキスト検索の両方に対して,より完全な証拠サンプルを注釈付けすることで,証拠サンプルの不完全な根拠真理の問題に対処する。 2つのデータセットに対する実験結果は、エビデンス検索と事実検証の両方において提案手法の優位性を示し、また、教師付きベースラインと比較してデータセット全体の一般化能力も向上した。

The increasing proliferation of misinformation and its alarming impact have motivated both industry and academia to develop approaches for misinformation detection and fact checking. Recent advances on large language models (LLMs) have shown remarkable performance in various tasks, but whether and how LLMs could help with misinformation detection remains relatively underexplored. Most of existing state-of-the-art approaches either do not consider evidence and solely focus on claim related features or assume the evidence to be provided. Few approaches consider evidence retrieval as part of the misinformation detection but rely on fine-tuning models. In this paper, we investigate the potential of LLMs for misinformation detection in a zero-shot setting. We incorporate an evidence retrieval component into the process as it is crucial to gather pertinent information from various sources to detect the veracity of claims. To this end, we propose a novel re-ranking approach for multimodal evidence retrieval using both LLMs and large vision-language models (LVLM). The retrieved evidence samples (images and texts) serve as the input for an LVLM-based approach for multimodal fact verification (LVLM4FV). To enable a fair evaluation, we address the issue of incomplete ground truth for evidence samples in an existing evidence retrieval dataset by annotating a more complete set of evidence samples for both image and text retrieval. Our experimental results on two datasets demonstrate the superiority of the proposed approach in both evidence retrieval and fact verification tasks and also better generalization capability across dataset compared to the supervised baseline.
翻訳日:2024-07-22 17:24:54 公開日:2024-07-19
# テキスト・画像拡散モデルによるマンモグラムのパノプティカルセグメンテーション

Panoptic Segmentation of Mammograms with Text-To-Image Diffusion Model ( http://arxiv.org/abs/2407.14326v1 )

ライセンス: Link先を確認
Kun Zhao, Jakub Prokop, Javier Montalt Tordera, Sadegh Mohammadi, (参考訳) 乳がんの監視と早期診断にはマンモグラフィーが不可欠である。 しかし、マンモグラフィー画像の解析は、毎日何百ものマンモグラフィーをレビューし、過剰な診断と過剰な治療に繋がる放射線医にとって、要求される課題である。 CAD(Computer-Aided Diagnosis)システムは,このプロセスを支援するために開発されたが,特に病変のセグメンテーションにおいて,その能力は限定的であった。 ディープラーニングの現代的進歩により、パフォーマンスが向上する可能性がある。 近年、視覚言語拡散モデルが登場し、様々な下流タスクに対する画像生成と転送性に優れた性能を示した。 本研究の目的は,乳房病変のセグメンテーションにおいて,意味的およびインスタンスレベルの予測を包含する機能を利用することである。 具体的には、安定拡散モデルからの事前学習した特徴を、最先端の汎視的セグメンテーションアーキテクチャへの入力として活用し、個々の乳房病変の正確なデライン化を実現することを提案する。 自然画像領域と医用画像領域のギャップを埋めるために,マンモグラフィー固有のMAM-E拡散モデルとBiomedCLIP画像とテキストエンコーダをこのフレームワークに組み込んだ。 最近発表された2つのマンモグラフィーデータセットであるCDD-CESMとVinDr-Mammoについて検討した。 事例分割作業では40.25 AP0.1,46.82 AP0.05,25.44 PQ0.1,26.92 PQ0.05が報告された。 セマンティックセグメンテーションタスクでは,それぞれ38.86点,40.92点のDiceスコアを得た。

Mammography is crucial for breast cancer surveillance and early diagnosis. However, analyzing mammography images is a demanding task for radiologists, who often review hundreds of mammograms daily, leading to overdiagnosis and overtreatment. Computer-Aided Diagnosis (CAD) systems have been developed to assist in this process, but their capabilities, particularly in lesion segmentation, remained limited. With the contemporary advances in deep learning their performance may be improved. Recently, vision-language diffusion models emerged, demonstrating outstanding performance in image generation and transferability to various downstream tasks. We aim to harness their capabilities for breast lesion segmentation in a panoptic setting, which encompasses both semantic and instance-level predictions. Specifically, we propose leveraging pretrained features from a Stable Diffusion model as inputs to a state-of-the-art panoptic segmentation architecture, resulting in accurate delineation of individual breast lesions. To bridge the gap between natural and medical imaging domains, we incorporated a mammography-specific MAM-E diffusion model and BiomedCLIP image and text encoders into this framework. We evaluated our approach on two recently published mammography datasets, CDD-CESM and VinDr-Mammo. For the instance segmentation task, we noted 40.25 AP0.1 and 46.82 AP0.05, as well as 25.44 PQ0.1 and 26.92 PQ0.05. For the semantic segmentation task, we achieved Dice scores of 38.86 and 40.92, respectively.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# Modality-Order Matters! CoSAmのための新しい階層的特徴融合法:コード変換自閉症コーパス

Modality-Order Matters! A Novel Hierarchical Feature Fusion Method for CoSAm: A Code-Switched Autism Corpus ( http://arxiv.org/abs/2407.14328v1 )

ライセンス: Link先を確認
Mohd Mujtaba Akhtar, Girish, Muskaan Singh, Orchid Chetia Phukan, (参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は複雑な神経発達障害であり、社会的相互作用、コミュニケーション、そして異なる状況における反復行動の表現において困難を呈する。 この頻度の増大は、主要な公衆衛生問題としてのASDの重要性と、障害とその早期発見方法の理解を深めるための総合的な研究イニシアチブの必要性を浮き彫りにしている。 本研究は, 音声のコードスイッチング(英語とヒンディー語)の分析を通じて, 幼児の早期ASD検出を促進するための新しい階層的特徴融合手法を提案する。 高度なオーディオ処理技術を用いて、トランスフォーマーエンコーダを用いた音響情報、パラ言語情報、言語情報を統合する。 この革新的な融合戦略は、分類の堅牢性と正確性を改善するために設計されており、早期かつ正確なSD識別に不可欠である。 この手法は、コードスイッチされた音声コーパスであるCoSAmを、ASDと一致した制御グループと診断された子供から収集する。 このデータセットは、ALDと診断された30人の子供から61人の音声記録と、3歳から13歳までの神経型児から31人の音声記録からなり、合計159.75分間の音声記録が得られた。 この特徴分析は、音声パターンの多様性と複雑さを捉えるために、MFCCと広範な統計属性に焦点を当てている。 最良のモデル性能は、まず音響的特徴と言語学的特徴の組み合わせを用いて98.75%の精度で階層的融合法を用いて達成され、次いで階層的手法でパラ言語的特徴を呈する。

Autism Spectrum Disorder (ASD) is a complex neuro-developmental challenge, presenting a spectrum of difficulties in social interaction, communication, and the expression of repetitive behaviors in different situations. This increasing prevalence underscores the importance of ASD as a major public health concern and the need for comprehensive research initiatives to advance our understanding of the disorder and its early detection methods. This study introduces a novel hierarchical feature fusion method aimed at enhancing the early detection of ASD in children through the analysis of code-switched speech (English and Hindi). Employing advanced audio processing techniques, the research integrates acoustic, paralinguistic, and linguistic information using Transformer Encoders. This innovative fusion strategy is designed to improve classification robustness and accuracy, crucial for early and precise ASD identification. The methodology involves collecting a code-switched speech corpus, CoSAm, from children diagnosed with ASD and a matched control group. The dataset comprises 61 voice recordings from 30 children diagnosed with ASD and 31 from neurotypical children, aged between 3 and 13 years, resulting in a total of 159.75 minutes of voice recordings. The feature analysis focuses on MFCCs and extensive statistical attributes to capture speech pattern variability and complexity. The best model performance is achieved using a hierarchical fusion technique with an accuracy of 98.75% using a combination of acoustic and linguistic features first, followed by paralinguistic features in a hierarchical manner.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# より効率的な視覚適応のためのストレートフォワード層ワイズプルーニング

Straightforward Layer-wise Pruning for More Efficient Visual Adaptation ( http://arxiv.org/abs/2407.14330v1 )

ライセンス: Link先を確認
Ruizi Han, Jinglei Tang, (参考訳) パラメータ効率変換学習(PETL)は,限られたパラメータを用いて事前学習された大規模なモデルに適応することを目的としている。 ほとんどのPETLアプローチでは、追加パラメータを更新し、トレーニング中にトレーニング済みの重みを凍結するが、PETLでは変更できないため、タスク固有の深い層がクロスドメインデータに与える影響は最小限に抑えられる。 構造的プルーニングはモデル冗長性を効果的に減少させるが、一般的なプルーニング法は、プルーニング率とデータに基づく様々なプルーニング構造のために、保存されたパラメータが過剰に増加する。 記憶パラメータのボリューム問題を認識し,SLSと呼ばれるStraightforward層ワイドプルーニング法を提案し,PETL変換モデルのプルーニングを行う。 SLSは, 各層の特徴的観点からパラメータを評価し, t-SNEにより得られる低次元空間におけるクラスタリング現象に基づいて, クラスタリング指標を用いて現在のパラメータを評価することにより, 情報解析の意思決定を容易にする。 本研究は, プレニング指標の保存に焦点をあてたレイヤワイドプルーニングが, ストレージ容量の懸念に対処することを明らかにする。 特に、メインストリームのレイヤワイドプルーニング手法は、ほとんどのパラメータが事前トレーニングされ、下流データセットとの関係が限定されているPETL転送モデルにおいて、レイヤの重要性を評価するには適していないかもしれない。 最新のPETL法との比較分析により, 刈り取られたモデルが, モデルのスループットと精度との間に顕著なバランスを保っていることが示された。 さらに,SLSは,従来の刈り込み法と比較して,刈り込みモデルの精度と速度を高めつつ,様々な刈り込み構造から生じる貯蔵オーバーヘッドを効果的に低減する。

Parameter-efficient transfer learning (PETL) aims to adapt large pre-trained models using limited parameters. While most PETL approaches update the added parameters and freeze pre-trained weights during training, the minimal impact of task-specific deep layers on cross-domain data poses a challenge as PETL cannot modify them, resulting in redundant model structures. Structural pruning effectively reduces model redundancy; however, common pruning methods often lead to an excessive increase in stored parameters due to varying pruning structures based on pruning rates and data. Recognizing the storage parameter volume issue, we propose a Straightforward layer-wise pruning method, called SLS, for pruning PETL-transferred models. By evaluating parameters from a feature perspective of each layer and utilizing clustering metrics to assess current parameters based on clustering phenomena in low-dimensional space obtained through t-SNE, SLS facilitates informed pruning decisions. Our study reveals that layer-wise pruning, with a focus on storing pruning indices, addresses storage volume concerns. Notably, mainstream Layer-wise pruning methods may not be suitable for assessing layer importance in PETL-transferred models, where the majority of parameters are pre-trained and have limited relevance to downstream datasets. Comparative analysis against state-of-the-art PETL methods demonstrates that the pruned model achieved a notable balance between model throughput and accuracy. Moreover, SLS effectively reduces storage overhead arising from varying pruned structures while enhancing the accuracy and speed of pruned models compared to conventional pruning methods.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# 高効率単一画像超解像のための大カーネル蒸留網

Large Kernel Distillation Network for Efficient Single Image Super-Resolution ( http://arxiv.org/abs/2407.14340v1 )

ライセンス: Link先を確認
Chengxing Xie, Xiaoming Zhang, Linze Li, Haiteng Meng, Tianlin Zhang, Tianrui Li, Xiaole Zhao, (参考訳) 近年,高効率かつ軽量なシングルイメージ超解像 (SISR) が注目されている。 1つの効果的なアプローチは、大きなカーネル設計を使用することで、SISRモデルの性能を向上し、計算要求を減らした。 しかし、現在のSOTA(State-of-the-art)モデルは高い計算コストなどの問題に直面している。 本稿では,LKDN(Large Kernel Distillation Network)を提案する。 提案手法は, モデル構造を単純化し, 計算コストを低減し, 性能の向上を図るため, より効率的なアテンションモジュールを導入する。 具体的には、余分なコストを伴わずにモデル性能を向上させるために、再パラメータ化手法を用いる。 また、他のタスクからSISRに新しいオプティマイザを導入し、トレーニング速度とパフォーマンスを改善しました。 実験の結果,LKDNは既存の軽量SR法より優れ,SOTA性能が向上していることがわかった。

Efficient and lightweight single-image super-resolution (SISR) has achieved remarkable performance in recent years. One effective approach is the use of large kernel designs, which have been shown to improve the performance of SISR models while reducing their computational requirements. However, current state-of-the-art (SOTA) models still face problems such as high computational costs. To address these issues, we propose the Large Kernel Distillation Network (LKDN) in this paper. Our approach simplifies the model structure and introduces more efficient attention modules to reduce computational costs while also improving performance. Specifically, we employ the reparameterization technique to enhance model performance without adding extra cost. We also introduce a new optimizer from other tasks to SISR, which improves training speed and performance. Our experimental results demonstrate that LKDN outperforms existing lightweight SR methods and achieves SOTA performance.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# ポジティブトランスファーの価値の定量化:実験的検討

Quantifying the value of positive transfer: An experimental case study ( http://arxiv.org/abs/2407.14342v1 )

ライセンス: Link先を確認
Aidan J. Hughes, Giulia Delo, Jack Poole, Nikolaos Dervilis, Keith Worden, (参考訳) 構造的健康モニタリングに対する従来のアプローチでは、ラベル付きデータの可用性に関する課題がしばしば発生します。 人口ベースの構造的健康モニタリングは、トランスファーラーニングなどの技術を通じて、同様の構造からのデータ/情報を活用することで、これらの課題を克服しようとしている。 本報告では,情報伝達の価値を運用と保守の意思決定の文脈で定量化する手法について述べる。 この実験は,実験室規模の航空機模型の個体数に基づいて,類似性評価や伝達効率の予測を含む情報伝達の期待値を評価するために必要なステップを強調した。 与えられた人口に対して評価すると、情報伝達の価値は、新しく取得されたターゲットドメインに対する伝達学習戦略の最適化に利用することができる。

In traditional approaches to structural health monitoring, challenges often arise associated with the availability of labelled data. Population-based structural health monitoring seeks to overcomes these challenges by leveraging data/information from similar structures via technologies such as transfer learning. The current paper demonstrate a methodology for quantifying the value of information transfer in the context of operation and maintenance decision-making. This demonstration, based on a population of laboratory-scale aircraft models, highlights the steps required to evaluate the expected value of information transfer including similarity assessment and prediction of transfer efficacy. Once evaluated for a given population, the value of information transfer can be used to optimise transfer-learning strategies for newly-acquired target domains.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# LLMs left, right, and center: GPTがWebドメインから政治的バイアスをラベル付けする能力を評価する

LLMs left, right, and center: Assessing GPT's capabilities to label political bias from web domains ( http://arxiv.org/abs/2407.14344v1 )

ライセンス: Link先を確認
Raphael Hernandes, (参考訳) 本研究では,現在最先端の大規模言語モデルである OpenAI の GPT-4 が,URLのみに基づいて,ニュースソースの政治的バイアスを正確に分類できるかどうかを検討する。 政治的ラベルの主観的な性質を考えると、Ad Fontes Media、AllSides、Media Bias/Fact Check (MBFC)のような第三者の偏見評価は、ニュースソースの多様性を分析するためにしばしば用いられる。 本研究の目的は、GPT-4が人間の評価を7度のスケールで再現できるかどうかを判断することである。 この分析は、GPT-4の分類とMBFCの分類を比較し、Open PageRankスコアを用いてウェブサイトの人気を制御する。 発見は、GPT-4とMBFCのレーティングの間に高い相関(\text{Spearman's } \rho = .89$, $n = 5,877$, $p < 0.001$)があることを示し、モデルの潜在的な信頼性を示している。 しかし、GPT-4はデータセットの約$\frac{2}{3}$の分類を禁止した。 MBFCと比較して、GPT-4の分類ではわずかに左向きのスキューが同定されている。 この分析は、GPT-4は、ニュースサイトの政治的偏見分類のためのスケーラブルで費用効果の高いツールであるが、その使用は、偏見を緩和するために人間の判断を補完するであろうことを示唆している。 さまざまな設定、言語、追加のデータセットにわたるモデルのパフォーマンスについて、さらなる研究が推奨されている。

This research investigates whether OpenAI's GPT-4, a state-of-the-art large language model, can accurately classify the political bias of news sources based solely on their URLs. Given the subjective nature of political labels, third-party bias ratings like those from Ad Fontes Media, AllSides, and Media Bias/Fact Check (MBFC) are often used in research to analyze news source diversity. This study aims to determine if GPT-4 can replicate these human ratings on a seven-degree scale ("far-left" to "far-right"). The analysis compares GPT-4's classifications against MBFC's, and controls for website popularity using Open PageRank scores. Findings reveal a high correlation ($\text{Spearman's } \rho = .89$, $n = 5,877$, $p < 0.001$) between GPT-4's and MBFC's ratings, indicating the model's potential reliability. However, GPT-4 abstained from classifying approximately $\frac{2}{3}$ of the dataset, particularly less popular and less biased sources. The study also identifies a slight leftward skew in GPT-4's classifications compared to MBFC's. The analysis suggests that while GPT-4 can be a scalable, cost-effective tool for political bias classification of news websites, but its use should complement human judgment to mitigate biases. Further research is recommended to explore the model's performance across different settings, languages, and additional datasets.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# クエリコンテキスト信号の活用によるスポンサー検索における検索精度の向上

Improving Retrieval in Sponsored Search by Leveraging Query Context Signals ( http://arxiv.org/abs/2407.14346v1 )

ライセンス: Link先を確認
Akash Kumar Mohankumar, Gururaj K, Gagan Madan, Amit Singh, (参考訳) ユーザクエリに関する関連する入札キーワードを正確に検索することは、Sponsored Searchでは重要だが、特に短いあいまいなクエリでは難しい。 既存の高密度で生成的な検索モデルは、これらのケースにおいて、ニュアンスのあるユーザ意図をキャプチャできないことが多い。 そこで本研究では,オンラインキャッシュに格納されたWeb検索結果と大規模言語モデルから得られるリッチなコンテキスト信号でクエリを増強し,クエリ理解を強化する手法を提案する。 具体的には、Web検索のタイトルとスニペットを使って、現実世界の情報にクエリを接地し、GPT-4を使って、ユーザの意図を明確にしたクエリの書き直しや説明を生成する。 これらの信号はFusion-in-DecoderベースのUnityアーキテクチャを通じて効率よく統合され、高密度かつ生成的な検索と従来の文脈自由モデルと同等の費用がかかる。 キャッシュでコンテキストが利用できないシナリオに対処するために、推論中にコンテキスト信号なしでモデルロバスト性や性能を改善するカリキュラム学習戦略であるコンテキストグラシングを導入する。 大規模なオフライン実験は、文脈認識アプローチが文脈自由モデルを大幅に上回ることを示した。 さらに、160以上の国で有名な検索エンジン上でのオンラインA/Bテストでは、ユーザのエンゲージメントと収益が大幅に改善されている。

Accurately retrieving relevant bid keywords for user queries is critical in Sponsored Search but remains challenging, particularly for short, ambiguous queries. Existing dense and generative retrieval models often fail to capture nuanced user intent in these cases. To address this, we propose an approach to enhance query understanding by augmenting queries with rich contextual signals derived from web search results and large language models, stored in an online cache. Specifically, we use web search titles and snippets to ground queries in real-world information and utilize GPT-4 to generate query rewrites and explanations that clarify user intent. These signals are efficiently integrated through a Fusion-in-Decoder based Unity architecture, enabling both dense and generative retrieval with serving costs on par with traditional context-free models. To address scenarios where context is unavailable in the cache, we introduce context glancing, a curriculum learning strategy that improves model robustness and performance even without contextual signals during inference. Extensive offline experiments demonstrate that our context-aware approach substantially outperforms context-free models. Furthermore, online A/B testing on a prominent search engine across 160+ countries shows significant improvements in user engagement and revenue.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# 二重超伝導キャビティにおける光子生成:量子回路の実装

Photon Generation in Double Superconducting Cavities: Quantum Circuits Implementation ( http://arxiv.org/abs/2407.14351v1 )

ライセンス: Link先を確認
Jean Paul Louys Sansó, Nicolás F. Del Grosso, Fernando C. Lombardo, Paula I. Villar, (参考訳) 本研究では,1次元(1+1)二重超伝導空洞における動的カシミール効果(DCE)による光子生成について検討した。 空洞は、2つの完全な導電鏡と、2つの空洞を効果的に結合する無限小深さの誘電膜で構成されている。 二重キャビティ$L$の総長さ、両キャビティ$\Delta L$と電気感受性$\chi$と誘電体膜の導電率$v$の差は調整可能なパラメータである。 4つのパラメータはすべて独立して扱われ、異なる周波数でも同時に調整される。 我々はキャビティのエネルギースペクトルを異なる条件下で解析し、$k_c=\sqrt{v/\chi}$で正確に記述された2つの異なる状態間の遷移を見出した。 特に、最も低いエネルギーモードは、一方のレジームにおいて禁止され、他方のレジームでは許可される。 我々は、Multiple Scale Analysis法を用いて得られた解析的近似と正確な数値解を比較し、$\chi$が調整されない場合の典型的な結果を得た。 しかし、サセプティビリティ$\chi$が調整されると、全てのパラメータの周波数と振幅が適切であれば、異なる挙動(真空状態に設定されたキャビティの光子の数の振動など)が生じる。 これらの振動は、全ての生成した光子が最終的に破壊される断熱的ショートカットと見なすことができる。 最後に、実験条件下でDCEを実験的にシミュレートできる等価量子回路を提案する。

In this work, we studied photon generation due to the Dynamical Casimir Effect (DCE) in a one dimensional (1+1) double superconducting cavity. The cavity consists of two perfectly conducting mirrors and a dielectric membrane of infinitesimal depth that effectively couples two cavities. The total length of the double cavity $L$, the difference in length between the two cavities $\Delta L$, and the electric susceptibility $\chi$ and conductivity $v$ of the dielectric membrane are tunable parameters. All four parameters are treated as independent and are allowed to be tuned at the same time, even with different frequencies. We analyzed the cavity's energy spectra under different conditions, finding a transition between two distinct regimes that is accurately described by $k_c=\sqrt{v/\chi}$. In particular, a lowest energy mode is forbidden in one of the regimes while it is allowed in the other. We compared analytical approximations obtained through the Multiple Scale Analysis method with exact numeric solutions, obtaining the typical results when $\chi$ is not being tuned. However, when the susceptibility $\chi$ is tuned, different behaviours (such as oscillations in the number of photons of a cavity prepared in a vacuum state) might arise if the frequencies and amplitudes of all parameters are adequate. These oscillations can be considered as adiabatic shortcuts where all generated photons are eventually destroyed. Finally, we present an equivalent quantum circuit that would allow to experimentally simulate the DCE under the studied conditions.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# 低空飛行機用ビジョンベース電力線ケーブルとパイロン検出

Vision-Based Power Line Cables and Pylons Detection for Low Flying Aircrafts ( http://arxiv.org/abs/2407.14352v1 )

ライセンス: Link先を確認
Jakub Gwizdała, Doruk Oner, Soumava Kumar Roy, Mian Akbar Shah, Ad Eberhard, Ivan Egorov, Philipp Krüsi, Grigory Yakushev, (参考訳) 電力線は低空飛行機、特に低視認性条件下では危険である。 したがって、航空機の周囲を分析し、パイロットに「二対目の目」を提供することで安全性を高めることができる。 そこで我々は,航空機に搭載されたカメラで数百メートル離れた距離で撮影した画像から,電力線ケーブルとパイロンを共同で検出する深層学習手法を開発した。 そこで我々は,現代的畳み込み型アーキテクチャとトランスファーラーニング,カービリナー構造記述に適応した損失関数を組み合わせた。 我々は、両方の検出タスクに1つのネットワークを使用し、2つのベンチマークデータセットでその性能を実証した。 オンボードシステムに統合し、飛行中に実行し、実験により、両方のデータセット上で従来の遠隔ケーブル検出方法よりも優れており、また、アノテーションがデータに利用できるため、パイロンの検出にも成功していることを示した。

Power lines are dangerous for low-flying aircrafts, especially in low-visibility conditions. Thus, a vision-based system able to analyze the aircraft's surroundings and to provide the pilots with a "second pair of eyes" can contribute to enhancing their safety. To this end, we have developed a deep learning approach to jointly detect power line cables and pylons from images captured at distances of several hundred meters by aircraft-mounted cameras. In doing so, we have combined a modern convolutional architecture with transfer learning and a loss function adapted to curvilinear structure delineation. We use a single network for both detection tasks and demonstrated its performance on two benchmarking datasets. We have integrated it within an onboard system and run it in flight, and have demonstrated with our experiments that it outperforms the prior distant cable detection method on both datasets, while also successfully detecting pylons, given their annotations are available for the data.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# フィッティングフレームを用いた内部物体形状計測

Interior Object Geometry via Fitted Frames ( http://arxiv.org/abs/2407.14357v1 )

ライセンス: Link先を確認
Stephen M. Pizer, Zhiyuan Liu, Junjie Zhao, Nicholas Tapp-Hughes, James Damon, Miaomiao Zhang, JS Marron, Jared Vicory, (参考訳) 本稿では,対象集団内における強力な位置対応を実現するために設計された解剖学的対象を対象とする表現について述べる。 本手法は, 境界面および物体内部に嵌合したフレームを生成し, それらからアライメントフリーな幾何学的特徴を生成する。 これは、物体を楕円体の微分変形として理解し、変形全体に収まる骨格表現を用いて対象物体のモデルを生成し、その対象物体を最初に境界メッシュの形で設けることによって達成する。 障害のある個体と他の個体との海馬形状の分類性能を比較検討し, 対象個体群間の幾何学的対応を捉え, 統計学に有用な幾何学的特徴を得るための2つの最先端オブジェクト表現法と比較し, 進化的s-rep(s-rep)と呼ぶ新しい表現による分類性能の向上を示す。 それぞれの表現から派生した幾何学的特徴について考察する。

We describe a representation targeted for anatomic objects which is designed to enable strong locational correspondence within object populations and thus to provide powerful object statistics. The method generates fitted frames on the boundary and in the interior of objects and produces alignment-free geometric features from them. It accomplishes this by understanding an object as the diffeomorphic deformation of an ellipsoid and using a skeletal representation fitted throughout the deformation to produce a model of the target object, where the object is provided initially in the form of a boundary mesh. Via classification performance on hippocampi shape between individuals with a disorder vs. others, we compare our method to two state-of-the-art methods for producing object representations that are intended to capture geometric correspondence across a population of objects and to yield geometric features useful for statistics, and we show improved classification performance by this new representation, which we call the evolutionary s-rep. The geometric features that are derived from each of the representations, especially via fitted frames, is discussed.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# 安定したオーディオオープン

Stable Audio Open ( http://arxiv.org/abs/2407.14358v1 )

ライセンス: Link先を確認
Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons, (参考訳) オープンな生成モデルはコミュニティにとって極めて重要であり、ファインチューンを可能にし、新しいモデルを提示する際にベースラインとして機能する。 しかし、現在のテキスト・トゥ・オーディオモデルのほとんどはプライベートであり、アーティストや研究者が構築するにはアクセスできない。 本稿では、Creative Commonsデータでトレーニングされた新しいオープンウェイトテキスト・トゥ・オーディオモデルのアーキテクチャとトレーニングプロセスについて述べる。 評価の結果、モデルの性能は様々な指標で最先端と競合していることがわかった。 特に、報告されたFDopenl3の結果(世代のリアリズムを測る)は、44.1kHzで高品質なステレオ音声合成の可能性を示している。

Open generative models are vitally important for the community, allowing for fine-tunes and serving as baselines when presenting new models. However, most current text-to-audio models are private and not accessible for artists and researchers to build upon. Here we describe the architecture and training process of a new open-weights text-to-audio model trained with Creative Commons data. Our evaluation shows that the model's performance is competitive with the state-of-the-art across various metrics. Notably, the reported FDopenl3 results (measuring the realism of the generations) showcase its potential for high-quality stereo sound synthesis at 44.1kHz.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# FuzzTheREST: インテリジェントな自動ブラックボックスRESTful APIファザ

FuzzTheREST: An Intelligent Automated Black-box RESTful API Fuzzer ( http://arxiv.org/abs/2407.14361v1 )

ライセンス: Link先を確認
Tiago Dias, Eva Maia, Isabel Praça, (参考訳) ソフトウェアが広範に影響を及ぼし、デジタルトランスフォーメーションの時代への依存度が高まると、脆弱性に対する懸念が高まり、ソフトウェアセキュリティの必要性が強調される。 ファジィテスト(英: Fuzzy Testing)は、システムアンダーテスト(SUT)に障害入力データを供給し、その振る舞いを観察する動的解析ソフトウェアテスト技術である。 特にブラックボックスRESTful APIテストに関して、最近の文献では、このテクニックをヒューリスティックを使って、入力検索を実行し、HTTP応答ステータスコードを分類するために使用しようと試みている。 しかし、ほとんどのアプローチはコードカバレッジを追跡していません。 この作業では、脆弱性検出にReinforcement Learning(RL)を使用する、ブラックボックスのRESTful APIファジィテストツールを導入している。 ファズーはOpenAPI Specification (OAS)ファイルとシナリオファイルを介して動作し、それぞれSUTと通信する情報とテストする機能のシーケンスを含む。 有効性を評価するため、このツールはPetstore APIでテストされた。 このツールは6つのユニークな脆弱性を発見し、コードカバレッジは55%に達した。

Software's pervasive impact and increasing reliance in the era of digital transformation raise concerns about vulnerabilities, emphasizing the need for software security. Fuzzy testing is a dynamic analysis software testing technique that consists of feeding faulty input data to a System Under Test (SUT) and observing its behavior. Specifically regarding black-box RESTful API testing, recent literature has attempted to automate this technique using heuristics to perform the input search and using the HTTP response status codes for classification. However, most approaches do not keep track of code coverage, which is important to validate the solution. This work introduces a black-box RESTful API fuzzy testing tool that employs Reinforcement Learning (RL) for vulnerability detection. The fuzzer operates via the OpenAPI Specification (OAS) file and a scenarios file, which includes information to communicate with the SUT and the sequences of functionalities to test, respectively. To evaluate its effectiveness, the tool was tested on the Petstore API. The tool found a total of six unique vulnerabilities and achieved 55\% code coverage.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# 生音声における音楽類似度指標を用いた音楽生成におけるデータ複製の評価に向けて

Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio ( http://arxiv.org/abs/2407.14364v1 )

ライセンス: Link先を確認
Roser Batlle-Roca, Wei-Hisang Liao, Xavier Serra, Yuki Mitsufuji, Emilia Gómez, (参考訳) 音楽生成の最近の進歩は、創造的音楽プロセスにおけるAIの影響、現在のビジネスモデル、知的財産管理に関連する影響について、様々な懸念を提起している。 関連する課題は、AI生成音楽におけるトレーニングセットの複製と盗用の可能性であり、データや知的財産権侵害の誤用につながる可能性がある。 この問題に対処するために,様々なオーディオ音楽類似度指標に基づくモデルに依存しないオープン評価手法である音楽レプリケーションアセスメント(MiRA)ツールを提案し,トレーニングセットのデータ複製を評価する。 合成サンプルに基づいて,異なるジャンルの楽曲の再現実験を行うことで,正確な複製を識別する5つの指標の能力を評価する。 提案手法は,10%以上の比率で正確なデータ複製を推定できることを示す。 MiRAツールを導入することで、音楽領域における生成AIの倫理的、社会的、法的、経済的影響の重要性を強調し、研究者、開発者、利用者によるデータ複製に関する音楽生成モデルのオープンな評価を奨励する。

Recent advancements in music generation are raising multiple concerns about the implications of AI in creative music processes, current business models and impacts related to intellectual property management. A relevant challenge is the potential replication and plagiarism of the training set in AI-generated music, which could lead to misuse of data and intellectual property rights violations. To tackle this issue, we present the Music Replication Assessment (MiRA) tool: a model-independent open evaluation method based on diverse audio music similarity metrics to assess data replication of the training set. We evaluate the ability of five metrics to identify exact replication, by conducting a controlled replication experiment in different music genres based on synthetic samples. Our results show that the proposed methodology can estimate exact data replication with a proportion higher than 10%. By introducing the MiRA tool, we intend to encourage the open evaluation of music generative models by researchers, developers and users concerning data replication, highlighting the importance of ethical, social, legal and economic consequences of generative AI in the music domain.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# 公正な偽造検出におけるラシアルバイアスを考える:モデル,データセット,評価

Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations ( http://arxiv.org/abs/2407.14367v1 )

ライセンス: Link先を確認
Decheng Liu, Zongqi Wang, Chunlei Peng, Nannan Wang, Ruimin Hu, Xinbo Gao, (参考訳) 深層画像生成技術の発展が成功したため、偽造検出は社会と経済の安全においてより重要な役割を担っている。 深部偽造検出分野では, 顔面バイアスは徹底的に調査されていない。 本稿では、まずFair Forgery Detection(FairFD)データセットと呼ばれる専用データセットを寄贈し、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。 既存の偽造検出データセットとは異なり、自己構築のFairFDデータセットは、バランスの取れた人種比と、最も大規模な被験者との多様な偽造生成画像を含んでいる。 さらに, 偽検出モデルのベンチマークを行う際に, 虚偽の公平度指標の問題点を同定する。 公平さを包括的に評価するために、我々は、偽装的な結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。 9つの代表的な偽造検出モデルを用いて行われた大規模な実験は、提案したデータセットの価値と、設計された公正度メトリクスの理性を示す。 コミュニティの研究者に刺激を与えるために、より詳細な分析も行っています。

Due to the successful development of deep image generation technology, forgery detection plays a more important role in social and economic security. Racial bias has not been explored thoroughly in the deep forgery detection field. In the paper, we first contribute a dedicated dataset called the Fair Forgery Detection (FairFD) dataset, where we prove the racial bias of public state-of-the-art (SOTA) methods. Different from existing forgery detection datasets, the self-construct FairFD dataset contains a balanced racial ratio and diverse forgery generation images with the largest-scale subjects. Additionally, we identify the problems with naive fairness metrics when benchmarking forgery detection models. To comprehensively evaluate fairness, we design novel metrics including Approach Averaged Metric and Utility Regularized Metric, which can avoid deceptive results. Extensive experiments conducted with nine representative forgery detection models demonstrate the value of the proposed dataset and the reasonability of the designed fairness metrics. We also conduct more in-depth analyses to offer more insights to inspire researchers in the community.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# オープン人工知識

Open Artificial Knowledge ( http://arxiv.org/abs/2407.14371v1 )

ライセンス: Link先を確認
Vadim Borisov, Richard H. Schreiber, (参考訳) ChatGPT、Claude、GeminiといったチャットベースのAIシステムの大きな成功は、膨大なデータセットでトレーニングされたLarge Language Models(LLMs)に由来する。 しかし、高品質で多様で倫理的なトレーニングデータを取得することは、依然として大きな課題である。 Open Artificial Knowledge (OAK)データセットは、この問題に対処するために設計された5億以上のトークン(この記事執筆時点で)からなる大規模なリソースです。 OAK は GPT4o, LLaMa3-70B, LLaMa3-8B, Mixtral-8x7B, Gemma-7B, Gemma-2-9B などの最先端の LLM のアンサンブルを活用し、ウィキペディアの主要なカテゴリに導かれる様々な分野にわたる高品質なテキストを生成する。 本手法は,コヒーレンスと事実の正確性を維持しつつ,幅広い知識のカバレッジを確保する。 OAKデータセットは、LLMトレーニングにおけるデータ不足とプライバシの重大な問題に対処しながら、より有能で整列した言語モデルの開発を促進することを目的としており、www.oakdataset.orgで無料で利用できる。

The tremendous success of chat-based AI systems like ChatGPT, Claude, and Gemini stems from Large Language Models (LLMs) trained on vast amount of datasets. However, acquiring high-quality, diverse, and ethically sourced training data remains a significant challenge. We introduce the Open Artificial Knowledge (OAK) dataset, a large-scale resource of over 500 million tokens (at the moment of writing) designed to address this issue. OAK leverages an ensemble of state-of-the-art LLMs, including GPT4o, LLaMa3-70B, LLaMa3-8B, Mixtral-8x7B, Gemma-7B, and Gemma-2-9B , to generate high-quality text across diverse domains, guided by Wikipedia's main categories. Our methodology ensures broad knowledge coverage while maintaining coherence and factual accuracy. The OAK dataset aims to foster the development of more capable and aligned language models while addressing critical issues of data scarcity and privacy in LLM training, and it is freely available on www.oakdataset.org.
翻訳日:2024-07-22 17:15:09 公開日:2024-07-19
# SCoPE:ソフトウェア脆弱性検出のためのLLMの評価

SCoPE: Evaluating LLMs for Software Vulnerability Detection ( http://arxiv.org/abs/2407.14372v1 )

ライセンス: Link先を確認
José Gonçalves, Tiago Dias, Eva Maia, Isabel Praça, (参考訳) 近年,特に相互接続技術の普及に伴い,コードセキュリティの重要性が高まっている。 ソフトウェア開発プロセスの初期に脆弱性を検出することは、多くの利点を示している。 その結果、科学コミュニティはソースコードの脆弱性の自動検出に機械学習を使い始めた。 CVEFixesデータセットは、コード関連のタスク、特にC/C++サブセットのモデルをトレーニングするために一般的に使用される。 この目的のために、ソースコード処理エンジン(SCoPE)は、C/C++関数のサイズを減らし、正規化するために使用できるストラテジズドテクニックで構成されるフレームワークである。 SCoPEが生成した出力はCVEFixesの新バージョンを作成するために使われた。 この洗練されたデータセットは、ソフトウェア脆弱性検出のためにトレーニング済みの3つのLLMを微調整して、ツールのコード処理技術の有効性を評価するために機能表現分析に使用された。 その結果,SCoPEは評価されたサブセット内の905個の複製の同定に有効であった。 LLMの結果は、ソフトウェア脆弱性検出の適性に関する文献と相関し、最良のモデルが53%のF1スコアを達成した。

In recent years, code security has become increasingly important, especially with the rise of interconnected technologies. Detecting vulnerabilities early in the software development process has demonstrated numerous benefits. Consequently, the scientific community started using machine learning for automated detection of source code vulnerabilities. This work explores and refines the CVEFixes dataset, which is commonly used to train models for code-related tasks, specifically the C/C++ subset. To this purpose, the Source Code Processing Engine (SCoPE), a framework composed of strategized techniques that can be used to reduce the size and normalize C/C++ functions is presented. The output generated by SCoPE was used to create a new version of CVEFixes. This refined dataset was then employed in a feature representation analysis to assess the effectiveness of the tool's code processing techniques, consisting of fine-tuning three pre-trained LLMs for software vulnerability detection. The results show that SCoPE successfully helped to identify 905 duplicates within the evaluated subset. The LLM results corroborate with the literature regarding their suitability for software vulnerability detection, with the best model achieving 53% F1-score.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# Open RANにおけるネットワーク解析における確率予測の利用について

On the use of Probabilistic Forecasting for Network Analysis in Open RAN ( http://arxiv.org/abs/2407.14375v1 )

ライセンス: Link先を確認
Vaishnavi Kasuluru, Luis Blanco, Engin Zeydan, (参考訳) LSTM(Long-Short Term Memory)のような、他のシングルポイント人工知能(AI)ベースの予測技術とは異なり、確率予測技術(DeepARやTransformerなど)は、意思決定者がより情報的かつ堅牢な決定を下せる可能性のある、さまざまな結果と関連する確率を提供する。 同時に、Open RANのアーキテクチャはモバイルネットワークの革命的なアプローチとして現れ、RANのエコシステムにおけるオープン性、相互運用性、イノベーションを目指している。 本稿では,Open RANアーキテクチャ内の無線アプリケーション (rApp) として確率予測手法を提案する。 携帯電話基地局の物理資源ブロック(PRB)の利用と資源需要を推定するために,様々な確率的・単一点予測手法とアルゴリズムについて検討・比較を行った。 評価を通じて,従来の単一点予測手法よりも確率的予測手法の数値的優位性を実証し,より正確で信頼性の高い推定を行うことができることを示す。 特に、DeepARはLSTMやFeedal-Naive(SN)ベースラインなどの単一ポイント予測技術や、Simple-Feed-Forward(SFF)やTransformer Neural Networkといった確率予測技術よりも明らかに優れています。

Unlike other single-point Artificial Intelligence (AI)-based prediction techniques, such as Long-Short Term Memory (LSTM), probabilistic forecasting techniques (e.g., DeepAR and Transformer) provide a range of possible outcomes and associated probabilities that enable decision makers to make more informed and robust decisions. At the same time, the architecture of Open RAN has emerged as a revolutionary approach for mobile networks, aiming at openness, interoperability and innovation in the ecosystem of RAN. In this paper, we propose the use of probabilistic forecasting techniques as a radio App (rApp) within the Open RAN architecture. We investigate and compare different probabilistic and single-point forecasting methods and algorithms to estimate the utilization and resource demands of Physical Resource Blocks (PRBs) of cellular base stations. Through our evaluations, we demonstrate the numerical advantages of probabilistic forecasting techniques over traditional single-point forecasting methods and show that they are capable of providing more accurate and reliable estimates. In particular, DeepAR clearly outperforms single-point forecasting techniques such as LSTM and Seasonal-Naive (SN) baselines and other probabilistic forecasting techniques such as Simple-Feed-Forward (SFF) and Transformer neural networks.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# O-RANにおける確率的予測手法によるクラウドネイティブリソース割り当ての強化

Enhancing Cloud-Native Resource Allocation with Probabilistic Forecasting Techniques in O-RAN ( http://arxiv.org/abs/2407.14377v1 )

ライセンス: Link先を確認
Vaishnavi Kasuluru, Luis Blanco, Engin Zeydan, Albert Bel, Angelos Antonopoulos, (参考訳) 現実シナリオにおける資源生産管理のための知的かつ効率的な資源供給の必要性は,6G時代に向けての電気通信の進化とともに増大している。 Open Radio Access Network (O-RAN) のような技術は、複雑なシステムを管理するための相互運用可能なソリューションを構築するのに役立つ。 確率的予測は、決定論的単一点推定器とは対照的に、生成した予測の不確かさを定量化することによって、リソース割り当てに対して異なるアプローチを提供することができる。 本稿では,O-RANのクラウドネイティブな側面と,無線アプリ(rApp)デプロイメントオプションについて検討する。 O-RANにおけるrAppとしての確率予測技術の統合も、実世界の応用のケーススタディとともに強調されている。 誤差メトリックを用いた予測モデルの比較分析により,他の決定論的確率推定器と比較して,Deep Autoregressive Recurrent Network(DeepAR)の利点を示す。 さらに、Simple-Feed-Forward(SFF)の単純さは、高速なランタイムにつながるが、入力データの時間的依存関係をキャプチャしない。 最後に、確率的予測を伴うクラウドネイティブなO-RANの実用性に関するいくつかの側面を示す。

The need for intelligent and efficient resource provisioning for the productive management of resources in real-world scenarios is growing with the evolution of telecommunications towards the 6G era. Technologies such as Open Radio Access Network (O-RAN) can help to build interoperable solutions for the management of complex systems. Probabilistic forecasting, in contrast to deterministic single-point estimators, can offer a different approach to resource allocation by quantifying the uncertainty of the generated predictions. This paper examines the cloud-native aspects of O-RAN together with the radio App (rApp) deployment options. The integration of probabilistic forecasting techniques as a rApp in O-RAN is also emphasized, along with case studies of real-world applications. Through a comparative analysis of forecasting models using the error metric, we show the advantages of Deep Autoregressive Recurrent network (DeepAR) over other deterministic probabilistic estimators. Furthermore, the simplicity of Simple-Feed-Forward (SFF) leads to a fast runtime but does not capture the temporal dependencies of the input data. Finally, we present some aspects related to the practical applicability of cloud-native O-RAN with probabilistic forecasting.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# 不均衡データセットにおけるGBDT性能の向上:クラスベース損失関数の実証的研究

Improving GBDT Performance on Imbalanced Datasets: An Empirical Study of Class-Balanced Loss Functions ( http://arxiv.org/abs/2407.14381v1 )

ライセンス: Link先を確認
Jiaqi Luo, Yuan Yuan, Shixin Xu, (参考訳) クラス不均衡は、特に表形式のデータ分類タスクにおいて、マシンラーニングにおいて重要な課題である。 グラディエントブースティング決定木(GBDT)モデルはそのようなタスクに非常に効果的であることが証明されているが、不均衡なデータセットを扱う場合、そのパフォーマンスは損なわれる可能性がある。 本稿では,2進数,多進数,複数ラベルの分類を含む表型分類タスクにおいて,3つのGBDTアルゴリズムにクラスバランス損失関数を適用するための総合的研究について述べる。 各種GBDTモデルに対するクラスバランス損失の影響を評価するため,複数のデータセットに対する広範囲な実験を行い,評価基準を確立した。 本結果は,非バランスなデータセット上でのGBDT性能を向上させるためのクラスバランス型損失関数の可能性を示し,実世界のアプリケーションでクラスバランスの課題に直面している実践者に対して堅牢なアプローチを提供する。 さらに、クラスバランスの取れた損失関数をGBDTワークフローに統合しやすくするPythonパッケージを導入し、これらの高度なテクニックを広く利用できるようにする。

Class imbalance remains a significant challenge in machine learning, particularly for tabular data classification tasks. While Gradient Boosting Decision Trees (GBDT) models have proven highly effective for such tasks, their performance can be compromised when dealing with imbalanced datasets. This paper presents the first comprehensive study on adapting class-balanced loss functions to three GBDT algorithms across various tabular classification tasks, including binary, multi-class, and multi-label classification. We conduct extensive experiments on multiple datasets to evaluate the impact of class-balanced losses on different GBDT models, establishing a valuable benchmark. Our results demonstrate the potential of class-balanced loss functions to enhance GBDT performance on imbalanced datasets, offering a robust approach for practitioners facing class imbalance challenges in real-world applications. Additionally, we introduce a Python package that facilitates the integration of class-balanced loss functions into GBDT workflows, making these advanced techniques accessible to a wider audience.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# 表現型クエリへの粘着経路:既存のルールによるナビゲーションクエリの決定可能性

The Sticky Path to Expressive Querying: Decidability of Navigational Queries under Existential Rules ( http://arxiv.org/abs/2407.14384v1 )

ライセンス: Link先を確認
Piotr Ostropolski-Nalewaja, Sebastian Rudolph, (参考訳) オントロジーに基づく問合せ応答の分野における広範な研究により、原子的および共役的な問合せの決定可能な解法を示す多数の存在規則(タプル生成依存性とも呼ばれる)の断片が同定された。 ナビゲーションクエリに対する理論的および実践的な関心の高まりに動機づけられた本論文では,これらの断片のどちらが正規経路クエリ(RPQ)に拡張できるかを考察する。 実際、RPQの決定可能性は最近、普遍モデルが合理的に整形である(つまり有限クリフ幅である)ことを保証する全ての断片の包括的族に対して成り立つことが示されている。 しかし、有限統一集合(短い:fus)として知られる2番目の主要な断片群は、一階補修性に基づいており、それに対応する結果は、これまでほとんど解明されてきた。 任意のファス・ルールセットに対するRPQ応答が決定不可能であることを示して、この図を完成させる。 正の面では、この問題はスティッキー・ルールセットの顕著なファス・サブクラスに対して決定可能であることを証明し、RPQ形式主義の非常に穏やかな拡張が問題を再び決定不能にする点に注意する。

Extensive research in the field of ontology-based query answering has led to the identification of numerous fragments of existential rules (also known as tuple-generating dependencies) that exhibit decidable answering of atomic and conjunctive queries. Motivated by the increased theoretical and practical interest in navigational queries, this paper considers the question for which of these fragments decidability of querying extends to regular path queries (RPQs). In fact, decidability of RPQs has recently been shown to generally hold for the comprehensive family of all fragments that come with the guarantee of universal models being reasonably well-shaped (that is, being of finite cliquewidth). Yet, for the second major family of fragments, known as finite unification sets (short: fus), which are based on first-order-rewritability, corresponding results have been largely elusive so far. We complete the picture by showing that RPQ answering over arbitrary fus rulesets is undecidable. On the positive side, we establish that the problem is decidable for the prominent fus subclass of sticky rulesets, with the caveat that a very mild extension of the RPQ formalism turns the problem undecidable again.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# ディープラーニングのフロンティア - 新しいアプリケーションから実世界のデプロイまで

Frontiers of Deep Learning: From Novel Application to Real-World Deployment ( http://arxiv.org/abs/2407.14386v1 )

ライセンス: Link先を確認
Rui Xie, (参考訳) ディープラーニングは、自然言語処理やイメージングからデータ分析やレコメンデーションシステムに至るまで、多くの分野を再形成し続けている。 第1報では, 言語モデルで一般的に使用されるトランスフォーマーネットワークを適用し, スペックルノイズを効果的に低減し, 合成開口レーダ画像の品質向上を図る。 本稿では,ディープラーニングレコメンデーションシステムのコスト効率と高性能実装を実現するために,ストレージ内コンピューティング設計ソリューションを提案する。 本報告では,各論文のモチベーション,キーアイデア,技術,評価結果の要約に加えて,今後の研究方向性に関する考えや議論も提示する。 これら2つの代表的な論文および関連文献について詳細な研究を行うことにより、この博士候補は、深層学習モデルの遠隔的影響と効率的な実装についてより理解を深めた。

Deep learning continues to re-shape numerous fields, from natural language processing and imaging to data analytics and recommendation systems. This report studies two research papers that represent recent progress on deep learning from two largely different aspects: The first paper applied the transformer networks, which are typically used in language models, to improve the quality of synthetic aperture radar image by effectively reducing the speckle noise. The second paper presents an in-storage computing design solution to enable cost-efficient and high-performance implementations of deep learning recommendation systems. In addition to summarizing each paper in terms of motivation, key ideas and techniques, and evaluation results, this report also presents thoughts and discussions about possible future research directions. By carrying out in-depth study on these two representative papers and related references, this doctoral candidate has developed better understanding on the far-reaching impact and efficient implementation of deep learning models.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# GLAudioがグラフの音を聴く

GLAudio Listens to the Sound of the Graph ( http://arxiv.org/abs/2407.14387v1 )

ライセンス: Link先を確認
Aurelio Sulser, Johann Wenckstern, Clara Kuempel, (参考訳) 本稿では,GLAudio: Graph Learning on Audio representation of the node features and the connection structureを提案する。 この新規なアーキテクチャは、離散波動方程式に従ってグラフネットワークを介してノード特徴を伝播し、その後、シーケンス学習アーキテクチャを用いて、音声波信号からターゲットノード関数を学習する。 これは、情報伝達と情報処理を2つの異なるステップに分けたグラフ構造化データに関する新たな学習パラダイムにつながります。 理論的には,本モデルの表現性を特徴付けるとともに,頂点の受容場の概念を導入し,理論上も実験上も,過剰なスムース化や過剰なスキャッシングに対するモデルの受容性について検討する。

We propose GLAudio: Graph Learning on Audio representation of the node features and the connectivity structure. This novel architecture propagates the node features through the graph network according to the discrete wave equation and then employs a sequence learning architecture to learn the target node function from the audio wave signal. This leads to a new paradigm of learning on graph-structured data, in which information propagation and information processing are separated into two distinct steps. We theoretically characterize the expressivity of our model, introducing the notion of the receptive field of a vertex, and investigate our model's susceptibility to over-smoothing and over-squashing both theoretically as well as experimentally on various graph datasets.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# 正直なコンピューティング: データとプロセスに敏感なポリシーを駆動するための実証可能なデータ系統と証明を実現する

Honest Computing: Achieving demonstrable data lineage and provenance for driving data and process-sensitive policies ( http://arxiv.org/abs/2407.14390v1 )

ライセンス: Link先を確認
Florian Guitton, Axel Oehmichen, Étienne Bossé, Yike Guo, (参考訳) データは科学的、工業的、商業的なプロセスの基礎である。 その旅は通常、収集から輸送、保管、管理、処理へと流れます。 ベストプラクティスと規制がデータ管理と保護を導く一方で、最近の出来事は脆弱性を過小評価している。 学術研究と商用データハンドリングはスキャンダルに悩まされ、データ管理の脆さが明らかになった。 データは、その重要性にもかかわらず、未公開の開示、漏洩、損失、操作、製造に影響を受けやすい。 これらのインシデントは可視性や説明責任なしに発生し、安全で誠実で監査可能なデータ管理のために体系的な構造を必要とする。 本稿では,コンピューティングと技術の領域における透明性,完全性,倫理的行動を強調する実践とアプローチとして,Honest Computingの概念を紹介する。 コンピュータシステムとソフトウェアは、隠れたアジェンダ、バイアス、あるいは非倫理的なプラクティスなしで、誠実かつ確実に動作することを保証します。 設計とデフォルトでは、データとコードのプライバシと機密性を可能にする。 また、実証可能なデータ系統と証明を達成するための参照フレームワークを導入し、関連するが異なる指向のコンピューティング形式であるSecure Computingと対比した。 Honest Computingの中核は、Trustless Computing、Confidential Computing、Distributed Computing、Cryptography、AAAセキュリティの概念を利用している。 Honest Computingは、原則ベースのアプローチからルールベースのアプローチへのデータ保護のための規制フレームワークの移行を可能にする、テクノロジベースのプロセスとワークフローを作成する新しい方法を開く。 AIモデル保護や倫理的な階層化から、金融や銀行、トレーディング、ヘルスケアのためのデジタル通貨形成に至るまで、多くの分野におけるユースケースに対応するため、この基盤となるレイヤアプローチは、適切なデータ保持と処理のための新しい標準を定義するのに役立つ。

Data is the foundation of any scientific, industrial or commercial process. Its journey typically flows from collection to transport, storage, management and processing. While best practices and regulations guide data management and protection, recent events have underscored its vulnerability. Academic research and commercial data handling have been marred by scandals, revealing the brittleness of data management. Data, despite its importance, is susceptible to undue disclosures, leaks, losses, manipulation, or fabrication. These incidents often occur without visibility or accountability, necessitating a systematic structure for safe, honest, and auditable data management. In this paper, we introduce the concept of Honest Computing as the practice and approach that emphasizes transparency, integrity, and ethical behaviour within the realm of computing and technology. It ensures that computer systems and software operate honestly and reliably without hidden agendas, biases, or unethical practices. It enables privacy and confidentiality of data and code by design and by default. We also introduce a reference framework to achieve demonstrable data lineage and provenance, contrasting it with Secure Computing, a related but differently-orientated form of computing. At its core, Honest Computing leverages Trustless Computing, Confidential Computing, Distributed Computing, Cryptography and AAA security concepts. Honest Computing opens new ways of creating technology-based processes and workflows which permit the migration of regulatory frameworks for data protection from principle-based approaches to rule-based ones. Addressing use cases in many fields, from AI model protection and ethical layering to digital currency formation for finance and banking, trading, and healthcare, this foundational layer approach can help define new standards for appropriate data custody and processing.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# TTT(Trectable Time Reachability)問題に対する時間的リファインメントヒューリスティック

TTT: A Temporal Refinement Heuristic for Tenuously Tractable Discrete Time Reachability Problems ( http://arxiv.org/abs/2407.14394v1 )

ライセンス: Link先を確認
Chelsea Sidrane, Jana Tumova, (参考訳) 到達可能な集合計算は制御系を解析するための重要なツールである。 制御システムのシミュレートは、システムが一般に望まれる機能を示しているが、到達可能性分析のような形式的なツールによって、正確性を保証することができる。 線形系では、リーチビリティ解析は単純かつ高速であるが、非線形力学やニューラルネットワークコントローラなどの制御系により複雑なコンポーネントが追加されるにつれて、リーチビリティ解析は遅くなるか、過度に保守的になる。 これらの課題に対処するために、多くの文献は空間的洗練(例えば、入力集合と中間到達可能な集合の離散化をチューニングする)に焦点を当ててきた。 しかし,本論文は時間的改善という,異なる次元に対処する。 時間的改善の基本的な考え方は、到達可能性問題の地平線に沿って自動的に選択し、より近似誤差の少ない高速な具体的なクエリに対して、より近似誤差の少ないスローシンボリッククエリを実行することである。 時間的改善は他の改良手法と組み合わせることで、近似可能な集合計算におけるトラクタビリティと厳密さをトレードオフする 'tuning knob'' を追加することができる。 本稿では、時間的改善を行うための自動フレームワークを導入し、ニューラルネットワーク制御ポリシを持つ非線形システムに対する近似リーチ可能集合の計算におけるこの手法の有効性を実証する。 計算予算の異なる様々な近似誤差の到達可能な集合の計算を実証し、我々のアルゴリズムが20~70%の時間でベースラインアプローチに類似した誤差で近似可能な集合を生成可能であることを示す。

Reachable set computation is an important tool for analyzing control systems. Simulating a control system can show that the system is generally functioning as desired, but a formal tool like reachability analysis can provide a guarantee of correctness. For linear systems, reachability analysis is straightforward and fast, but as more complex components are added to the control system such as nonlinear dynamics or a neural network controller, reachability analysis may slow down or become overly conservative. To address these challenges, much literature has focused on spatial refinement, e.g., tuning the discretization of the input sets and intermediate reachable sets. However, this paper addresses a different dimension: temporal refinement. The basic idea of temporal refinement is to automatically choose when along the horizon of the reachability problem to execute slow symbolic queries which incur less approximation error versus fast concrete queries which incur more approximation error. Temporal refinement can be combined with other refinement approaches and offers an additional ``tuning knob'' with which to trade off tractability and tightness in approximate reachable set computation. Here, we introduce an automatic framework for performing temporal refinement and we demonstrate the effectiveness of this technique on computing approximate reachable sets for nonlinear systems with neural network control policies. We demonstrate the calculation of reachable sets of varying approximation error under varying computational budget and show that our algorithm is able to generate approximate reachable sets with a similar amount of error to the baseline approach in 20-70% less time.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# 機械学習がCHSHシナリオに到達

Machine learning meets the CHSH scenario ( http://arxiv.org/abs/2407.14396v1 )

ライセンス: Link先を確認
Gabriel Pereira Alves, Nicolas Gigena, Jędrzej Kaniewski, (参考訳) 本研究では、相関の量子集合を特徴づけるための機械学習(ML)手法を包括的に研究する。 MLアプローチの有用性と有効性を評価することを中心に,解析解が知られている4次元の変種と,解析解が知られていない8次元の変種にのみ焦点をあてるが,数値的アプローチは比較的よく理解されている。 我々は、単純なデータサイエンスモデルから高密度ニューラルネットワークまで、幅広いアプローチを検討します。 うまく機能するモデルの2つのクラスは、サポートベクターマシンと高密度ニューラルネットワークであり、それらはこの研究の主な焦点である。 我々は、平均的に良い性能を達成することは比較的容易であるが、量子集合の境界付近の点である「ハード」ケースでうまく機能するモデルを訓練することは困難である、と結論付けた。 残念なことに、これらはまさに学術的な観点から興味深いケースである。 ハードケースのパフォーマンスを改善するためには、特に8次元の問題では、トレーニングデータの適切な選択に頼る必要があります。 これは、データ生成やデータ選択が暗黙の主観的基準に従って実行される学術的問題にMLモデルを適用する上で、重要かつしばしば見過ごされる側面であると感じています。 このように、私たちのモデルを無意識に操り、私たちが興味を持っている特徴を示すことができます。 したがって、学術的問題の文脈において、ML手法が客観的でバイアスのないものとみなすことができるかどうかを判断しながら、特別な注意を払わなければならない。

In this work, we perform a comprehensive study of the machine learning (ML) methods for the purpose of characterising the quantum set of correlations. As our main focus is on assessing the usefulness and effectiveness of the ML approach, we focus exclusively on the CHSH scenario, both the 4-dimensional variant, for which an analytical solution is known, and the 8-dimensional variant, for which no analytical solution is known, but numerical approaches are relatively well understood. We consider a wide selection of approaches, ranging from simple data science models to dense neural networks. The two classes of models that perform well are support vector machines and dense neural networks, and they are the main focus of this work. We conclude that while it is relatively easy to achieve good performance on average, it is hard to train a model that performs well on the "hard" cases, i.e., points in the vicinity of the boundary of the quantum set. Sadly, these are precisely the cases which are interesting from the academic point of view. In order to improve performance on hard cases one must, especially for the 8-dimensional problem, resort to a tailored choice of training data, which means that we are implicitly feeding our intuition and biases into the model. We feel that this is an important and often overlooked aspect of applying ML models to academic problems, where data generation or data selection is performed according to some implicit subjective criteria. In this way, it is possible to unconsciously steer our model, so that it exhibits features that we are interested in seeing. Hence, special care must be taken while determining whether ML methods can be considered objective and unbiased in the context of academic problems.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# 通常のサンフラワーグラフにおけるパスフィニングの指数量子アドバンテージ

Exponential Quantum Advantage for Pathfinding in Regular Sunflower Graphs ( http://arxiv.org/abs/2407.14398v1 )

ライセンス: Link先を確認
Jianqiang Li, Yu Tong, (参考訳) スーパーポリノミカル量子スピードアップを可能にする問題を見つけることは、量子計算において最も重要なタスクの1つである。 鍵となる課題は、量子力学でしか利用できない問題構造を特定することである。 本稿では,隣接度リストのオラクルによるパスフィニング問題に対する指数的量子-古典的分離を可能にするグラフのクラスを見つけ,このグラフのクラスを正日花グラフと呼ぶ。 高い確率で、次数7$以上の正日花グラフは、緩やかな拡大グラフであり、ラプラシアンのスペクトルギャップは、グラフサイズにおいて少なくとも逆多元数であることを示す。 通常のヒマワリグラフに$s$-$t$の経路を求めるのに有効な量子アルゴリズムを提供するが、古典的アルゴリズムは指数関数的な時間を要する。 この量子優位性は、正日花グラフの隣接行列の0$-eigenstateを頂点上の量子重ね合わせ状態として効率的に準備することで達成され、この量子状態は正日花グラフの$s$-$t$パスを効率的に見つけるのに十分な情報を含む。 等質性に基づく暗号システムのセキュリティは、拡張器グラフ \cite{Charles2009} における$s$-$t$パスを見つけることの難しさに依存するため、拡張器グラフ上のパスフィンディング問題の量子スピードアップは重要である。 我々の結果は、軽度の拡大グラフにおけるパスフィンディングのための最初の証明可能な指数的高速化として、この目標に向けての一歩である。

Finding problems that allow for superpolynomial quantum speedup is one of the most important tasks in quantum computation. A key challenge is identifying problem structures that can only be exploited by quantum mechanics. In this paper, we find a class of graphs that allows for exponential quantum-classical separation for the pathfinding problem with the adjacency list oracle, and this class of graphs is named regular sunflower graphs. We prove that, with high probability, a regular sunflower graph of degree at least $7$ is a mild expander graph, that is, the spectral gap of the graph Laplacian is at least inverse polylogarithmic in the graph size. We provide an efficient quantum algorithm to find an $s$-$t$ path in the regular sunflower graph while any classical algorithm takes exponential time. This quantum advantage is achieved by efficiently preparing a $0$-eigenstate of the adjacency matrix of the regular sunflower graph as a quantum superposition state over the vertices, and this quantum state contains enough information to help us efficiently find an $s$-$t$ path in the regular sunflower graph. Because the security of an isogeny-based cryptosystem depends on the hardness of finding an $s$-$t$ path in an expander graph \cite{Charles2009}, a quantum speedup of the pathfinding problem on an expander graph is of significance. Our result represents a step towards this goal as the first provable exponential speedup for pathfinding in a mild expander graph.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# PRB負荷不確実性予測の影響について

On the Impact of PRB Load Uncertainty Forecasting for Sustainable Open RAN ( http://arxiv.org/abs/2407.14400v1 )

ライセンス: Link先を確認
Vaishnavi Kasuluru, Luis Blanco, Cristian J. Vaca-Rubio, Engin Zeydan, (参考訳) 持続可能なオープンラジオアクセスネットワーク(O-RAN)アーキテクチャへの移行は、特に物理資源ブロック(PRB)の利用を予測する上で、リソース管理に新たな課題をもたらす。 本稿では,確率的予測手法を用いてPRB負荷を特徴付ける新しい手法を提案する。 まず、O-RANアーキテクチャとコンポーネントの背景情報を提供し、持続可能な実装のためのエネルギー/電力消費モデルの重要性を強調する。 問題ステートメントは、リソース割り当てと電力効率を最適化する正確なPRB負荷予測の必要性を強調している。 次に、SFF(Simple-Feed-Forward)、DeepAR(DeepAR)、Transformers(Transformers)などの確率予測手法を調査し、それらの可能性モデル仮定について議論する。 シミュレーションの結果、DeepAR推定器は、SFFおよびTransformerベースのモデルと比較して、PRBを不確実性が少なく予測し、データセットの時間的依存関係を効果的にキャプチャし、電力節約につながることが示された。 パーセンタイルの選択の相違は、電力節約も増やすが、オーバー・アンダー・プロビジョニングのコストがかかる。 同時に、LSTM(Long-Short Term Memory)の性能は、全てのエラーメトリクスに対して確率的推定値よりも劣っていることが示されている。 最後に, 持続可能なO-RAN実装における確率的, 予測に基づくキャラクタリゼーションの重要性を概説し, 今後の研究への道のりについて述べる。

The transition to sustainable Open Radio Access Network (O-RAN) architectures brings new challenges for resource management, especially in predicting the utilization of Physical Resource Block (PRB)s. In this paper, we propose a novel approach to characterize the PRB load using probabilistic forecasting techniques. First, we provide background information on the O-RAN architecture and components and emphasize the importance of energy/power consumption models for sustainable implementations. The problem statement highlights the need for accurate PRB load prediction to optimize resource allocation and power efficiency. We then investigate probabilistic forecasting techniques, including Simple-Feed-Forward (SFF), DeepAR, and Transformers, and discuss their likelihood model assumptions. The simulation results show that DeepAR estimators predict the PRBs with less uncertainty and effectively capture the temporal dependencies in the dataset compared to SFF- and Transformer-based models, leading to power savings. Different percentile selections can also increase power savings, but at the cost of over-/under provisioning. At the same time, the performance of the Long-Short Term Memory (LSTM) is shown to be inferior to the probabilistic estimators with respect to all error metrics. Finally, we outline the importance of probabilistic, prediction-based characterization for sustainable O-RAN implementations and highlight avenues for future research.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# 自律コンピューティングのビジョン - LLMはそれを現実にできるか?

The Vision of Autonomic Computing: Can LLMs Make It a Reality? ( http://arxiv.org/abs/2407.14402v1 )

ライセンス: Link先を確認
Zhiyang Zhang, Fangkai Yang, Xiaoting Qin, Jue Zhang, Qingwei Lin, Gong Cheng, Dongmei Zhang, Saravan Rajmohan, Qi Zhang, (参考訳) 20年以上前に提案されたビジョン・オブ・オートノミクス・コンピューティング(ACV)は、生物に類似した自己管理が環境の変化にシームレスに適応するコンピューティングシステムを構想している。 数十年にわたる研究にもかかわらず、現代のコンピューティングシステムの動的で複雑な性質のため、ACVの達成は依然として困難である。 最近のLLM(Large Language Models)の進歩は、これらの課題に対して、広範な知識、言語理解、タスク自動化機能を活用することで、有望な解決策を提供する。 本稿では,マイクロサービス管理のためのLLMベースのマルチエージェントフレームワークによるACVの実現可能性について検討する。 自律的なサービスメンテナンスのための5段階の分類を導入し、Sock Shopマイクロサービスデモプロジェクトに基づくオンライン評価ベンチマークを示し、フレームワークのパフォーマンスを評価します。 マイクロサービスアーキテクチャにおける問題の検出と解決におけるLLMの有効性を強調した。 この研究は、マイクロサービス管理フレームワークへのLLMの統合を開拓し、より適応的で自己管理型のコンピューティングシステムへの道を開くことで、自律コンピューティングの進歩に寄与する。 コードはhttps://aka.ms/ACV-LLM.comで公開される。

The Vision of Autonomic Computing (ACV), proposed over two decades ago, envisions computing systems that self-manage akin to biological organisms, adapting seamlessly to changing environments. Despite decades of research, achieving ACV remains challenging due to the dynamic and complex nature of modern computing systems. Recent advancements in Large Language Models (LLMs) offer promising solutions to these challenges by leveraging their extensive knowledge, language understanding, and task automation capabilities. This paper explores the feasibility of realizing ACV through an LLM-based multi-agent framework for microservice management. We introduce a five-level taxonomy for autonomous service maintenance and present an online evaluation benchmark based on the Sock Shop microservice demo project to assess our framework's performance. Our findings demonstrate significant progress towards achieving Level 3 autonomy, highlighting the effectiveness of LLMs in detecting and resolving issues within microservice architectures. This study contributes to advancing autonomic computing by pioneering the integration of LLMs into microservice management frameworks, paving the way for more adaptive and self-managing computing systems. The code will be made available at https://aka.ms/ACV-LLM.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# エンド・ツー・エンド知識を用いた量子ネットワークのルーティング

Routing in Quantum Networks with End-to-End Knowledge ( http://arxiv.org/abs/2407.14407v1 )

ライセンス: Link先を確認
Vinay Kumar, Claudio Cicconetti, Marco Conti, Andrea Passarella, (参考訳) 量子コンピューティングに利用可能な様々な物理システムと、明確に定義された量子インターネットプロトコルスタックが存在しないことを考えると、量子ネットワークプロトコルの設計と最適化は、まだほとんど未解明のままである。 そこで本稿では, 量子ネットワーク特性の詳細な知識を必要とせず, 所定のしきい値を超えるエンドツーエンドの忠実度を提供できる経路の確立を容易にする手法を提案する。 本研究では,本手法の具体例であるアルゴリズムを定義し,シミュレーションによるDijkstra短経路アルゴリズムと完全知識認識アルゴリズムとの比較を行った。 以上の結果から,グレーボックスアルゴリズムの1つは,ネットワークトポロジやソース・ディペンデンス・ペア数など,さまざまなネットワークトポロジの経路を常に上回りながら,ユーザ間のフェアネスのかなりのレベルを維持しつつ,期待するエンド・ツー・エンドのフィデリティを不正確な評価を行う上で,他の手法よりも優れていたことが示唆された。

Given the diverse array of physical systems available for quantum computing and the absence of a well-defined quantum internet protocol stack, the design and optimisation of quantum networking protocols remain largely unexplored. To address this, we introduce an approach that facilitates the establishment of paths capable of delivering end-to-end fidelity above a specified threshold, without requiring detailed knowledge of the quantum network properties, which we call the 'grey box approach'. In this study, we define algorithms that are specific instances of this approach and evaluate them in comparison to Dijkstra shortest path algorithm and a fully knowledge-aware algorithm through simulations. Our results demonstrate that one of the grey box algorithms consistently outperforms the other methods in delivering paths above the fidelity threshold, across various network topologies and the number of source-destination pairs involved, while maintaining significant levels of fairness among the users and being robust to inaccurate estimations of the expected end-to-end fidelity.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# DEAL: VLM の概念レベル記述の分離とローカライズ

DEAL: Disentangle and Localize Concept-level Explanations for VLMs ( http://arxiv.org/abs/2407.14412v1 )

ライセンス: Link先を確認
Tang Li, Mengmeng Ma, Xi Peng, (参考訳) 大規模な事前訓練されたビジョンランゲージモデル(VLM)は、他のモデルや下流タスクのユビキタスな基盤コンポーネントとなっている。 強力ではあるが、我々の経験的結果は、そのようなモデルがきめ細かい概念を識別できないかもしれないことを明らかにしている。 特に、微細な概念に関するVLMの説明は絡み合っており、非局在化されている。 この問題に対処するために,人間のアノテーションを使わずにVLMの概念レベルの説明を行うDisEntAngle and Localize (DEAL)を提案する。 鍵となる考え方は、カテゴリレベルの説明との整合性を維持しながら、概念レベルの説明を区別することを奨励することである。 我々は、幅広いベンチマークデータセットと視覚言語モデルに関する広範な実験とアブレーション研究を行っている。 実験結果から,提案手法はモデルの概念レベルの説明を,不整合性と局所性の観点から著しく改善することを示した。 驚くべきことに、改良された説明可能性により、モデルが急激な相関に依存することが軽減され、予測精度がさらに向上する。

Large pre-trained Vision-Language Models (VLMs) have become ubiquitous foundational components of other models and downstream tasks. Although powerful, our empirical results reveal that such models might not be able to identify fine-grained concepts. Specifically, the explanations of VLMs with respect to fine-grained concepts are entangled and mislocalized. To address this issue, we propose to DisEntAngle and Localize (DEAL) the concept-level explanations for VLMs without human annotations. The key idea is encouraging the concept-level explanations to be distinct while maintaining consistency with category-level explanations. We conduct extensive experiments and ablation studies on a wide range of benchmark datasets and vision-language models. Our empirical results demonstrate that the proposed method significantly improves the concept-level explanations of the model in terms of disentanglability and localizability. Surprisingly, the improved explainability alleviates the model's reliance on spurious correlations, which further benefits the prediction accuracy.
翻訳日:2024-07-22 17:05:24 公開日:2024-07-19
# System-1.x: 言語モデルによる高速かつスロープランニングのバランスをとるための学習

System-1.x: Learning to Balance Fast and Slow Planning with Language Models ( http://arxiv.org/abs/2407.14414v1 )

ライセンス: Link先を確認
Swarnadeep Saha, Archiki Prasad, Justin Chih-Yao Chen, Peter Hase, Elias Stengel-Eskin, Mohit Bansal, (参考訳) 言語モデルは、高速な'System-1'モード、明示的な検索やバックトラックなしで直接計画を生成する'System-2'モード、考えられるアクションを明示的に検索することでステップバイステップで計画する'System-2'モードの2つのモードで、長期計画問題を解決するために使用できる。 System-2は一般的により効率的であるが、計算コストも高く、長い計画や大きなアクションスペースでは利用できない。 さらに、分離されたSystem-1または2は、ユーザーのエンドゴールを無視し、モデルの振る舞いを制御する方法を提供していない。 そこで本研究では,LLMを用いた制御可能なプランニングフレームワークであるSystem-1.x Plannerを提案する。 System-1.x は (i)コントローラ (ii)システム1プランナー及び (3) System-2 プランナー。 System-1と2の混合を規定するユーザ特定ハイブリッド化係数(x)に基づいて、コントローラは、問題をサブゴールに分解し、System-1と2のどちらでも容易に解ける、あるいは難易度に分類する。 単一のLLM上に3つのコンポーネントをすべて微調整し、監視対象として検索トレースのみを必要とします。 Maze NavigationとBlocksworldという2つの多様な計画課題の実験では、System-1.x PlannerはSystem-1 Plannerよりも優れており、System-2 PlannerはA*探索を近似するために訓練されたSystem-2 Plannerとシンボルプランナー(A*)を上回ります。 制御性: ハイブリッド化係数(例えば、System-1.75 vs 1.5)の増大により、より探索、性能の向上、柔軟性: ニューラルシステム-1とシンボリックシステム-2でニューラルシンボリックな変種を構築することにより、既存のシンボリックな手法を使うことができる。

Language models can be used to solve long-horizon planning problems in two distinct modes: a fast 'System-1' mode, directly generating plans without any explicit search or backtracking, and a slow 'System-2' mode, planning step-by-step by explicitly searching over possible actions. While System-2 is typically more effective, it is also more computationally expensive, making it infeasible for long plans or large action spaces. Moreover, isolated System-1 or 2 ignores the user's end goals, failing to provide ways to control the model's behavior. To this end, we propose the System-1.x Planner, a controllable planning framework with LLMs that is capable of generating hybrid plans and balancing between the two planning modes based on the difficulty of the problem at hand. System-1.x consists of (i) a controller, (ii) a System-1 Planner, and (iii) a System-2 Planner. Based on a user-specified hybridization factor (x) governing the mixture between System-1 and 2, the controller decomposes a problem into sub-goals, and classifies them as easy or hard to be solved by either System-1 or 2, respectively. We fine-tune all three components on top of a single base LLM, requiring only search traces as supervision. Experiments with two diverse planning tasks -- Maze Navigation and Blocksworld -- show that our System-1.x Planner outperforms a System-1 Planner, a System-2 Planner trained to approximate A* search, and also a symbolic planner (A*). We demonstrate the following key properties of our planner: (1) controllability: increasing the hybridization factor (e.g., System-1.75 vs 1.5) performs more search, improving performance, (2) flexibility: by building a neuro-symbolic variant with a neural System-1 and a symbolic System-2, we can use existing symbolic methods, and (3) generalizability: by being able to learn from different search algorithms, our method is robust to the choice of search algorithm.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# サービス品質調整のための精度混合専門家の混合

Mixture of Experts with Mixture of Precisions for Tuning Quality of Service ( http://arxiv.org/abs/2407.14417v1 )

ライセンス: Link先を確認
HamidReza Imani, Abdolah Amirany, Tarek El-Ghazawi, (参考訳) リソース制約のある環境に大規模なMixture-of-Experts(MoE)モデルをデプロイする需要が高まっているため、高いメモリと計算要求に対処するための効率的なアプローチが必要である。 さらに、タスクが異なるユーザ定義の制約に収まり、利用可能なリソースがマルチテナント環境で時間とともに変化することを考慮すれば、柔軟な構成空間を提供するアプローチを設計する必要がある。 本稿では,MoEモデルを効率よく展開するための適応型サービス方式を提案する。 量子化された専門家の数を動的に決定し、CPUとGPUにまたがる分布を測定することで、当社のアプローチはParetoフロンティアを探索し、スループットとモデル品質をチューニングするためのきめ細かい設定を提供する。 3つの言語モデリングベンチマークのためのMixtral 8x7B MoEモデルを用いたNVIDIA A100 GPUの評価は、トークン生成のスループットが毎秒0.63から13.00に調整可能であることを示す。 この拡張は、それぞれ最大量子化の下で、WikiText2、PTB、C4データセットに対して2.62から2.80に、6.48から7.24に、3.24から3.53に限界パープレキシティが増大する。 これらの結果は、メモリ使用量と出力品質の両方が重要である動的かつ精度に敏感なアプリケーションにおいて、我々のアプローチの実用性を強調している。

The increasing demand for deploying large Mixture-of-Experts (MoE) models in resource-constrained environments necessitates efficient approaches to address their high memory and computational requirements challenges. Moreover, given that tasks come in different user-defined constraints and the available resources change over time in multi-tenant environments, it is necessary to design an approach which provides a flexible configuration space. This paper presents an adaptive serving approach for the efficient deployment of MoE models, capitalizing on partial quantization of the experts. By dynamically determining the number of quantized experts and their distribution across CPU and GPU, our approach explores the Pareto frontier and offers a fine-grained range of configurations for tuning throughput and model quality. Our evaluation on an NVIDIA A100 GPU using a Mixtral 8x7B MoE model for three language modelling benchmarks demonstrates that the throughput of token generation can be adjusted from 0.63 to 13.00 token per second. This enhancement comes with a marginal perplexity increase of 2.62 to 2.80, 6.48 to 7.24, and 3.24 to 3.53 for WikiText2, PTB, and C4 datasets respectively under maximum quantization. These results highlight the practical applicability of our approach in dynamic and accuracy-sensitive applications where both memory usage and output quality are important.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# 道路領域抽出とコントラスト学習による道路表面条件の分類の改善

Improving classification of road surface conditions via road area extraction and contrastive learning ( http://arxiv.org/abs/2407.14418v1 )

ライセンス: Link先を確認
Linh Trinh, Ali Anwar, Siegfried Mercelis, (参考訳) 道路の維持は経済成長と市民の幸福のために重要であり、道路は交通手段として不可欠である。 様々な国で路面検査はまだ手作業で行われているが、自動化するためには、現在、視覚データによる路面欠陥の検出に研究の関心が向けられている。 一方、従来の研究では、画像全体を処理し、計算コストの増大につながるようなディープラーニング手法に焦点が当てられていた。 本研究では,解の計算コストを低く抑えつつ,分類性能の向上に留意する。 画像全体を処理する代わりに,下流の分類モデルを画像の路面にのみ焦点をあてるセグメンテーションモデルを導入する。 さらに, モデルトレーニングにおいて, コントラスト学習を用いて路面条件の分類を改善する。 RTKデータセットの公開実験により,提案手法が従来の手法に比べて大幅に改善されたことを示す。

Maintaining roads is crucial to economic growth and citizen well-being because roads are a vital means of transportation. In various countries, the inspection of road surfaces is still done manually, however, to automate it, research interest is now focused on detecting the road surface defects via the visual data. While, previous research has been focused on deep learning methods which tend to process the entire image and leads to heavy computational cost. In this study, we focus our attention on improving the classification performance while keeping the computational cost of our solution low. Instead of processing the whole image, we introduce a segmentation model to only focus the downstream classification model to the road surface in the image. Furthermore, we employ contrastive learning during model training to improve the road surface condition classification. Our experiments on the public RTK dataset demonstrate a significant improvement in our proposed method when compared to previous works.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# HOTS3D:テキストから3D生成のセマンティックアライメントのための超球面輸送

HOTS3D: Hyper-Spherical Optimal Transport for Semantic Alignment of Text-to-3D Generation ( http://arxiv.org/abs/2407.14419v1 )

ライセンス: Link先を確認
Zezeng Li, Weimin Wang, WenHai Li, Na Lei, Xianfeng Gu, (参考訳) 近年のCLIP誘導3D生成法は, テキストと画像埋め込みのギャップにより, 入力テキストに適合する忠実な3D形状の生成に苦慮している。 そこで本稿では,テキスト特徴と画像特徴とをSOT(spherical optimal transport)に整合させることにより,このギャップを効果的に橋渡しするHOTS3Dを提案する。 しかし、高次元の状況では、SOTを解くことは依然として困難である。 2つのモジュラリティのCLIP符号化から得られる高次元特徴に対するSOT写像を得るため、多様体の指数写像を使わずに2つの超球分布を直接整列できるヴィラニの定理に基づいて解を数学的に定式化し導出する。 さらに、入力凸ニューラルネットワーク(ICNN)を最適カントロビッチポテンシャルに活用して実装する。 最適にマッピングされた特徴により、拡散ベースのジェネレータとNerfベースのデコーダを使用して、それらを3次元形状に変換する。 特にテキストセマンティクスとの整合性において,3次元形状生成におけるHOTS3Dの優位性を示す。

Recent CLIP-guided 3D generation methods have achieved promising results but struggle with generating faithful 3D shapes that conform with input text due to the gap between text and image embeddings. To this end, this paper proposes HOTS3D which makes the first attempt to effectively bridge this gap by aligning text features to the image features with spherical optimal transport (SOT). However, in high-dimensional situations, solving the SOT remains a challenge. To obtain the SOT map for high-dimensional features obtained from CLIP encoding of two modalities, we mathematically formulate and derive the solution based on Villani's theorem, which can directly align two hyper-sphere distributions without manifold exponential maps. Furthermore, we implement it by leveraging input convex neural networks (ICNNs) for the optimal Kantorovich potential. With the optimally mapped features, a diffusion-based generator and a Nerf-based decoder are subsequently utilized to transform them into 3D shapes. Extensive qualitative and qualitative comparisons with state-of-the-arts demonstrate the superiority of the proposed HOTS3D for 3D shape generation, especially on the consistency with text semantics.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# テキスト記述拡散モデルを用いた多段階核データ拡張の制御可能・効率的化

Controllable and Efficient Multi-Class Pathology Nuclei Data Augmentation using Text-Conditioned Diffusion Models ( http://arxiv.org/abs/2407.14426v1 )

ライセンス: Link先を確認
Hyun-Jic Oh, Won-Ki Jeong, (参考訳) 計算病理学の分野では、深層学習アルゴリズムは核分割や分類といったタスクにおいて大きな進歩を遂げている。 しかし、これらの高度な手法の可能性は、利用可能なラベル付きデータの不足によって制限される。 この課題に対処するために、最近の生成モデルによる画像合成が活発に研究されているが、既存の研究はラベル拡張にほとんど対応せず、主に単一クラスおよび非条件ラベル生成に限られている。 本稿では,テキスト条件拡散モデルを用いたマルチクラス核データ拡張のための新しい2段階フレームワークを提案する。 第1段階では,ラベル構造情報を指定するテキストプロンプトを条件とした共同拡散モデルを用いて,マルチクラスセマンティックラベルと対応するインスタンスマップを生成することで,核ラベルの合成を革新する。 第2段階では、セマンティックおよびテキスト条件の潜在拡散モデルを用いて、生成した核ラベル画像と整合した高品質な病理像を効率よく生成する。 本研究では, 大規模・多種多様な病理核データセットに対する本手法の有効性を実証し, 定性的, 定量的解析, 下流タスクの評価などの評価を行った。

In the field of computational pathology, deep learning algorithms have made significant progress in tasks such as nuclei segmentation and classification. However, the potential of these advanced methods is limited by the lack of available labeled data. Although image synthesis via recent generative models has been actively explored to address this challenge, existing works have barely addressed label augmentation and are mostly limited to single-class and unconditional label generation. In this paper, we introduce a novel two-stage framework for multi-class nuclei data augmentation using text-conditional diffusion models. In the first stage, we innovate nuclei label synthesis by generating multi-class semantic labels and corresponding instance maps through a joint diffusion model conditioned by text prompts that specify the label structure information. In the second stage, we utilize a semantic and text-conditional latent diffusion model to efficiently generate high-quality pathology images that align with the generated nuclei label images. We demonstrate the effectiveness of our method on large and diverse pathology nuclei datasets, with evaluations including qualitative and quantitative analyses, as well as assessments of downstream tasks.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# 対称性破壊により駆動される多臨界量子センサ

Multicritical quantum sensors driven by symmetry-breaking ( http://arxiv.org/abs/2407.14428v1 )

ライセンス: Link先を確認
Sayan Mondal, Ayan Sahoo, Ujjwal Sen, Debraj Rakshit, (参考訳) 量子臨界はパラメータ推定に有用な量子資源として実証されている。 これには2次、トポロジカル、ローカライゼーションの遷移が含まれる。 これまでに報告された全ての研究において、臨界度におけるギャップ-ギャップ-ギャップ間遷移は量子増強センシングを達成するための究極の資源として特定されているが、長距離相関、対称性の破れなど、臨界度に関連する重要な概念がいくつかある。 本研究では,対称性の破れが単一パラメータまたは多パラメータ推定における量子増強センシングを駆動できることを解析的に実証する。 これをよく知られた1次元p波超伝導体の格子版であるKitaevモデルで示し、これはペア項とオンサイトポテンシャル項からなる。 このモデルは2本の臨界線と2本の交差する多臨界点によって特徴づけられる。 我々は,パラメータ変動が臨界線,すなわちギャップ・ツー・ギャップレス遷移の明示的な要求を伴わないにもかかわらず,多臨界点付近で系を調製することにより,超伝導結合の精密測定においてハイゼンベルクのスケーリングが可能であることを示す。 このような状況における量子増強は、ペアリング項による大域的なU(1)対称性の破れによってのみ起こる。 マルチパラメータ推定の領域で解析を拡張することで,対称性の破れとギャップレス・ツー・ガッペド遷移の効果を組み合わせることで,超ハイゼンベルクスケーリングを実現することができることを示す。

Quantum criticality has been demonstrated as a useful quantum resource for parameter estimation. This includes second-order, topological and localization transitions. In all these works reported so far, gap-to-gapless transition at criticality has been identified as the ultimate resource for achieving the quantum enhanced sensing, although there are several important concepts associated with criticality, such as long-range correlation, symmetry breaking. In this work, we analytically demonstrate that symmetry-breaking can drive a quantum enhanced sensing in single- or multiparameter estimation. We show this in the well-known Kitaev model, a lattice version of the 1D p-wave superconductor, which consists of a pairing term and an onsite potential term. The model is characterized by two critical lines and a multi-critical point at the intersection of these two lines. We show that Heisenberg scaling can be obtained in precision measurement of the superconducting coupling by preparing the system at or near the multicritical point despite the fact that parameter variation follows the critical lines, i.e., without an explicit requirement of gap-to-gapless transition. Quantum enhancement in such situations solely occurs due to a global U(1) symmetry-breaking by the pairing term. Extending our analysis in the realm of multiparameter estimation we show that it is possible to obtain super-Heisenberg scaling by combining the effects of symmetry-breaking and gapless-to-gapped transition.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# 医用画像におけるデータセット蒸留の可能性

Dataset Distillation in Medical Imaging: A Feasibility Study ( http://arxiv.org/abs/2407.14429v1 )

ライセンス: Link先を確認
Muyang Li, Can Cui, Quan Liu, Ruining Deng, Tianyuan Yao, Marilyn Lionts, Yuankai Huo, (参考訳) 医療画像解析分野におけるデータの共有は、まだ未承認のままである。 目的は、データセットを他のサイトと効率的に共有し、モデルを効果的にトレーニングすることだ。 可能な解決策の1つは、同様のモデルパフォーマンスを保ちながら、データセット全体の転送を避けることである。 コンピュータ科学におけるデータ蒸留の最近の進歩は、モデルの有効性を著しく損なうことなく、医療データを効率的に共有するための有望な展望を提供する。 しかし、医用画像と自然画像は異なる分野であるため、これらの手法が医用画像に適用できるかどうかは不明である。 さらに、これらの手法でどのレベルのパフォーマンスが達成できるかを考えるのも興味深い。 これらの疑問に答えるために、医療画像のさまざまな文脈において、様々な先進的なデータ蒸留法について調査を行う。 広範に実験を行ったこれらの手法の有効性を2つの側面で評価する。 1) 少数・多種多様な特徴を持つ複数のデータセットにおけるデータ蒸留の影響を評価する。 2)蒸留性能を予測する指標を探索する。 複数の医療データセットにわたる広範な実験により、データ蒸留は、全データセットで達成したデータと同等のモデル性能を維持しながら、データセットサイズを著しく削減できることが明らかとなり、画像の小さな代表的なサンプルが、蒸留の成功の信頼できる指標となることが示唆された。 本研究は,データ蒸留が医療データ共有の効率的かつセキュアな方法であり,共同研究や臨床応用の促進につながる可能性を実証するものである。

Data sharing in the medical image analysis field has potential yet remains underappreciated. The aim is often to share datasets efficiently with other sites to train models effectively. One possible solution is to avoid transferring the entire dataset while still achieving similar model performance. Recent progress in data distillation within computer science offers promising prospects for sharing medical data efficiently without significantly compromising model effectiveness. However, it remains uncertain whether these methods would be applicable to medical imaging, since medical and natural images are distinct fields. Moreover, it is intriguing to consider what level of performance could be achieved with these methods. To answer these questions, we conduct investigations on a variety of leading data distillation methods, in different contexts of medical imaging. We evaluate the feasibility of these methods with extensive experiments in two aspects: 1) Assess the impact of data distillation across multiple datasets characterized by minor or great variations. 2) Explore the indicator to predict the distillation performance. Our extensive experiments across multiple medical datasets reveal that data distillation can significantly reduce dataset size while maintaining comparable model performance to that achieved with the full dataset, suggesting that a small, representative sample of images can serve as a reliable indicator of distillation success. This study demonstrates that data distillation is a viable method for efficient and secure medical data sharing, with the potential to facilitate enhanced collaborative research and clinical applications.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# 入射モデルにおける外挿力

The Extrapolation Power of Implicit Models ( http://arxiv.org/abs/2407.14430v1 )

ライセンス: Link先を確認
Juliette Decugis, Alicia Y. Tsai, Max Emerling, Ashwin Ganesh, Laurent El Ghaoui, (参考訳) 本稿では,従来の深層ニューラルネットワークがフェールする未観測データを扱う際の暗黙的な深層学習モデルの補間能力について検討する。 層深度への適応性と計算グラフへのフィードバックの組み入れにより区別された暗黙のモデルは、様々な外挿シナリオ(アウト・オブ・ディストリビューション、地理的、時間的シフト)でテストされる。 我々の実験は暗黙のモデルで常に大きな性能上の優位性を証明している。 暗黙的なモデルは、タスク固有の設計を必要とせずに複雑なモデル構造を学ぶ能力を示し、目に見えないデータを扱う際の堅牢さを強調している。

In this paper, we investigate the extrapolation capabilities of implicit deep learning models in handling unobserved data, where traditional deep neural networks may falter. Implicit models, distinguished by their adaptability in layer depth and incorporation of feedback within their computational graph, are put to the test across various extrapolation scenarios: out-of-distribution, geographical, and temporal shifts. Our experiments consistently demonstrate significant performance advantage with implicit models. Unlike their non-implicit counterparts, which often rely on meticulous architectural design for each task, implicit models demonstrate the ability to learn complex model structures without the need for task-specific design, highlighting their robustness in handling unseen data.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# 量子プロセッサによる大型多体ハミルトンの対角化

Diagonalization of large many-body Hamiltonians on a quantum processor ( http://arxiv.org/abs/2407.14431v1 )

ライセンス: Link先を確認
Nobuyuki Yoshioka, Mirko Amico, William Kirby, Petar Jurcevic, Arkopal Dutt, Bryce Fuller, Shelly Garion, Holger Haas, Ikko Hamamura, Alexander Ivrii, Ritajit Majumdar, Zlatko Minev, Mario Motta, Bibek Pokharel, Pedro Rivero, Kunal Sharma, Christopher J. Wood, Ali Javadi-Abhari, Antonio Mezzacapo, (参考訳) マルチボディシステムの低エネルギー推定は、計算量子科学の基盤となっている。 変分量子アルゴリズムは、プリフォールト耐性量子プロセッサの基底状態を作成するのに使用できるが、収束保証の欠如とコスト関数推定の非現実的な数の欠如により、大規模なシステムへの実験の体系的なスケーリングが妨げられる。 プリフォールトトレラントデバイスに対する大規模な実験には、変分アプローチに代わる方法が必要である。 ここでは、超伝導量子プロセッサを用いて、56箇所の2次元格子上の量子多体系の固有エネルギーを計算し、よく知られた古典的対角化手法のアナログであるクリロフ量子対角化アルゴリズムを用いて計算する。 我々は、量子プロセッサ上で実行されるトロッター化ユニタリ進化を用いて、多体ヒルベルト空間の部分空間を構築し、これらの部分空間の中で相互作用する多体ハミルトン多様体を古典的に対角化する。 これらの実験により、量子対角化アルゴリズムは量子系の計算法の基礎において、古典的な対角化アルゴリズムを補完するものであることが示された。

The estimation of low energies of many-body systems is a cornerstone of computational quantum sciences. Variational quantum algorithms can be used to prepare ground states on pre-fault-tolerant quantum processors, but their lack of convergence guarantees and impractical number of cost function estimations prevent systematic scaling of experiments to large systems. Alternatives to variational approaches are needed for large-scale experiments on pre-fault-tolerant devices. Here, we use a superconducting quantum processor to compute eigenenergies of quantum many-body systems on two-dimensional lattices of up to 56 sites, using the Krylov quantum diagonalization algorithm, an analog of the well-known classical diagonalization technique. We construct subspaces of the many-body Hilbert space using Trotterized unitary evolutions executed on the quantum processor, and classically diagonalize many-body interacting Hamiltonians within those subspaces. These experiments show that quantum diagonalization algorithms are poised to complement their classical counterpart at the foundation of computational methods for quantum systems.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# コンテキスト条件付き関節拡散モデルを用いた病理組織学的核画像-ラベルペアの共生

Co-synthesis of Histopathology Nuclei Image-Label Pairs using a Context-Conditioned Joint Diffusion Model ( http://arxiv.org/abs/2407.14434v1 )

ライセンス: Link先を確認
Seonghui Min, Hyun-Jic Oh, Won-Ki Jeong, (参考訳) マルチクラスの病理組織学的核解析タスクでは、学習に基づく手法のパフォーマンスにおいて、トレーニングデータの欠如が主要なボトルネックとなっている。 この課題に対処するために, 従来の手法では, 合成サンプルを生成してデータ量を増やすために生成モデルを用いてきた。 しかし、既存の手法は、合成データにおける生体組織(例えば、形状、空間配置、組織型)の文脈を考慮することの重要性をしばしば見落としている。 さらに、生成モデルは、現実的な病理像を合成する上で優れた性能を示してきたが、既存の方法では、画像とラベルのペアを同時に生成することができない。 本稿では,文脈条件付き関節拡散モデルを用いて,病理組織学的核像とペア意味ラベルを共合成する新しい枠組みを提案する。 本研究では,構造関連テキストプロンプトを用いた核セントロイド配置を用いた拡散モデルの条件付けを提案し,空間的・構造的コンテキスト情報を生成対象に組み込む。 さらに、画像やセマンティックラベルと並行して合成された距離マップを用いて、インスタンスワイドな核ラベルを生成することで、セマンティックラベルの粒度を向上する。 我々は,多施設,多施設,多モダリティデータセット上で,高品質なサンプルを作成するためのフレームワークの有効性を実証する。 我々の合成データは、核セグメンテーションと分類の下流タスクにおいて、既存の拡張方法よりも一貫して優れています。

In multi-class histopathology nuclei analysis tasks, the lack of training data becomes a main bottleneck for the performance of learning-based methods. To tackle this challenge, previous methods have utilized generative models to increase data by generating synthetic samples. However, existing methods often overlook the importance of considering the context of biological tissues (e.g., shape, spatial layout, and tissue type) in the synthetic data. Moreover, while generative models have shown superior performance in synthesizing realistic histopathology images, none of the existing methods are capable of producing image-label pairs at the same time. In this paper, we introduce a novel framework for co-synthesizing histopathology nuclei images and paired semantic labels using a context-conditioned joint diffusion model. We propose conditioning of a diffusion model using nucleus centroid layouts with structure-related text prompts to incorporate spatial and structural context information into the generation targets. Moreover, we enhance the granularity of our synthesized semantic labels by generating instance-wise nuclei labels using distance maps synthesized concurrently in conjunction with the images and semantic labels. We demonstrate the effectiveness of our framework in generating high-quality samples on multi-institutional, multi-organ, and multi-modality datasets. Our synthetic data consistently outperforms existing augmentation methods in the downstream tasks of nuclei segmentation and classification.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# Jumping Ahead: JumpReLUスパースオートエンコーダによる再構成精度の向上

Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders ( http://arxiv.org/abs/2407.14435v1 )

ライセンス: Link先を確認
Senthooran Rajamanoharan, Tom Lieberum, Nicolas Sonnerat, Arthur Conmy, Vikrant Varma, János Kramár, Neel Nanda, (参考訳) スパースオートエンコーダ(SAE)は、言語モデル(LM)アクティベーションにおける因果関係および解釈可能な線形特徴を特定するための有望な教師なしアプローチである。 下流タスクに役立てるためには、SAEはLMアクティベーションを忠実に分解する必要がある。 本稿では,Gated や TopK SAE などの最近の進歩と比較して,Gemma 2 9B アクティベーションの間隔レベルにおいて,最先端の再現忠実度を達成するJumpReLU SAE を紹介する。 また、この改善は、手動および自動解釈可能性研究による解釈可能性のコストを伴わないことを示した。 JumpReLU SAE はバニラ (ReLU) SAE の単純な修正であり、ReLU を不連続のJumpReLU アクティベーション関数に置き換える。 直線スルー推定器(STE)を原理的に利用することにより,SAEの前方通過で導入された不連続なJumpReLU関数にもかかわらず,JumpReLU SAEを効果的に訓練できることを示す。 同様に、私たちはSTEを使用して、L1のようなプロキシでトレーニングするのではなく、L0を直接スパースにトレーニングします。

Sparse autoencoders (SAEs) are a promising unsupervised approach for identifying causally relevant and interpretable linear features in a language model's (LM) activations. To be useful for downstream tasks, SAEs need to decompose LM activations faithfully; yet to be interpretable the decomposition must be sparse -- two objectives that are in tension. In this paper, we introduce JumpReLU SAEs, which achieve state-of-the-art reconstruction fidelity at a given sparsity level on Gemma 2 9B activations, compared to other recent advances such as Gated and TopK SAEs. We also show that this improvement does not come at the cost of interpretability through manual and automated interpretability studies. JumpReLU SAEs are a simple modification of vanilla (ReLU) SAEs -- where we replace the ReLU with a discontinuous JumpReLU activation function -- and are similarly efficient to train and run. By utilising straight-through-estimators (STEs) in a principled manner, we show how it is possible to train JumpReLU SAEs effectively despite the discontinuous JumpReLU function introduced in the SAE's forward pass. Similarly, we use STEs to directly train L0 to be sparse, instead of training on proxies such as L1, avoiding problems like shrinkage.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# 効率的なマルチモーダル文書理解のためのトークンレベルの相関誘導圧縮

Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding ( http://arxiv.org/abs/2407.14439v1 )

ライセンス: Link先を確認
Renshan Zhang, Yibo Lyu, Rui Shao, Gongwei Chen, Weili Guan, Liqiang Nie, (参考訳) 高解像度の文書画像を複数のサブイメージに分類することは、文書理解を行うための現在のマルチモーダル大言語モデル(MLLM)において最も広く使われているアプローチである。 現在の文書理解手法のほとんどは、サブイメージ内のすべてのトークンを保存し、それらを等しく扱う。 これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。 より適応的で効率的な文書理解を実現するため,トークン処理を最適化するパラメータフリー・プラグアンドプレイ手法であるToken-level correlation-guided Compressionを提案する。 まず、各パッチトークン間の相関に基づいてパターン反復性を評価する革新的な手法を提案する。 この方法は冗長なトークンを識別し、サブイメージの情報密度を決定する。 次に,CLSトークンとパッチトークンの相関関係を探索することにより,最も情報性の高いトークンを効率的に抽出するトークンレベルサンプリング手法を提案する。 これらの戦略を統合することで,収穫技術を利用したMLLMにシームレスに組み込むことができるプラグアンドプレイ適応圧縮モジュールを開発した。 このモジュールは、トレーニングや推論中に処理速度を向上するだけでなく、同等のパフォーマンスも維持する。 我々は,SOTA文書理解モデルmPLUG-DocOwl1.5を用いて実験を行い,他の圧縮手法との比較によりその効果を実証した。

Cropping high-resolution document images into multiple sub-images is the most widely used approach for current Multimodal Large Language Models (MLLMs) to do document understanding. Most of current document understanding methods preserve all tokens within sub-images and treat them equally. This neglects their different informativeness and leads to a significant increase in the number of image tokens. To perform a more adaptive and efficient document understanding, we propose Token-level Correlation-guided Compression, a parameter-free and plug-and-play methodology to optimize token processing. Firstly, we propose an innovative approach for assessing the pattern repetitiveness based on the correlation between each patch tokens. This method identifies redundant tokens, allowing for the determination of the sub-image's information density. Secondly, we present a token-level sampling method that efficiently captures the most informative tokens by delving into the correlation between the [CLS] token and patch tokens. By integrating these strategies, we develop a plug-and-play adaptive compressor module that can be seamlessly incorporated into MLLMs utilizing cropping techniques. This module not only enhances the processing speed during training and inference but also maintains comparable performance. We conduct experiments with the SOTA document understanding model mPLUG-DocOwl1.5 and the effectiveness is demonstrated through extensive comparisons with other compression methods.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# 心の証明を損なう:AIが思考をより簡単にすることで協力を困難にする方法

Undermining Mental Proof: How AI Can Make Cooperation Harder by Making Thinking Easier ( http://arxiv.org/abs/2407.14452v1 )

ライセンス: Link先を確認
Zachary Wojtowicz, Simon DeDeo, (参考訳) 大規模言語モデルやその他の高度なAIシステムは、何を言うべきかを決めることの負担を軽減しますが、この非常に簡単なことは、社会的文脈における私たちの行動の有効性を損ないます。 観察可能な行動が観察不可能な心的事実の証明に使用される場合に発生する「精神的証明」という統合的理論概念を導入することで、この明らかな緊張を説明できる。 雇用からデートまで、精神的な証明は、誠実さを容易に強制できない低信頼の環境で、人々の心の価値、意図、知識の状態、その他のプライベートな特徴を互いに確実に伝達することを可能にする。 経済学、理論生物学、計算機科学の成果に基づいて、人々は精神的な証明に影響を及ぼすことができる中核的な理論メカニズムについて記述する。 これらのメカニズムの分析は、人工知能がいつどのように、どのようにして低信頼の協力を困難にできるかを明らかにする。

Large language models and other highly capable AI systems ease the burdens of deciding what to say or do, but this very ease can undermine the effectiveness of our actions in social contexts. We explain this apparent tension by introducing the integrative theoretical concept of "mental proof," which occurs when observable actions are used to certify unobservable mental facts. From hiring to dating, mental proofs enable people to credibly communicate values, intentions, states of knowledge, and other private features of their minds to one another in low-trust environments where honesty cannot be easily enforced. Drawing on results from economics, theoretical biology, and computer science, we describe the core theoretical mechanisms that enable people to effect mental proofs. An analysis of these mechanisms clarifies when and how artificial intelligence can make low-trust cooperation harder despite making thinking easier.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# 反単位対称性を持つ系の熱純状態とそのテンソルネットワーク表現

Thermal pure states for systems with antiunitary symmetries and their tensor network representations ( http://arxiv.org/abs/2407.14454v1 )

ライセンス: Link先を確認
Yasushi Yoneta, (参考訳) 統計アンサンブルの代わりに純粋平衡状態を表す純粋量子状態を用いる熱純状態アルゴリズムは、数値シミュレーションと熱状態の理論解析の両方に有用である。 しかし、その本質的に大きな絡み合いは、効率的に表現し、大きなシステムを分析する際に使用を制限することを困難にしている。 本稿では、時間反転対称性や複素共役対称性など、ある種の反単位対称性を持つ系に対して、熱純状態を構築するための新しいアルゴリズムを提案する。 提案手法は, 体積則の絡み合いを示す一方で, 簡単な変換によってテンソルネットワーク状態にマッピングできる熱純状態を利用する。 さらに,本手法はランダムサンプリングに頼らず,統計的不確実性を回避する。 さらに, 局所観測値の熱予測値だけでなく, 熱力学関数も計算できる。 三角格子上の1次元XYモデルと2次元Isingモデルに適用することで,本手法の有効性と有用性を示す。 以上の結果から, 熱平衡状態に限らず, 体積法則状態に対する新しい変動波動関数のクラスが示唆された。

Thermal pure state algorithms, which employ pure quantum states representing thermal equilibrium states instead of statistical ensembles, are useful both for numerical simulations and for theoretical analysis of thermal states. However, their inherently large entanglement makes it difficult to represent efficiently and limits their use in analyzing large systems. Here, we propose a new algorithm for constructing thermal pure states for systems with certain antiunitary symmetries, such as time-reversal or complex conjugation symmetry. Our method utilizes thermal pure states that, while exhibiting volume-law entanglement, can be mapped to tensor network states through simple transformations. Furthermore, our approach does not rely on random sampling and thus avoids statistical uncertainty. Moreover, we can compute not only thermal expectation values of local observables but also thermodynamic functions. We demonstrate the validity and utility of our method by applying it to the one-dimensional XY model and the two-dimensional Ising model on a triangular lattice. Our results suggest a new class of variational wave functions for volume-law states that are not limited to thermal equilibrium states.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# AudioInsight:音声から社会的不安に関連する社会的文脈を検出する

AudioInsight: Detecting Social Contexts Relevant to Social Anxiety from Speech ( http://arxiv.org/abs/2407.14458v1 )

ライセンス: Link先を確認
Varun Reddy, Zhiyuan Wang, Emma Toner, Max Larrazabal, Mehdi Boukhechba, Bethany A. Teachman, Laura E. Barnes, (参考訳) 社会的相互作用の間、文脈の複雑さを理解することは、特に社会的に不安な個人にとって不可欠である。 これまでの研究では、周囲のオーディオから社会的相互作用の存在が検出できることがわかったが、不安を引き起こす相互作用がどう影響するかに影響を及ぼす社会的文脈内のニュアンスはほとんど未解明のままである。 本研究は、従来の自己報告のような負担のかかる手法に代わるものとして、周囲の音声セグメントを利用して社会的脅威のコンテキストを検出する新しいアプローチを提案する。 相互作用パートナーの数(ダイアディック対グループ)と評価脅威の度合い(明示的評価対明示的評価)という2つの重要な側面に注目します。 Zoomベースのソーシャルインタラクション研究(N=52大学生、N=45は社会的に不安)のデータに基づいて、我々は強力な検出性能を達成するために深層学習手法を採用している。 試料幅5倍のCross Validation (CV) では,90%の精度でグループ間相互作用を区別し,83倍の精度で評価的脅威を検出できた。 分離群別CVでは, それぞれ82 %, 77 %であった。 我々のデータはパンデミックの制約による仮想的相互作用に基づいているが、我々の手法は様々な現実世界の設定にまで拡張できる可能性がある。 この研究は、複雑な社会的文脈を区別する受動的知覚とAIの可能性を強調し、究極的には、個別のメンタルヘルスサポートを提供するためにコンテキスト対応のデジタル介入の能力を促進する可能性がある。

During social interactions, understanding the intricacies of the context can be vital, particularly for socially anxious individuals. While previous research has found that the presence of a social interaction can be detected from ambient audio, the nuances within social contexts, which influence how anxiety provoking interactions are, remain largely unexplored. As an alternative to traditional, burdensome methods like self-report, this study presents a novel approach that harnesses ambient audio segments to detect social threat contexts. We focus on two key dimensions: number of interaction partners (dyadic vs. group) and degree of evaluative threat (explicitly evaluative vs. not explicitly evaluative). Building on data from a Zoom-based social interaction study (N=52 college students, of whom the majority N=45 are socially anxious), we employ deep learning methods to achieve strong detection performance. Under sample-wide 5-fold Cross Validation (CV), our model distinguished dyadic from group interactions with 90\% accuracy and detected evaluative threat at 83\%. Using a leave-one-group-out CV, accuracies were 82\% and 77\%, respectively. While our data are based on virtual interactions due to pandemic constraints, our method has the potential to extend to diverse real-world settings. This research underscores the potential of passive sensing and AI to differentiate intricate social contexts, and may ultimately advance the ability of context-aware digital interventions to offer personalized mental health support.
翻訳日:2024-07-22 16:55:32 公開日:2024-07-19
# PolyFormer: Polynomial Graph Transformerによるスケーラブルなノードワイズフィルタ

PolyFormer: Scalable Node-wise Filters via Polynomial Graph Transformer ( http://arxiv.org/abs/2407.14459v1 )

ライセンス: Link先を確認
Jiahong Ma, Mingguo He, Zhewei Wei, (参考訳) スペクトルグラフニューラルネットワークはグラフ表現学習において優れた性能を示した。 しかし、現在の多くの手法では、ノードレベルのタスクに対するフィルタの柔軟性を制限するノード統一フィルタの学習など、すべてのノードに対して共有多項式係数を使うことに重点を置いている。 最近のDSFは、位置符号化に基づいてノードワイズ係数を学習することで、この制限を克服しようとしている。 しかし、位置符号化の初期化と更新プロセスは重荷となり、大規模グラフのスケーラビリティを損なう。 本研究では,スケーラブルなノードワイドフィルタPolyAttnを提案する。 注意機構を活用することで、PolyAttnはノードワイズフィルタを直接効率的に学習し、強力な表現機能を提供する。 PolyAttn上に構築されたPolyFormerというモデル全体を紹介します。 Graph Transformerモデルのレンズでは、ノード内のアテンションスコアを計算するPolyFormerが、優れたスケーラビリティを示している。 さらに、このモデルはスペクトル情報をキャプチャし、効率を保ちながら表現性を向上する。 これらの利点により、PolyFormerは、ノードレベルのタスクに対するスケーラビリティと表現性の間の望ましいバランスを提供します。 大規模な実験により,提案手法は任意のノードワイドフィルタの学習に優れ,ホモ親和性グラフとヘテロ親和性グラフの両方において優れた性能を示し,最大1億ノードのグラフを扱うことを示した。 コードはhttps://github.com/air029/PolyFormer.comから入手できる。

Spectral Graph Neural Networks have demonstrated superior performance in graph representation learning. However, many current methods focus on employing shared polynomial coefficients for all nodes, i.e., learning node-unified filters, which limits the filters' flexibility for node-level tasks. The recent DSF attempts to overcome this limitation by learning node-wise coefficients based on positional encoding. However, the initialization and updating process of the positional encoding are burdensome, hindering scalability on large-scale graphs. In this work, we propose a scalable node-wise filter, PolyAttn. Leveraging the attention mechanism, PolyAttn can directly learn node-wise filters in an efficient manner, offering powerful representation capabilities. Building on PolyAttn, we introduce the whole model, named PolyFormer. In the lens of Graph Transformer models, PolyFormer, which calculates attention scores within nodes, shows great scalability. Moreover, the model captures spectral information, enhancing expressiveness while maintaining efficiency. With these advantages, PolyFormer offers a desirable balance between scalability and expressiveness for node-level tasks. Extensive experiments demonstrate that our proposed methods excel at learning arbitrary node-wise filters, showing superior performance on both homophilic and heterophilic graphs, and handling graphs containing up to 100 million nodes. The code is available at https://github.com/air029/PolyFormer.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# 単一光子源としての1次元フォトニックワイヤ:次元が減少するフォノン浴へのcQEDの影響

The 1D photonic wire as a single-photon source: Implications of cQED to a phonon bath of reduced dimensionality ( http://arxiv.org/abs/2407.14462v1 )

ライセンス: Link先を確認
José Ferreira Neto, Matias Bundgaard-Nielsen, Niels Gregersen, Luca Vannucci, (参考訳) 固体材料に配置された半導体量子ドットは単一光子の決定論的放出を可能にするが、光子不明瞭性は固体環境の格子振動、フォノンとの固有結合に強く影響される。 本研究では、均質円筒ナノワイヤの1次元系に置かれた量子ドットに対するフォノン誘起デコヒーレンスについて検討する。 このような構造は複数の長手フォノン分岐をサポートし、これらのモードに対するエミッタの線形結合と二次結合の両方を考える。 ポーラロン法では,まず1D純脱落率の解析式を導出し,バルクに比べて純脱落率を低下させる。 これらの結果を完全な空洞量子電磁力学モデルに実装することにより、1次元系の不明瞭性を正確に予測するためには、多重モード結合が必要であり、そうでなければかなり過小評価される可能性があることを実証する。

While the semiconductor quantum dot placed in a solid-state material allows for deterministic emission of single photons, the photon indistinguishability is strongly influenced by the intrinsic coupling to lattice vibrations, phonons, of the solid-state environment. This work investigates the phonon-induced decoherence for a quantum dot placed in the one-dimensional system of a homogeneous cylindrical nanowire. Such a structure supports multiple longitudinal phonon branches, and we consider both a linear and a quadratic coupling of the emitter to these modes. Under a polaron approach, we initially derive an analytical expression for the 1D pure dephasing rate, which leads to a reduced pure dephasing rate compared with bulk. By implementing these results into a full cavity quantum electrodynamic model, we demonstrate that multimode coupling is necessary to correctly predict the indistinguishability in a 1D system, which may otherwise be significantly underestimated.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# SurvReLU:Deep ReLUネットワークによる生存分析

SurvReLU: Inherently Interpretable Survival Analysis via Deep ReLU Networks ( http://arxiv.org/abs/2407.14463v1 )

ライセンス: Link先を確認
Xiaotong Sun, Peijie Qiu, Shengfan Zhang, (参考訳) 生存分析は検閲を伴う時間-時間分布をモデル化する。 近年、ニューラルネットワークを用いた深層生存モデルは、その表現力と最先端の性能により支配的になっている。 しかし、それらの「ブラックボックス」の性質は、現実世界の応用において重要な解釈可能性を妨げる。 対照的に、"ホワイトボックス"木に基づく生存モデルは、より良い解釈可能性を提供するが、欲求拡大のためにグローバル最適に収束するのに苦労する。 本稿では,従来の木系サバイバルモデルと過去の木系サバイバルモデルとのギャップを,深部修正線形ユニット(ReLU)ネットワークを介して橋渡しする。 本研究では,木質構造体の解釈可能性と深層生存モデルの表現力とを,意図的に構築した深部ReLUネットワーク(SurvReLU)が有効であることを示す。 シミュレーションおよび実生存ベンチマークのデータセットに関する実証研究は、性能と相互運用性の観点から提案されたSurvReLUの有効性を示している。 コードは \href{https://github.com/xs018/SurvReLU}{\color{magenta}{ https://github.com/xs018/SurvReLU}} で公開されている。

Survival analysis models time-to-event distributions with censorship. Recently, deep survival models using neural networks have dominated due to their representational power and state-of-the-art performance. However, their "black-box" nature hinders interpretability, which is crucial in real-world applications. In contrast, "white-box" tree-based survival models offer better interpretability but struggle to converge to global optima due to greedy expansion. In this paper, we bridge the gap between previous deep survival models and traditional tree-based survival models through deep rectified linear unit (ReLU) networks. We show that a deliberately constructed deep ReLU network (SurvReLU) can harness the interpretability of tree-based structures with the representational power of deep survival models. Empirical studies on both simulated and real survival benchmark datasets show the effectiveness of the proposed SurvReLU in terms of performance and interoperability. The code is available at \href{https://github.com/xs018/SurvReLU}{\color{magenta}{ https://github.com/xs018/SurvReLU}}.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# AttentNet:肺結節検出のための完全な畳み込み3次元注意

AttentNet: Fully Convolutional 3D Attention for Lung Nodule Detection ( http://arxiv.org/abs/2407.14464v1 )

ライセンス: Link先を確認
Majedaldein Almahasneh, Xianghua Xie, Adeline Paiement, (参考訳) Squeeze-and-Excite (SE) や Convolutional Block Attention Module (CBAM) のような一般的な畳み込み(畳み込み)の注意モデルが高価な多層認識(MLP)層に依存しているのを観察する。 これらのMLP層は計算複雑性を著しく増加させ、データ次元と計算コストが高い3次元画像コンテキストに適用できないようにした。 3次元肺CTなどの3次元医用画像では,データ量が大きいため,効率的な処理が重要である。 従来の2Dアテンションは3Dに一般化され、計算負荷が増加し、3Dタスクのより効率的なアテンション機構が要求される。 完全畳み込み型(畳み込み型)の注意を3次元空間に組み込む可能性について検討した。 我々は2つの完全な3Dコンブを提示する。 注意ブロック 効果を3Dで示します 肺結節自動検出フレームワークである AttentNet をCT画像から3次元肺結節検出に用いて,2段階のアンサンブル,候補提案,偽陽性 (FP) の低減を図った。 提案する3Dアテンションブロックを,一般的な2Dコンブと比較した。 注意法は3Dモジュールと自己注意ユニットに一般化された。 また、FP削減段階において、異なる文脈レベルから空間情報を集約するために、共同分析手法を用いる。 肺結節検出データセットLUNA-16を用いて,提案した全結節の利点を実証した。 注意がない場合の肺結節検出法と比較して注意ブロック。 本研究は, 肺結節検出作業における最先端の成果を達成することを目的としておらず, 完全な結節を組み込むことのメリットを実証するものである。 3Dコンテキスト内の注意。

Motivated by the increasing popularity of attention mechanisms, we observe that popular convolutional (conv.) attention models like Squeeze-and-Excite (SE) and Convolutional Block Attention Module (CBAM) rely on expensive multi-layer perception (MLP) layers. These MLP layers significantly increase computational complexity, making such models less applicable to 3D image contexts, where data dimensionality and computational costs are higher. In 3D medical imaging, such as 3D pulmonary CT scans, efficient processing is crucial due to the large data volume. Traditional 2D attention generalized to 3D increases the computational load, creating demand for more efficient attention mechanisms for 3D tasks. We investigate the possibility of incorporating fully convolutional (conv.) attention in 3D context. We present two 3D fully conv. attention blocks, demonstrating their effectiveness in 3D context. Using pulmonary CT scans for 3D lung nodule detection, we present AttentNet, an automated lung nodule detection framework from CT images, performing detection as an ensemble of two stages, candidate proposal and false positive (FP) reduction. We compare the proposed 3D attention blocks to popular 2D conv. attention methods generalized to 3D modules and to self-attention units. For the FP reduction stage, we also use a joint analysis approach to aggregate spatial information from different contextual levels. We use LUNA-16 lung nodule detection dataset to demonstrate the benefits of the proposed fully conv. attention blocks compared to baseline popular lung nodule detection methods when no attention is used. Our work does not aim at achieving state-of-the-art results in the lung nodule detection task, rather to demonstrate the benefits of incorporating fully conv. attention within a 3D context.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# マイクロ波シールド分子における深層フェルミ縮退のシミュレーション

Simulations of evaporation to deep Fermi degeneracy in microwave-shielded molecules ( http://arxiv.org/abs/2407.14466v1 )

ライセンス: Link先を確認
Reuben R. W. Wang, Shrestha Biswas, Sebastian Eppelt, Fulin Deng, Xin-Yu Luo, John L. Bohn, (参考訳) 超低温分子気体における新しい量子物質の実現を目指して,マイクロ波シールド極性フェルミオン分子の超低温気体における蒸発冷却の数値的研究を行った。 我々のモンテカルロシミュレーションには、正確な2体弾性および非弾性散乱断面積、光学双極子トラップの現実的モデリング、低温におけるパウリブロッキングの影響が組み込まれている。 シミュレーションは、超低温NaK分子を用いた蒸発実験のデータと比較し、良好な一致を示した。 さらに,蒸発軌道の傾斜速度と持続時間を変化させることで,蒸発効率を最適化する可能性についても検討する。 シミュレーションの結果, 分子損失が2体であっても, 最適条件下でフェルミ温度の$<10\%の値に到達できることが示唆された。

In the quest toward realizing novel quantum matter in ultracold molecular gases, we perform a numerical study of evaporative cooling in ultracold gases of microwave-shielded polar fermionic molecules. Our Monte Carlo simulations incorporate accurate two-body elastic and inelastic scattering cross sections, realistic modeling of the optical dipole trap, and the influence of Pauli blocking at low temperatures. The simulations are benchmarked against data from evaporation studies performed with ultracold NaK molecules, showing excellent agreement. We further explore the prospects for optimizing the evaporation efficiency by varying the ramp rate and duration of the evaporation trajectory. Our simulation shows that it is possible to reach $< 10\%$ of the Fermi temperature under optimal conditions even in the presence of two-body molecular losses.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# Check-Eval: テキストの品質評価のためのチェックリストベースのアプローチ

Check-Eval: A Checklist-based Approach for Evaluating Text Quality ( http://arxiv.org/abs/2407.14467v1 )

ライセンス: Link先を確認
Jayr Pereira, Roberto Lotufo, (参考訳) 大規模言語モデル(LLM)が生成するテキストの品質を評価することは、依然として大きな課題である。 伝統的なメトリクスは、創造性やニュアンスを必要とするタスクにおいて、人間の判断とうまく一致しないことが多い。 本稿では,LLMを利用した新しい評価フレームワークであるCheck-Evalを提案する。 Check-Evalは、参照なしと参照依存の両方の評価方法として使用することができ、構造化され、解釈可能なテキスト品質の評価を提供する。 このフレームワークは、チェックリスト生成とチェックリスト評価の2つの主要なステージで構成されている。 ポルトガルの法定意味テキスト類似度とSummEvalの2つのベンチマークデータセット上でCheck-Evalを検証する。 G-Eval や GPTScore などの既存の指標と比較して,チェック・エバルは人間の判断と高い相関性を示し,自然言語生成タスクの信頼性と効果的な評価フレームワークとしての可能性を強調した。 実験のコードはhttps://anonymous.4open.science/r/check-eval-0DB4で公開されている。

Evaluating the quality of text generated by large language models (LLMs) remains a significant challenge. Traditional metrics often fail to align well with human judgments, particularly in tasks requiring creativity and nuance. In this paper, we propose Check-Eval, a novel evaluation framework leveraging LLMs to assess the quality of generated text through a checklist-based approach. Check-Eval can be employed as both a reference-free and reference-dependent evaluation method, providing a structured and interpretable assessment of text quality. The framework consists of two main stages: checklist generation and checklist evaluation. We validate Check-Eval on two benchmark datasets: Portuguese Legal Semantic Textual Similarity and SummEval. Our results demonstrate that Check-Eval achieves higher correlations with human judgments compared to existing metrics, such as G-Eval and GPTScore, underscoring its potential as a more reliable and effective evaluation framework for natural language generation tasks. The code for our experiments is available at https://anonymous.4open.science/r/check-eval-0DB4.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# MLMT-CNNによる多層・多スペクトル画像の物体検出とセグメンテーション

MLMT-CNN for Object Detection and Segmentation in Multi-layer and Multi-spectral Images ( http://arxiv.org/abs/2407.14473v1 )

ライセンス: Link先を確認
Majedaldein Almahasneh, Adeline Paiement, Xianghua Xie, Jean Aboudarham, (参考訳) 多スペクトル画像から太陽活動領域(AR)を正確に特定することは、太陽活動とその宇宙気象への影響を理解する上で難しいが重要な課題である。 主な課題は、すべての画像バンドが同じシーンを観察する典型的なマルチスペクトルイメージングのシナリオとは対照的に、3Dオブジェクトの異なる位置をキャプチャする各モードによる。 したがって、この特殊なマルチスペクトルシナリオをマルチ層と呼ぶ。 本稿では、画像バンド間の依存関係を利用して、異なる画像バンド(および物理位置)がそれぞれ独自の結果を持つ3次元ARローカライゼーション(セグメンテーションと検出)を生成するマルチタスク深層学習フレームワークを提案する。 さらに、教師付き機械学習(ML)アルゴリズムをトレーニングするための高密度なARアノテーションを作成することの難しさに対処するために、弱いラベル(つまりバウンディングボックス)に基づいたトレーニング戦略を再帰的に適用する。 我々は,太陽画像解析(マルチチャネルコロナホール検出,AR用SPOCA)と最先端深層学習法(Faster RCNN, U-Net)のベースライン手法と比較した。 さらに、アノテートされたマルチモーダル磁気共鳴画像から作成した同様の空間構成の人工的に生成されたデータに対して、両方の検出第2セグメンテーション段階を定量的に検証する。 本フレームワークは, 平均0.72 IoU(セグメンテーション)と0.90 F1(検出)を, それぞれ0.53と0.58と, ベースライン0.82 F1と比較したAR検出タスクの0.84 F1スコアと比較して, 全モードで平均0.72 IoUと0.90 F1スコアを達成する。 我々のセグメンテーション結果は、実際のARの専門家によって質的に検証されている。

Precisely localising solar Active Regions (AR) from multi-spectral images is a challenging but important task in understanding solar activity and its influence on space weather. A main challenge comes from each modality capturing a different location of the 3D objects, as opposed to typical multi-spectral imaging scenarios where all image bands observe the same scene. Thus, we refer to this special multi-spectral scenario as multi-layer. We present a multi-task deep learning framework that exploits the dependencies between image bands to produce 3D AR localisation (segmentation and detection) where different image bands (and physical locations) have their own set of results. Furthermore, to address the difficulty of producing dense AR annotations for training supervised machine learning (ML) algorithms, we adapt a training strategy based on weak labels (i.e. bounding boxes) in a recursive manner. We compare our detection and segmentation stages against baseline approaches for solar image analysis (multi-channel coronal hole detection, SPOCA for ARs) and state-of-the-art deep learning methods (Faster RCNN, U-Net). Additionally, both detection a nd segmentation stages are quantitatively validated on artificially created data of similar spatial configurations made from annotated multi-modal magnetic resonance images. Our framework achieves an average of 0.72 IoU (segmentation) and 0.90 F1 score (detection) across all modalities, comparing to the best performing baseline methods with scores of 0.53 and 0.58, respectively, on the artificial dataset, and 0.84 F1 score in the AR detection task comparing to baseline of 0.82 F1 score. Our segmentation results are qualitatively validated by an expert on real ARs.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# 放射線学レポート生成のための対実的説明を用いたコントラスト学習

Contrastive Learning with Counterfactual Explanations for Radiology Report Generation ( http://arxiv.org/abs/2407.14474v1 )

ライセンス: Link先を確認
Mingjie Li, Haokun Lin, Liang Qiu, Xiaodan Liang, Ling Chen, Abdulmotaleb Elsaddik, Xiaojun Chang, (参考訳) 解剖学の共通する内容から, 放射線画像とそれに対応する報告は類似性が高い。 このような本質的なデータバイアスは, 絡み合った, 急激な表現を学習するために, 自動レポート生成モデルを前提とすることができる。 このような問題に対処するために,放射線学レポート生成のための新しいフレームワークである『textbf{Co}unter\textbf{F}actual \textbf{E}xplanations-based framework』(CoFE)を提案する。 反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとなる。 この概念を活用することで、CoFEは実写画像と偽写画像の表現を対比することで、不明瞭な視覚表現を学習することができる。 具体的には、予測された診断シフトが起こるまで、正と負のサンプルのパッチを交換することで、対物画像の導出を行う。 ここでは、正と負のサンプルが最も意味的に似ているが、診断ラベルが異なる。 さらに、CoFEは学習可能なプロンプトを使用して、事前訓練された大きな言語モデルを効率的に微調整し、事実と反事実の両方をカプセル化し、より一般化可能なプロンプト表現を提供する。 2つのベンチマークによる大規模な実験により、CoFEは、言語生成と臨床効果指標の点で、意味論的に一貫性があり、事実的に完全なレポートを生成し、性能を上回ることが示される。

Due to the common content of anatomy, radiology images with their corresponding reports exhibit high similarity. Such inherent data bias can predispose automatic report generation models to learn entangled and spurious representations resulting in misdiagnostic reports. To tackle these, we propose a novel \textbf{Co}unter\textbf{F}actual \textbf{E}xplanations-based framework (CoFE) for radiology report generation. Counterfactual explanations serve as a potent tool for understanding how decisions made by algorithms can be changed by asking ``what if'' scenarios. By leveraging this concept, CoFE can learn non-spurious visual representations by contrasting the representations between factual and counterfactual images. Specifically, we derive counterfactual images by swapping a patch between positive and negative samples until a predicted diagnosis shift occurs. Here, positive and negative samples are the most semantically similar but have different diagnosis labels. Additionally, CoFE employs a learnable prompt to efficiently fine-tune the pre-trained large language model, encapsulating both factual and counterfactual content to provide a more generalizable prompt representation. Extensive experiments on two benchmarks demonstrate that leveraging the counterfactual explanations enables CoFE to generate semantically coherent and factually complete reports and outperform in terms of language generation and clinical efficacy metrics.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# ChatQA 2: 長期的コンテキストとRAGの能力で、プロプライエタリなLLMにギャップを埋める

ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities ( http://arxiv.org/abs/2407.14482v1 )

ライセンス: Link先を確認
Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro, (参考訳) 本稿では,Llama3をベースとしたChatQA 2を提案する。Llama3をベースとしたモデルで,LLMとGPT-4-Turboなどのプロプライエタリモデル間のギャップを,長期的コンテキスト理解と検索拡張生成(RAG)機能で埋める。 これらの2つの機能は、1つのプロンプトに収まらない大量の情報を処理し、下流のタスクや計算予算によって相補的な処理を行うのに不可欠である。 そこで本研究では,Llama3-70Bベースのコンテキストウィンドウを8Kから128Kのトークンに拡張し,モデルの命令追従,RAG性能,長期コンテキスト理解能力を向上させる3段階の命令チューニングプロセスを提案する。 以上の結果から,Llama3-ChatQA-2-70Bモデルは,多くの長文理解タスクにおいてGPT-4-Turbo-2024-0409に匹敵する精度を達成し,RAGベンチマークで上回った。 興味深いことに、最先端の長文検索は、RAGにおけるトップkコンテキストの断片化問題を緩和し、長文理解タスクにおけるRAGベースの結果を改善することができる。 我々はまた、最先端の長文LLMを用いて、RAGと長文の解を広範囲に比較する。

In this work, we introduce ChatQA 2, a Llama3-based model designed to bridge the gap between open-access LLMs and leading proprietary models (e.g., GPT-4-Turbo) in long-context understanding and retrieval-augmented generation (RAG) capabilities. These two capabilities are essential for LLMs to process large volumes of information that cannot fit into a single prompt and are complementary to each other, depending on the downstream tasks and computational budgets. We present a detailed continued training recipe to extend the context window of Llama3-70B-base from 8K to 128K tokens, along with a three-stage instruction tuning process to enhance the model's instruction-following, RAG performance, and long-context understanding capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model achieves accuracy comparable to GPT-4-Turbo-2024-0409 on many long-context understanding tasks and surpasses it on the RAG benchmark. Interestingly, we find that the state-of-the-art long-context retriever can alleviate the top-k context fragmentation issue in RAG, further improving RAG-based results for long-context understanding tasks. We also provide extensive comparisons between RAG and long-context solutions using state-of-the-art long-context LLMs.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# 大規模言語モデルにおける自己説明の信頼性の評価

Evaluating the Reliability of Self-Explanations in Large Language Models ( http://arxiv.org/abs/2407.14487v1 )

ライセンス: Link先を確認
Korbinian Randl, John Pavlopoulos, Aron Henriksson, Tony Lindgren, (参考訳) 本稿では,大言語モデル (LLM) が生成した説明の信頼性について検討する。 対象と主観の2つの異なる分類課題(対象と主観)について,最先端の3つのLSM(2Bから8Bパラメータ)を用いて,抽出的と反現実的という2種類の自己説明を評価する。 その結果、これらの自己説明は人間の判断と相関するが、モデルの決定過程を完全に的確に追従せず、知覚と実際のモデル推論のギャップを示唆していることがわかった。 このギャップを橋渡しできるのは, 反実的な説明をLCMに促すことによって, 忠実で, 情報的で, 容易に検証できる結果が得られるからである。 これらの対策は従来の説明可能性手法(例えばSHAP、LIME)に代わる有望な代替手段を提供し、プロンプトは特定のタスクに合わせて調整され、妥当性を確認する。

This paper investigates the reliability of explanations generated by large language models (LLMs) when prompted to explain their previous output. We evaluate two kinds of such self-explanations - extractive and counterfactual - using three state-of-the-art LLMs (2B to 8B parameters) on two different classification tasks (objective and subjective). Our findings reveal, that, while these self-explanations can correlate with human judgement, they do not fully and accurately follow the model's decision process, indicating a gap between perceived and actual model reasoning. We show that this gap can be bridged because prompting LLMs for counterfactual explanations can produce faithful, informative, and easy-to-verify results. These counterfactuals offer a promising alternative to traditional explainability methods (e.g. SHAP, LIME), provided that prompts are tailored to specific tasks and checked for validity.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# 効率的な回帰のためのコンフォーマル閾値間隔

Conformal Thresholded Intervals for Efficient Regression ( http://arxiv.org/abs/2407.14495v1 )

ライセンス: Link先を確認
Rui Luo, Zhixin Zhou, (参考訳) 本稿では,CTI(Conformal Thresholded Intervals)を提案する。 ネスト型共形フレームワークと完全条件分布推定に依存する既存の手法とは異なり、CTIはオフザシェルマルチ出力量子化回帰を用いて、新しい応答が各周波数間隔に落ちる条件確率密度を推定する。 CTIは、推定された条件間間隔をその長さに基づいて閾値付けすることで予測セットを構築し、これは推定された確率密度に逆比例する。 閾値は、限界カバレッジを確保するためのキャリブレーションセットを用いて決定される。 実験により、CTIは様々なデータセットで最適な性能を発揮することが示された。

This paper introduces Conformal Thresholded Intervals (CTI), a novel conformal regression method that aims to produce the smallest possible prediction set with guaranteed coverage. Unlike existing methods that rely on nested conformal framework and full conditional distribution estimation, CTI estimates the conditional probability density for a new response to fall into each interquantile interval using off-the-shelf multi-output quantile regression. CTI constructs prediction sets by thresholding the estimated conditional interquantile intervals based on their length, which is inversely proportional to the estimated probability density. The threshold is determined using a calibration set to ensure marginal coverage. Experimental results demonstrate that CTI achieves optimal performance across various datasets.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# Discover-then-Name: 自動概念発見によるタスク非依存の概念ボトルネック

Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery ( http://arxiv.org/abs/2407.14499v1 )

ライセンス: Link先を確認
Sukrut Rao, Sweta Mahajan, Moritz Böhle, Bernt Schiele, (参考訳) 概念ボトルネックモデル(CBM)は、人間の理解可能な概念空間にイメージをマッピングし、次に分類のための概念を線形に組み合わせることで、ディープニューラルネットワークの「ブラックボックス」問題に対処するために最近提案されている。 このようなモデルは通常、まずタスクに関連する概念のセットを思いつき、次にこれらの概念にマップするために特徴抽出器の表現を調整する必要がある。 しかし、CLIPのような強力な基本機能抽出器であっても、特定の概念が検出可能である保証はない。 本研究では、近年の機械的解釈可能性の進歩を活用し、典型的なパラダイムを逆転するDiscover-then-Name-CBM(DN-CBM)と呼ばれる新しいCBMアプローチを提案する。 我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。 我々は,複数のデータセットやCLIPアーキテクチャを包括的に評価し,その手法が意味論的に意味のある概念を導出し,それらに適切な名前を与えて解釈しやすくし,性能的かつ解釈可能なCBMを導出することを示す。 コードはhttps://github.com/neuroexplicit-saar/discover-then-nameで公開されている。

Concept Bottleneck Models (CBMs) have recently been proposed to address the 'black-box' problem of deep neural networks, by first mapping images to a human-understandable concept space and then linearly combining concepts for classification. Such models typically require first coming up with a set of concepts relevant to the task and then aligning the representations of a feature extractor to map to these concepts. However, even with powerful foundational feature extractors like CLIP, there are no guarantees that the specified concepts are detectable. In this work, we leverage recent advances in mechanistic interpretability and propose a novel CBM approach -- called Discover-then-Name-CBM (DN-CBM) -- that inverts the typical paradigm: instead of pre-selecting concepts based on the downstream classification task, we use sparse autoencoders to first discover concepts learnt by the model, and then name them and train linear probes for classification. Our concept extraction strategy is efficient, since it is agnostic to the downstream task, and uses concepts already known to the model. We perform a comprehensive evaluation across multiple datasets and CLIP architectures and show that our method yields semantically meaningful concepts, assigns appropriate names to them that make them easy to interpret, and yields performant and interpretable CBMs. Code available at https://github.com/neuroexplicit-saar/discover-then-name.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# チャート理解のためのマルチモーダル言語モデルの事前学習について

On Pre-training of Multimodal Language Models Customized for Chart Understanding ( http://arxiv.org/abs/2407.14506v1 )

ライセンス: Link先を確認
Wan-Cyuan Fan, Yen-Chun Chen, Mengchen Liu, Lu Yuan, Leonid Sigal, (参考訳) 近年,多モーダル大規模言語モデル(MLLM)をドメイン固有のタスクにカスタマイズする研究は,特に科学的チャート理解の分野で有望な結果をもたらしている。 これらの研究は、一般的に、グラフ領域内の質問と回答(QA)の精度を高めるために、専門的なデータセットを用いた視覚的インストラクションチューニングを利用する。 しかし、自然画像キャプチャ事前学習データとデジタルチャート画像QAデータとの根本的な相違は、特にグラフから基礎となる数値を抽出するモデルの能力において無視されることが多い。 本稿では,MLLMのチャート理解を改善するために必要なトレーニングプロセスを検討することで,この監視に対処する。 1)アライメント事前学習における生データ値の導入は,チャートデータの理解を著しく向上させる。 2) 言語推論能力のチャート化に際し, テキスト表現をランダムに置き換える手法について検討した。 (3) 基礎となるグラフデータを抽出し, 微調整で質問に答えるモデルが必要であると, さらに精度が向上する。 そこで我々は,詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介した。 CHOPINLLMは、ロバストな推論能力を維持しながら、注釈のないチャートを含む様々な種類のチャートを効果的に解釈する。 さらに,MLLMの様々な理解レベルにおけるチャートタイプに対する理解度を評価するための新しいベンチマークを構築した。 実験の結果,CHOPINLLMは注釈付きチャートと注釈なしチャートの両方を多種多様なタイプで理解する上で高い性能を示した。

Recent studies customizing Multimodal Large Language Models (MLLMs) for domain-specific tasks have yielded promising results, especially in the field of scientific chart comprehension. These studies generally utilize visual instruction tuning with specialized datasets to enhance question and answer (QA) accuracy within the chart domain. However, they often neglect the fundamental discrepancy between natural image-caption pre-training data and digital chart image-QA data, particularly in the models' capacity to extract underlying numeric values from charts. This paper tackles this oversight by exploring the training processes necessary to improve MLLMs' comprehension of charts. We present three key findings: (1) Incorporating raw data values in alignment pre-training markedly improves comprehension of chart data. (2) Replacing images with their textual representation randomly during end-to-end fine-tuning transfer the language reasoning capability to chart interpretation skills. (3) Requiring the model to first extract the underlying chart data and then answer the question in the fine-tuning can further improve the accuracy. Consequently, we introduce CHOPINLLM, an MLLM tailored for in-depth chart comprehension. CHOPINLLM effectively interprets various types of charts, including unannotated ones, while maintaining robust reasoning abilities. Furthermore, we establish a new benchmark to evaluate MLLMs' understanding of different chart types across various comprehension levels. Experimental results show that CHOPINLLM exhibits strong performance in understanding both annotated and unannotated charts across a wide range of types.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# 大規模言語モデルにおける内部整合性と自己フィードバック

Internal Consistency and Self-Feedback in Large Language Models: A Survey ( http://arxiv.org/abs/2407.14507v1 )

ライセンス: Link先を確認
Xun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li, (参考訳) 大規模言語モデル(LLM)は、正確に応答することが期待されているが、しばしば不十分な推論や幻覚的内容を生成する。 こうした問題に対処するため、自己整合性、自己即興性、自現性などの「自己-」を冠称する研究が始められた。 彼らは共通点を共有している: 問題を緩和するためにLSMを評価し、更新する。 それにもかかわらず、これらの取り組みには要約に関する統一的な視点が欠如しており、既存の調査は、これらの作品の背景にあるモチベーションを調べることなく、分類に焦点を当てている。 本稿では,仮説の欠如や幻覚の存在といった現象を統一的に説明する,内部整合性(internal Consistency)という理論枠組みを要約する。 内部整合性は、サンプリング手法に基づくLCMの潜伏層、復号層、応答層間のコヒーレンスを評価する。 内部整合性フレームワークを拡張して、自己フィードバックと呼ばれる内部整合性をマイニングできる、合理的で効果的な理論的枠組みを導入する。 Self-Feedbackフレームワークは、Self-EvaluationとSelf-Updateの2つのモジュールで構成されている。 この枠組みは多くの研究で採用されている。 我々は、これらの研究をタスクや作業行によって体系的に分類し、関連する評価方法やベンチマークを要約し、懸念を掘り下げる: 'Does Self-Feedback Really Work?' 我々は、'Hourglass Evolution of Internal Consistency''や '`Consistency Is (Almost) correctness' 仮説、'The Paradox of Latent and Explicit Reasoning' など、いくつかの批判的な視点を提案する。 さらに,今後の研究の方向性について概説する。 実験コード、参照リスト、統計データをオープンソースとして公開し、 \url{https://github.com/IAAR-Shanghai/ICSFSurvey}で公開しています。

Large language models (LLMs) are expected to respond accurately but often exhibit deficient reasoning or generate hallucinatory content. To address these, studies prefixed with ``Self-'' such as Self-Consistency, Self-Improve, and Self-Refine have been initiated. They share a commonality: involving LLMs evaluating and updating itself to mitigate the issues. Nonetheless, these efforts lack a unified perspective on summarization, as existing surveys predominantly focus on categorization without examining the motivations behind these works. In this paper, we summarize a theoretical framework, termed Internal Consistency, which offers unified explanations for phenomena such as the lack of reasoning and the presence of hallucinations. Internal Consistency assesses the coherence among LLMs' latent layer, decoding layer, and response layer based on sampling methodologies. Expanding upon the Internal Consistency framework, we introduce a streamlined yet effective theoretical framework capable of mining Internal Consistency, named Self-Feedback. The Self-Feedback framework consists of two modules: Self-Evaluation and Self-Update. This framework has been employed in numerous studies. We systematically classify these studies by tasks and lines of work; summarize relevant evaluation methods and benchmarks; and delve into the concern, ``Does Self-Feedback Really Work?'' We propose several critical viewpoints, including the ``Hourglass Evolution of Internal Consistency'', ``Consistency Is (Almost) Correctness'' hypothesis, and ``The Paradox of Latent and Explicit Reasoning''. Furthermore, we outline promising directions for future research. We have open-sourced the experimental code, reference list, and statistical data, available at \url{https://github.com/IAAR-Shanghai/ICSFSurvey}.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# DEPICT: 画像分類タスクにおける拡散可能置換重要度

DEPICT: Diffusion-Enabled Permutation Importance for Image Classification Tasks ( http://arxiv.org/abs/2407.14509v1 )

ライセンス: Link先を確認
Sarah Jabbour, Gregory Kondas, Ella Kazerooni, Michael Sjoding, David Fouhey, Jenna Wiens, (参考訳) 画像分類器の置換に基づく説明法を提案する。 アクティベーションマップのような現在の画像モデル説明は、ピクセル空間のインスタンスベースの説明に限られており、グローバルなモデルの振る舞いを理解するのが困難である。 対照的に、表型データ分類器の置換に基づく説明は、特徴の置換前後のデータに対するモデル性能を比較することによって、特徴の重要度を測定する。 本稿では,データセット画像間で解釈可能な概念を変換する画像ベースモデルの説明手法を提案する。 字幕のような特定の概念でラベル付けされた画像のデータセットが与えられたら、テキスト空間の例にまたがって概念を浸透させ、テキスト条件の拡散モデルによって画像を生成する。 特徴の重要性は、不飽和データに対するモデルパフォーマンスの変化によって反映される。 一連の概念に適用すると、その手法は特徴重要度ランキングを生成する。 提案手法は,合成および実世界の画像分類タスクにおいて,基礎となるモデル特徴を回復することを示す。

We propose a permutation-based explanation method for image classifiers. Current image-model explanations like activation maps are limited to instance-based explanations in the pixel space, making it difficult to understand global model behavior. In contrast, permutation based explanations for tabular data classifiers measure feature importance by comparing model performance on data before and after permuting a feature. We propose an explanation method for image-based models that permutes interpretable concepts across dataset images. Given a dataset of images labeled with specific concepts like captions, we permute a concept across examples in the text space and then generate images via a text-conditioned diffusion model. Feature importance is then reflected by the change in model performance relative to unpermuted data. When applied to a set of concepts, the method generates a ranking of feature importance. We show this approach recovers underlying model feature importance on synthetic and real-world image classification tasks.
翻訳日:2024-07-22 16:45:36 公開日:2024-07-19
# 合理化を用いたデータ中心の人間選好最適化

Data-Centric Human Preference Optimization with Rationales ( http://arxiv.org/abs/2407.14477v1 )

ライセンス: Link先を確認
Hoang Anh Just, Ming Jin, Anit Sahu, Huy Phan, Ruoxi Jia, (参考訳) 人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせる上で重要な役割を担います。 多くの研究は、そのようなデータからの学習を最適化するアルゴリズム技術を強化してきたが、この研究は、データ中心のアプローチによる嗜好学習の改善に焦点を移している。 具体的には、選択の背景にある理由を説明する機械生成論理を用いた既存の嗜好データセットの強化を提案する。 我々は、合理的な情報で現在の嗜好学習方法を強化するための、シンプルで原則化されたフレームワークを開発する。 我々の総合的な分析は、合理性が学習効率を高める方法を強調している。 データ効率を改善し、より高いパフォーマンスのモデルへの収束を加速し、冗長性バイアスと幻覚を減らす。 さらに、このフレームワークは様々な選好最適化アルゴリズムを統合するのに十分な汎用性がある。 全体としては、選好学習のためのデータ設計を再定義する可能性を強調し、自由に利用できる機械生成の合理性でさえ、複数の次元にわたる性能を著しく向上させることができることを示した。 コードリポジトリはhttps: //github.com/reds-lab/preference-learning-with-rationalesで入手できる。

Reinforcement learning from human feedback plays a crucial role in aligning language models towards human preferences, traditionally represented through comparisons between pairs or sets of responses within a given context. While many studies have enhanced algorithmic techniques to optimize learning from such data, this work shifts focus to improving preference learning through a data-centric approach. Specifically, we propose enriching existing preference datasets with machine-generated rationales that explain the reasons behind choices. We develop a simple and principled framework to augment current preference learning methods with rationale information. Our comprehensive analysis highlights how rationales enhance learning efficiency. Extensive experiments reveal that rationale-enriched preference learning offers multiple advantages: it improves data efficiency, accelerates convergence to higher-performing models, and reduces verbosity bias and hallucination. Furthermore, this framework is versatile enough to integrate with various preference optimization algorithms. Overall, our findings highlight the potential of re-imagining data design for preference learning, demonstrating that even freely available machine-generated rationales can significantly boost performance across multiple dimensions. The code repository is available at https: //github.com/reds-lab/preference-learning-with-rationales
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# 視覚に基づく動き推定に関する一検討

A review on vision-based motion estimation ( http://arxiv.org/abs/2407.14478v1 )

ライセンス: Link先を確認
Hongyi Liu, Haifeng Wang, (参考訳) コンタクトセンサーを用いたモーション計測と比較すると、視覚ベースのモーション計測は低コストと高効率の利点があり、ここ数十年で活発な開発が続けられている。 本稿では,既存の動き計測手法について概説する。 視覚に基づく運動計測法の各分野の開発に加えて,既存の手法の利点と欠点についても論じる。 この議論から,既存の手法は精度とロバストさの最適バランスに共通する限界があることが確認された。 この問題に対処するため,我々はガウスカーネルを用いた運動計測法を開発した。 予備研究により, 簡易合成画像の高精度化が図られた。

Compared to contact sensors-based motion measurement, vision-based motion measurement has advantages of low cost and high efficiency and have been under active development in the past decades. This paper provides a review on existing motion measurement methods. In addition to the development of each branch of vision-based motion measurement methods, this paper also discussed the advantages and disadvantages of existing methods. Based on this discussion, it was identified that existing methods have a common limitation in optimally balancing accuracy and robustness. To address issue, we developed the Gaussian kernel-based motion measurement method. Preliminary study shows that the developed method can achieve high accuracy on simple synthesized images.
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# 固体スピンアンサンブルの進行状態による電波周波数検出範囲の延長

Extending Radiowave Frequency Detection Range with Dressed States of Solid-State Spin Ensembles ( http://arxiv.org/abs/2407.14483v1 )

ライセンス: Link先を確認
Jens C. Hermann, Roberto Rizzato, Fleming Bruckmaier, Robin D. Allert, Aharon Blank, Dominik B. Bucher, (参考訳) 固体スピン欠陥を用いた量子センサーは、高周波(RF)フィールドの検出に優れ、通信、範囲、センシングの様々な目的に役立っている。 この目的のために、パルス動的デカップリング(PDD)プロトコルが典型的に適用され、RF信号に対する感度が向上する。 しかし、これらの手法は数メガヘルツの周波数に制限されているため、高い周波数を感知することは困難である。 マイクロ波共振器内で駆動される窒素空隙(NV)アンサンブルスピンの着衣状態を含む連続動的デカップリング(CDD)方式に基づく代替手法を提案する。 確立されたPDDプロトコルとCDD手法を比較し、同一条件下でのPDDアプローチによる現在の限界の10倍の最大85MHzのRF信号の検出を実証する。 ヘテロダイン同期プロトコルにおけるCDD法の実装は、高周波検出と高スペクトル分解能を組み合わせたものである。 この進歩は、高周波(HF)と超高周波(VHF)のRFスペクトルの検出を必要とする様々な領域にまで及んでいる。

Quantum sensors using solid-state spin defects excel in the detection of radiofrequency (RF) fields, serving various purposes in communication, ranging, and sensing. For this purpose, pulsed dynamical decoupling (PDD) protocols are typically applied, which enhance sensitivity to RF signals. However, these methods are limited to frequencies of a few megahertz, which poses a challenge for sensing higher frequencies. We introduce an alternative approach based on a continuous dynamical decoupling (CDD) scheme involving dressed states of nitrogen vacancy (NV) ensemble spins driven within a microwave resonator. We compare the CDD methods to established PDD protocols and demonstrate the detection of RF signals up to $\sim$ 85 MHz, about ten times the current limit imposed by the PDD approach under identical conditions. Implementing the CDD method in a heterodyne synchronized protocol combines the high frequency detection with high spectral resolution. This advancement extends to various domains requiring detection in the high frequency (HF) and very high frequency (VHF) ranges of the RF spectrum, including spin sensor-based magnetic resonance spectroscopy at high magnetic fields.
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# 深層強化学習エージェントの具体的ポストホックポートフォリオ管理金融政策

Explainable Post hoc Portfolio Management Financial Policy of a Deep Reinforcement Learning agent ( http://arxiv.org/abs/2407.14486v1 )

ライセンス: Link先を確認
Alejandra de la Rica Escudero, Eduardo C. Garrido-Merchan, Maria Coronado-Vaca, (参考訳) マークウィッツモデルのような現代のポートフォリオ理論技術によって定量的に計算された金融ポートフォリオ管理投資政策は、高ボラティリティ市場におけるデータによって支持されない仮定のセットに依存している。 そのため、定量的研究者はこの問題に対処するための代替モデルを探している。 具体的には、ポートフォリオ管理は、最近Deep Reinforcement Learning (DRL)アプローチによってうまく対処された問題である。 特に、DRLアルゴリズムは、シミュレータに財務状態が与えられたエージェントによって実行されるすべてのアクションの期待される報酬の分布を推定することによってエージェントを訓練する。 しかし、これらの手法は、そのような分布を表現するためにディープニューラルネットワークモデルに依存しており、それらは普遍近似モデルであるにもかかわらず、解釈できないパラメータの集合によって与えられるその振る舞いを説明できない。 批判的に、金融投資家の政策は予測を解釈する必要があるため、DRLエージェントは特定の政策に従うのに適していない。 本研究では、ポートフォリオ管理のための新しい説明可能な深層強化学習(XDRL)アプローチを開発し、PPO(Proximal Policy Optimization)と、特徴重要度に関するモデルに依存しない説明可能な技術であるSHAPとLIMEを統合し、予測時間の透明性を高める。 提案手法の実施により、エージェントの行動予測時に、投資政策の要件に従うか、あるいはエージェントの提案に従うリスクを評価することができる。 我々の知る限り、提案手法はDRLエージェントのポートフォリオ管理金融政策を初めて説明できるものである。 本研究では,投資決定に影響を及ぼす重要な特徴の同定に成功し,予測時間におけるエージェントの動作を説明する能力について実証的に説明する。

Financial portfolio management investment policies computed quantitatively by modern portfolio theory techniques like the Markowitz model rely on a set on assumptions that are not supported by data in high volatility markets. Hence, quantitative researchers are looking for alternative models to tackle this problem. Concretely, portfolio management is a problem that has been successfully addressed recently by Deep Reinforcement Learning (DRL) approaches. In particular, DRL algorithms train an agent by estimating the distribution of the expected reward of every action performed by an agent given any financial state in a simulator. However, these methods rely on Deep Neural Networks model to represent such a distribution, that although they are universal approximator models, they cannot explain its behaviour, given by a set of parameters that are not interpretable. Critically, financial investors policies require predictions to be interpretable, so DRL agents are not suited to follow a particular policy or explain their actions. In this work, we developed a novel Explainable Deep Reinforcement Learning (XDRL) approach for portfolio management, integrating the Proximal Policy Optimization (PPO) with the model agnostic explainable techniques of feature importance, SHAP and LIME to enhance transparency in prediction time. By executing our methodology, we can interpret in prediction time the actions of the agent to assess whether they follow the requisites of an investment policy or to assess the risk of following the agent suggestions. To the best of our knowledge, our proposed approach is the first explainable post hoc portfolio management financial policy of a DRL agent. We empirically illustrate our methodology by successfully identifying key features influencing investment decisions, which demonstrate the ability to explain the agent actions in prediction time.
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# Red-QAOA:回路還元による効率的な変分最適化

Red-QAOA: Efficient Variational Optimization through Circuit Reduction ( http://arxiv.org/abs/2407.14490v1 )

ライセンス: Link先を確認
Meng Wang, Bo Fang, Ang Li, Prashant Nair, (参考訳) 量子近似最適化アルゴリズム(QAOA)は、入力をグラフに変換することで組合せ最適化の課題に対処する。 しかし,QAOAの最適パラメータ探索は雑音の影響が大きい。 より大きな問題はより大きなグラフをもたらし、より多くの量子ビットを必要とし、その結果を非常にノイズに敏感にする。 本稿では, 模擬アニーリング法を用いて, エネルギーランドスケープ濃度を利用したRed-QAOAを提案する。 Red-QAOAは、元のグラフとほぼ同じパラメータを持つより小さな(蒸留された)グラフを生成する。 蒸留されたグラフは、より小さな量子回路を生成するため、ノイズの影響を低減する。 最適化の最後に、Red-QAOAは原グラフ上の蒸留グラフからパラメータを使用し、原グラフ上のパラメータ探索を継続する。 Red-QAOAは、3200の現実世界の問題に対して最先端のグラフニューラルネットワーク(GNN)ベースのプール技術より優れています。 Red-QAOAではノード数とエッジ数がそれぞれ28%、エッジ数が37%減少し、平均2乗誤差は2%に過ぎなかった。

The Quantum Approximate Optimization Algorithm (QAOA) addresses combinatorial optimization challenges by converting inputs to graphs. However, the optimal parameter searching process of QAOA is greatly affected by noise. Larger problems yield bigger graphs, requiring more qubits and making their outcomes highly noise-sensitive. This paper introduces Red-QAOA, leveraging energy landscape concentration via a simulated annealing-based graph reduction. Red-QAOA creates a smaller (distilled) graph with nearly identical parameters to the original graph. The distilled graph produces a smaller quantum circuit and thus reduces noise impact. At the end of the optimization, Red-QAOA employs the parameters from the distilled graph on the original graph and continues the parameter search on the original graph. Red-QAOA outperforms state-of-the-art Graph Neural Network (GNN)-based pooling techniques on 3200 real-world problems. Red-QAOA reduced node and edge counts by 28% and 37%, respectively, with a mean square error of only 2%.
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# PD-TPE:3次元視覚グラウンドのためのテキスト誘導位置符号化による並列デコーダ

PD-TPE: Parallel Decoder with Text-guided Position Encoding for 3D Visual Grounding ( http://arxiv.org/abs/2407.14491v1 )

ライセンス: Link先を確認
Chenshu Hou, Liang Peng, Xiaopei Wu, Wenxiao Wang, Xiaofei He, (参考訳) 3Dビジュアルグラウンドティングは、3Dポイントクラウドシーンで、自由形式の自然言語記述によって言及される対象物を見つけることを目的としている。 これまでのほとんどの作業では、エンコーダデコーダが対象オブジェクトの属性情報と周辺環境の関連情報を同時に調整する必要がある。 これはクエリの注意を分散させ、入力言語の記述に関係のない点に過剰な焦点をあてる可能性がある。 これらの問題を緩和するために,ダブルブランチデコーダを備えた視覚言語モデルPD-TPEを提案する。 2つのブランチは、提案機能の復号化と、周辺レイアウトの認識を並行して実行する。 彼らの注意マップは互いに影響を受けないので、クエリは各ブランチの特定の目的に関連するトークンに焦点を当てる。 特に,2つのブランチで異なるテキスト誘導位置符号化法を設計する。 メインブランチでは、プリオリはトークンと予測された3Dボックスの間の相対的な位置に依存し、モデルにオブジェクトの近くのトークンにもっと注意を向けるよう指示する。 ScanRefer と NR3D の2つの広く採用されているビジュアルグラウンドデータセットをそれぞれ 1.8% と 2.2% で上回った。 コードは公開されます。

3D visual grounding aims to locate the target object mentioned by free-formed natural language descriptions in 3D point cloud scenes. Most previous work requires the encoder-decoder to simultaneously align the attribute information of the target object and its relational information with the surrounding environment across modalities. This causes the queries' attention to be dispersed, potentially leading to an excessive focus on points irrelevant to the input language descriptions. To alleviate these issues, we propose PD-TPE, a visual-language model with a double-branch decoder. The two branches perform proposal feature decoding and surrounding layout awareness in parallel. Since their attention maps are not influenced by each other, the queries focus on tokens relevant to each branch's specific objective. In particular, we design a novel Text-guided Position Encoding method, which differs between the two branches. In the main branch, the priori relies on the relative positions between tokens and predicted 3D boxes, which direct the model to pay more attention to tokens near the object; in the surrounding branch, it is guided by the similarity between visual and text features, so that the queries attend to tokens that can provide effective layout information. Extensive experiments demonstrate that we surpass the state-of-the-art on two widely adopted 3D visual grounding datasets, ScanRefer and NR3D, by 1.8% and 2.2%, respectively. Codes will be made publicly available.
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# InterpBench:機械的解釈可能性評価のための半合成変換器

InterpBench: Semi-Synthetic Transformers for Evaluating Mechanistic Interpretability Techniques ( http://arxiv.org/abs/2407.14494v1 )

ライセンス: Link先を確認
Rohan Gupta, Iván Arcuschin, Thomas Kwa, Adrià Garriga-Alonso, (参考訳) 機械的解釈可能性法は、ニューラルネットワークが実装するアルゴリズムを特定することを目的としているが、真のアルゴリズムが不明な場合には、そのような手法を検証することは困難である。 この研究は、これらの技術を評価するための既知の回路を備えた半合成的で現実的な変換器のコレクションであるInterpBenchを提示する。 我々は、Strict IIT(SIIT)と呼ばれる、より厳格なIIT(Interchange Intervention Training)を用いて、これらのニューラルネットワークをトレーニングする。 元のように、SIITはニューラルネットワークをトレーニングし、内部計算を所望の高レベル因果モデルと整列させるが、非回路ノードがモデルの出力に影響を与えるのを防ぐ。 我々は,Tracr ツールが生成するスパース変換器上でSIITを評価し,SIIT モデルがトラクラのオリジナル回路をよりリアルに維持していることを確認した。 SIITは、Indirect Object Identification (IOI)のような大きな回路でトランスフォーマーを訓練することもできる。 最後に,既存の回路発見技術の評価にベンチマークを用いた。

Mechanistic interpretability methods aim to identify the algorithm a neural network implements, but it is difficult to validate such methods when the true algorithm is unknown. This work presents InterpBench, a collection of semi-synthetic yet realistic transformers with known circuits for evaluating these techniques. We train these neural networks using a stricter version of Interchange Intervention Training (IIT) which we call Strict IIT (SIIT). Like the original, SIIT trains neural networks by aligning their internal computation with a desired high-level causal model, but it also prevents non-circuit nodes from affecting the model's output. We evaluate SIIT on sparse transformers produced by the Tracr tool and find that SIIT models maintain Tracr's original circuit while being more realistic. SIIT can also train transformers with larger circuits, like Indirect Object Identification (IOI). Finally, we use our benchmark to evaluate existing circuit discovery techniques.
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# 量子シミュレーションにおける観測可能駆動スピードアップ

Observable-Driven Speed-ups in Quantum Simulations ( http://arxiv.org/abs/2407.14497v1 )

ライセンス: Link先を確認
Wenjun Yu, Jue Xu, Qi Zhao, (参考訳) 量子技術が進歩するにつれて、量子シミュレーションはますます有望になり、量子多体物理学や量子化学に大きな影響を及ぼす。 最もアクセシブルなシミュレーション手法の1つであるにもかかわらず、製品公式は悲観的なゲート数推定のために困難に直面する。 本研究では,観測可能な知識が量子シミュレーションをいかに加速するかを明らかにする。 オブザーバブルの特定のファミリーに焦点を当てることで、短時間と任意の時間の両方のシナリオにおいて、製品とフォームのシミュレーションエラーとゲート数を減らすことができる。 短時間のシミュレーションでは,局所的および特定の大域的観測物に対して,大きさに依存しない誤差を実現するために,製品公式を意図的に設計・調整する。 任意の時間シミュレーションでは、パウリ累積構造を持つ可観測衛星が平均誤差を減少させるのが一般的である。 具体的には、均等に分散されたパウリ係数を持つ観測可能天体の総和数に比例した2次誤差削減を求める。 数値実験により得られた高度な誤差解析は, ゲート数推定の改善を示唆している。 探索されたスピードアップは、量子シミュレーションを効率的に実現し、短期的な量子デバイスに利点を示すための道を開くことができると期待する。

As quantum technology advances, quantum simulation becomes increasingly promising, with significant implications for quantum many-body physics and quantum chemistry. Despite being one of the most accessible simulation methods, the product formula encounters challenges due to the pessimistic gate count estimation. In this work, we elucidate how observable knowledge can accelerate quantum simulations. By focusing on specific families of observables, we reduce product-formula simulation errors and gate counts in both short-time and arbitrary-time scenarios. For short-time simulations, we deliberately design and tailor product formulas to achieve size-independent errors for local and certain global observables. In arbitrary-time simulations, we reveal that Pauli-summation structured observables generally reduce average errors. Specifically, we obtain quadratic error reductions proportional to the number of summands for observables with evenly distributed Pauli coefficients. Our advanced error analyses, supported by numerical studies, indicate improved gate count estimation. We anticipate that the explored speed-ups can pave the way for efficiently realizing quantum simulations and demonstrating advantages on near-term quantum devices.
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# YOLOv8とPCA誘導増幅によるレイアウトホットスポット検出効率の向上

Enhancing Layout Hotspot Detection Efficiency with YOLOv8 and PCA-Guided Augmentation ( http://arxiv.org/abs/2407.14498v1 )

ライセンス: Link先を確認
Dongyang Wu, Siyang Wang, Mehdi Kamal, Massoud Pedram, (参考訳) 本稿では、設計規則チェック(DRC)プロセスの効率化と性能向上を目的とした、レイアウトホットスポット検出のためのYOLOベースのフレームワークを提案する。 提案手法では, YOLOv8視覚モデルを用いて, レイアウト画像サイズが大きい場合でも, レイアウト画像内の複数のホットスポットを検出する。 さらに,パターンマッチングの有効性を高めるために,主成分分析(PCA)から抽出した情報を用いてレイアウト画像を拡張する手法を提案する。 提案手法のコアは,PCAを用いてレイアウト画像から貴重な補助情報を抽出するアルゴリズムである。 そして、この抽出された情報を追加カラーチャネルとしてレイアウト画像に組み込む。 この拡張により、オブジェクト検出アルゴリズムの誤警報率を低減しつつ、マルチホットスポット検出の精度が大幅に向上する。 ICCAD-2019ベンチマークデータセットのレイアウトから生成された4つのデータセットを用いて,本フレームワークの有効性を評価する。 その結果,約83% (86%) の精度(リコール)を実現し, 誤報率7.4\%以下を維持した。 また,提案手法により,これまで観測されなかったホットスポット(NSB)の検出能力が約10%向上する可能性が示唆された。

In this paper, we present a YOLO-based framework for layout hotspot detection, aiming to enhance the efficiency and performance of the design rule checking (DRC) process. Our approach leverages the YOLOv8 vision model to detect multiple hotspots within each layout image, even when dealing with large layout image sizes. Additionally, to enhance pattern-matching effectiveness, we introduce a novel approach to augment the layout image using information extracted through Principal Component Analysis (PCA). The core of our proposed method is an algorithm that utilizes PCA to extract valuable auxiliary information from the layout image. This extracted information is then incorporated into the layout image as an additional color channel. This augmentation significantly improves the accuracy of multi-hotspot detection while reducing the false alarm rate of the object detection algorithm. We evaluate the effectiveness of our framework using four datasets generated from layouts found in the ICCAD-2019 benchmark dataset. The results demonstrate that our framework achieves a precision (recall) of approximately 83% (86%) while maintaining a false alarm rate of less than 7.4\%. Also, the studies show that the proposed augmentation approach could improve the detection ability of never-seen-before (NSB) hotspots by about 10%.
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# 低所得・中所得地域における日常生活活動と室内空気質データセット

Indoor Air Quality Dataset with Activities of Daily Living in Low to Middle-income Communities ( http://arxiv.org/abs/2407.14501v1 )

ライセンス: Link先を確認
Prasenjit Karmakar, Swadhin Pradhan, Sandip Chakraborty, (参考訳) 近年、室内大気汚染は社会に重大な脅威をもたらしており、毎年320万人が命を落としている。 インドのような発展途上国は、知識の不足、規制の不十分、屋外の大気汚染などにより、毎日汚染物質に深刻な影響を受けている。 しかし、インドのような発展途上国が室内空気汚染がどう影響するかを理解するために、限られた研究しか行われていない。 このギャップを解消するために,夏と冬の6ヶ月間に30箇所の屋内から空気の質を時空間的に測定した。 この遺跡は、地方、郊外、都市という4つのタイプにまたがって地理的に位置しており、インドの典型的な低所得層と中所得層をカバーしている。 このデータセットには、様々な種類の屋内環境(例えば、スタジオのアパート、教室、研究所、食品缶詰、住宅など)が含まれており、発展途上国のユニークな汚染パターンに対処するためのデータ駆動学習モデル研究の基礎を提供することができる。 このユニークなデータセットは、データ収集中に電源障害やネットワークの停止によって欠落したデータを処理するための高度なデータクリーニングと計算技術を必要とする。 さらに,簡単な音声からテキストへの応用により,住民が注釈付けした屋内活動ラベルをリアルタイムに提供する。 そのため、環境学者やML愛好家は、このデータセットを利用して、異なる屋内活動下での汚染物質の複雑なパターンを理解し、汚染の繰り返し源の特定、暴露の予測、近代屋内デザインのフロアプランやルーム構造の改善、汚染に配慮したレコメンデーターシステムの開発などを行うことができる。

In recent years, indoor air pollution has posed a significant threat to our society, claiming over 3.2 million lives annually. Developing nations, such as India, are most affected since lack of knowledge, inadequate regulation, and outdoor air pollution lead to severe daily exposure to pollutants. However, only a limited number of studies have attempted to understand how indoor air pollution affects developing countries like India. To address this gap, we present spatiotemporal measurements of air quality from 30 indoor sites over six months during summer and winter seasons. The sites are geographically located across four regions of type: rural, suburban, and urban, covering the typical low to middle-income population in India. The dataset contains various types of indoor environments (e.g., studio apartments, classrooms, research laboratories, food canteens, and residential households), and can provide the basis for data-driven learning model research aimed at coping with unique pollution patterns in developing countries. This unique dataset demands advanced data cleaning and imputation techniques for handling missing data due to power failure or network outages during data collection. Furthermore, through a simple speech-to-text application, we provide real-time indoor activity labels annotated by occupants. Therefore, environmentalists and ML enthusiasts can utilize this dataset to understand the complex patterns of the pollutants under different indoor activities, identify recurring sources of pollution, forecast exposure, improve floor plans and room structures of modern indoor designs, develop pollution-aware recommender systems, etc.
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# M2D2M:離散拡散モデルを用いたテキストからのマルチモーション生成

M2D2M: Multi-Motion Generation from Text with Discrete Diffusion Models ( http://arxiv.org/abs/2407.14502v1 )

ライセンス: Link先を確認
Seunggeun Chi, Hyung-gun Chi, Hengbo Ma, Nakul Agarwal, Faizan Siddiqui, Karthik Ramani, Kwonjoon Lee, (参考訳) 離散拡散モデル(M2D2M)の長所を生かして,複数の動作のテキスト記述から人体の動きを生成する新しい手法を提案する。 このアプローチは、多動列を生成するという課題に十分に対処し、一連のアクションをまたいだ動きとコヒーレンスをシームレスに遷移させることを保証する。 M2D2Mの強度は離散拡散モデル内の動的遷移確率に関係しており、運動トークン間の近接に基づく遷移確率に適応し、異なるモード間の混合を促進する。 M2D2Mは, 単運動生成のためのモデルを用いて, 長期的, スムーズで, 文脈的に整合した人間の動作系列を効果的に生成する。 大規模な実験により、M2D2Mはテキスト記述からの動作生成の最先端ベンチマークを超え、言語意味論を解釈し、動的で現実的な動きを生成する効果を示す。

We introduce the Multi-Motion Discrete Diffusion Models (M2D2M), a novel approach for human motion generation from textual descriptions of multiple actions, utilizing the strengths of discrete diffusion models. This approach adeptly addresses the challenge of generating multi-motion sequences, ensuring seamless transitions of motions and coherence across a series of actions. The strength of M2D2M lies in its dynamic transition probability within the discrete diffusion model, which adapts transition probabilities based on the proximity between motion tokens, encouraging mixing between different modes. Complemented by a two-phase sampling strategy that includes independent and joint denoising steps, M2D2M effectively generates long-term, smooth, and contextually coherent human motion sequences, utilizing a model trained for single-motion generation. Extensive experiments demonstrate that M2D2M surpasses current state-of-the-art benchmarks for motion generation from text descriptions, showcasing its efficacy in interpreting language semantics and generating dynamic, realistic motions.
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# カタストロフィック・グッドハート:KLの発散によるRLHFの正則化は重み付き報酬ミス種別を緩和しない

Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification ( http://arxiv.org/abs/2407.14503v1 )

ライセンス: Link先を確認
Thomas Kwa, Drake Thomas, Adrià Garriga-Alonso, (参考訳) 人間のフィードバック(RLHF)から強化学習を適用する場合、報酬はデータから学習されるため、常に何らかの誤りがある。 基本モデルからKLの発散でポリシーを定式化し、正規化による報酬のバランスが、この報酬の不特定にもかかわらず望ましい結果をもたらすことを期待することで、これを緩和することが一般的である。 報酬関数が軽み付き誤差を持つ場合、制約の少ないKL罰則の最適ポリシーは任意に高い効用が得られることを示す。 しかし、誤りが重大であれば、基本モデル以上の実用性は得られないにもかかわらず、任意に高い報酬を得る政策もあり、これは破滅的なグッドハートと呼ばれる現象である。 我々は、報酬モデルのテールを測定するために離散最適化法を適用し、それらが光尾誤差と整合性があることを見出した。 しかし、多くの実世界のアプリケーションにおける重み付き分布の広範性は、将来のRL報酬源が重み付き誤りを犯し、KL正規化においても報酬ハッキングの可能性が高まることを示している。

When applying reinforcement learning from human feedback (RLHF), the reward is learned from data and, therefore, always has some error. It is common to mitigate this by regularizing the policy with KL divergence from a base model, with the hope that balancing reward with regularization will achieve desirable outcomes despite this reward misspecification. We show that when the reward function has light-tailed error, optimal policies under less restrictive KL penalties achieve arbitrarily high utility. However, if error is heavy-tailed, some policies obtain arbitrarily high reward despite achieving no more utility than the base model--a phenomenon we call catastrophic Goodhart. We adapt a discrete optimization method to measure the tails of reward models, finding that they are consistent with light-tailed error. However, the pervasiveness of heavy-tailed distributions in many real-world applications indicates that future sources of RL reward could have heavy-tailed error, increasing the likelihood of reward hacking even with KL regularization.
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# 非線形シュレーディンガーネットワーク

Nonlinear Schrödinger Network ( http://arxiv.org/abs/2407.14504v1 )

ライセンス: Link先を確認
Yiming Zhou, Callen MacPhee, Tingyi Zhou, Bahram Jalali, (参考訳) ディープニューラルネットワーク(DNN)は、大規模データセットから複雑な非線形マッピングを学習することで、様々な分野において例外的なパフォーマンスを実現している。 しかし、高い計算コストや限定的な解釈可能性といった課題に直面している。 これらの問題に対処するため、物理学とAIを統合するハイブリッドアプローチが注目されている。 本稿では,非線形シュリンガー方程式(NLSE)を非線形マッピングやデータからのメモリ効果を含む複雑なパターンを学習するための汎用的なトレーニング可能なモデルとして扱う,非線形シュリンガーネットワーク(Nonlinear Schr\"odinger Network")という,物理学に基づく新しいAIモデルを提案する。 既存の物理インフォームド機械学習手法では、ニューラルネットワークを用いて偏微分方程式(PDE)の解を近似する。 対照的に、我々の手法はPDEを直接訓練可能なモデルとして扱い、ニューラルネットワークを必要とする一般的な非線形マッピングを得る。 物理学に着想を得たアプローチとして、従来のブラックボックスニューラルネットワークよりも解釈可能でパラメータ効率の良い代替を提供し、時系列分類タスクにおいて同等またはより良い精度を達成し、必要なパラメータの数を大幅に削減する。 特に、トレーニングされた非線形Schr\"odinger Networkは解釈可能であり、全てのパラメータは、データをより分離可能な空間に変換する仮想物理系の特性として物理的意味を持つ。 この解釈可能性によって、データ変換プロセスの基盤となるダイナミクスに関する洞察が得られます。 時系列予測への応用も検討されている。 現在の実装ではNLSEを利用するが、データから非線形マッピングを学習するためのトレーニング可能なモデルとして物理方程式を用いる手法はNLSEに限らず、他の物理のマスター方程式にも拡張できる。

Deep neural networks (DNNs) have achieved exceptional performance across various fields by learning complex nonlinear mappings from large-scale datasets. However, they encounter challenges such as high computational costs and limited interpretability. To address these issues, hybrid approaches that integrate physics with AI are gaining interest. This paper introduces a novel physics-based AI model called the "Nonlinear Schr\"odinger Network", which treats the Nonlinear Schr\"odinger Equation (NLSE) as a general-purpose trainable model for learning complex patterns including nonlinear mappings and memory effects from data. Existing physics-informed machine learning methods use neural networks to approximate the solutions of partial differential equations (PDEs). In contrast, our approach directly treats the PDE as a trainable model to obtain general nonlinear mappings that would otherwise require neural networks. As a physics-inspired approach, it offers a more interpretable and parameter-efficient alternative to traditional black-box neural networks, achieving comparable or better accuracy in time series classification tasks while significantly reducing the number of required parameters. Notably, the trained Nonlinear Schr\"odinger Network is interpretable, with all parameters having physical meanings as properties of a virtual physical system that transforms the data to a more separable space. This interpretability allows for insight into the underlying dynamics of the data transformation process. Applications to time series forecasting have also been explored. While our current implementation utilizes the NLSE, the proposed method of using physics equations as trainable models to learn nonlinear mappings from data is not limited to the NLSE and may be extended to other master equations of physics.
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# T2V-CompBench: 合成テキスト・ビデオ生成のための総合ベンチマーク

T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation ( http://arxiv.org/abs/2407.14505v1 )

ライセンス: Link先を確認
Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu, (参考訳) テキスト・ツー・ビデオ(T2V)生成モデルは大幅に進歩しているが、異なるオブジェクト、属性、アクション、動きをビデオに組み込む能力は未解明のままである。 これまでのテキストとビデオのベンチマークでも、この重要な評価能力は無視されている。 本研究では,コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。 合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。 T2V-CompBenchは、一貫性のある属性バインディング、動的な属性バインディング、空間的関係、動作バインディング、アクションバインディング、オブジェクトインタラクション、生成数など、構成性のさまざまな側面を含んでいる。 さらに,MLLMに基づくメトリクス,検出に基づくメトリクス,トラッキングに基づくメトリクスの評価指標を慎重に設計し,700のテキストプロンプトを持つ7つのカテゴリの合成テキスト・ビデオ生成品質をよりよく反映する。 提案手法の有効性は,人間の評価と相関して検証される。 また、様々なテキスト・ビデオ生成モデルのベンチマークを行い、異なるモデルと異なる構成カテゴリにまたがって詳細な分析を行う。 コンポジション・テキスト・ビデオ・ジェネレーションは,現行のモデルでは極めて困難であり,今後の研究に光を当てることが期待できる。

Text-to-video (T2V) generation models have advanced significantly, yet their ability to compose different objects, attributes, actions, and motions into a video remains unexplored. Previous text-to-video benchmarks also neglect this important ability for evaluation. In this work, we conduct the first systematic study on compositional text-to-video generation. We propose T2V-CompBench, the first benchmark tailored for compositional text-to-video generation. T2V-CompBench encompasses diverse aspects of compositionality, including consistent attribute binding, dynamic attribute binding, spatial relationships, motion binding, action binding, object interactions, and generative numeracy. We further carefully design evaluation metrics of MLLM-based metrics, detection-based metrics, and tracking-based metrics, which can better reflect the compositional text-to-video generation quality of seven proposed categories with 700 text prompts. The effectiveness of the proposed metrics is verified by correlation with human evaluations. We also benchmark various text-to-video generative models and conduct in-depth analysis across different models and different compositional categories. We find that compositional text-to-video generation is highly challenging for current models, and we hope that our attempt will shed light on future research in this direction.
翻訳日:2024-07-22 16:35:50 公開日:2024-07-19
# 一般時系列解析のためのOmni-dimensional Frequency Learner

Omni-Dimensional Frequency Learner for General Time Series Analysis ( http://arxiv.org/abs/2407.10419v2 )

ライセンス: Link先を確認
Xianing Chen, Hanting Chen, Hailin Hu, (参考訳) 時系列機能の周波数領域表現は、実世界の時系列データを本質的に複雑で動的に扱うための簡潔な表現を提供する。 しかし、複雑な演算を持つ現在の周波数ベースの手法は、一般的な時系列解析のための最先端の時間領域法にはまだ及ばない。 本研究では,周波数特徴の3つの側面の深さ解析に基づくOmni-dimensional Frequency Learner (ODFL)モデルを提案する。 本手法は,非定常周波数帯域に着目した意味適応型大域的フィルタとチャネル次元間の部分演算からなる。 実験の結果,ODFLは,短期・長期の予測,計算,分類,異常検出を含む5つの主要な時系列解析タスクにおいて,一貫した最先端の時系列解析を達成し,時系列解析の基礎となる可能性が示唆された。

Frequency domain representation of time series feature offers a concise representation for handling real-world time series data with inherent complexity and dynamic nature. However, current frequency-based methods with complex operations still fall short of state-of-the-art time domain methods for general time series analysis. In this work, we present Omni-Dimensional Frequency Learner (ODFL) model based on a in depth analysis among all the three aspects of the spectrum feature: channel redundancy property among the frequency dimension, the sparse and un-salient frequency energy distribution among the frequency dimension, and the semantic diversity among the variable dimension. Technically, our method is composed of a semantic-adaptive global filter with attention to the un-salient frequency bands and partial operation among the channel dimension. Empirical results show that ODFL achieves consistent state-of-the-art in five mainstream time series analysis tasks, including short- and long-term forecasting, imputation, classification, and anomaly detection, offering a promising foundation for time series analysis.
翻訳日:2024-07-22 12:49:16 公開日:2024-07-19
# LionGuard: ローカライズされたアンセーフコンテンツに対処するコンテキスト型モデレーション分類器を構築する

LionGuard: Building a Contextualized Moderation Classifier to Tackle Localized Unsafe Content ( http://arxiv.org/abs/2407.10995v1 )

ライセンス: Link先を確認
Jessica Foo, Shaun Khoo, (参考訳) 大規模言語モデル(LLM)が多種多様なアプリケーションで普及するにつれて、出力の安全性に関する懸念が高まっている。 今日の安全チューニングやモデレーションの取り組みのほとんどは、特に有毒、憎悪、暴力的なスピーチに対して、主に西洋中心の安全性の視点を採っている。 本稿では,LionGuardについて述べる。LionGuardはシンガポールのコンテクスト化されたモデレーション分類器で,安全でないLLM出力に対するガードレールとして機能する。 Singlishのデータに基づいて評価すると、LionGuardは既存の広く使われているモデレーションAPIを14%(バイナリ)、最大51%(マルチラベル)で上回っている。 我々の研究は、モデレーション分類器のローカライゼーションの利点を強調し、低リソース言語に対して実用的でスケーラブルなアプローチを示す。

As large language models (LLMs) become increasingly prevalent in a wide variety of applications, concerns about the safety of their outputs have become more significant. Most efforts at safety-tuning or moderation today take on a predominantly Western-centric view of safety, especially for toxic, hateful, or violent speech. In this paper, we describe LionGuard, a Singapore-contextualized moderation classifier that can serve as guardrails against unsafe LLM outputs. When assessed on Singlish data, LionGuard outperforms existing widely-used moderation APIs, which are not finetuned for the Singapore context, by 14% (binary) and up to 51% (multi-label). Our work highlights the benefits of localization for moderation classifiers and presents a practical and scalable approach for low-resource languages.
翻訳日:2024-07-22 12:39:32 公開日:2024-07-19
# 古典量子チャネルの誤差指数のタイト下界

Tight lower bound on the error exponent of classical-quantum channels ( http://arxiv.org/abs/2407.11118v2 )

ライセンス: Link先を確認
Joseph M. Renes, (参考訳) 古典的あるいは量子的シャノン理論の基本的な関心事は、与えられたチャネル$W$とレート$R$の誤差指数である:定数$E(W,R)$は、与えられたチャネル$W$のより大きい(メモリレス)インスタンスを通信するために、固定レート$R$のより大きい最適なコードを使用するとき、デコードエラーの指数関数的減衰を制御している。 ほぼ一致する下界と上界は古典的なチャンネルでよく知られている。 ここでは、Dalaiの球充填上界(IEEE TIT 59, 8027 (2013))と一致する任意の古典量子チャネル(CQ)上の通信の誤差指数の低い値を示す。 このことはホレボがこの問題についての研究で行った予想(IEEE TIT 46, 2256 (2000))を証明している。 しかし、古典的な場合とは異なり、この議論は適切なデコーダの洗練された分析によって進行せず、代わりに、プライバシー増幅の暗号タスク(CMP 333, 335 (2015))のエラー指数に対する林の制約を利用する。 この境界は、厳密なエントロピー不確実性関係と、任意のチャネルに対するキャパシティチェックコードを構築するギャラガーの方法による符号化問題と関係している。 その過程で、Cheng et al [IEEE TIT 67, 902 (2021)] の球充填上界と一致する量子側情報に対して、古典情報の圧縮タスクの誤差指数の低い値を求める。 逆に、Chengらによって発見された球充填境界に対する多項式プレファクタは、少なくとも線形ランダム性抽出器において、Li、Yao、Haashi(IEEE TIT 69, 1680 (2023))による最近の結果のシャープ化により、プライバシー増幅問題に変換される可能性がある。

A fundamental quantity of interest in Shannon theory, classical or quantum, is the error exponent of a given channel $W$ and rate $R$: the constant $E(W,R)$ which governs the exponential decay of decoding error when using ever larger optimal codes of fixed rate $R$ to communicate over ever more (memoryless) instances of a given channel $W$. Nearly matching lower and upper bounds are well-known for classical channels. Here I show a lower bound on the error exponent of communication over arbitrary classical-quantum (CQ) channels which matches Dalai's sphere-packing upper bound [IEEE TIT 59, 8027 (2013)] for rates above a critical value, exactly analogous to the case of classical channels. This proves a conjecture made by Holevo in his investigation of the problem [IEEE TIT 46, 2256 (2000)]. Unlike the classical case, however, the argument does not proceed via a refined analysis of a suitable decoder, but instead by leveraging a bound by Hayashi on the error exponent of the cryptographic task of privacy amplification [CMP 333, 335 (2015)]. This bound is then related to the coding problem via tight entropic uncertainty relations and Gallager's method of constructing capacity-achieving parity-check codes for arbitrary channels. Along the way, I find a lower bound on the error exponent of the task of compression of classical information relative to quantum side information that matches the sphere-packing upper bound of Cheng et al. [IEEE TIT 67, 902 (2021)]. In turn, the polynomial prefactors to the sphere-packing bound found by Cheng et al. may be translated to the privacy amplification problem, sharpening a recent result by Li, Yao, and Hayashi [IEEE TIT 69, 1680 (2023)], at least for linear randomness extractors.
翻訳日:2024-07-22 12:09:54 公開日:2024-07-19
# 自動車組織における欧州データとAI規制の分析

An Analysis of European Data and AI Regulations for Automotive Organizations ( http://arxiv.org/abs/2407.11271v3 )

ライセンス: Link先を確認
Charlotte A. Shahlaei, Nicholas Berente, (参考訳) このレポートは、欧州連合の一連のデータおよびAI規制を要約し、それらを自動車製造組織のマネージャのために分析する。 特に、以前の法律にルーツを見出す方法、相互に矛盾し補完する方法、そしてこれらの規制が提供するビジネスチャンスなど、規制の関連する考え方を強調します。 報告書の構成は以下の通りである。 まず、GDPRを、他の規制の要件を考慮し、合法化するための基盤として扱う。 第2に、民間企業のIoT(Internet of Things)を直接対応し、自動車メーカーなどの大規模データ生成装置に厳格な要件を課しているため、EUデータ法について説明する。 製造業者にとって、EUデータ法への準拠は、その後の法律、特にEU AI法に必須である。 第3に、データガバナンス法、デジタルサービス法、デジタル市場法、EUAI法を時系列順に説明する。 全体として、我々は欧州連合のデータ規制を、歴史的先例に根ざした波の集合として特徴づけ、自動車産業に重要な意味を持つ。

This report summarizes the European Union's series of data and AI regulations and analyzes them for managers in automotive vehicle manufacturing organizations. In particular, we highlight the relevant ideas of the regulations, including how they find their roots in earlier legislation, how they contradict and complement each other, as well as the business opportunities that these regulations offer. The structure of the report is as follows. First, we address the GDPR as the cornerstone against which the requirements of other regulations are weighed and legislated. Second, we explain the EU Data Act since it directly addresses Internet of Things (IoT) for businesses in the private sector and imposes strict requirements on large data generators such as vehicle manufacturers. For manufacturers, compliance with the EU Data Act is a prerequisite for the subsequent legislation, in particular the EU AI Act. Third, we explain the Data Governance Act, Digital Services Act, Digital Markets Act, and EU AI Act in chronological order. Overall, we characterize European Union data regulations as a wave set, rooted in historical precedent, with important implications for the automotive industry.
翻訳日:2024-07-22 12:00:08 公開日:2024-07-19
# 不確実性:大規模言語モデルにおける不確実性を操作する

Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models ( http://arxiv.org/abs/2407.11282v3 )

ライセンス: Link先を確認
Qingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang, (参考訳) 大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。 LLMの応答の信頼性を評価する方法として、不確実性推定(英語版)がある。 LLMにおける不確実性推定の精度向上に焦点が当てられているが、本研究では不確実性推定の脆弱性を調査し、攻撃の可能性を探る。 攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。 具体的には,提案手法は,LLMの出力確率分布を変化させることができ,その確率分布を攻撃者が予め定義した分布に収束させ,トップ1の予測が変化しないことを保証する。 実験の結果,この攻撃は,複数項目の質問において,モデルの自己評価信頼性を効果的に損なうことが示された。 例えば、攻撃成功率(ASR)は4つのモデルで3つの異なるトリガー戦略で達成しました。 さらに、この操作が異なるプロンプトやドメインにまたがって一般化するかどうかについても検討する。 この研究は、LSMの信頼性に対する重大な脅威を強調し、そのような攻撃に対する将来の防衛の必要性を浮き彫りにしている。 コードはhttps://github.com/qcznlp/uncertainty_ attackで公開されている。

Large Language Models (LLMs) are employed across various high-stakes domains, where the reliability of their outputs is crucial. One commonly used method to assess the reliability of LLMs' responses is uncertainty estimation, which gauges the likelihood of their answers being correct. While many studies focus on improving the accuracy of uncertainty estimations for LLMs, our research investigates the fragility of uncertainty estimation and explores potential attacks. We demonstrate that an attacker can embed a backdoor in LLMs, which, when activated by a specific trigger in the input, manipulates the model's uncertainty without affecting the final output. Specifically, the proposed backdoor attack method can alter an LLM's output probability distribution, causing the probability distribution to converge towards an attacker-predefined distribution while ensuring that the top-1 prediction remains unchanged. Our experimental results demonstrate that this attack effectively undermines the model's self-evaluation reliability in multiple-choice questions. For instance, we achieved a 100 attack success rate (ASR) across three different triggering strategies in four models. Further, we investigate whether this manipulation generalizes across different prompts and domains. This work highlights a significant threat to the reliability of LLMs and underscores the need for future defenses against such attacks. The code is available at https://github.com/qcznlp/uncertainty_attack.
翻訳日:2024-07-22 12:00:08 公開日:2024-07-19
# LoRA-PT:主テンソル特異値とベクトルを用いた海馬セグメンテーションのための低ランク適応UNETR

LoRA-PT: Low-Rank Adapting UNETR for Hippocampus Segmentation Using Principal Tensor Singular Values and Vectors ( http://arxiv.org/abs/2407.11292v2 )

ライセンス: Link先を確認
Guanghua He, Wangang Cheng, Hancan Zhu, Gaohang Yu, (参考訳) 海馬は様々な精神疾患に関連する重要な脳構造であり、その自動的かつ正確なセグメンテーションはこれらの疾患の研究に不可欠である。 近年,深層学習に基づく手法は海馬セグメンテーションにおいて大きな進歩を遂げている。 しかし、深層ニューラルネットワークモデルのトレーニングには、大量のラベル付きトレーニングデータだけでなく、かなりの計算資源と時間が必要です。 そこで本研究では,LoRA-PTと呼ばれるパラメータ効率の高いファインチューニング手法を提案する。 この方法は、BraTS2021データセット上の事前訓練されたUNETRモデルを、海馬セグメンテーションタスクに転送する。 特に、LoRA-PT法は変圧器構造のパラメータ行列を3つのサイズに分類し、3つの3次元テンソルを形成する。 テンソル特異値分解により、これらのテンソルは分解され、主特異値と特異ベクトルを持つ低ランクテンソルを生成し、残りの特異値とベクトルは残留テンソルを形成する。 微調整の間、我々は低ランクテンソル、すなわち主テンソル特異値とベクトルだけを更新するが、残余テンソルは変化しない。 提案手法を3つの公開海馬データセットで検証した。 実験結果から,LoRA-PTは,パラメータ更新回数を大幅に削減しつつ,既存のパラメータ効率の高い微調整手法よりも精度が高いことがわかった。 私たちのコードはhttps://github.com/WangangCheng/LoRA-PT/tree/LoRA-PTで利用可能です。

The hippocampus is a crucial brain structure associated with various psychiatric disorders, and its automatic and precise segmentation is essential for studying these diseases. In recent years, deep learning-based methods have made significant progress in hippocampus segmentation. However, training deep neural network models requires substantial computational resources and time, as well as a large amount of labeled training data, which is often difficult to obtain in medical image segmentation. To address this issue, we propose a new parameter-efficient fine-tuning method called LoRA-PT. This method transfers the pre-trained UNETR model on the BraTS2021 dataset to the hippocampus segmentation task. Specifically, the LoRA-PT method categorizes the parameter matrix of the transformer structure into three sizes, forming three 3D tensors. Through tensor singular value decomposition, these tensors are decomposed to generate low-rank tensors with the principal singular values and singular vectors, while the remaining singular values and vectors form the residual tensor. During the fine-tuning, we only update the low-rank tensors, i.e. the principal tensor singular values and vectors, while keeping the residual tensor unchanged. We validated the proposed method on three public hippocampus datasets. Experimental results show that LoRA-PT outperforms existing parameter-efficient fine-tuning methods in segmentation accuracy while significantly reducing the number of parameter updates. Our code is available at https://github.com/WangangCheng/LoRA-PT/tree/LoRA-PT.
翻訳日:2024-07-22 12:00:08 公開日:2024-07-19
# cDP-MIL:カスケードディリクレプロセスによるロバストな複数インスタンス学習

cDP-MIL: Robust Multiple Instance Learning via Cascaded Dirichlet Process ( http://arxiv.org/abs/2407.11448v2 )

ライセンス: Link先を確認
Yihang Chen, Tsai Hor Chan, Guosheng Yin, Yuming Jiang, Lequan Yu, (参考訳) マルチプル・インスタンス・ラーニング(MIL)は全スライド病理画像(WSI)解析に広く応用されている。 MILの既存の集約戦略は、主にインスタンス間の一階距離(平均差など)に依存しており、各インスタンスの真の特徴分布を正確に近似することができず、バイアスのあるスライドレベルの表現をもたらす。 さらに、WSI観測の不足はモデルオーバーフィッティングを容易にし、不安定な試験性能と限定的な一般化性をもたらす。 このような課題に対処するために、我々は、複数のインスタンス学習のための新しいベイズ非パラメトリックフレームワークを提案し、WSIのインスタンス・ツー・バッグ特性を組み込むために、ディリクレ・プロセスのカスケード(cDP)を採用する。 パッチ特徴の共分散を取り入れ,より代表的なクラスタを形成するDirichletプロセスによって形成された潜在クラスタに基づいて,特徴集約を行う。 次に、バッグ上の別のディリクレプロセスモデルを用いてバッグレベルの予測を行い、学習に自然な正規化を課し、過度な適合を防止し、一般化性を高める。 さらに、ベイズ非パラメトリック法として、cDPモデルは後方の不確かさを正確に生成することができ、異常サンプルの検出と腫瘍の局在が可能である。 5つのWSIベンチマークの大規模な実験は、我々の手法の優れた性能と、その一般化可能性と不確実性を推定する能力を検証する。 コードはhttps://github.com/HKU-MedAI/cDPMILで入手できる。

Multiple instance learning (MIL) has been extensively applied to whole slide histopathology image (WSI) analysis. The existing aggregation strategy in MIL, which primarily relies on the first-order distance (e.g., mean difference) between instances, fails to accurately approximate the true feature distribution of each instance, leading to biased slide-level representations. Moreover, the scarcity of WSI observations easily leads to model overfitting, resulting in unstable testing performance and limited generalizability. To tackle these challenges, we propose a new Bayesian nonparametric framework for multiple instance learning, which adopts a cascade of Dirichlet processes (cDP) to incorporate the instance-to-bag characteristic of the WSIs. We perform feature aggregation based on the latent clusters formed by the Dirichlet process, which incorporates the covariances of the patch features and forms more representative clusters. We then perform bag-level prediction with another Dirichlet process model on the bags, which imposes a natural regularization on learning to prevent overfitting and enhance generalizability. Moreover, as a Bayesian nonparametric method, the cDP model can accurately generate posterior uncertainty, which allows for the detection of outlier samples and tumor localization. Extensive experiments on five WSI benchmarks validate the superior performance of our method, as well as its generalizability and ability to estimate uncertainties. Codes are available at https://github.com/HKU-MedAI/cDPMIL.
翻訳日:2024-07-22 12:00:08 公開日:2024-07-19
# Crowd-SAM: クラウドシーンにおけるオブジェクト検出のためのスマートアノテーションとしてのSAM

Crowd-SAM: SAM as a Smart Annotator for Object Detection in Crowded Scenes ( http://arxiv.org/abs/2407.11464v2 )

ライセンス: Link先を確認
Zhi Cai, Yingjie Gao, Yaoyan Zheng, Nan Zhou, Di Huang, (参考訳) コンピュータビジョンでは、オブジェクト検出は多くのシナリオでその応用を見つける重要なタスクである。 しかし、特に混み合ったシーンでは、広範囲なラベルを取得することは困難である。 最近、Segment Anything Model (SAM) は強力なゼロショットセグメンタとして提案され、インスタンスセグメンテーションタスクに新しいアプローチを提供している。 しかし、SAMとそのバリエーションの精度と効率は、混み合ったシーンでオブジェクトを扱うときにしばしば損なわれる。 本稿では,学習可能なパラメータが少なく,ラベル付き画像が最小限のコストで,混み合ったシーンでSAMのパフォーマンスを向上させるために設計されたSAMベースのフレームワークであるCrowd-SAMを紹介する。 本稿では,高効率なプロンプトサンプリング(EPS)とPWD-Net(PWD-Net)を導入し,混み合ったシーンにおけるマスクの選択と精度を向上させる。 その単純さにもかかわらず、Crowd-SAMはCrowdHumanやCityPersonsといったいくつかのベンチマークで、最先端のSOTA(State-of-the-art)と競合する。 私たちのコードはhttps://github.com/FelixCaae/CrowdSAMで公開されています。

In computer vision, object detection is an important task that finds its application in many scenarios. However, obtaining extensive labels can be challenging, especially in crowded scenes. Recently, the Segment Anything Model (SAM) has been proposed as a powerful zero-shot segmenter, offering a novel approach to instance segmentation tasks. However, the accuracy and efficiency of SAM and its variants are often compromised when handling objects in crowded and occluded scenes. In this paper, we introduce Crowd-SAM, a SAM-based framework designed to enhance SAM's performance in crowded and occluded scenes with the cost of few learnable parameters and minimal labeled images. We introduce an efficient prompt sampler (EPS) and a part-whole discrimination network (PWD-Net), enhancing mask selection and accuracy in crowded scenes. Despite its simplicity, Crowd-SAM rivals state-of-the-art (SOTA) fully-supervised object detection methods on several benchmarks including CrowdHuman and CityPersons. Our code is available at https://github.com/FelixCaae/CrowdSAM.
翻訳日:2024-07-22 12:00:08 公開日:2024-07-19
# ジアイ、イタリアで地元のおばさんを支援

zIA: a GenAI-powered local auntie assists tourists in Italy ( http://arxiv.org/abs/2407.11830v2 )

ライセンス: Link先を確認
Alexio Cassani, Michele Ruberl, Antonio Salis, Giacomo Giannese, Gianluca Boanelli, (参考訳) ツーリズム・デスティネーション・マネジメント・オーガナイゼーション(DMO)産業は、新しい技術や旅行者の期待に適応するために急速に発展している。 生成人工知能(AI)は、パーソナライズされた対話的で魅力的な支援を提供することで、観光体験を強化する驚くべき革新的な機会を提供する。 本稿では,観光支援のための生成型AIベースのチャットボットを提案する。 このチャットボットは、現実的で創造的なテキストを生成するAI能力を活用し、よく知られたイタリアの全知の叔母のフレンドリーなペルソナを採用し、旅行者にパーソナライズされた情報、カスタマイズされた動的プレ、レコメンデーションと旅行計画、個人化された反復、テキストと音声コマンドの両方を使用し、さまざまな言語をサポートし、イタリアと外国の観光客の期待を満たす。 この研究は、イタリア経済成長大臣(MIMIT)が資金提供したMoise CTE研究プロジェクトで、クラウドやAIといった最高の新興技術を活用して、スマートシティ環境で最先端のソリューションを開発することを目的として進められている。

The Tourism and Destination Management Organization (DMO) industry is rapidly evolving to adapt to new technologies and traveler expectations. Generative Artificial Intelligence (AI) offers an astonishing and innovative opportunity to enhance the tourism experience by providing personalized, interactive and engaging assistance. In this article, we propose a generative AI-based chatbot for tourism assistance. The chatbot leverages AI ability to generate realistic and creative texts, adopting the friendly persona of the well-known Italian all-knowledgeable aunties, to provide tourists with personalized information, tailored and dynamic pre, during and post recommendations and trip plans and personalized itineraries, using both text and voice commands, and supporting different languages to satisfy Italian and foreign tourists expectations. This work is under development in the Molise CTE research project, funded by the Italian Minister of the Economic Growth (MIMIT), with the aim to leverage the best emerging technologies available, such as Cloud and AI to produce state of the art solutions in the Smart City environment.
翻訳日:2024-07-22 12:00:08 公開日:2024-07-19
# LLMにおける拒絶訓練は過去10年間に一般化されるか?

Does Refusal Training in LLMs Generalize to the Past Tense? ( http://arxiv.org/abs/2407.11969v2 )

ライセンス: Link先を確認
Maksym Andriushchenko, Nicolas Flammarion, (参考訳) 拒絶訓練は、LSMが有害、望ましくない、または違法な出力を発生させないために広く使用されている。 過去に有害な要求(例えば「モロトフカクテルの作り方」から「モロトフカクテルの作り方」)を単に修正するだけで、多くの最先端のLCMをジェイルブレイクするのに十分である。 Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o mini, GPT-4o, R2D2 モデルに対して, GPT-3.5 Turbo をモデルとして検討を行った。 例えば、GPT-4oに対するこの単純な攻撃の成功率は、直接要求による1%から、ジェイルブレイクベンチからの有害な要求に対する過去20回の緊張修正の試みをジェイルブレイク審査員として用いた88%へと増加する。 興味深いことに、将来の時制の改革は効果が低いことも分かり、過去の歴史的問題を仮説的な未来の問題よりも良心的に考える傾向があることを示唆している。 さらに, 微調整 GPT-3.5 Turbo 実験の結果, 過去の経過例を微調整データに明示的に含めれば, 過去の改定に対する防御が実現可能であることが示された。 概して,SFT,RLHF,対人訓練など,広く用いられているアライメント技術は,研究対象のモデルの整合性を損なう可能性があり,必ずしも意図したように一般化するとは限らないことが示唆された。 私たちはhttps://github.com/tml-epfl/llm-past-tenseでコードとjailbreak成果物を提供しています。

Refusal training is widely used to prevent LLMs from generating harmful, undesirable, or illegal outputs. We reveal a curious generalization gap in the current refusal training approaches: simply reformulating a harmful request in the past tense (e.g., "How to make a Molotov cocktail?" to "How did people make a Molotov cocktail?") is often sufficient to jailbreak many state-of-the-art LLMs. We systematically evaluate this method on Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o mini, GPT-4o, and R2D2 models using GPT-3.5 Turbo as a reformulation model. For example, the success rate of this simple attack on GPT-4o increases from 1% using direct requests to 88% using 20 past tense reformulation attempts on harmful requests from JailbreakBench with GPT-4 as a jailbreak judge. Interestingly, we also find that reformulations in the future tense are less effective, suggesting that refusal guardrails tend to consider past historical questions more benign than hypothetical future questions. Moreover, our experiments on fine-tuning GPT-3.5 Turbo show that defending against past reformulations is feasible when past tense examples are explicitly included in the fine-tuning data. Overall, our findings highlight that the widely used alignment techniques -- such as SFT, RLHF, and adversarial training -- employed to align the studied models can be brittle and do not always generalize as intended. We provide code and jailbreak artifacts at https://github.com/tml-epfl/llm-past-tense.
翻訳日:2024-07-22 12:00:08 公開日:2024-07-19
# リレーショナル表現蒸留

Relational Representation Distillation ( http://arxiv.org/abs/2407.12073v2 )

ライセンス: Link先を確認
Nikolaos Giakoumoglou, Tania Stathaki, (参考訳) 知識蒸留(KD)は、大きく訓練された教師モデルからより小さく、より効率的な学生モデルに知識を移す効果的な方法である。 その成功にもかかわらず、KDの主な課題の1つは、学生の計算効率を維持しながら、複雑な知識の効率的な伝達を保証することである。 明示的な負のインスタンスを促進するために対照的な目的を適用した以前の研究とは異なり、リレーショナル表現蒸留(RRD)を導入している。 本手法は,教師モデルと学生モデルの関係を探索し,強化するために,ペアワイズな類似性を利用する。 自己監督学習の原則に触発されて、正確な複製よりも類似性に焦点を当てた、リラックスした対照的な損失を使用する。 本手法は,教師サンプルの出力分布を大容量メモリバッファに整列させ,厳密な負のインスタンス差分を伴わずに生徒モデルの堅牢性と性能を向上させる。 提案手法はCIFAR-100よりも優れた性能を示し,従来のKD技術より優れ,最先端手法は13を超える。 Tiny ImageNetやSTL-10といった他のデータセットへの転送も成功している。 コードはまもなく公開されます。

Knowledge distillation (KD) is an effective method for transferring knowledge from a large, well-trained teacher model to a smaller, more efficient student model. Despite its success, one of the main challenges in KD is ensuring the efficient transfer of complex knowledge while maintaining the student's computational efficiency. Unlike previous works that applied contrastive objectives promoting explicit negative instances, we introduce Relational Representation Distillation (RRD). Our approach leverages pairwise similarities to explore and reinforce the relationships between the teacher and student models. Inspired by self-supervised learning principles, it uses a relaxed contrastive loss that focuses on similarity rather than exact replication. This method aligns the output distributions of teacher samples in a large memory buffer, improving the robustness and performance of the student model without the need for strict negative instance differentiation. Our approach demonstrates superior performance on CIFAR-100, outperforming traditional KD techniques and surpassing 13 state-of-the-art methods. It also transfers successfully to other datasets like Tiny ImageNet and STL-10. The code will be made public soon.
翻訳日:2024-07-22 11:50:18 公開日:2024-07-19
# イベントベース正規流からの運動と構造

Motion and Structure from Event-based Normal Flow ( http://arxiv.org/abs/2407.12239v2 )

ライセンス: Link先を確認
Zhongyang Ren, Bangyan Liao, Delei Kong, Jinghang Li, Peidong Liu, Laurent Kneip, Guillermo Gallego, Yi Zhou, (参考訳) 映像データからカメラの動きとシーンの形状を復元することは、コンピュータビジョンの分野における根本的な問題である。 標準的なビジョンにおけるその成功は、特徴抽出、データアソシエーション、多視点幾何学の成熟による。 近年のニューロモルフィックなイベントベースカメラの出現は、この根本的な問題を解決するために生のイベントデータを入力として利用するアプローチに大きな需要を生じさせ、既存の最先端のソリューションは、イベントデータ生成プロセスを反復的に反転させることで、暗黙的にデータ関連を推測する。 しかしながら、これらの手法の非線形性は、リアルタイムタスクにおける適用性を制限し、一定運動の仮定は、アジャイルの動きの下で不安定な結果をもたらす。 そこで,本稿では,イベントカメラの動作原理とよく一致した方法で問題定式化を再考し,提案した幾何学的誤り項を介し,一階数論やシーン幾何学を含む幾何学的問題を解く際のフルフローの代替として,イベントベース正規フローが利用できることを示す。 さらに,提案した幾何誤差項の上に,高速線形解法と連続時間非線形解法を開発し,その精度と効率の観点から,合成データと実データの両方で線形解法の優位性を示すとともに,既存の非線形解法の初期化手法としての相補的特徴を示す。 また, 連続時間非線形解法は, 一定運動仮定に依存しないため, 突然の運動変動を調節する異常な機能を示す。

Recovering the camera motion and scene geometry from visual data is a fundamental problem in the field of computer vision. Its success in standard vision is attributed to the maturity of feature extraction, data association and multi-view geometry. The recent emergence of neuromorphic event-based cameras places great demands on approaches that use raw event data as input to solve this fundamental problem.Existing state-of-the-art solutions typically infer implicitly data association by iteratively reversing the event data generation process. However, the nonlinear nature of these methods limits their applicability in real-time tasks, and the constant-motion assumption leads to unstable results under agile motion. To this end, we rethink the problem formulation in a way that aligns better with the differential working principle of event cameras.We show that the event-based normal flow can be used, via the proposed geometric error term, as an alternative to the full flow in solving a family of geometric problems that involve instantaneous first-order kinematics and scene geometry. Furthermore, we develop a fast linear solver and a continuous-time nonlinear solver on top of the proposed geometric error term.Experiments on both synthetic and real data show the superiority of our linear solver in terms of accuracy and efficiency, and indicate its complementary feature as an initialization method for existing nonlinear solvers. Besides, our continuous-time non-linear solver exhibits exceptional capability in accommodating sudden variations in motion since it does not rely on the constant-motion assumption.
翻訳日:2024-07-22 11:50:18 公開日:2024-07-19
# 拡散モデルを用いた量子近似最適化アルゴリズムのパラメータ生成

Parameter Generation of Quantum Approximate Optimization Algorithm with Diffusion Model ( http://arxiv.org/abs/2407.12242v3 )

ライセンス: Link先を確認
Fanxu Meng, Xiangzhen Zhou, (参考訳) 量子コンピューティングは、重ね合わせや絡み合いのような量子力学のユニークな特性により、組合せ最適化の分野に革命をもたらす可能性を示している。 変分型ハイブリッド量子古典アルゴリズムである量子近似最適化アルゴリズム(QAOA)は、組合せ最適化の代表的な例であるMax-Cut問題を効率的に解くための主要な提案である。 しかし、その約束された利点はパラメータの初期化戦略に強く依存しており、これは低品質の局所ミニマ問題によって特徴づけられる非凸および複雑な最適化の展望による重要な側面である。 そこで,本研究では,生成機械学習モデル,特に認知拡散確率モデル(DDPM)を訓練し,QAOAの初期パラメータを高い性能で生成する生成タスクとして,優れた初期パラメータを求める問題を定式化する。 拡散モデルは、高性能パラメータの分布を学習し、次に最適なパラメータに近い新しいパラメータを合成することができる。 種々のMax-Cut問題インスタンスを用いた実験により,我々の拡散過程はランダムパラメータの初期化と比較してQAOAの有効性を一貫して向上することを示した。 さらに,本フレームワークは,大規模インスタンスへの外挿による量子計算資源のオーバーヘッド低減を目的とした,小型で古典的にシミュラブルな問題インスタンスのトレーニング能力を示す。

Quantum computing presents a compelling prospect for revolutionizing the field of combinatorial optimization, in virtue of the unique attributes of quantum mechanics such as superposition and entanglement. The Quantum Approximate Optimization Algorithm (QAOA), which is a variational hybrid quantum-classical algorithm, stands out as leading proposals to efficiently solve the Max-Cut problem, a representative example of combinatorial optimization. However, its promised advantages strongly rely on parameters initialization strategy, a critical aspect due to the non-convex and complex optimization landscapes characterized by low-quality local minima issues. Therefore, in this work, we formulate the problem of finding good initial parameters as a generative task in which the generative machine learning model, specifically the denoising diffusion probabilistic model (DDPM), is trained to generate high-performing initial parameters for QAOA. The diffusion model is capable of learning the distribution of high-performing parameters and then synthesizing new parameters closer to optimal ones. Experiments with various sized Max-Cut problem instances demonstrate that our diffusion process consistently enhances QAOA effectiveness compared to random parameters initialization. Moreover, our framework indicates the capacity of training on small, classically simulatable problem instances, aiming at extrapolating to larger instances to reduce quantum computational resource overhead.
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# 動的グラフ学習における時間受容場:包括的解析

Temporal receptive field in dynamic graph learning: A comprehensive analysis ( http://arxiv.org/abs/2407.12370v2 )

ライセンス: Link先を確認
Yannis Karmim, Leshanshui Yang, Raphaël Fournier S'Niehotta, Clément Chatelain, Sébastien Adam, Nicolas Thome, (参考訳) 動的リンク予測は、レコメンデーターシステムから経済交換まで、様々な用途で進化するネットワークの分析において重要な課題である。 しかし、時間受容場の概念は、モデルが予測を行う際に使用する時間的文脈を指しており、既存の研究ではほとんど見過ごされ、不十分に分析されてきた。 本研究では,動的グラフ学習における時間受容領域の包括的解析について述べる。 複数のデータセットやモデルを調べることで、時間的受容領域の役割を形式化し、予測精度に重要な影響を浮き彫りにする。 その結果、適切な時間的受容場がモデル性能を大幅に向上させることができる一方で、いくつかのモデルでは、過度に大きなウィンドウがノイズを発生させ、精度を低下させる可能性があることが示された。 すべての実験が完全に再現可能であることを保証するために、広範なベンチマークを実施しています。 コードはhttps://github.com/ykrmm/BenchmarkTWで入手できる。

Dynamic link prediction is a critical task in the analysis of evolving networks, with applications ranging from recommender systems to economic exchanges. However, the concept of the temporal receptive field, which refers to the temporal context that models use for making predictions, has been largely overlooked and insufficiently analyzed in existing research. In this study, we present a comprehensive analysis of the temporal receptive field in dynamic graph learning. By examining multiple datasets and models, we formalize the role of temporal receptive field and highlight their crucial influence on predictive accuracy. Our results demonstrate that appropriately chosen temporal receptive field can significantly enhance model performance, while for some models, overly large windows may introduce noise and reduce accuracy. We conduct extensive benchmarking to validate our findings, ensuring that all experiments are fully reproducible. Code is available at https://github.com/ykrmm/BenchmarkTW .
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# 2方向注意混合特徴ネットワークによる顔表情認識の強化:第7回ABAWチャレンジへの適用

Enhancing Facial Expression Recognition through Dual-Direction Attention Mixed Feature Networks: Application to 7th ABAW Challenge ( http://arxiv.org/abs/2407.12390v2 )

ライセンス: Link先を確認
Josep Cabacas-Maso, Elena Ortega-Beltrán, Ismael Benito-Altamirano, Carles Ventura, (参考訳) 我々は,ECCV 2024における第7回ABAWチャレンジへのコントリビューションとして,マルチタスク表情認識のためのDual-Direction Attention Mixed Feature Networkを活用することで,提案したMulti-Task ABAWチャレンジのベースラインを超えた結果を得る。 本提案では, DDAMFNアーキテクチャをベースとして, 原子価覚醒, 感情認識, 行動単位を効果的に予測する。 これらのタスクを同時に処理するアーキテクチャ能力を実証し、アーキテクチャと設計の背後にある理論的根拠について洞察を提供する。 さらに,マルチタスクソリューションと独立したシングルタスク性能の比較を行った。

We present our contribution to the 7th ABAW challenge at ECCV 2024, by utilizing a Dual-Direction Attention Mixed Feature Network for multitask facial expression recognition we achieve results far beyond the proposed baseline for the Multi-Task ABAW challenge. Our proposal uses the well-known DDAMFN architecture as base to effectively predict valence-arousal, emotion recognition, and action units. We demonstrate the architecture ability to handle these tasks simultaneously, providing insights into its architecture and the rationale behind its design. Additionally, we compare our results for a multitask solution with independent single-task performance.
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# Fisheye-Calib-Adapter: 魚眼カメラモデルの変換を容易にするツール

Fisheye-Calib-Adapter: An Easy Tool for Fisheye Camera Model Conversion ( http://arxiv.org/abs/2407.12405v2 )

ライセンス: Link先を確認
Sangjun Lee, (参考訳) ロボット工学や自律運転などの分野における魚眼カメラの必要性が高まり、様々な魚眼カメラモデルが提案されている。 カメラモデルの進化は、フィールドにおける多様なシステムの開発を促進する一方で、異なる魚眼カメラモデル間の適応の欠如は、常に再校正が必要であることを意味している。 本稿では,従来提案されていた魚眼カメラモデルに対する変換ツールを提案する。 ユーザーフレンドリで、シンプルで、非常に速く、正確で、既存のツールと比較して幅広いモデルの変換機能を提供する。 SLAMなどのアプリケーションでは,本システムを用いて変換したモデルが正しく動作することが確認された。 本システムを利用すると,画像セットや再分類処理を必要とせずに,入力パラメータから直接出力パラメータを取得でき,様々な研究分野における魚眼カメラモデルのブリッジとして機能する。 https://github.com/eowjd0512/fisheye-calib-adapter

The increasing necessity for fisheye cameras in fields such as robotics and autonomous driving has led to the proposal of various fisheye camera models. While the evolution of camera models has facilitated the development of diverse systems in the field, the lack of adaptation between different fisheye camera models means that recalibration is always necessary, which is cumbersome. This paper introduces a conversion tool for various previously proposed fisheye camera models. It is user-friendly, simple, yet extremely fast and accurate, offering conversion capabilities for a broader range of models compared to existing tools. We have verified that models converted using our system perform correctly in applications such as SLAM. By utilizing our system, researchers can obtain output parameters directly from input parameters without the need for an image set and any recalibration processes, thus serving as a bridge across different fisheye camera models in various research fields. We provide our system as an open source tool available at: https://github.com/eowjd0512/fisheye-calib-adapter
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# 知識グラフ補完のためのテキストベース手法のテキスト認識学習

Subgraph-Aware Training of Text-based Methods for Knowledge Graph Completion ( http://arxiv.org/abs/2407.12703v2 )

ライセンス: Link先を確認
Youmin Ko, Hyemin Yang, Taeuk Kim, Hyunjoon Kim, (参考訳) 微調整事前学習言語モデル(PLM)は、最近知識グラフ補完(KGC)を改善する可能性を示している。 しかし、ほとんどの PLM ベースの手法は、知識グラフ(KG)の様々なトポロジ構造を無視して、テキスト情報のみを符号化する。 本稿では,KGsの構造特性とPLM法の性能との有意な関係を実証的に検証する。 構造的知識を活用するために,KGC(SATKGC)のためのサブグラフ・アウェア・トレーニング・フレームワークを提案する。 一 ハードネガティブサンプリングを奨励するサブグラフ対応ミニバッチ、及び (II) 構造的特性の観点から, より強固な実体と強硬な負の三重項に焦点をあてる新しいコントラスト学習法。 我々の知る限りでは、この研究は、サブグラフの構造的帰納バイアスを微調整 PLM に包括的に組み込む最初の研究である。 4つのKGCベンチマークの大規模な実験はSATKGCの優位性を示している。 私たちのコードは利用可能です。

Fine-tuning pre-trained language models (PLMs) has recently shown a potential to improve knowledge graph completion (KGC). However, most PLM-based methods encode only textual information, neglecting various topological structures of knowledge graphs (KGs). In this paper, we empirically validate the significant relations between the structural properties of KGs and the performance of the PLM-based methods. To leverage the structural knowledge, we propose a Subgraph-Aware Training framework for KGC (SATKGC) that combines (i) subgraph-aware mini-batching to encourage hard negative sampling, and (ii) a new contrastive learning method to focus more on harder entities and harder negative triples in terms of the structural properties. To the best of our knowledge, this is the first study to comprehensively incorporate the structural inductive bias of the subgraphs into fine-tuning PLMs. Extensive experiments on four KGC benchmarks demonstrate the superiority of SATKGC. Our code is available.
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# LLMには一貫性のある価値はあるか?

Do LLMs have Consistent Values? ( http://arxiv.org/abs/2407.12878v2 )

ライセンス: Link先を確認
Naama Rozen, Gal Elidan, Amir Globerson, Ella Daniel, (参考訳) 価値は人間の行動の基礎となる基本的な原動力である。 大規模言語モデル(LLM)技術は、人間のような対話に向けて常に改善されている。 しかし、LLMが生成したテキストで表される値についての研究はほとんど行われていない。 ここでは、心理学における価値構造に関する豊富な文献に目を向けることで、この問題を研究する。 我々は,LLMが,値のランク付けや値の相関など,人間で実証されたのと同じ値構造を示すかどうかを問う。 この分析の結果は, LLMの推進方法に強く依存しており, 特定の促進戦略(「値アンチョリング」と呼ぶ)の下では, 人的データとの合意が極めて説得力があることが示されている。 この結果は,LLMにおける値の理解の向上と,LLM応答の一貫性を評価する新しい手法の導入に寄与する。

Values are a basic driving force underlying human behavior. Large Language Models (LLM) technology is constantly improving towards human-like dialogue. However, little research has been done to study the values exhibited in text generated by LLMs. Here we study this question by turning to the rich literature on value structure in psychology. We ask whether LLMs exhibit the same value structure that has been demonstrated in humans, including the ranking of values, and correlation between values. We show that the results of this analysis strongly depend on how the LLM is prompted, and that under a particular prompting strategy (referred to as 'Value Anchoring') the agreement with human data is quite compelling. Our results serve both to improve our understanding of values in LLMs, as well as introduce novel methods for assessing consistency in LLM responses.
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# GenRC: スパースイメージコレクションから生成した3Dルームコンプリート

GenRC: Generative 3D Room Completion from Sparse Image Collections ( http://arxiv.org/abs/2407.12939v2 )

ライセンス: Link先を確認
Ming-Feng Li, Yueh-Feng Ku, Hong-Xuan Yen, Chi Liu, Yu-Lun Liu, Albert Y. C. Chen, Cheng-Hao Kuo, Min Sun, (参考訳) 特に、シーン全体を通して一貫したテクスチャやジオメトリーを考える場合、スパースRGBDシーンの完成は難しい課題である。 人間の設計したテキストプロンプトやカメラトラジェクトリに依存する既存のソリューションとは違って,高忠実度テクスチャを備えた部屋規模の3Dメッシュを実現するための,自動トレーニングフリーパイプラインであるGenRCを提案する。 これを実現するために、まず、スパースRGBD画像を高度に不完全な3Dメッシュに投影する。 空白を埋めるために新しいビューを反復的に生成する代わりに,提案したE-Diffusionを用いて,大域的幾何学と外観整合性を保証するビュー一貫性パノラマRGBD画像を生成する。 さらに,人間設計のテキストプロンプトを置き換えるために,テキスト変換による入力出力シーンのスタイリスティックな整合性を維持する。 データセット間のドメインギャップを埋めるために、E-Diffusionは大規模なデータセットでトレーニングされたモデルを活用して、さまざまな外観を生成する。 GenRCは、ScanNetとARKitScenesデータセットにおいて、これらのデータセットや事前に定義されたカメラトラジェクトリを使用してトレーニングされていないにもかかわらず、ほとんどの外観と幾何学的メトリクスの下で最先端の手法よりも優れています。 プロジェクトページ:https://minfenli.github.io/GenRC

Sparse RGBD scene completion is a challenging task especially when considering consistent textures and geometries throughout the entire scene. Different from existing solutions that rely on human-designed text prompts or predefined camera trajectories, we propose GenRC, an automated training-free pipeline to complete a room-scale 3D mesh with high-fidelity textures. To achieve this, we first project the sparse RGBD images to a highly incomplete 3D mesh. Instead of iteratively generating novel views to fill in the void, we utilized our proposed E-Diffusion to generate a view-consistent panoramic RGBD image which ensures global geometry and appearance consistency. Furthermore, we maintain the input-output scene stylistic consistency through textual inversion to replace human-designed text prompts. To bridge the domain gap among datasets, E-Diffusion leverages models trained on large-scale datasets to generate diverse appearances. GenRC outperforms state-of-the-art methods under most appearance and geometric metrics on ScanNet and ARKitScenes datasets, even though GenRC is not trained on these datasets nor using predefined camera trajectories. Project page: https://minfenli.github.io/GenRC
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# Automated Gateways: ブロックチェーン間の相互運用性のためのスマートコントラクト駆動ソリューション

Automated Gateways: A Smart Contract-Powered Solution for Interoperability Across Blockchains ( http://arxiv.org/abs/2407.13001v2 )

ライセンス: Link先を確認
Koosha Esmaeilzadeh Khorasani, Sara Rouhani, Rui Pan, Vahid Pourheidari, (参考訳) 相互運用性はブロックチェーン技術において重要な課題であり、さまざまなブロックチェーンネットワーク間のシームレスなデータとサービス共有を妨げる。 本稿では、スマートコントラクトを活用して相互運用性を促進する新しいフレームワークとして、Automated Gatewayを紹介します。 新しいテクノロジの採用や外部サービスへの依存を必要とする既存のソリューションとは異なり、Automated Gatewaysフレームワークはブロックチェーンのコアインフラストラクチャと直接統合されて、組み込みの相互運用性機能を備えたシステムを強化する。 きめ細かいアクセス制御機構を実装することで、このフレームワーク内のスマートコントラクトは、クロスチェーンインタラクションのアクセシビリティと承認を管理し、ブロックチェーン間のサービス選択の共有の合理化を容易にする。 我々の評価では、ブロックチェーン間のインタラクションを効率的に処理し、運用上の複雑さを大幅に低減し、さまざまなブロックチェーンネットワーク間のトランザクションの整合性とセキュリティを維持できるフレームワークの能力を実証しています。 ユーザフレンドリさ、セルフマネージドのパーミッション、外部プラットフォームからの独立性を重視したこのフレームワークは、ブロックチェーンコミュニティ内で広く採用されるように設計されている。

Interoperability is a significant challenge in blockchain technology, hindering seamless data and service sharing across diverse blockchain networks. This study introduces Automated Gateways as a novel framework leveraging smart contracts to facilitate interoperability. Unlike existing solutions, which often require adopting new technologies or relying on external services, Automated Gateways framework is integrated directly with a blockchain's core infrastructure to enhance systems with built-in interoperability features. By implementing fine-grained access control mechanisms, smart contracts within this framework manage accessibility and authorization for cross-chain interactions and facilitate streamlining the selective sharing of services between blockchains. Our evaluation demonstrates the framework's capability to handle cross-chain interactions efficiently, significantly reduce operational complexities, and uphold transactional integrity and security across different blockchain networks. With its focus on user-friendliness, self-managed permissions, and independence from external platforms, this framework is designed to achieve broader adoption within the blockchain community.
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# 原則から実践へ:AI(PAI)合成メディアフレームワークのパートナシップから学ぶ11のユースケース

From Principles to Practices: Lessons Learned from Applying Partnership on AI's (PAI) Synthetic Media Framework to 11 Use Cases ( http://arxiv.org/abs/2407.13025v2 )

ライセンス: Link先を確認
Claire R. Leibowicz, Christian H. Cardona, (参考訳) 2023年は世界が生成的AIに目覚めた年であり、2024年は政策立案者がより強く反応する年だ。 重要なことに、この政策の勢いは、合成メディアの現実的な創造と流通と共に起こっている。 ソーシャルメディアプラットフォーム、ニュース組織、デートアプリ、画像生成会社などはすでにAIによる視覚と音の世界を旅しており、政策立案者が追いつこうとしているように、すでに心と心を変えている。 では、どのようにしてAIガバナンスは、合成メディアの複雑さを捉えることができるのか? ストーリーテリングからプライバシ保護まで、詐欺、詐欺、非難まで、その開発、創造、流通に関わる多くのステークホルダーを考慮に入れながら、合成メディアの無数の用途にどのように対応できるだろうか? そして、表現の自由を高めつつ、真実を守りながら合成メディアを統治することの意味は何だろうか? 以下に示すのは、これらの質問に答える合成メディアガバナンスの実装のさまざまな例の最初の例である。特に2023年2月にローンチされた、AI(PAI) Responsible Practices for Synthetic Media – 自発的で規範的な、合成メディアのための技術の作成、配布、構築のためのフレームワークであるPartners on AI(PAI) Responsible Practices for Synthetic Media(リンク)を通じてである。 本稿では,フレームワークを運用する上で有効な実世界の事例のケースバンクとして,合成メディアガバナンスの適用,拡張,拡張,そして実際に使用するために改良された領域を取り上げる。 AI政策の異なる要素と、透明性、安全性、表現、デジタル尊厳をサポートする7つの創発的なベストプラクティス(同意、開示、有害なユースケースと創造的なユースケースの区別)を強調している。

2023 was the year the world woke up to generative AI, and 2024 is the year policymakers are responding more firmly. Importantly, this policy momentum is taking place alongside real world creation and distribution of synthetic media. Social media platforms, news organizations, dating apps, image generation companies, and more are already navigating a world of AI-generated visuals and sounds, already changing hearts and minds, as policymakers try to catch up. How, then, can AI governance capture the complexity of the synthetic media landscape? How can it attend to synthetic media's myriad uses, ranging from storytelling to privacy preservation, to deception, fraud, and defamation, taking into account the many stakeholders involved in its development, creation, and distribution? And what might it mean to govern synthetic media in a manner that upholds the truth while bolstering freedom of expression? What follows is the first known collection of diverse examples of the implementation of synthetic media governance that responds to these questions, specifically through Partnership on AI's (PAI) Responsible Practices for Synthetic Media - a voluntary, normative Framework for creating, distributing, and building technology for synthetic media responsibly, launched in February 2023. In this paper, we present a case bank of real world examples that help operationalize the Framework - highlighting areas synthetic media governance can be applied, augmented, expanded, and refined for use, in practice. Read together, the cases emphasize distinct elements of AI policymaking and seven emergent best practices supporting transparency, safety, expression, and digital dignity online: consent, disclosure, and differentiation between harmful and creative use cases.
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# PG-Rainbow:ポリシグラディエント手法における分散強化学習の利用

PG-Rainbow: Using Distributional Reinforcement Learning in Policy Gradient Methods ( http://arxiv.org/abs/2407.13146v2 )

ライセンス: Link先を確認
WooJae Jeon, KangJun Lee, Jeewoo Lee, (参考訳) 本稿では,分散強化学習フレームワークとポリシ勾配アルゴリズムを組み合わせた新しいアルゴリズムPG-Rainbowを紹介する。 既存の政策勾配法は、サンプル非効率であり、状態-作用値関数を計算するときのリターン平均に依存し、強化学習タスクにおけるリターンの分布特性を無視する。 この問題に対処するために,近似ポリシ最適化アルゴリズムの批判ネットワークに対して,報酬分布の定量情報を提供するImplicit Quantile Networkを使用する。 政策エージェントは、報酬分配情報を政策ネットワークに統合することで、与えられた状態における潜在的行動の結果を包括的に評価し、より高度で情報に富んだ意思決定プロセスを容易にする能力を得る。 アーケード学習環境(ALE)を模擬したAtari-2600ゲームスイートにおける提案アルゴリズムの性能評価を行った。

This paper introduces PG-Rainbow, a novel algorithm that incorporates a distributional reinforcement learning framework with a policy gradient algorithm. Existing policy gradient methods are sample inefficient and rely on the mean of returns when calculating the state-action value function, neglecting the distributional nature of returns in reinforcement learning tasks. To address this issue, we use an Implicit Quantile Network that provides the quantile information of the distribution of rewards to the critic network of the Proximal Policy Optimization algorithm. We show empirical results that through the integration of reward distribution information into the policy network, the policy agent acquires enhanced capabilities to comprehensively evaluate the consequences of potential actions in a given state, facilitating more sophisticated and informed decision-making processes. We evaluate the performance of the proposed algorithm in the Atari-2600 game suite, simulated via the Arcade Learning Environment (ALE).
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# Safe-SD: テキストプロンプトトリガーによる可視なジェネレーションウォーターマーキングのための安全かつトレーサブルな拡散

Safe-SD: Safe and Traceable Stable Diffusion with Text Prompt Trigger for Invisible Generative Watermarking ( http://arxiv.org/abs/2407.13188v2 )

ライセンス: Link先を確認
Zhiyuan Ma, Guoli Jia, Biqing Qi, Bowen Zhou, (参考訳) 近年、画像合成とパーソナライズされた編集の分野では、安定した拡散(SD)モデルが一般的に栄えており、様々なフォトリアリスティック画像や前例のない画像が生成されている。 その結果、視覚コンテンツ作成に様々なSDベースのツールを開発し、利用することへの関心が高まった。 しかし、AIが作成したコンテンツを公開プラットフォームに公開することで、法的および倫理的リスクが高まる可能性がある。 この点において、既に生成された画像(例えば後処理)に透かしを追加する従来の方法は、SDベースの方法で強力な画像反転とテキスト・ツー・イメージ編集技術が広く研究されているため、著作権保護とコンテンツ監視の観点からジレンマ(例えば、削除または修正)に直面している可能性がある。 本研究では,テキスト駆動型目に見えない透かしと検出をサポートするための生成拡散過程において,図形透かし(QRコードなど)を許容不能な構造関連画素に適応的に埋め込む,安全かつ高追跡性安定拡散フレームワーク(Safe-SD)を提案する。 従来の高コストインジェクション・then検出訓練フレームワークとは違って,単一ネットワークにおけるウォーターマークインジェクションと検出を同時にトレーニングし,使用効率と利便性を大幅に向上する,シンプルで統一的なアーキテクチャを設計する。 さらに,テキスト駆動型ウォーターマーキングをさらに支援し,その堅牢性と高トレーサビリティを深く探求するために,高忠実な画像合成と高トレーサブルな透かし検出のバランスをとるために,VAEでラップされた潜伏拡散器を微調整するために,ラムダサンプリングと暗号化アルゴリズムを精巧に設計する。 我々は,LSUN,COCO,FFHQの2つの代表的なデータセットに対する定量および定性的な結果を示し,Safe-SDの最先端性能を実証し,それ以前のアプローチよりも大幅に優れていたことを示す。

Recently, stable diffusion (SD) models have typically flourished in the field of image synthesis and personalized editing, with a range of photorealistic and unprecedented images being successfully generated. As a result, widespread interest has been ignited to develop and use various SD-based tools for visual content creation. However, the exposure of AI-created content on public platforms could raise both legal and ethical risks. In this regard, the traditional methods of adding watermarks to the already generated images (i.e. post-processing) may face a dilemma (e.g., being erased or modified) in terms of copyright protection and content monitoring, since the powerful image inversion and text-to-image editing techniques have been widely explored in SD-based methods. In this work, we propose a Safe and high-traceable Stable Diffusion framework (namely Safe-SD) to adaptively implant the graphical watermarks (e.g., QR code) into the imperceptible structure-related pixels during the generative diffusion process for supporting text-driven invisible watermarking and detection. Different from the previous high-cost injection-then-detection training framework, we design a simple and unified architecture, which makes it possible to simultaneously train watermark injection and detection in a single network, greatly improving the efficiency and convenience of use. Moreover, to further support text-driven generative watermarking and deeply explore its robustness and high-traceability, we elaborately design lambda sampling and encryption algorithm to fine-tune a latent diffuser wrapped by a VAE for balancing high-fidelity image synthesis and high-traceable watermark detection. We present our quantitative and qualitative results on two representative datasets LSUN, COCO and FFHQ, demonstrating state-of-the-art performance of Safe-SD and showing it significantly outperforms the previous approaches.
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# 自然言語処理のための検索強化生成:サーベイ

Retrieval-Augmented Generation for Natural Language Processing: A Survey ( http://arxiv.org/abs/2407.13193v2 )

ライセンス: Link先を確認
Shangyu Wu, Ying Xiong, Yufei Cui, Haolun Wu, Can Chen, Ye Yuan, Lianming Huang, Xue Liu, Tei-Wei Kuo, Nan Guan, Chun Jason Xue, (参考訳) 大規模言語モデル(LLM)は様々な分野で大きな成功を収めており、知識を保持する膨大なパラメータの恩恵を受けている。 しかし、LLMは幻覚の問題、知識更新の問題、ドメイン固有の専門知識の欠如など、いくつかの重要な問題に悩まされている。 検索強化世代(RAG)の出現は、外部知識データベースを利用してLLMを増強し、LLMの欠点を補っている。 本稿では,RAGの重要技術,特に検索器と検索融合について概説する。 さらに、RAGの代表的なテクニックを実装するためのチュートリアルコードも提供されている。 本稿では、RAG with/withoutデータストア更新を含むRAGトレーニングについても論じる。 そこで本研究では,自然言語処理タスクや産業シナリオにおけるRAGの適用について紹介する。 最後に,RAGの今後の方向性と開発促進の課題について述べる。

Large language models (LLMs) have demonstrated great success in various fields, benefiting from their huge amount of parameters that store knowledge. However, LLMs still suffer from several key issues, such as hallucination problems, knowledge update issues, and lacking domain-specific expertise. The appearance of retrieval-augmented generation (RAG), which leverages an external knowledge database to augment LLMs, makes up those drawbacks of LLMs. This paper reviews all significant techniques of RAG, especially in the retriever and the retrieval fusions. Besides, tutorial codes are provided for implementing the representative techniques in RAG. This paper further discusses the RAG training, including RAG with/without datastore update. Then, we introduce the application of RAG in representative natural language processing tasks and industrial scenarios. Finally, this paper discusses the future directions and challenges of RAG for promoting its development.
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# Mask2Map:Bird's Eye View Segmentation Masksを用いたベクトル化HDマップの構築

Mask2Map: Vectorized HD Map Construction Using Bird's Eye View Segmentation Masks ( http://arxiv.org/abs/2407.13517v2 )

ライセンス: Link先を確認
Sehwan Choi, Jungho Kim, Hongjae Shin, Jun Won Choi, (参考訳) 本稿では,自動運転アプリケーション用に設計された新しいエンドツーエンドのオンラインHDマップ構築手法であるMask2Mapを紹介する。 本手法は,鳥の眼球図(BEV)で表されるシーン内の地図インスタンスのクラスと順序付けられた点集合を予測することに焦点を当てる。 Mask2Mapは、IMPNet(インスタンスレベルマスク予測ネットワーク)とMMPNet(マスク駆動マップ予測ネットワーク)の2つの主要コンポーネントで構成されている。 IMPNetはMask-Aware QueriesとBEVセグメンテーションマスクを生成し、世界中の包括的なセマンティック情報をキャプチャする。 その後、MMPNetは2つのサブモジュール(PQG)とGeometric Feature Extractor(GFE))を通じて、ローカルなコンテキスト情報を使用して、これらのクエリ機能を強化した。 PQGは、BEV位置情報をMask-Aware Queriesに埋め込んでインスタンスレベルの位置情報を抽出し、GFEはBEVセグメンテーションマスクを使用してポイントレベルの幾何学的特徴を生成する。 しかし,ネットワーク間不整合によるMask2Mapの性能は,IMPNetとMMPNetの整合性(GT)と異なる予測から生じる。 この課題に対処するために、ノイズの多いGTクエリと摂動したGTセグメンテーションマスクの両方によって影響を受ける出力をデノマイズするためのモデルであるInter-network Denoising Training法を提案する。 nuScenes と Argoverse2 のベンチマークによる評価の結果,Mask2Map は従来の最先端手法よりも優れた性能を示し,それぞれ10.1% mAP と 4.1 mAP が得られた。 私たちのコードはhttps://github.com/SehwanChoi0307/Mask2Mapで参照できます。

In this paper, we introduce Mask2Map, a novel end-to-end online HD map construction method designed for autonomous driving applications. Our approach focuses on predicting the class and ordered point set of map instances within a scene, represented in the bird's eye view (BEV). Mask2Map consists of two primary components: the Instance-Level Mask Prediction Network (IMPNet) and the Mask-Driven Map Prediction Network (MMPNet). IMPNet generates Mask-Aware Queries and BEV Segmentation Masks to capture comprehensive semantic information globally. Subsequently, MMPNet enhances these query features using local contextual information through two submodules: the Positional Query Generator (PQG) and the Geometric Feature Extractor (GFE). PQG extracts instance-level positional queries by embedding BEV positional information into Mask-Aware Queries, while GFE utilizes BEV Segmentation Masks to generate point-level geometric features. However, we observed limited performance in Mask2Map due to inter-network inconsistency stemming from different predictions to Ground Truth (GT) matching between IMPNet and MMPNet. To tackle this challenge, we propose the Inter-network Denoising Training method, which guides the model to denoise the output affected by both noisy GT queries and perturbed GT Segmentation Masks. Our evaluation conducted on nuScenes and Argoverse2 benchmarks demonstrates that Mask2Map achieves remarkable performance improvements over previous state-of-the-art methods, with gains of 10.1% mAP and 4.1 mAP, respectively. Our code can be found at https://github.com/SehwanChoi0307/Mask2Map.
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# GlobalPointer: 両凸緩和による大規模平面調整

GlobalPointer: Large-Scale Plane Adjustment with Bi-Convex Relaxation ( http://arxiv.org/abs/2407.13537v2 )

ライセンス: Link先を確認
Bangyan Liao, Zhenjun Zhao, Lu Chen, Haoang Li, Daniel Cremers, Peidong Liu, (参考訳) 平面調整(PA)は多くの3Dアプリケーションにおいて重要であり、同時にポーズ推定と平面の復元を行う。 近年の進歩にもかかわらず、マルチビューポイントクラウド登録の領域では依然として難しい問題である。 現在の最先端の手法は、優れた初期化によってのみ、大域的に最適な収束を達成することができる。 さらに、その高速な複雑さは、大規模な問題には実用的ではない。 これらの課題に対処するために、まず最初に、元の問題を2つのより単純なサブプロブレムに分解し、凸緩和技術を用いて各サブプロブレムを再構成し、元の問題が収束するまで各問題を交互に解決する「textit{Bi-Convex Relaxation}」という新しい最適化戦略を利用する。 この戦略に基づいて,平面調整問題を解くための2つのアルゴリズム的変種,すなわち,点対平面誤差と平面対平面誤差に基づいて,それぞれ \textit{GlobalPointer} と \textit{GlobalPointer++} を提案する。 合成データと実データの両方に対する大規模な実験により, 線形時間複雑度, 収束領域の増大, 初期化不良に対するロバスト性を考慮した大規模平面調整が可能であり, 従来手法と同等の精度が得られた。 コードはhttps://github.com/wu-cvgl/GlobalPointer.comで入手できる。

Plane adjustment (PA) is crucial for many 3D applications, involving simultaneous pose estimation and plane recovery. Despite recent advancements, it remains a challenging problem in the realm of multi-view point cloud registration. Current state-of-the-art methods can achieve globally optimal convergence only with good initialization. Furthermore, their high time complexity renders them impractical for large-scale problems. To address these challenges, we first exploit a novel optimization strategy termed \textit{Bi-Convex Relaxation}, which decouples the original problem into two simpler sub-problems, reformulates each sub-problem using a convex relaxation technique, and alternately solves each one until the original problem converges. Building on this strategy, we propose two algorithmic variants for solving the plane adjustment problem, namely \textit{GlobalPointer} and \textit{GlobalPointer++}, based on point-to-plane and plane-to-plane errors, respectively. Extensive experiments on both synthetic and real datasets demonstrate that our method can perform large-scale plane adjustment with linear time complexity, larger convergence region, and robustness to poor initialization, while achieving similar accuracy as prior methods. The code is available at https://github.com/wu-cvgl/GlobalPointer.
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19
# Hyp2Nav: 群衆ナビゲーションのための双曲的計画と好奇心

Hyp2Nav: Hyperbolic Planning and Curiosity for Crowd Navigation ( http://arxiv.org/abs/2407.13567v2 )

ライセンス: Link先を確認
Guido Maria D'Amely di Melendugno, Alessandro Flaborea, Pascal Mettes, Fabio Galasso, (参考訳) 自律型ロボットは、社会環境における強力な道具になりつつある。 効果的なクラウドナビゲーションには、安全かつ高速な計画だけでなく、組み込みデバイス上でリアルタイムに作業するための解釈可能性や計算効率も必要である。 本研究では,集団ナビゲーションを実現するための双曲学習を提唱し,Hyp2Navを紹介する。 従来の強化学習に基づく群集ナビゲーション法とは異なり、Hyp2Navは双曲幾何学の本質的な性質を活用し、ナビゲーションタスクにおける意思決定プロセスの階層的性質をよりよく符号化する。 提案するハイパーボリックポリシーモデルとハイパーボリック好奇性モジュールは,効果的なソーシャルナビゲーション,最高の成功率,複数のシミュレーション設定にまたがるリターンを実現し,競合する最先端モデルに比べて最大6倍のパラメータを用いて提案する。 提案手法により,2次元の埋め込み空間で機能するポリシーを得ることができ,低リソースのクラウドナビゲーションとモデル解釈可能性の新たな可能性を開くことができる。 Hyp2Navの内部のハイパーボリックな表現は、ロボットが周囲の群衆にどれだけの注意を払っているかに相関している。

Autonomous robots are increasingly becoming a strong fixture in social environments. Effective crowd navigation requires not only safe yet fast planning, but should also enable interpretability and computational efficiency for working in real-time on embedded devices. In this work, we advocate for hyperbolic learning to enable crowd navigation and we introduce Hyp2Nav. Different from conventional reinforcement learning-based crowd navigation methods, Hyp2Nav leverages the intrinsic properties of hyperbolic geometry to better encode the hierarchical nature of decision-making processes in navigation tasks. We propose a hyperbolic policy model and a hyperbolic curiosity module that results in effective social navigation, best success rates, and returns across multiple simulation settings, using up to 6 times fewer parameters than competitor state-of-the-art models. With our approach, it becomes even possible to obtain policies that work in 2-dimensional embedding spaces, opening up new possibilities for low-resource crowd navigation and model interpretability. Insightfully, the internal hyperbolic representation of Hyp2Nav correlates with how much attention the robot pays to the surrounding crowds, e.g. due to multiple people occluding its pathway or to a few of them showing colliding plans, rather than to its own planned route.
翻訳日:2024-07-22 11:40:33 公開日:2024-07-19