このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240713となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 事前学習拡散モデルを用いたレイテンシを考慮した生成意味コミュニケーション
Latency-Aware Generative Semantic Communications with Pre-Trained Diffusion Models ( http://arxiv.org/abs/2403.17256v2 ) ライセンス: Link先を確認 | Li Qiao, Mahdi Boloursaz Mashhadi, Zhen Gao, Chuan Heng Foh, Pei Xiao, Mehdi Bennis, | (参考訳) 生成基盤AIモデルは、テキストプロンプトと条件付き信号のみを使用して、知覚品質の高い自然信号を合成することで、生成プロセスのガイドに成功している。
これにより、将来の無線ネットワークにおいて、極めて低いデータレートでセマンティック通信が可能になる。
本稿では,事前学習した生成モデルを用いた遅延認識型セマンティックコミュニケーションフレームワークを開発する。
送信者は、入力信号に対してマルチモーダルなセマンティック分解を行い、そのインテントに基づいて各セマンティックストリームを適切な符号化および通信方式で送信する。
このプロンプトには、信頼性の高い送信を保証するための再送信ベースのスキームを採用し、他のセマンティックモダリティに対しては、適応変調/符号化スキームを使用して、変更する無線チャネルに対してロバスト性を実現する。
さらに,意味的品質制約による重要度に基づいて,意味的モダリティの異なる意味的モダリティに送信電力を割り当てる意味的・待ち時間を考慮したスキームを設計する。
受信機において、事前学習された生成モデルは、受信したマルチストリームセマンティクスを用いて高忠実度信号を合成する。
シミュレーションの結果は、超低レート、低レイテンシ、チャネル適応セマンティック通信を示す。
Generative foundation AI models have recently shown great success in synthesizing natural signals with high perceptual quality using only textual prompts and conditioning signals to guide the generation process. This enables semantic communications at extremely low data rates in future wireless networks. In this paper, we develop a latency-aware semantic communications framework with pre-trained generative models. The transmitter performs multi-modal semantic decomposition on the input signal and transmits each semantic stream with the appropriate coding and communication schemes based on the intent. For the prompt, we adopt a re-transmission-based scheme to ensure reliable transmission, and for the other semantic modalities we use an adaptive modulation/coding scheme to achieve robustness to the changing wireless channel. Furthermore, we design a semantic and latency-aware scheme to allocate transmission power to different semantic modalities based on their importance subjected to semantic quality constraints. At the receiver, a pre-trained generative model synthesizes a high fidelity signal using the received multi-stream semantics. Simulation results demonstrate ultra-low-rate, low-latency, and channel-adaptive semantic communications. | 翻訳日:2024-11-09 03:48:22 公開日:2024-07-13 |
# データによる難民危機の解決
Solve the Refugee Crisis with Data ( http://arxiv.org/abs/2407.20235v1 ) ライセンス: Link先を確認 | Yunfei Liu, | (参考訳) 本研究では,2つのモデルを用いて難民危機に対処した。
難民の究極の数を予測するために,最初にロジスティック回帰モデルを構築したが,限られたデータポイントのため,その予測精度は準最適であった。
その結果、Gary Verhulst Modelの開発にグレー理論を取り入れ、科学的に健全で合理的な予測を提供した。
両方のモデルを比較した統計的テストでは、ゲーリー・バーフルスト・モデルの方が優れていることが強調された。
難民割当て方式の定式化には, 当初は因子分析法を用いたが, 主観的すぎること, 厳密な検証方法が欠如していることが判明した。
そこで我々は,AHP(Analytic Hierarchy Process)に基づくRefugee Allocation Modelを開発し,従来の手法の利点を吸収した。
このモデルは広範囲な検証と整合性チェックを行い、効果的で科学的に避難場所を割り当てるスキームを生み出した。
また、我々のモデルと現在のアロケーションスキームを比較し、改善を提案する。
最後に、モデルの長所と短所、適用性、拡張性について論じました。
感度分析を行い,今後のモデル改善に向けた方向性を明らかにした。
In this study, we addressed the refugee crisis through two main models. For predicting the ultimate number of refugees, we first established a Logistic Regression Model, but due to the limited data points, its prediction accuracy was suboptimal. Consequently, we incorporated Gray Theory to develop the Gary Verhulst Model, which provided scientifically sound and reasonable predictions. Statistical tests comparing both models highlighted the superiority of the Gary Verhulst Model. For formulating refugee allocation schemes, we initially used the Factor Analysis Method but found it too subjective and lacking in rigorous validation measures. We then developed a Refugee Allocation Model based on the Analytic Hierarchy Process (AHP), which absorbed the advantages of the former method. This model underwent extensive validation and passed consistency checks, resulting in an effective and scientific refugee allocation scheme. We also compared our model with the current allocation schemes and proposed improvements. Finally, we discussed the advantages and disadvantages of our models, their applicability, and scalability. Sensitivity analysis was conducted, and directions for future model improvements were identified. | 翻訳日:2024-08-05 00:56:24 公開日:2024-07-13 |
# LLM-Find:地理空間データ検索のための自律型GISエージェントフレームワーク
LLM-Find: An Autonomous GIS Agent Framework for Geospatial Data Retrieval ( http://arxiv.org/abs/2407.21024v1 ) ライセンス: Link先を確認 | Huan Ning, Zhenlong Li, Temitope Akinboyewa, M. Naser Lessani, | (参考訳) 新興の大規模言語モデル (LLM) によって支えられ、自律地理情報システム (GIS) エージェントは空間解析や地図処理を行う能力を持つ。
しかし、完全に自律的なGISエージェントをサポートするための研究のギャップが存在し、エージェントが地理空間分析に必要なデータを発見し、ダウンロードする方法である。
本研究では,自動GISエージェントフレームワークであるLLM-Findを提案する。
LLM-Findは、LCMを意思決定元として使用し、予め定義されたソースリストから適切なデータソース(s)を選択し、選択したソースからデータを取得する。
各データソースは、データ検索のメタデータと技術的な詳細を記録するハンドブックを持っている。
提案するフレームワークは,柔軟性と拡張性を確保するために,プラグアンドプレイ方式で設計されている。
人間のユーザーや自律的なデータスクローラーは、新しいハンドブックを追加することで、新しいデータソースを追加することができる。
LLM-Findをベースとしたプロトタイプエージェントを開発し,OpenStreetMap,米国国勢調査局の行政境界と人口統計データ,ESRI World Imageryの衛星ベースマップ,商用プロバイダの気象データ,NYTimes GitHubのCOVID-19データなど,さまざまなソースからデータを取得する能力を示す実験結果を得た。
我々の研究は、自律的な地理空間データ検索エージェントを開発するための最初の試みの一つである。
Powered by the emerging large language models (LLMs), autonomous geographic information systems (GIS) agents have the potential to accomplish spatial analyses and cartographic tasks. However, a research gap exists to support fully autonomous GIS agents: how to enable agents to discover and download the necessary data for geospatial analyses. This study proposes LLM-Find, an autonomous GIS agent framework capable of selecting and fetching required geospatial data by generating, executing, and debugging programs. LLM-Find utilizes the LLM as the decision-maker, selects the appropriate data source (s) from a pre-defined source list, and fetches the data from the chosen source. Each data source has a handbook that records the metadata and technical details for data retrieval. The proposed framework is designed in a plug-and-play style to ensure flexibility and extensibility. Human users or autonomous data scrawlers can add a new data source by adding a new handbook. We developed a prototype agent based on LLM-Find, and experiment results demonstrate its capability of retrieving data from various sources including OpenStreetMap, administrative boundaries and demographic data from the US Census Bureau, satellite basemaps from ESRI World Imagery, weather data from a commercial provider, and the COVID-19 data from the NYTimes GitHub. Our study is among the first attempts to develop an autonomous geospatial data retrieval agent. | 翻訳日:2024-08-05 00:46:38 公開日:2024-07-13 |
# KVキャッシングを超えて - 効率的なLDMのための共有アテンション
Beyond KV Caching: Shared Attention for Efficient LLMs ( http://arxiv.org/abs/2407.12866v1 ) ライセンス: Link先を確認 | Bingli Liao, Danilo Vasconcellos Vargas, | (参考訳) 大規模言語モデル(LLM)の効率性は、特に計算資源が限られている状況において重要な課題である。
これらのモデルにおける従来の注意機構は強力だが、異なる層にまたがって注意重みを計算・保存する必要があるため、計算と記憶のリソースがかなり必要である。
本稿では,複数層にまたがって計算された注目重みを直接共有することにより,LLMの効率を高めるための新しい共有注意機構を提案する。
中間キーバリュー(KV)キャッシュの共有に焦点をあてた従来の手法とは異なり,本手法では,先進LLMにおける注意分布の等方的傾向を利用して,推論に必要な計算フロップとKVキャッシュのサイズの両方を削減する。
実験により,様々なLSMに対してSAを実装することで,標準ベンチマークにおける精度の低下が最小限に抑えられることを示した。
以上の結果から,SAは計算資源の保存だけでなく,頑健なモデル性能も維持し,資源制約環境におけるより効率的なLCMの展開を容易にすることが示唆された。
The efficiency of large language models (LLMs) remains a critical challenge, particularly in contexts where computational resources are limited. Traditional attention mechanisms in these models, while powerful, require significant computational and memory resources due to the necessity of recalculating and storing attention weights across different layers. This paper introduces a novel Shared Attention (SA) mechanism, designed to enhance the efficiency of LLMs by directly sharing computed attention weights across multiple layers. Unlike previous methods that focus on sharing intermediate Key-Value (KV) caches, our approach utilizes the isotropic tendencies of attention distributions observed in advanced LLMs post-pretraining to reduce both the computational flops and the size of the KV cache required during inference. We empirically demonstrate that implementing SA across various LLMs results in minimal accuracy loss on standard benchmarks. Our findings suggest that SA not only conserves computational resources but also maintains robust model performance, thereby facilitating the deployment of more efficient LLMs in resource-constrained environments. | 翻訳日:2024-07-19 20:02:37 公開日:2024-07-13 |
# 単言語基礎モデルのバイリンガル適応
Bilingual Adaptation of Monolingual Foundation Models ( http://arxiv.org/abs/2407.12869v1 ) ライセンス: Link先を確認 | Gurpreet Gosal, Yishi Xu, Gokul Ramakrishnan, Rituraj Joshi, Avraham Sheinin, Zhiming, Chen, Biswajit Mishra, Natalia Vassilieva, Joel Hestness, Neha Sengupta, Sunil Kumar Sahu, Bokang Jia, Satheesh Katipomu, Onkar Pandit, Samta Kamboj, Rahul Pal, Parvez Mullah, Soundar Doraiswamy, Mohamed El Karim Chami, | (参考訳) 本稿では,単一言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
この研究は、ラマ2をアラビア語に適応させることに重点を置いている。
我々の2段階のアプローチは、語彙を拡張し、埋め込み行列のみを訓練することから始まり、続いてバイリンガルコーパス上で完全なモデル前訓練が行われる。
アラビア語と英語のコーパスを混在させ続けることで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を習得する。
提案手法はアラビア語の大幅な改良と英語のわずかな改良を実現し,費用対効果のある言語間移動を実証した。
また、埋め込み初期化技術、データ混合率、学習率の大幅な改善を行い、詳細なトレーニングレシピをリリースする。
We present an efficient method for adapting a monolingual Large Language Model (LLM) to another language, addressing challenges of catastrophic forgetting and tokenizer limitations. We focus this study on adapting Llama 2 to Arabic. Our two-stage approach begins with expanding the vocabulary and training only the embeddings matrix, followed by full model continual pretraining on a bilingual corpus. By continually pretraining on a mix of Arabic and English corpora, the model retains its proficiency in English while acquiring capabilities in Arabic. Our approach results in significant improvements in Arabic and slight enhancements in English, demonstrating cost-effective cross-lingual transfer. We also perform extensive ablations on embedding initialization techniques, data mix ratios, and learning rates and release a detailed training recipe. | 翻訳日:2024-07-19 20:02:37 公開日:2024-07-13 |
# pysentimiento: 意見マイニングとソーシャルNLPタスクのためのPythonツールキット
pysentimiento: A Python Toolkit for Opinion Mining and Social NLP tasks ( http://arxiv.org/abs/2106.09462v3 ) ライセンス: Link先を確認 | Juan Manuel Pérez, Mariela Rajngewerc, Juan Carlos Giudici, Damián A. Furman, Franco Luque, Laura Alonso Alemany, María Vanina Martínez, | (参考訳) 近年,ユーザ生成テキストから意見や情報を抽出することへの関心が高まっている。
しかし、ソーシャル研究者は、これらのタスクに最先端のツールを採用する際にいくつかの問題に直面している。
これらの問題に対処するために、意見マイニングやその他のソーシャルNLPタスク用に設計された総合的な多言語Pythonツールキットpysentimientoを提案する。
このオープンソースライブラリは、スペイン語、英語、イタリア語、ポルトガル語の最先端モデルを簡単に利用できるPythonライブラリを提供し、研究者がこれらのテクニックを活用することができる。
本稿では,様々なタスク,言語,データセットを対象とした事前学習言語モデルの性能評価を行い,その結果の公平性を評価する。
In recent years, the extraction of opinions and information from user-generated text has attracted a lot of interest, largely due to the unprecedented volume of content in Social Media. However, social researchers face some issues in adopting cutting-edge tools for these tasks, as they are usually behind commercial APIs, unavailable for other languages than English, or very complex to use for non-experts. To address these issues, we present pysentimiento, a comprehensive multilingual Python toolkit designed for opinion mining and other Social NLP tasks. This open-source library brings state-of-the-art models for Spanish, English, Italian, and Portuguese in an easy-to-use Python library, allowing researchers to leverage these techniques. We present a comprehensive assessment of performance for several pre-trained language models across a variety of tasks, languages, and datasets, including an evaluation of fairness in the results. | 翻訳日:2024-07-18 00:37:39 公開日:2024-07-13 |
# IPNET:少数のショット学習のための流用プロトタイプネットワーク
IPNET:Influential Prototypical Networks for Few Shot Learning ( http://arxiv.org/abs/2208.09345v3 ) ライセンス: Link先を確認 | Ranjana Roy Chowdhury, Deepti R. Bathula, | (参考訳) プロトタイプネットワーク(PN)は単純だが効果的なショットラーニング戦略である。
ユークリッド距離を計算して各クラスの原型表現に分類する,メートル法に基づくメタラーニング手法である。
従来のPN属性は、すべてのサンプルと同等に重要であり、各クラスに属するサポートサンプルの埋め込みを単に平均化することでプロトタイプを生成する。
そこで本研究では, 支持試料分布への影響に対応する試料に重みを付与するPNの新たなバージョンを提案する。
試料を含まない試料分布の平均埋没量の最大誤差 (MMD) に基づいて, 試料の重み付けを算出した。
さらに, 試料の有無の分布変化に基づいて, MMDを用いて試料の影響係数を測定した。
Prototypical network (PN) is a simple yet effective few shot learning strategy. It is a metric-based meta-learning technique where classification is performed by computing Euclidean distances to prototypical representations of each class. Conventional PN attributes equal importance to all samples and generates prototypes by simply averaging the support sample embeddings belonging to each class. In this work, we propose a novel version of PN that attributes weights to support samples corresponding to their influence on the support sample distribution. Influence weights of samples are calculated based on maximum mean discrepancy (MMD) between the mean embeddings of sample distributions including and excluding the sample. Further, the influence factor of a sample is measured using MMD based on the shift in the distribution in the absence of that sample. | 翻訳日:2024-07-18 00:30:09 公開日:2024-07-13 |
# SemiAdv: ラベルなし画像によるクエリ効率の良いブラックボックス攻撃
SemiAdv: Query-Efficient Black-Box Adversarial Attack with Unlabeled Images ( http://arxiv.org/abs/2407.11073v1 ) ライセンス: Link先を確認 | Mingyuan Fan, Yang Liu, Cen Chen, Ximeng Liu, | (参考訳) 敵の攻撃は、機密性の高いセキュリティシナリオにおけるロボットの安全な配置に深く影響するため、かなりの注目を集めている。
そこで本研究では,ブラックボックス設定における敵攻撃について検討し,ラベルのないデータ駆動型敵攻撃手法であるSemiAdvを提案する。
具体的には、SemiAdvは、以前の作品と比較して、以下のブレークスルーを達成する。
まず,半教師付き学習手法を敵攻撃に導入することにより,SemiAdvは敵サンプルの生成に必要なクエリ数を著しく削減する。
平均して、SemiAdvは、90%以上の成功率で効果的な攻撃を開始するために、数百回だけ問い合わせる必要がある。
第二に、多くの既存のブラックボックス敵攻撃は、攻撃性能を向上させるために、ローカル代用モデルとリモートターゲットモデルの違いを軽減するために、大量のラベル付きデータを必要とする。
SemiAdvはこの制限を緩和し、ラベルなしの生データを有効攻撃を開始することができる。
最後に、SemiAdvは、最先端の攻撃と比較して競合的な攻撃成功率を維持しつつ、敵のサンプルを生成するために最大12倍のクエリアクセスを節約できることを示す。
Adversarial attack has garnered considerable attention due to its profound implications for the secure deployment of robots in sensitive security scenarios. To potentially push for advances in the field, this paper studies the adversarial attack in the black-box setting and proposes an unlabeled data-driven adversarial attack method, called SemiAdv. Specifically, SemiAdv achieves the following breakthroughs compared with previous works. First, by introducing the semi-supervised learning technique into the adversarial attack, SemiAdv substantially decreases the number of queries required for generating adversarial samples. On average, SemiAdv only needs to query a few hundred times to launch an effective attack with more than 90% success rate. Second, many existing black-box adversarial attacks require massive labeled data to mitigate the difference between the local substitute model and the remote target model for a good attack performance. While SemiAdv relaxes this limitation and is capable of utilizing unlabeled raw data to launch an effective attack. Finally, our experiments show that SemiAdv saves up to 12x query accesses for generating adversarial samples while maintaining a competitive attack success rate compared with state-of-the-art attacks. | 翻訳日:2024-07-17 20:00:37 公開日:2024-07-13 |
# ST-RetNet: 長期時空間交通流予測手法
ST-RetNet: A Long-term Spatial-Temporal Traffic Flow Prediction Method ( http://arxiv.org/abs/2407.11074v1 ) ライセンス: Link先を確認 | Baichao Long, Wang Zhu, Jianli Xiao, | (参考訳) 交通流予測はインテリジェント交通システムにおいて重要な課題であると考えられている。
本稿では,交通流における時空間ビッグデータの長期予測における低精度化の問題に対処するため,時空間拘束ネットワーク(ST-RetNet)と呼ばれる革新的なモデルを提案する。
我々は、トラフィックフロー予測の課題に対処するために、Retentive Networkを拡張した。
空間スケールでは,道路網の動的空間的特徴を抽出するために適応的隣接行列を用いて,位相グラフ構造を空間共役ネットワーク(S-RetNet)に統合する。
また,道路ネットワークの静的な空間的特徴を抽出するために,グラフ畳み込みネットワークを用いる。
これら2つの成分は融合して動的および静的な空間相関をキャプチャする。
時間的スケールでは、リカレントニューラルネットワークやトランスフォーマーモデルを含む他の時系列モデルと比較して、トラフィックフローパターンの長期的依存性の把握に優れるテンポラルリテーナネットワーク(T-RetNet)を提案する。
S-RetNetとT-RetNetを統合してST-RetNetを形成することにより,時空間トラフィックフロー予測タスクを実現する。
実世界の4つのデータセットで行った実験の結果、ST-RetNetは交通流予測における最先端のアプローチよりも優れていることが示された。
Traffic flow forecasting is considered a critical task in the field of intelligent transportation systems. In this paper, to address the issue of low accuracy in long-term forecasting of spatial-temporal big data on traffic flow, we propose an innovative model called Spatial-Temporal Retentive Network (ST-RetNet). We extend the Retentive Network to address the task of traffic flow forecasting. At the spatial scale, we integrate a topological graph structure into Spatial Retentive Network(S-RetNet), utilizing an adaptive adjacency matrix to extract dynamic spatial features of the road network. We also employ Graph Convolutional Networks to extract static spatial features of the road network. These two components are then fused to capture dynamic and static spatial correlations. At the temporal scale, we propose the Temporal Retentive Network(T-RetNet), which has been demonstrated to excel in capturing long-term dependencies in traffic flow patterns compared to other time series models, including Recurrent Neural Networks based and transformer models. We achieve the spatial-temporal traffic flow forecasting task by integrating S-RetNet and T-RetNet to form ST-RetNet. Through experimental comparisons conducted on four real-world datasets, we demonstrate that ST-RetNet outperforms the state-of-the-art approaches in traffic flow forecasting. | 翻訳日:2024-07-17 20:00:37 公開日:2024-07-13 |
# Kolmogorov Arnold Networks (KAN) に関する総合調査
A Comprehensive Survey on Kolmogorov Arnold Networks (KAN) ( http://arxiv.org/abs/2407.11075v1 ) ライセンス: Link先を確認 | Yuntian Hou, Di zhang, Jinheng Wu, Xiaohang Feng, | (参考訳) Kolmogorov-Arnold Networks (KAN) の包括的調査を通じて、我々はその理論的基盤、アーキテクチャ設計、アプリケーションシナリオ、そして現在の研究の進捗を深く理解した。
Kanは独自のアーキテクチャと柔軟なアクティベーション機能を備え、複雑なデータパターンと非線形関係の処理に優れ、幅広いアプリケーションの可能性を示している。
課題は残るが、kanは様々な分野における革新的なソリューションの道を切り開いており、複雑な計算問題にどのようにアプローチするかに革命をもたらす可能性がある。
Through this comprehensive survey of Kolmogorov-Arnold Networks(KAN), we have gained a thorough understanding of its theoretical foundation, architectural design, application scenarios, and current research progress. KAN, with its unique architecture and flexible activation functions, excels in handling complex data patterns and nonlinear relationships, demonstrating wide-ranging application potential. While challenges remain, KAN is poised to pave the way for innovative solutions in various fields, potentially revolutionizing how we approach complex computational problems. | 翻訳日:2024-07-17 20:00:37 公開日:2024-07-13 |
# 航空機横方向姿勢追跡制御に応用した対称データ拡張による深部強化学習
Deep reinforcement learning with symmetric data augmentation applied for aircraft lateral attitude tracking control ( http://arxiv.org/abs/2407.11077v1 ) ライセンス: Link先を確認 | Yifei Li, Erik-jan van Kampen, | (参考訳) 対称性は、状態遷移予測や制御ポリシー最適化に利用することができるいくつかの力学系において不可欠な性質である。
本稿では,環境対称性を利用してマルコフ決定過程(MDP)の遷移サンプルを増大させる,標準的なDeep Deterministic Policy Gradient(DDPG)に基づく2つの対称性統合強化学習(RL)アルゴリズムを開発する。
最初に開発されたアルゴリズムは、動的システムの対称性仮定の下で、標準DDPGアルゴリズムのデータセットを対称データ拡張法で強化するDDPG-SDA (Deep Deterministic Policy Gradient with Symmetric Data Augmentation) と呼ばれる。
サンプル利用効率をさらに向上するため、第2に開発されたRLアルゴリズムは、拡張データセットで独立に訓練された1つの余分な批判ネットワークを組み込んだ。
2つの批評家ネットワークと1つのアクターネットワークのトレーニングを統合するために、2段階近似ポリシー反復法を提案する。
結果のRLアルゴリズムは、シンメトリック・クリニック・アジュメンテーション(DDPG-SCA)によるDeep Deterministic Policy Gradient(Deep Deterministic Policy Gradient)と命名される。
航空機横方向追尾制御タスクにおける2つのRLアルゴリズムの高効率化と追尾性能を示すシミュレーション結果を得た。
Symmetry is an essential property in some dynamical systems that can be exploited for state transition prediction and control policy optimization. This paper develops two symmetry-integrated Reinforcement Learning (RL) algorithms based on standard Deep Deterministic Policy Gradient (DDPG),which leverage environment symmetry to augment explored transition samples of a Markov Decision Process(MDP). The firstly developed algorithm is named as Deep Deterministic Policy Gradient with Symmetric Data Augmentation (DDPG-SDA), which enriches dataset of standard DDPG algorithm by symmetric data augmentation method under symmetry assumption of a dynamical system. To further improve sample utilization efficiency, the second developed RL algorithm incorporates one extra critic network, which is independently trained with augmented dataset. A two-step approximate policy iteration method is proposed to integrate training for two critic networks and one actor network. The resulting RL algorithm is named as Deep Deterministic Policy Gradient with Symmetric Critic Augmentation (DDPG-SCA). Simulation results demonstrate enhanced sample efficiency and tracking performance of developed two RL algorithms in aircraft lateral tracking control task. | 翻訳日:2024-07-17 20:00:37 公開日:2024-07-13 |
# フェデレーション・グローバルツイン・ジェネレータによるフェデレーション・クラスインクリメンタル・ラーニングにおけるカタストロフィック・フォーミングの克服
Overcoming Catastrophic Forgetting in Federated Class-Incremental Learning via Federated Global Twin Generator ( http://arxiv.org/abs/2407.11078v1 ) ライセンス: Link先を確認 | Thinh Nguyen, Khoa D Doan, Binh T. Nguyen, Danh Le-Phuoc, Kok-Seng Wong, | (参考訳) 複数の参加者が、プライベートデータを共有することなく、グローバルなモデルを協調的にトレーニングし、タスクのシーケンスでうまく機能させることができる。
FCILでは、FedAVGのような従来のフェデレート学習アルゴリズムは、しばしば破滅的な忘れ込みに悩まされ、初期のタスクでは性能が大幅に低下する。
生成モデルに基づく最近の研究は、全てのクラスでこの問題を緩和するために合成画像を生成するが、これらのアプローチによる以前のクラスでの試験精度は、最近のクラスよりもはるかに低い。
本稿では,クライアントデータにアクセスすることなく,グローバル側におけるプライバシ保護型生成モデルトレーニングを活用するFCILフレームワークであるFederated Global Twin Generator (FedGTG)を提案する。
具体的には、サーバはデータジェネレータと機能ジェネレータをトレーニングし、すべてのクラスから2種類の情報を生成し、その後、合成データをクライアント側に送信する。
次に、クライアントは機能指向制御損失を使用して、ローカルモデルを知識を保持し、新しいタスクをうまく学習させる。
自然画像上でのFedGTGのロバスト性だけでなく,局所的に平坦なミニマに収束し,予測信頼性(校正)を向上させる能力も広く分析している。
CIFAR-10, CIFAR-100, および小画像Netの実験結果から, 従来のフレームワークと比較してFedGTGの精度と補正精度の向上が示された。
Federated Class-Incremental Learning (FCIL) increasingly becomes important in the decentralized setting, where it enables multiple participants to collaboratively train a global model to perform well on a sequence of tasks without sharing their private data. In FCIL, conventional Federated Learning algorithms such as FedAVG often suffer from catastrophic forgetting, resulting in significant performance declines on earlier tasks. Recent works, based on generative models, produce synthetic images to help mitigate this issue across all classes, but these approaches' testing accuracy on previous classes is still much lower than recent classes, i.e., having better plasticity than stability. To overcome these issues, this paper presents Federated Global Twin Generator (FedGTG), an FCIL framework that exploits privacy-preserving generative-model training on the global side without accessing client data. Specifically, the server trains a data generator and a feature generator to create two types of information from all seen classes, and then it sends the synthetic data to the client side. The clients then use feature-direction-controlling losses to make the local models retain knowledge and learn new tasks well. We extensively analyze the robustness of FedGTG on natural images, as well as its ability to converge to flat local minima and achieve better-predicting confidence (calibration). Experimental results on CIFAR-10, CIFAR-100, and tiny-ImageNet demonstrate the improvements in accuracy and forgetting measures of FedGTG compared to previous frameworks. | 翻訳日:2024-07-17 20:00:37 公開日:2024-07-13 |
# GPTアーキテクチャによるスクラッチから店内顧客ジャーニーの生成
Generating In-store Customer Journeys from Scratch with GPT Architectures ( http://arxiv.org/abs/2407.11081v1 ) ライセンス: Link先を確認 | Taizo Horikomi, Takayuki Mizuno, | (参考訳) 本稿では,Transformerをベースとしたディープラーニング構造を用いて,小売店舗における顧客トラジェクトリと購入行動を同時に生成する手法を提案する。
顧客トラジェクトリデータ,レイアウト図,小売店から取得した小売スキャナデータを利用して,GPT-2アーキテクチャをスクラッチからトレーニングし,屋内トラジェクトリと購入行動を生成した。
さらに,事前学習したモデルを他の店舗のデータで微調整する効果についても検討した。
その結果,本手法はLSTMモデルやSVMモデルよりも店内軌道や購入行動をより正確に再現でき,微調整により必要なトレーニングデータを大幅に削減できることがわかった。
We propose a method that can generate customer trajectories and purchasing behaviors in retail stores simultaneously using Transformer-based deep learning structure. Utilizing customer trajectory data, layout diagrams, and retail scanner data obtained from a retail store, we trained a GPT-2 architecture from scratch to generate indoor trajectories and purchase actions. Additionally, we explored the effectiveness of fine-tuning the pre-trained model with data from another store. Results demonstrate that our method reproduces in-store trajectories and purchase behaviors more accurately than LSTM and SVM models, with fine-tuning significantly reducing the required training data. | 翻訳日:2024-07-17 20:00:37 公開日:2024-07-13 |
# 非バランスなグラフレベル異常検出の非現実的拡張と特徴学習
Imbalanced Graph-Level Anomaly Detection via Counterfactual Augmentation and Feature Learning ( http://arxiv.org/abs/2407.11082v1 ) ライセンス: Link先を確認 | Zitong Wang, Xuexiong Luo, Enfeng Song, Qiuqing Bai, Fu Lin, | (参考訳) グラフレベルの異常検出(GLAD)はすでに重要視されており、多くの下流作品に注目が集まっている。
このドメインの中核となる焦点は、与えられたグラフデータセット内の異常な情報をキャプチャしてハイライトすることである。
既存のほとんどの研究では、異常はまれに発生する例である。
スターク不均衡は、通常のグラフのパターンをより学習することに集中するために、現在のGLADメソッドを誤解させ、さらに異常検出性能に影響を及ぼす。
さらに,既存手法ではノード固有の特徴を主に利用して,提案実験により承認された異常グラフパターンを同定する。
本研究では,非バランスなGLAD手法を提案する。
具体的には,まず,反実的学習に基づく異常なサンプルを構築し,データセットの拡大とバランスを図る。
さらに,グラフニューラルネットワーク(GNN)に基づくモジュールを構築し,次数属性を利用してノード固有の属性特徴を補完する。
そこで, 適応重み学習モジュールを設計し, 異なるデータセットに適合した特徴を効果的に統合し, 全ての特徴を等価として非差別的に扱うことを避ける。
さらに、公開データセット上で行われた広範なベースライン実験は、ロバスト性と有効性を裏付けるものである。
さらに、このモデルを脳疾患データセットに適用することで、我々の研究の一般化能力を証明することができる。
私たちの作業のソースコードはオンラインで公開されています。
Graph-level anomaly detection (GLAD) has already gained significant importance and has become a popular field of study, attracting considerable attention across numerous downstream works. The core focus of this domain is to capture and highlight the anomalous information within given graph datasets. In most existing studies, anomalies are often the instances of few. The stark imbalance misleads current GLAD methods to focus on learning the patterns of normal graphs more, further impacting anomaly detection performance. Moreover, existing methods predominantly utilize the inherent features of nodes to identify anomalous graph patterns which is approved suboptimal according to our experiments. In this work, we propose an imbalanced GLAD method via counterfactual augmentation and feature learning. Specifically, we first construct anomalous samples based on counterfactual learning, aiming to expand and balance the datasets. Additionally, we construct a module based on Graph Neural Networks (GNNs), which allows us to utilize degree attributes to complement the inherent attribute features of nodes. Then, we design an adaptive weight learning module to integrate features tailored to different datasets effectively to avoid indiscriminately treating all features as equivalent. Furthermore, extensive baseline experiments conducted on public datasets substantiate the robustness and effectiveness. Besides, we apply the model to brain disease datasets, which can prove the generalization capability of our work. The source code of our work is available online. | 翻訳日:2024-07-17 20:00:37 公開日:2024-07-13 |
# Deep Spurious Infomaxによるグラフ不変性学習の強化
Empowering Graph Invariance Learning with Deep Spurious Infomax ( http://arxiv.org/abs/2407.11083v1 ) ライセンス: Link先を確認 | Tianjun Yao, Yongqiang Chen, Zhenhao Chen, Kai Hu, Zhiqiang Shen, Kun Zhang, | (参考訳) 近年,分布外データ(OOD)を一般化するためにグラフ上の不変原理を利用するグラフニューラルネットワークの開発への関心が高まっている。
OODデータに関する知識が限られているため、既存のアプローチは、基礎となるスプリアス特徴とターゲットラベルの相関強度を仮定することが多い。
しかし、この事前は利用できないことが多く、現実のシナリオでは任意に変化し、既存のグラフ不変性学習手法の深刻な失敗につながる可能性がある。
このギャップを埋めるために、我々は、頑健で一般的な帰納的バイアスを誘発する新しいグラフ不変性学習パラダイムを導入する。
このパラダイムは、インフォマックス原理が、素早い相関強度に関係なく、素早い特徴の学習を促進するという観察に基づいて構築されている。
さらに、この学習パラダイムを実現するためのEQuADフレームワークを提案し、インフォマックスで学習した刺激的な特徴からそれらを切り離すことによって、不変性を確実に引き出すような、適切な学習目標を採用する。
特に、EQuADは、合成データセットにおける様々なバイアスの度合いで安定し、改善されたパフォーマンスを示し、実世界のデータセットに最大311.76\%$で挑戦する。
私たちのコードは \url{https://github.com/tianyao-aka/EQuAD} で利用可能です。
Recently, there has been a surge of interest in developing graph neural networks that utilize the invariance principle on graphs to generalize the out-of-distribution (OOD) data. Due to the limited knowledge about OOD data, existing approaches often pose assumptions about the correlation strengths of the underlying spurious features and the target labels. However, this prior is often unavailable and will change arbitrarily in the real-world scenarios, which may lead to severe failures of the existing graph invariance learning methods. To bridge this gap, we introduce a novel graph invariance learning paradigm, which induces a robust and general inductive bias. The paradigm is built upon the observation that the infomax principle encourages learning spurious features regardless of spurious correlation strengths. We further propose the EQuAD framework that realizes this learning paradigm and employs tailored learning objectives that provably elicit invariant features by disentangling them from the spurious features learned through infomax. Notably, EQuAD shows stable and enhanced performance across different degrees of bias in synthetic datasets and challenging real-world datasets up to $31.76\%$. Our code is available at \url{https://github.com/tianyao-aka/EQuAD}. | 翻訳日:2024-07-17 20:00:37 公開日:2024-07-13 |
# 距離に基づく容器軌道クラスタリングに関する調査--データ前処理, 方法, 応用, 実験評価
A Survey of Distance-Based Vessel Trajectory Clustering: Data Pre-processing, Methodologies, Applications, and Experimental Evaluation ( http://arxiv.org/abs/2407.11084v1 ) ライセンス: Link先を確認 | Maohan Liang, Ryan Wen Liu, Ruobin Gao, Zhe Xiao, Xiaocai Zhang, Hua Wang, | (参考訳) 海中知的輸送システムの重要な構成要素である船舶軌道クラスタリングは、異常検出や軌道予測といったアプリケーションに有用な洞察を提供する。
本稿では, 軌道類似度測定とクラスタリングの2つの主要なステップを含む, もっとも一般的な距離に基づく船舶軌道クラスタリング手法について, 包括的調査を行った。
当初、関連するキーワードを用いて詳細な文献レビューを行い、関連する研究論文やデータセットを収集し、要約した。
そこで,本研究では,さらなる分析のためにデータ準備を行うデータ前処理の主手法について論じる。
調査は、船舶軌道の類似性を測定するための主要なアルゴリズムと、現在現場で使われている主要なクラスタリング技術の詳細について述べる。
さらに,海洋環境における軌道クラスタリングの様々な応用について検討した。
最後に, 距離に基づく軌道クラスタリングアルゴリズムの性能への影響に着目し, 実験解析により, 異なるアルゴリズムの組み合わせと事前処理手法の有効性を評価する。
実験により, 種々の軌道クラスタリングアルゴリズムの有効性を示すとともに, 軌道圧縮技術が軌道クラスタリングの効率と精度に寄与する重要な改善点を強調した。
この包括的なアプローチは、船舶軌道クラスタリングにおける現在の能力と今後の方向性を深く理解することを保証する。
Vessel trajectory clustering, a crucial component of the maritime intelligent transportation systems, provides valuable insights for applications such as anomaly detection and trajectory prediction. This paper presents a comprehensive survey of the most prevalent distance-based vessel trajectory clustering methods, which encompass two main steps: trajectory similarity measurement and clustering. Initially, we conducted a thorough literature review using relevant keywords to gather and summarize pertinent research papers and datasets. Then, this paper discussed the principal methods of data pre-processing that prepare data for further analysis. The survey progresses to detail the leading algorithms for measuring vessel trajectory similarity and the main clustering techniques used in the field today. Furthermore, the various applications of trajectory clustering within the maritime context are explored. Finally, the paper evaluates the effectiveness of different algorithm combinations and pre-processing methods through experimental analysis, focusing on their impact on the performance of distance-based trajectory clustering algorithms. The experimental results demonstrate the effectiveness of various trajectory clustering algorithms and notably highlight the significant improvements that trajectory compression techniques contribute to the efficiency and accuracy of trajectory clustering. This comprehensive approach ensures a deep understanding of current capabilities and future directions in vessel trajectory clustering. | 翻訳日:2024-07-17 20:00:37 公開日:2024-07-13 |
# 厳密なグラディエントを超えて:エントロピー規則化を伴う確率的ソフトマックスポリシーグラディエント手法の収束
Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization ( http://arxiv.org/abs/2110.10117v3 ) ライセンス: Link先を確認 | Yuhao Ding, Junzi Zhang, Hyunin Lee, Javad Lavaei, | (参考訳) エントロピー正則化(Entropy regularization)は、強化学習(RL)における(バニラ)政策勾配法の早期収束を促進・防止するための効率的な手法である。
しかし、エントロピー規則化RLアルゴリズムの理論的理解は限られている。
本稿では,従来のエントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
このシナリオを超えて、軌道レベルのエントロピー正則性を持つ(ほぼ)確率的方針勾配推定器の第一セットを提案し、一方は非バイアス的訪問測度に基づく推定器であり、他方はほぼバイアスのない、より実用的な軌跡に基づく推定器である。
エントロピー項によって導入された対数的ポリシー報酬により、推定子自身は一般に非有界であることが証明されるが、分散は一様有界である。
次に,2相確率的ポリシー勾配 (PG) アルゴリズムを提案する。このアルゴリズムは,第1相における大きなバッチサイズを用いて,非強迫的景観による確率的近似の課題を克服し,第2相における小さなバッチサイズを用いて最適ポリシーの曲率情報を活用する。
提案したアルゴリズムに対して,大域的最適収束結果とサンプル複雑性を$\widetilde{\mathcal{O}}(\frac{1}{\epsilon^2})$とする。
本研究は, 確率的エントロピー規則化バニラPG法における第1次大域収束とサンプル複雑性の結果である。
Entropy regularization is an efficient technique for encouraging exploration and preventing a premature convergence of (vanilla) policy gradient methods in reinforcement learning (RL). However, the theoretical understanding of entropy-regularized RL algorithms has been limited. In this paper, we revisit the classical entropy regularized policy gradient methods with the soft-max policy parametrization, whose convergence has so far only been established assuming access to exact gradient oracles. To go beyond this scenario, we propose the first set of (nearly) unbiased stochastic policy gradient estimators with trajectory-level entropy regularization, with one being an unbiased visitation measure-based estimator and the other one being a nearly unbiased yet more practical trajectory-based estimator. We prove that although the estimators themselves are unbounded in general due to the additional logarithmic policy rewards introduced by the entropy term, the variances are uniformly bounded. We then propose a two-phase stochastic policy gradient (PG) algorithm that uses a large batch size in the first phase to overcome the challenge of the stochastic approximation due to the non-coercive landscape, and uses a small batch size in the second phase by leveraging the curvature information around the optimal policy. We establish a global optimality convergence result and a sample complexity of $\widetilde{\mathcal{O}}(\frac{1}{\epsilon^2})$ for the proposed algorithm. Our result is the first global convergence and sample complexity results for the stochastic entropy-regularized vanilla PG method. | 翻訳日:2024-07-17 05:46:45 公開日:2024-07-13 |
# 立方相ゲートを用いた全光量子コンピューティング
All-optical quantum computing using cubic phase gates ( http://arxiv.org/abs/2211.09060v2 ) ライセンス: Link先を確認 | Niklas Budinger, Akira Furusawa, Peter van Loock, | (参考訳) もし適切な量子光学相互作用が利用可能で、非線形に光電場モード演算子を変換すれば、全フォトニクスプラットフォームは量子コンピュータを実現するための最も強力な競争相手の1つである。
他の物質ベースの(固体または原子)プラットフォームとは異なり、フォトニック量子ビットは室温と高クロックレート(GHz、原理的には THz )で動作することができる。
さらに、最近の連続変数の時間ドメインアプローチは非常にスケーラブルです。
さらに、単一光子量子ビットは直接処理されるが、「明るい」論理量子ビットは個々の発振器モードに埋め込むことができ、ボソニック符号(bosonic codes)と呼ばれる。
本稿では,ビームスプリッタと単一モード立方相ゲートを合理的な数で組み合わせることで,全光学的,普遍的,フォールトトレラントな量子計算の要素をどのように実装できるかを示す。
本手法は, 正確なゲート分解と近似トロッタライゼーションを組み合わせた分解法に基づく。
これにより、いくつかの非線形連続可変多モードゲートを基本ゲートに効率よく分解することができる。
最終的なゲート操作には、2モード制御相回転と3モードラビ型ハミルトンゲートが含まれており、これは高忠実な単一光子2ビットエンタングリングゲートの実現や、ボゾン符号の例として、高品質なゴテスマン・キタエフ・プレスキル状態を生成するために用いられる。
我々は、クォートカー型相互作用に依存するものなど、様々なアプリケーションで一般的な利用法を期待する。
If suitable quantum optical interactions were available, transforming optical field mode operators in a nonlinear fashion, the all-photonics platform could be one of the strongest contenders for realizing a quantum computer. Unlike other, matter-based (solid-state or atomic) platforms, photonic qubits can be operated at room temperature and high clock rates (GHz or, in principle, even THz). In addition, recent continuous-variable time-domain approaches are extremely well scalable. Moreover, while single-photon qubits may be processed directly, "brighter" logical qubits may be embedded in individual oscillator modes, using so-called bosonic codes, for an in-principle fault-tolerant processing. In this paper, we show how elements of all-optical, universal, and fault-tolerant quantum computation can be implemented using only beam splitters together with single-mode cubic phase gates in reasonable numbers, and possibly off-line squeezed-state or single-photon resources. Our approach is based on a decomposition technique combining exact gate decompositions and approximate Trotterization. This allows for efficient decompositions of certain nonlinear continuous-variable multimode gates into the elementary gates, where the few cubic gates needed may even be weak or all identical, thus facilitating potential experiments. The final gate operations include two-mode controlled phase rotation and three-mode Rabi-type Hamiltonian gates, which are shown to be employable for realizing high-fidelity single-photon two-qubit entangling gates or, as a bosonic-code example, creating high-quality Gottesman-Kitaev-Preskill states. We expect our method of general use with various applications, including those that rely on quartic Kerr-type interactions. | 翻訳日:2024-07-17 05:38:07 公開日:2024-07-13 |
# モンテカルロ森林探索によるUNSATソルバー合成
UNSAT Solver Synthesis via Monte Carlo Forest Search ( http://arxiv.org/abs/2211.12581v3 ) ライセンス: Link先を確認 | Chris Cameron, Jason Hartford, Taylor Lundy, Tuan Truong, Alan Milligan, Rex Chen, Kevin Leyton-Brown, | (参考訳) 我々は,モンテカルロ森林探索(MCFS)を紹介した。このアルゴリズムは,指数的規模の木を横断する政策実行を伴う,木MDPにおける政策学習のための強化学習(RL)アルゴリズムである。
そのような問題の例としては、SAT公式の不満足性の証明、SAT公式の解の数を数えること、混合整数プログラムの最適解を見つけることなどがある。
MCFSアルゴリズムはモンテカルロ木探索(MCTS)の拡張と見なすことができ、木の中に良い経路(解法)を見つけるのではなく、候補木のある森の中に小さな木を見つけることが問題となる。
Knuth Synthesis という DPLL 分岐ポリシーを学習してブール充足可能性 (SAT) 問題に対処するアルゴリズムを考案し,提案手法を検証した。
第1に、経路をランダムにサンプリングし、その長さを計測することで、木の大きさを推定し、Knuth (1975) による偏りのない近似に基づいて、木の大きさを推定する。
我々は,3つのよく知られたSAT分布において,従来のRL研究よりも2桁ほど難しい問題に直面した。
We introduce Monte Carlo Forest Search (MCFS), a class of reinforcement learning (RL) algorithms for learning policies in {tree MDPs}, for which policy execution involves traversing an exponential-sized tree. Examples of such problems include proving unsatisfiability of a SAT formula; counting the number of solutions of a satisfiable SAT formula; and finding the optimal solution to a mixed-integer program. MCFS algorithms can be seen as extensions of Monte Carlo Tree Search (MCTS) to cases where, rather than finding a good path (solution) within a tree, the problem is to find a small tree within a forest of candidate trees. We instantiate and evaluate our ideas in an algorithm that we dub Knuth Synthesis, an MCFS algorithm that learns DPLL branching policies for solving the Boolean satisfiability (SAT) problem, with the objective of achieving good average-case performance on a given distribution of unsatisfiable problem instances. Knuth Synthesis is the first RL approach to avoid the prohibitive costs of policy evaluations in an exponentially-sized tree, leveraging two key ideas: first, we estimate tree size by randomly sampling paths and measuring their lengths, drawing on an unbiased approximation due to Knuth (1975); second, we query a strong solver at a user-defined depth rather than learning a policy across the whole tree, to focus our policy search on early decisions that offer the greatest potential for reducing tree size. We matched or exceeded the performance of a strong baseline on three well-known SAT distributions, facing problems that were two orders of magnitude more challenging than those addressed in previous RL studies. | 翻訳日:2024-07-17 05:38:07 公開日:2024-07-13 |
# コントラスト言語画像学習のための再現可能なスケーリング法則
Reproducible scaling laws for contrastive language-image learning ( http://arxiv.org/abs/2212.07143v2 ) ライセンス: Link先を確認 | Mehdi Cherti, Romain Beaumont, Ross Wightman, Mitchell Wortsman, Gabriel Ilharco, Cade Gordon, Christoph Schuhmann, Ludwig Schmidt, Jenia Jitsev, | (参考訳) ニューラルネットワークのスケールアップは、幅広いタスクで顕著なパフォーマンスを実現している。
さらに、大規模な実験がますます高価になりつつあるため、パフォーマンスはトレーニングセットのサイズ、モデルサイズ、計算の関数として信頼性の高いスケーリング法則に従うことが多い。
しかし、従来のスケーリング法の研究は、主にプライベートデータ \&モデルを使ったり、ユニモーダル言語や視覚学習に重点を置いてきた。
これらの制約に対処するため、コントラッシブ言語イメージ事前学習(CLIP)のスケーリング法を、パブリックLAIONデータセットとオープンソースのOpenCLIPリポジトリを用いて検討する。
我々の大規模な実験では、最大20億のイメージテキストペアでトレーニングされたモデルと、ゼロショット分類、検索、線形探索、エンドツーエンドの微調整を含む複数の下流タスクに対する電力法スケーリングを識別する。
OpenAIモデルとOpenCLIPモデルは、同一のモデルアーキテクチャや類似のトレーニングレシピにもかかわらず、異なるスケーリング挙動を示すため、トレーニング分布がスケーリング法において重要な役割を果たすことがわかった。
当社は評価ワークフローと、最大規模のCLIPモデルを含むすべてのモデルをオープンソースとして公開し、再現性を確保し、スケーリング法の研究をよりアクセスしやすいものにしています。
この研究を再現するソースコードと指示はhttps://github.com/LAION-AI/scaling-laws-openclipで入手できる。
Scaling up neural networks has led to remarkable performance across a wide range of tasks. Moreover, performance often follows reliable scaling laws as a function of training set size, model size, and compute, which offers valuable guidance as large-scale experiments are becoming increasingly expensive. However, previous work on scaling laws has primarily used private data \& models or focused on uni-modal language or vision learning. To address these limitations, we investigate scaling laws for contrastive language-image pre-training (CLIP) with the public LAION dataset and the open-source OpenCLIP repository. Our large-scale experiments involve models trained on up to two billion image-text pairs and identify power law scaling for multiple downstream tasks including zero-shot classification, retrieval, linear probing, and end-to-end fine-tuning. We find that the training distribution plays a key role in scaling laws as the OpenAI and OpenCLIP models exhibit different scaling behavior despite identical model architectures and similar training recipes. We open-source our evaluation workflow and all models, including the largest public CLIP models, to ensure reproducibility and make scaling laws research more accessible. Source code and instructions to reproduce this study will be available at https://github.com/LAION-AI/scaling-laws-openclip | 翻訳日:2024-07-17 05:38:07 公開日:2024-07-13 |
# 株価指数指標を用いた階層的金融データによる産業リスク評価
Industry Risk Assessment via Hierarchical Financial Data Using Stock Market Sentiment Indicators ( http://arxiv.org/abs/2303.02707v2 ) ライセンス: Link先を確認 | Hongyin Zhu, | (参考訳) 業界全体でのリスクアセスメントは、堅牢で持続可能な経済を保証する上で最重要である。
これまでの研究は、その正確性に関する公式統計に大きく依存していたが、しばしばリアルタイム開発に遅れを取っている。
このギャップに対処するため、我々の研究は、市場マイクロ構造理論をAI技術と統合し、業界リスク予測を洗練させようとしています。
本稿では,実時間株式市場データと生成小言語モデル(SLM)を活用した産業動向の分析手法を提案する。
リスク評価のタイムラインを強化し、市場感情や投資家行動といった非伝統的要因の影響を掘り下げることで、より包括的でダイナミックなリスク評価モデルの開発に努める。
重要な課題の1つは、生データの固有のノイズであり、統計分析の精度を損なう可能性がある。
さらに、産業分析に関するテキストデータは、事前学習された言語モデルによって促進される深い理解を必要とする。
これらの課題に対処するため、業界トレンド分析(明示的・暗黙的分析)に対する二元的アプローチを提案する。
明示的な分析には、業界と個々の上場企業レベルにまたがる階層的なデータ分析手法を用いる。
この戦略的破壊は、データノイズの影響を緩和し、業界のダイナミクスをより正確に表現するのに役立つ。
同時に、現在のニュースイベントの文脈内で業界の動向を解釈するために、SMLを事前訓練する暗黙的な分析を導入する。
このアプローチでは、事前学習コーパスに埋め込まれた広範な知識を活用して、業界動向とその基盤となるドライバの微妙な理解を可能にします。
提案手法に基づく実験結果から,ロバストな産業動向分析を実現する上での有効性が実証され,業界全体でのリスクアセスメントの実践に革命をもたらす可能性が示唆された。
Risk assessment across industries is paramount for ensuring a robust and sustainable economy. While previous studies have relied heavily on official statistics for their accuracy, they often lag behind real-time developments. Addressing this gap, our research endeavors to integrate market microstructure theory with AI technologies to refine industry risk predictions. This paper presents an approach to analyzing industry trends leveraging real-time stock market data and generative small language models (SLMs). By enhancing the timeliness of risk assessments and delving into the influence of non-traditional factors such as market sentiment and investor behavior, we strive to develop a more holistic and dynamic risk assessment model. One of the key challenges lies in the inherent noise in raw data, which can compromise the precision of statistical analyses. Moreover, textual data about industry analysis necessitates a deeper understanding facilitated by pre-trained language models. To tackle these issues, we propose a dual-pronged approach to industry trend analysis: explicit and implicit analysis. For explicit analysis, we employ a hierarchical data analysis methodology that spans the industry and individual listed company levels. This strategic breakdown helps mitigate the impact of data noise, ensuring a more accurate portrayal of industry dynamics. In parallel, we introduce implicit analysis, where we pre-train an SML to interpret industry trends within the context of current news events. This approach leverages the extensive knowledge embedded in the pre-training corpus, enabling a nuanced understanding of industry trends and their underlying drivers. Experimental results based on our proposed methodology demonstrate its effectiveness in delivering robust industry trend analyses, underscoring its potential to revolutionize risk assessment practices across industries. | 翻訳日:2024-07-17 05:28:16 公開日:2024-07-13 |
# 顔のマニピュレーション検出と位置検出のためのマルチスペクトルクラスセンターネットワーク
Multi-spectral Class Center Network for Face Manipulation Detection and Localization ( http://arxiv.org/abs/2305.10794v3 ) ライセンス: Link先を確認 | Changtao Miao, Qi Chu, Zhentao Tan, Zhenchao Jin, Tao Gong, Wanyi Zhuang, Yue Wu, Bin Liu, Honggang Hu, Nenghai Yu, | (参考訳) ディープフェイクコンテンツがオンラインに普及するにつれ、顔操作の法医学の進歩が重要になっている。
この新たな脅威に対処するため、従来の手法は主に、認証された顔画像と操作された顔画像の区別方法の研究に重点を置いていた。
印象的ではあるが、画像レベルの分類には説明性がなく、特定のアプリケーションシナリオに限定されており、顔操作の法医学における画素レベルの予測に関する最近の研究を刺激している。
しかし、既存のフォージェリーローカライゼーション手法は、ローカライゼーションネットワークにおける周波数ベースのフォージェリートレースの探索に悩まされている。
そこで本稿では,マルチ周波数スペクトル情報が,改ざん領域の同定に有効であることを示す。
この目的のために,顔の操作検出と局所化のために,MSCCNet(Multi-Spectral Class Center Network)を提案する。
具体的には,マルチスペクトルクラスセンター(MSCC)モジュールを設計し,より汎用的で多周波な特徴を学習する。
周波数帯域の異なる特徴に基づき、MSCCモジュールはマルチスペクトルクラスセンターを収集し、ピクセル対クラス関係を計算する。
多スペクトルクラスレベルの表現を適用することで、偽画像の操作された領域に敏感な視覚概念の意味情報を抑えることができる。
さらに,より低レベルの偽造品や構造テクスチャを利用するマルチレベル特徴集合(MFA)モジュールを提案する。
一方,画素レベルのFF++とDolosデータセットに基づく包括的ローカライゼーションベンチマークを実施している。
実験結果は,提案したMSCCNetの有効性と優位性を定量的に,質的に実証した。
この研究が、ピクセルレベルの顔操作のローカライゼーションの研究を刺激することを期待している。
コードはhttps://github.com/miaoct/MSCCNet)。
As deepfake content proliferates online, advancing face manipulation forensics has become crucial. To combat this emerging threat, previous methods mainly focus on studying how to distinguish authentic and manipulated face images. Although impressive, image-level classification lacks explainability and is limited to specific application scenarios, spurring recent research on pixel-level prediction for face manipulation forensics. However, existing forgery localization methods suffer from exploring frequency-based forgery traces in the localization network. In this paper, we observe that multi-frequency spectrum information is effective for identifying tampered regions. To this end, a novel Multi-Spectral Class Center Network (MSCCNet) is proposed for face manipulation detection and localization. Specifically, we design a Multi-Spectral Class Center (MSCC) module to learn more generalizable and multi-frequency features. Based on the features of different frequency bands, the MSCC module collects multi-spectral class centers and computes pixel-to-class relations. Applying multi-spectral class-level representations suppresses the semantic information of the visual concepts which is insensitive to manipulated regions of forgery images. Furthermore, we propose a Multi-level Features Aggregation (MFA) module to employ more low-level forgery artifacts and structural textures. Meanwhile, we conduct a comprehensive localization benchmark based on pixel-level FF++ and Dolos datasets. Experimental results quantitatively and qualitatively demonstrate the effectiveness and superiority of the proposed MSCCNet. We expect this work to inspire more studies on pixel-level face manipulation localization. The codes are available (https://github.com/miaoct/MSCCNet). | 翻訳日:2024-07-17 05:18:31 公開日:2024-07-13 |
# 時変処理におけるファクトファクチュアル生成モデル
Counterfactual Generative Models for Time-Varying Treatments ( http://arxiv.org/abs/2305.15742v5 ) ライセンス: Link先を確認 | Shenghao Wu, Wenbin Zhou, Minshuo Chen, Shixiang Zhu, | (参考訳) 公衆衛生や臨床科学における意思決定には, 治療の非現実的な結果の推定が不可欠である。
多くの場合、治療はシーケンシャルで、時間的に異なる方法で行われ、結果として起こりうる対実的な結果が指数関数的に増加する。
さらに、現代の応用では、結果は高次元であり、従来の平均処理効果推定では個人間の格差を捉えることができない。
これらの課題に対処するために, 時間変化処理下で, 明示的な密度推定を必要とせず, 対実的なサンプルを生成できる新しい条件生成フレームワークを提案する。
提案手法は,逆確率再重み付けに基づく損失関数を用いて観測された分布と反事実分布の分布ミスマッチを慎重に処理し,誘導拡散や条件変分オートエンコーダなどの最先端条件生成モデルとの統合を支援する。
合成データと実世界のデータの両方を用いて,本手法の徹底的な評価を行う。
提案手法は,高品質な反ファクトサンプルを生成でき,最先端のベースラインよりも優れていることを示す。
Estimating the counterfactual outcome of treatment is essential for decision-making in public health and clinical science, among others. Often, treatments are administered in a sequential, time-varying manner, leading to an exponentially increased number of possible counterfactual outcomes. Furthermore, in modern applications, the outcomes are high-dimensional and conventional average treatment effect estimation fails to capture disparities in individuals. To tackle these challenges, we propose a novel conditional generative framework capable of producing counterfactual samples under time-varying treatment, without the need for explicit density estimation. Our method carefully addresses the distribution mismatch between the observed and counterfactual distributions via a loss function based on inverse probability re-weighting, and supports integration with state-of-the-art conditional generative models such as the guided diffusion and conditional variational autoencoder. We present a thorough evaluation of our method using both synthetic and real-world data. Our results demonstrate that our method is capable of generating high-quality counterfactual samples and outperforms the state-of-the-art baselines. | 翻訳日:2024-07-17 05:18:31 公開日:2024-07-13 |
# 量子コンピュータの長期予測のためのデータ駆動量子動的埋め込み法
Data-driven Quantum Dynamical Embedding Method for Long-term Prediction on Near-term Quantum Computers ( http://arxiv.org/abs/2305.15976v3 ) ライセンス: Link先を確認 | Tai-Ping Sun, Zhao-Yun Chen, Cheng Xue, Huan-Yu Liu, Xi-Ning Zhuang, Yun-Jie Wang, Shi-Xin Ma, Hai-Feng Zhang, Yu-Chun Wu, Guo-Ping Guo, | (参考訳) 様々な分野にわたる長期時系列予測への焦点の増大は、量子計算の進歩によって著しく強化されている。
本稿では,量子力学埋め込み(QDE)を用いた長期時系列予測のためのデータ駆動手法を提案する。
このアプローチは、トレーニング可能なデータ空間の拡張状態空間への埋め込みを可能にし、時系列情報の再帰的検索を可能にする。
時系列長の独立性に基づき、この手法は、短期量子コンピュータにとって重要な深度効率の量子回路を実現する。
数値シミュレーションにより、既存の手法よりも予測精度と資源効率が向上し、効果的な復調能力も向上した。
我々は,このモデルを,LCL(Learable error-cancellation Layer)を用いた量子プロセッサのOrigin 'Wukong'上に実装し,近距離量子デバイスへのアプローチの適用性を検証した。
さらに、QDEの力学特性とその普遍性の理論解析は、時系列予測の可能性を高める。
本研究は,データ駆動学習と離散的動的埋め込みを統合し,予測能力の向上を図ることを目的として,短期量子コンピュータにおける長期時系列処理に向けた重要なステップを確立する。
The increasing focus on long-term time series prediction across various fields has been significantly strengthened by advancements in quantum computation. In this paper, we introduce a data-driven method designed for long-term time series prediction with quantum dynamical embedding (QDE). This approach enables a trainable embedding of the data space into an extended state space, allowing for the recursive retrieval of time series information. Based on its independence of time series length, this method achieves depth-efficient quantum circuits that are crucial for near-term quantum computers. Numerical simulations demonstrate the model's improved performance in prediction accuracy and resource efficiency over existing methods, as well as its effective denoising capabilities. We implement this model on the Origin ''Wukong'' superconducting quantum processor with a learnable error-cancellation layer (LECL) for error mitigation, further validating the practical applicability of our approach on near-term quantum devices. Furthermore, the theoretical analysis of the QDE's dynamical properties and its universality enhances its potential for time series prediction. This study establishes a significant step towards the processing of long-term time series on near-term quantum computers, integrating data-driven learning with discrete dynamical embedding for enhanced forecasting capabilities. | 翻訳日:2024-07-17 05:18:31 公開日:2024-07-13 |
# 自己回帰運動拡散モデルを用いた対話型文字制御
Interactive Character Control with Auto-Regressive Motion Diffusion Models ( http://arxiv.org/abs/2306.00416v2 ) ライセンス: Link先を確認 | Yi Shi, Jingbo Wang, Xuekun Jiang, Bingkun Lin, Bo Dai, Xue Bin Peng, | (参考訳) リアルタイムキャラクタ制御は、物理シミュレーション、ビデオゲーム、バーチャルリアリティーなど幅広い応用で、インタラクティブな体験に欠かせない要素である。
画像合成のための拡散モデルの成功により、これらのモデルが運動合成に使用されるようになった。
しかしながら、これらの動き拡散モデルの大部分は主にオフラインアプリケーション用に設計されており、空間時間モデルを使用してフレーム全体のシーケンスを予め指定された長さで同時に合成する。
A-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付き連続した動きフレームを自動回帰的に生成する。
単純なMLPを用いたネットワークアーキテクチャでは,多種多様で長い水平,高忠実な動き列を生成することができる。
さらに,タスク指向サンプリング,インペインティング,階層的強化学習など,インタラクティブな制御をA-MDMに組み込むための一連の技術を紹介した。
これらの技術により、事前訓練されたA-MDMは、様々な新しい下流タスクに効率的に適応できる。
我々は,A-MDMの有効性を実証するための総合的な実験を行い,その性能を最先端の自己回帰手法と比較した。
Real-time character control is an essential component for interactive experiences, with a broad range of applications, including physics simulations, video games, and virtual reality. The success of diffusion models for image synthesis has led to the use of these models for motion synthesis. However, the majority of these motion diffusion models are primarily designed for offline applications, where space-time models are used to synthesize an entire sequence of frames simultaneously with a pre-specified length. To enable real-time motion synthesis with diffusion model that allows time-varying controls, we propose A-MDM (Auto-regressive Motion Diffusion Model). Our conditional diffusion model takes an initial pose as input, and auto-regressively generates successive motion frames conditioned on the previous frame. Despite its streamlined network architecture, which uses simple MLPs, our framework is capable of generating diverse, long-horizon, and high-fidelity motion sequences. Furthermore, we introduce a suite of techniques for incorporating interactive controls into A-MDM, such as task-oriented sampling, in-painting, and hierarchical reinforcement learning. These techniques enable a pre-trained A-MDM to be efficiently adapted for a variety of new downstream tasks. We conduct a comprehensive suite of experiments to demonstrate the effectiveness of A-MDM, and compare its performance against state-of-the-art auto-regressive methods. | 翻訳日:2024-07-17 05:18:31 公開日:2024-07-13 |
# ディープラーニングにおけるHypernetworksの簡単なレビュー
A Brief Review of Hypernetworks in Deep Learning ( http://arxiv.org/abs/2306.06955v3 ) ライセンス: Link先を確認 | Vinod Kumar Chauhan, Jiandong Zhou, Ping Lu, Soheila Molaei, David A. Clifton, | (参考訳) ハイパーネット(Hypernetworks、略してハイパーネット)は、ターゲットネットワークとして知られる別のニューラルネットワークの重みを生成するニューラルネットワークである。
柔軟性、適応性、ダイナミズム、より高速なトレーニング、情報共有、モデル圧縮を可能にする強力なディープラーニング技術として登場した。
ハイパーネットは、連続学習、因果推論、移動学習、ウェイトプルーニング、不確実性定量化、ゼロショット学習、自然言語処理、強化学習など、様々なディープラーニング問題において有望な結果を示している。
さまざまな問題設定で成功したにもかかわらず、現在、研究者に最新の開発を知らせ、ハイパーネットの利用を支援するための包括的なレビューは行われていない。
このギャップを埋めるために、ハイパーネットの進歩をレビューする。
本稿では、ハイパーネットを用いたディープニューラルネットワークのトレーニング例を示し、インプット、アウトプット、インプットとアウトプットの可変性、ハイパーネットのアーキテクチャの5つの設計基準に基づいて、ハイパーネットの分類を提案する。
また、異なるディープラーニング問題設定におけるハイパーネットの適用についても検討し、その後、ハイパーネットを効果的に活用できる一般的なシナリオについて議論した。
最後に,ハイパーネット分野における課題と今後の方向性について考察する。
ハイパーネットワークは、ディープラーニングの分野に革命をもたらす可能性がある、と私たちは信じています。
彼らはニューラルネットワークを設計し、訓練する新しい方法を提供し、さまざまなタスクにおけるディープラーニングモデルのパフォーマンスを改善する可能性を秘めている。
このレビューを通じて、ハイパーネットワークによるディープラーニングのさらなる進歩を促すことを目的としている。
Hypernetworks, or hypernets for short, are neural networks that generate weights for another neural network, known as the target network. They have emerged as a powerful deep learning technique that allows for greater flexibility, adaptability, dynamism, faster training, information sharing, and model compression. Hypernets have shown promising results in a variety of deep learning problems, including continual learning, causal inference, transfer learning, weight pruning, uncertainty quantification, zero-shot learning, natural language processing, and reinforcement learning. Despite their success across different problem settings, there is currently no comprehensive review available to inform researchers about the latest developments and to assist in utilizing hypernets. To fill this gap, we review the progress in hypernets. We present an illustrative example of training deep neural networks using hypernets and propose categorizing hypernets based on five design criteria: inputs, outputs, variability of inputs and outputs, and the architecture of hypernets. We also review applications of hypernets across different deep learning problem settings, followed by a discussion of general scenarios where hypernets can be effectively employed. Finally, we discuss the challenges and future directions that remain underexplored in the field of hypernets. We believe that hypernetworks have the potential to revolutionize the field of deep learning. They offer a new way to design and train neural networks, and they have the potential to improve the performance of deep learning models on a variety of tasks. Through this review, we aim to inspire further advancements in deep learning through hypernetworks. | 翻訳日:2024-07-17 05:18:31 公開日:2024-07-13 |
# 時系列規則分類のための畳み込みと深層学習に基づく手法
Convolutional and Deep Learning based techniques for Time Series Ordinal Classification ( http://arxiv.org/abs/2306.10084v2 ) ライセンス: Link先を確認 | Rafael Ayllón-Gavilán, David Guijo-Rubio, Pedro Antonio Gutiérrez, Anthony Bagnall, César Hervás-Martínez, | (参考訳) 時系列分類(TSC)は、繰り返し測定によって観測される一連の値の形式で入力データが提供される教師付き学習問題と、それらが属するカテゴリを予測することを目的としている。
クラス値が順序付きである場合、これを考慮に入れた分類器は、名目上の分類器よりも優れている。
時系列規則分類(TSOC)は、このギャップをカバーする分野であるが、文献では未解明である。
順序付けされたラベル構造を示す時系列問題や、順序付け関係を無視するTSC技術は有用な情報を捨てる。
そこで本稿では,TSOC手法の最初のベンチマークを行い,対象ラベルの順序付けを利用して,現在のTSCの現状を向上する。
TSOCには、畳み込みと深層学習に基づく方法論(名目TSCの最良の代替手段)が適合している。
実験では、2つの有名なアーカイブから29の規則的な問題を抽出した。
このようにして,本論文はTSOCにおける最先端の確立に寄与する。
オーディナルバージョンで得られた結果は,従来のTSC技術よりも,通常のパフォーマンス指標において有意に優れており,このような問題に対処する上でラベルの順序を考えることの重要性を概説している。
Time Series Classification (TSC) covers the supervised learning problem where input data is provided in the form of series of values observed through repeated measurements over time, and whose objective is to predict the category to which they belong. When the class values are ordinal, classifiers that take this into account can perform better than nominal classifiers. Time Series Ordinal Classification (TSOC) is the field covering this gap, yet unexplored in the literature. There are a wide range of time series problems showing an ordered label structure, and TSC techniques that ignore the order relationship discard useful information. Hence, this paper presents a first benchmarking of TSOC methodologies, exploiting the ordering of the target labels to boost the performance of current TSC state-of-the-art. Both convolutional- and deep learning-based methodologies (among the best performing alternatives for nominal TSC) are adapted for TSOC. For the experiments, a selection of 29 ordinal problems from two well-known archives has been made. In this way, this paper contributes to the establishment of the state-of-the-art in TSOC. The results obtained by ordinal versions are found to be significantly better than current nominal TSC techniques in terms of ordinal performance metrics, outlining the importance of considering the ordering of the labels when dealing with this kind of problems. | 翻訳日:2024-07-17 05:08:47 公開日:2024-07-13 |
# LNL+K:ノイズソース知識統合によるノイズラベルによる学習の促進
LNL+K: Enhancing Learning with Noisy Labels Through Noise Source Knowledge Integration ( http://arxiv.org/abs/2306.11911v2 ) ライセンス: Link先を確認 | Siqi Wang, Bryan A. Plummer, | (参考訳) ノイズラベル(LNL)による学習は、ノイズデータセットを使用してハイパフォーマンスモデルをトレーニングすることを目的としている。
与えられたクラスに対するノイズは、しばしば限られたカテゴリの集合から来るが、多くのLNLメソッドはこれを見落としている。
例えば、チーターと誤記された画像は、その視覚的類似性のため、海馬よりもヒョウである可能性が高い。
そこで,ノイズ源知識統合(LNL+K)を用いたノイズ源ラベル学習について検討する。
ノイズソースの知識を統合することで、LNLメソッドが通常失敗する設定でもパフォーマンスが向上する。
例えば、LNL+K法は、ノイズがほとんどのサンプルを表すデータセットで有効であり、LNLのために開発されたほとんどの手法の重要な前提を破る。
我々のLNL+K法は,メタデータから抽出するのではなく,ノイズ源を推定しても性能を向上させることができる。
ノイズ源の知識を最先端のLNLモデルに統合するベースラインLNL+K法を6つの多様なデータセットと2種類のノイズで評価し,未適応の手法と比較して最大23%のゲインを報告した。
本研究は,LNL+Kを直接探索することの重要性を強調し,騒音源の知識の統合に適応しても,LNL法が現実のデータセットを一般化できないことを示す。
Learning with noisy labels (LNL) aims to train a high-performing model using a noisy dataset. We observe that noise for a given class often comes from a limited set of categories, yet many LNL methods overlook this. For example, an image mislabeled as a cheetah is more likely a leopard than a hippopotamus due to its visual similarity. Thus, we explore Learning with Noisy Labels with noise source Knowledge integration (LNL+K), which leverages knowledge about likely source(s) of label noise that is often provided in a dataset's meta-data. Integrating noise source knowledge boosts performance even in settings where LNL methods typically fail. For example, LNL+K methods are effective on datasets where noise represents the majority of samples, which breaks a critical premise of most methods developed for LNL. Our LNL+K methods can boost performance even when noise sources are estimated rather than extracted from meta-data. We provide several baseline LNL+K methods that integrate noise source knowledge into state-of-the-art LNL models that are evaluated across six diverse datasets and two types of noise, where we report gains of up to 23% compared to the unadapted methods. Critically, we show that LNL methods fail to generalize on some real-world datasets, even when adapted to integrate noise source knowledge, highlighting the importance of directly exploring LNL+K. | 翻訳日:2024-07-17 05:08:47 公開日:2024-07-13 |
# マルチインスタンス弱スーパービジョンを用いた潜在モデル学習について
On Learning Latent Models with Multi-Instance Weak Supervision ( http://arxiv.org/abs/2306.13796v2 ) ライセンス: Link先を確認 | Kaifu Wang, Efthymia Tsamoura, Dan Roth, | (参考訳) 本稿では,複数の入力インスタンスに関連付けられたラベルの遷移関数$\sigma$によって,教師信号が生成される弱い教師付き学習シナリオについて考察する。
この問題を標準的な PLL 問題の拡張である \emph{multi-instance partial Label Learning (multi-instance PLL)} として定式化する。
我々の問題は、潜在的な構造学習やニューロシンボリックな統合など、さまざまな分野で満たされている。
多くの学習技術が存在するにもかかわらず、この問題には限定的な理論分析が費やされている。
本稿では、おそらく未知の遷移 $\sigma$ を持つマルチインスタンス PLL に関する最初の理論的研究を提供する。
主な貢献は以下の通りである。
まず,問題の学習に必要かつ十分な条件を提案する。
この条件は、遷移が決定論的であることを認めるため、PLL文学において既存の小さなあいまい度を非自明に一般化し、緩和する。
第2に、ニューロシンボリックな文献で広く使われている上位k$の代理損失に基づいて、Rademacher型エラー境界を導出する。
さらに、未知の遷移下での学習に関する実証実験を締めくくった。
実験結果は我々の理論的な結果と一致するが、弱監督文学におけるスケーラビリティの問題も露呈している。
We consider a weakly supervised learning scenario where the supervision signal is generated by a transition function $\sigma$ of labels associated with multiple input instances. We formulate this problem as \emph{multi-instance Partial Label Learning (multi-instance PLL)}, which is an extension to the standard PLL problem. Our problem is met in different fields, including latent structural learning and neuro-symbolic integration. Despite the existence of many learning techniques, limited theoretical analysis has been dedicated to this problem. In this paper, we provide the first theoretical study of multi-instance PLL with possibly an unknown transition $\sigma$. Our main contributions are as follows. Firstly, we propose a necessary and sufficient condition for the learnability of the problem. This condition non-trivially generalizes and relaxes the existing small ambiguity degree in the PLL literature, since we allow the transition to be deterministic. Secondly, we derive Rademacher-style error bounds based on a top-$k$ surrogate loss that is widely used in the neuro-symbolic literature. Furthermore, we conclude with empirical experiments for learning under unknown transitions. The empirical results align with our theoretical findings; however, they also expose the issue of scalability in the weak supervision literature. | 翻訳日:2024-07-17 05:08:47 公開日:2024-07-13 |
# 21cmEMU:21cmFAST概要観測装置のエミュレータ
21cmEMU: an emulator of 21cmFAST summary observables ( http://arxiv.org/abs/2309.05697v2 ) ライセンス: Link先を確認 | Daniela Breitman, Andrei Mesinger, Steven Murray, David Prelogovic, Yuxiang Qin, Roberto Trotta, | (参考訳) 近年では、EoR(Epoch of Reionization)の観測が急速に進んでいる。
これらは、宇宙の最初の10億年間に銀河と銀河間媒質(IGM)の高次元的な推測を可能にした。
しかし、効率的な半数値シミュレーションを用いても、従来の3D光源をオンザフライで計算する推論手法は10^5$コア時間を要する。
ここでは、人気のある21cmFASTシミュレーションコードから、いくつかのサマリ観測器のエミュレータである21cmEMUを紹介する。
21cmEMUは、EoR銀河を特徴づける9つのパラメータを入力として、以下の要約統計を出力する。
i) IGM は、中性分数を意味する。
(二)21cmのパワースペクトル
(三)平均21cmのスピン温度
(四)平均(球状)21cm信号
(vi)紫外線(UV)光度関数(LF)、及び
(vii) トムソンは宇宙マイクロ波背景(CMB)に光深度を散乱する。
すべての観測可能量は、計算コストを10$^4$以上削減して、中央値以下の精度で予測される。
推論結果を検証した後、いくつかのアプリケーションを紹介します。
一 異なる観測データセットの相対的制約力を定量化すること。
(二)最近のEoRの主張が過去の推測にどのように影響するか、及び
三 イオン化アレイ(HERA)望遠鏡の水素エポックの観測第六シーズンから、今後の制約を予測すること。
21cmEMUは公開されており、21CMMCサンプル装置に代替シミュレータとして含まれている。
Recent years have witnessed rapid progress in observations of the Epoch of Reionization (EoR). These have enabled high-dimensional inference of galaxy and intergalactic medium (IGM) properties during the first billion years of our Universe. However, even using efficient, semi-numerical simulations, traditional inference approaches that compute 3D lightcones on-the-fly can take $10^5$ core hours. Here we present 21cmEMU: an emulator of several summary observables from the popular 21cmFAST simulation code. 21cmEMU takes as input nine parameters characterizing EoR galaxies, and outputs the following summary statistics: (i) the IGM mean neutral fraction; (ii) the 21-cm power spectrum; (iii) the mean 21-cm spin temperature; (iv) the sky-averaged (global) 21-cm signal; (vi) the ultraviolet (UV) luminosity functions (LFs); and (vii) the Thomson scattering optical depth to the cosmic microwave background (CMB). All observables are predicted with sub-percent median accuracy, with a reduction of the computational cost by a factor of over 10$^4$. After validating inference results, we showcase a few applications, including: (i) quantifying the relative constraining power of different observational datasets; (ii) seeing how recent claims of a late EoR impact previous inferences; and (iii) forecasting upcoming constraints from the sixth observing season of the Hydrogen Epoch of Reionization Array (HERA) telescope. 21cmEMU is publicly-available, and is included as an alternative simulator in the public 21CMMC sampler. | 翻訳日:2024-07-17 04:58:50 公開日:2024-07-13 |
# 脳卒中片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片側片
Quantifying predictive uncertainty of aphasia severity in stroke patients with sparse heteroscedastic Bayesian high-dimensional regression ( http://arxiv.org/abs/2309.08783v4 ) ライセンス: Link先を確認 | Anja Zgodic, Ray Bai, Jiajia Zhang, Yuan Wang, Chris Rorden, Alexander McLain, | (参考訳) 高次元データに対する疎線型回帰法は、通常、残留物が一定の分散を持つと仮定するが、これは実際には破ることができる。
例えば、Aphasia Quotient(AQ)は言語障害の重要な尺度であり、治療決定を通知するが、脳卒中患者の測定は困難である。
脳損傷の高分解能T2神経画像を用いてAQを予測することが重要である。
しかし、スパース回帰モデルでは、変換が適用された後もヘテロ代用誤差の顕著な証拠が示される。
この相似性仮定の違反は、推定係数のバイアス、不適切な長さの予測間隔(PI)、I型エラーの増加につながる可能性がある。
ベイズ的ヘテロ代数学的線形回帰モデルは、ホモ代数学的誤差の仮定を緩和するが、パラメータに対する制限的な事前仮定を強制することができる。
本稿では,H-PROBEアルゴリズムを用いて高次元ヘテロセダスティック線形回帰モデルを推定する。
H-PROBE は計算効率のよい最大余剰推定法であり、最小の事前仮定が必要であり、不均一性に影響を与えると仮定された共変量を組み込むことができる。
本研究では,高次元神経画像を用いて予測の不確かさを正確に定量化するためのAQのためのPIを提供する。
分析の結果,H-PROBEは適用範囲を犠牲にすることなく,標準手法よりも狭いPI幅を提供できることが示された。
狭義のPIは中等度から重度の失語リスクを決定するために臨床的に重要である。
さらに,H-PROBEによる予測,変数選択,予測推測が,他の手法と比較して優れていることを示す。
Sparse linear regression methods for high-dimensional data commonly assume that residuals have constant variance, which can be violated in practice. For example, Aphasia Quotient (AQ) is a critical measure of language impairment and informs treatment decisions, but it is challenging to measure in stroke patients. It is of interest to use high-resolution T2 neuroimages of brain damage to predict AQ. However, sparse regression models show marked evidence of heteroscedastic error even after transformations are applied. This violation of the homoscedasticity assumption can lead to bias in estimated coefficients, prediction intervals (PI) with improper length, and increased type I errors. Bayesian heteroscedastic linear regression models relax the homoscedastic error assumption but can enforce restrictive prior assumptions on parameters, and many are computationally infeasible in the high-dimensional setting. This paper proposes estimating high-dimensional heteroscedastic linear regression models using a heteroscedastic partitioned empirical Bayes Expectation Conditional Maximization (H-PROBE) algorithm. H-PROBE is a computationally efficient maximum a posteriori estimation approach that requires minimal prior assumptions and can incorporate covariates hypothesized to impact heterogeneity. We apply this method by using high-dimensional neuroimages to predict and provide PIs for AQ that accurately quantify predictive uncertainty. Our analysis demonstrates that H-PROBE can provide narrower PI widths than standard methods without sacrificing coverage. Narrower PIs are clinically important for determining the risk of moderate to severe aphasia. Additionally, through extensive simulation studies, we exhibit that H-PROBE results in superior prediction, variable selection, and predictive inference compared to alternative methods. | 翻訳日:2024-07-17 04:58:50 公開日:2024-07-13 |
# 標準電子部品を用いたディジタルMemComputingの実装
Implementation of digital MemComputing using standard electronic components ( http://arxiv.org/abs/2309.12437v4 ) ライセンス: Link先を確認 | Yuan-Hang Zhang, Massimiliano Di Ventra, | (参考訳) DMM(Digital MemComputing Machine)は、メモリを持つ非線形力学系(時限非局所性)を用いており、様々な組合せ最適化問題の解法として、堅牢でスケーラブルな非伝統的な計算手法であることが証明されている。
しかし、これまでの研究の大部分は、DMMの運動方程式の数値シミュレーションに重点を置いている。
これは必然的に離散化に時間がかかるため、連続的に動作する実際の物理システムに欠落する独自の(数値的な)問題をもたらす。
DMMのハードウェア実現は以前から提案されていたが、その実装には従来の電子機器と簡単に統合できない材料や装置が必要である。
そこで本研究では,利用可能な電子部品を活用して,DMMのための新しいハードウェア設計を提案する。
このアプローチは、現在のモデルに比べて計算速度を著しく向上させるだけでなく、加法雑音に対する顕著な堅牢性を示す。
重要なことに、これは数値ノイズによる制限を回避し、拡張操作時の安定性と信頼性を向上する。
これは、より実用的でアクセスしやすいフレームワークにおいて、DMMの固有の利点を活用することによって、ますます複雑な問題に取り組むための新しい道を開く。
Digital MemComputing machines (DMMs), which employ nonlinear dynamical systems with memory (time non-locality), have proven to be a robust and scalable unconventional computing approach for solving a wide variety of combinatorial optimization problems. However, most of the research so far has focused on the numerical simulations of the equations of motion of DMMs. This inevitably subjects time to discretization, which brings its own (numerical) issues that would be otherwise absent in actual physical systems operating in continuous time. Although hardware realizations of DMMs have been previously suggested, their implementation would require materials and devices that are not so easy to integrate with traditional electronics. Addressing this, our study introduces a novel hardware design for DMMs, utilizing readily available electronic components. This approach not only significantly boosts computational speed compared to current models but also exhibits remarkable robustness against additive noise. Crucially, it circumvents the limitations imposed by numerical noise, ensuring enhanced stability and reliability during extended operations. This paves a new path for tackling increasingly complex problems, leveraging the inherent advantages of DMMs in a more practical and accessible framework. | 翻訳日:2024-07-17 04:58:50 公開日:2024-07-13 |
# FaceGemma: ポートレート画像のための顔属性による画像キャプションの強化
FaceGemma: Enhancing Image Captioning with Facial Attributes for Portrait Images ( http://arxiv.org/abs/2309.13601v2 ) ライセンス: Link先を確認 | Naimul Haque, Iffat Labiba, Sadia Akter, | (参考訳) 視覚的コンテンツのアクセシビリティと理解を向上させるためには,自動キャプション生成が不可欠である。
本研究では,感情や表情,特徴などの顔の特徴を正確に記述するモデルであるFaceGemmaを紹介する。
FaceAttdbデータを用いて2000面のLlama 3-70Bモデルで記述を生成し,これらの記述でPaliGemmaモデルを微調整した。
FaceAttDBで提供される属性とキャプションに基づいて、私たちは新しい説明データセットを作成しました。それぞれの説明には、魅力、完全な唇、大きな鼻、ブロンドの髪、茶色の髪、毛むくじゃらのまぶしさ、眼鏡、男性、笑顔、青春といった重要な特徴が含まれています。
この詳細なアプローチは、生成した記述が、画像に存在する微妙な視覚的詳細と密接に一致していることを保証する。
当社のFaceGemmaモデルは,アノテート属性,ヒューマンアノテートキャプションを用いて,画像キャプションに革新的なアプローチを取り入れ,高品質な顔記述を実現する。
平均BLEU-1スコアは0.364, METEORスコアは0.355であった。
これらの指標は、顔の属性を画像キャプションに組み込むことの有効性を示し、肖像画のより正確で記述的なキャプションを提供する。
Automated image caption generation is essential for improving the accessibility and understanding of visual content. In this study, we introduce FaceGemma, a model that accurately describes facial attributes such as emotions, expressions, and features. Using FaceAttdb data, we generated descriptions for 2000 faces with the Llama 3 - 70B model and fine-tuned the PaliGemma model with these descriptions. Based on the attributes and captions supplied in FaceAttDB, we created a new description dataset where each description perfectly depicts the human-annotated attributes, including key features like attractiveness, full lips, big nose, blond hair, brown hair, bushy eyebrows, eyeglasses, male, smile, and youth. This detailed approach ensures that the generated descriptions are closely aligned with the nuanced visual details present in the images. Our FaceGemma model leverages an innovative approach to image captioning by using annotated attributes, human-annotated captions, and prompt engineering to produce high-quality facial descriptions. Our method significantly improved caption quality, achieving an average BLEU-1 score of 0.364 and a METEOR score of 0.355. These metrics demonstrate the effectiveness of incorporating facial attributes into image captioning, providing more accurate and descriptive captions for portrait images. | 翻訳日:2024-07-17 04:48:58 公開日:2024-07-13 |
# シミュレーションおよび実環境における事前学習された視覚表現の大規模研究から何を学ぶか。
What do we learn from a large-scale study of pre-trained visual representations in sim and real environments? ( http://arxiv.org/abs/2310.02219v2 ) ライセンス: Link先を確認 | Sneha Silwal, Karmesh Yadav, Tingfan Wu, Jay Vakil, Arjun Majumdar, Sergio Arnaud, Claire Chen, Vincent-Pierre Berges, Dhruv Batra, Aravind Rajeswaran, Mrinal Kalakrishnan, Franziska Meier, Oleksandr Maksymets, | (参考訳) 本研究では、実世界のタスクを実行する下流政策のトレーニングに、事前訓練された視覚表現(PVR)の使用に関する大規模な実証的研究を行う。
私たちの研究は5つの異なるPVRで行われ、それぞれが5つの異なる操作や屋内ナビゲーションタスクのために訓練されている。
3つの異なるロボットと2つの異なるポリシー学習パラダイムを用いて評価を行った。
この取り組みから、私たちは3つの洞察にたどり着くことができます。
1)シミュレーションにおけるPVRの性能傾向は,一般に実世界におけるPVRのパフォーマンス傾向を示すものである。
2)PVRを使用することで,屋内イメージナブ(実世界の保留シーンへのゼロショット転送)によるファースト・オブ・ザ・キンドの結果が実現される。
3)PVRのバリエーション,主にデータ拡張と微調整によるメリットは,実世界のパフォーマンスにも寄与する。
詳しくはプロジェクトのWebサイトを参照してほしい。
We present a large empirical investigation on the use of pre-trained visual representations (PVRs) for training downstream policies that execute real-world tasks. Our study involves five different PVRs, each trained for five distinct manipulation or indoor navigation tasks. We performed this evaluation using three different robots and two different policy learning paradigms. From this effort, we can arrive at three insights: 1) the performance trends of PVRs in the simulation are generally indicative of their trends in the real world, 2) the use of PVRs enables a first-of-its-kind result with indoor ImageNav (zero-shot transfer to a held-out scene in the real world), and 3) the benefits from variations in PVRs, primarily data-augmentation and fine-tuning, also transfer to the real-world performance. See project website for additional details and visuals. | 翻訳日:2024-07-17 04:48:58 公開日:2024-07-13 |
# ニューラルレンダリングにおけるオブジェクト指向編集のためのパラメータ化駆動型ニューラルサーフェス再構成
Parameterization-driven Neural Surface Reconstruction for Object-oriented Editing in Neural Rendering ( http://arxiv.org/abs/2310.05524v3 ) ライセンス: Link先を確認 | Baixin Xu, Jiangbei Hu, Fei Hou, Kwan-Yee Lin, Wayne Wu, Chen Qian, Ying He, | (参考訳) ニューラルレンダリングの進歩により、ニューラルな暗黙の表面として表される3Dオブジェクトの直感的な編集を可能にする技術の必要性が高まっている。
本稿では,ニューラル暗黙表面を球面やポリキューブのような単純なパラメトリック領域にパラメータ化するための新しいニューラルアルゴリズムを提案する。
本手法では, 3次元オブジェクトの形状によく似た構成を学習し, パラメトリック領域内の立方体数を指定できる。
オブジェクトのゼロレベルセットからの前方マッピングと後方マッピングのための逆変形を用いて、オブジェクトとドメイン間の双方向の変形を計算する。
サイクル損失を伴うほぼ単射写像を確実にし、変形の滑らかさを最適化する。
パラメータ化の品質は、角度と面積の歪みによって評価され、ラプラシア正規化器と最適化されたパラメトリック領域を用いて保証される。
我々のフレームワークは既存のニューラルネットワークのレンダリングパイプラインと統合されており、単一のオブジェクトのマルチビューイメージや類似したジオメトリの複数のオブジェクトを使用して3次元形状を再構成し、テクスチャマップを自動で計算することで、事前情報を必要としない。
本手法の有効性を人間の頭部と人工物の画像に示す。
The advancements in neural rendering have increased the need for techniques that enable intuitive editing of 3D objects represented as neural implicit surfaces. This paper introduces a novel neural algorithm for parameterizing neural implicit surfaces to simple parametric domains like spheres and polycubes. Our method allows users to specify the number of cubes in the parametric domain, learning a configuration that closely resembles the target 3D object's geometry. It computes bi-directional deformation between the object and the domain using a forward mapping from the object's zero level set and an inverse deformation for backward mapping. We ensure nearly bijective mapping with a cycle loss and optimize deformation smoothness. The parameterization quality, assessed by angle and area distortions, is guaranteed using a Laplacian regularizer and an optimized learned parametric domain. Our framework integrates with existing neural rendering pipelines, using multi-view images of a single object or multiple objects of similar geometries to reconstruct 3D geometry and compute texture maps automatically, eliminating the need for any prior information. We demonstrate the method's effectiveness on images of human heads and man-made objects. | 翻訳日:2024-07-17 04:48:58 公開日:2024-07-13 |
# 1言語モデルエンコーダを用いたテキスト分散グラフの多重表現学習
Learning Multiplex Representations on Text-Attributed Graphs with One Language Model Encoder ( http://arxiv.org/abs/2310.06684v2 ) ライセンス: Link先を確認 | Bowen Jin, Wentao Zhang, Yu Zhang, Yu Meng, Han Zhao, Jiawei Han, | (参考訳) 現実のシナリオでは、グラフ内のテキストは、しばしば複数の意味関係(例えば、学術グラフ内の論文は、他の出版物によって参照され、同じ著者によって書かれたり、同じ場所で公開されたりする)によってリンクされる。
メインストリームテキスト表現学習法は、プレトレーニング言語モデル(PLM)を使用して、各テキストユニットに1つの埋め込みを生成する。
しかし、この推定は特に多重テキスト属性グラフには当てはまらない。
別の作業の行に沿って、多重グラフニューラルネットワーク(GNN)はノード表現学習のための特徴ベクトルとしてノード属性を直接初期化するが、ノードの関連するテキストのセマンティクスを完全にキャプチャすることはできない。
これらのギャップを埋めるため,テキスト分散グラフ上でのMultiformx rEpresentationsを学習するための新しいフレームワークであるMETAGを提案する。
既存の手法とは対照的に、MeTAGは1つのテキストエンコーダを使用して、関係をまたいだ共有知識をモデル化し、関係性固有の表現を導出するために、関係ごとに少数のパラメータを利用する。
これにより、エンコーダは、パラメータ効率を保ちながら、グラフ内の多重構造を効果的にキャプチャできる。
学術および電子商取引分野の5つのグラフにおいて、9つの下流タスクの実験を行い、METAGはベースラインを著しく、一貫して上回ります。
コードはhttps://github.com/PeterGriffinJin/METAGで入手できる。
In real-world scenarios, texts in a graph are often linked by multiple semantic relations (e.g., papers in an academic graph are referenced by other publications, written by the same author, or published in the same venue), where text documents and their relations form a multiplex text-attributed graph. Mainstream text representation learning methods use pretrained language models (PLMs) to generate one embedding for each text unit, expecting that all types of relations between texts can be captured by these single-view embeddings. However, this presumption does not hold particularly in multiplex text-attributed graphs. Along another line of work, multiplex graph neural networks (GNNs) directly initialize node attributes as a feature vector for node representation learning, but they cannot fully capture the semantics of the nodes' associated texts. To bridge these gaps, we propose METAG, a new framework for learning Multiplex rEpresentations on Text-Attributed Graphs. In contrast to existing methods, METAG uses one text encoder to model the shared knowledge across relations and leverages a small number of parameters per relation to derive relation-specific representations. This allows the encoder to effectively capture the multiplex structures in the graph while also preserving parameter efficiency. We conduct experiments on nine downstream tasks in five graphs from both academic and e-commerce domains, where METAG outperforms baselines significantly and consistently. The code is available at https://github.com/PeterGriffinJin/METAG. | 翻訳日:2024-07-17 04:48:58 公開日:2024-07-13 |
# Mysticeti: 未確認DAGによるレイテンシ限界の緩和
Mysticeti: Reaching the Limits of Latency with Uncertified DAGs ( http://arxiv.org/abs/2310.14821v4 ) ライセンス: Link先を確認 | Kushal Babel, Andrey Chursin, George Danezis, Anastasios Kichidis, Lefteris Kokoris-Kogias, Arun Koshy, Alberto Sonnino, Mingwei Tian, | (参考訳) DAGベースの最初のByzantineコンセンサスプロトコルであるMysticeti-Cを導入する。
Mysticeti-CはDAG上に構築されているため、高い資源効率と検閲耐性も達成している。
Mysticeti-Cは、DAGブロックの明示的な認証を避け、すべてのブロックを遅延なくコミットできるように新しいコミットルールを提案し、安定した状態とクラッシュ時の最適なレイテンシを実現することで、このレイテンシの改善を実現している。
Mysticeti-C を Mysticeti-FPC に拡張します。
以前の高速コミットパスプロトコルとは異なり、Mysticeti-FPCは、高速パストランザクションをDAGに織り込むことで、署名とメッセージの数を最小化する。
これによりリソースが解放され、結果としてパフォーマンスが向上する。
我々はビザンツの文脈における安全と生活の証明を行う。
我々は、Mysticetiプロトコルと最新のコンセンサスと高速パスプロトコルを比較し、その低レイテンシとリソース効率を実証するとともに、クラッシュ時のより優雅な劣化を実証する。
Mysticeti-Cは、200k TPS以上の最先端スループットを維持しながら、コンセンサスコミットのために0.5秒のWANレイテンシを実現する最初のビザンティンコンセンサスプロトコルである。
最後に、Mysticeti-CをコンセンサスプロトコルとしてSwiブロックチェーンに統合し、4倍以上のレイテンシ削減を実現したことを報告します。
We introduce Mysticeti-C, the first DAG-based Byzantine consensus protocol to achieve the lower bounds of latency of 3 message rounds. Since Mysticeti-C is built over DAGs it also achieves high resource efficiency and censorship resistance. Mysticeti-C achieves this latency improvement by avoiding explicit certification of the DAG blocks and by proposing a novel commit rule such that every block can be committed without delays, resulting in optimal latency in the steady state and under crash failures. We further extend Mysticeti-C to Mysticeti-FPC, which incorporates a fast commit path that achieves even lower latency for transferring assets. Unlike prior fast commit path protocols, Mysticeti-FPC minimizes the number of signatures and messages by weaving the fast path transactions into the DAG. This frees up resources, which subsequently result in better performance. We prove the safety and liveness in a Byzantine context. We evaluate both Mysticeti protocols and compare them with state-of-the-art consensus and fast path protocols to demonstrate their low latency and resource efficiency, as well as their more graceful degradation under crash failures. Mysticeti-C is the first Byzantine consensus protocol to achieve WAN latency of 0.5s for consensus commit while simultaneously maintaining state-of-the-art throughput of over 200k TPS. Finally, we report on integrating Mysticeti-C as the consensus protocol into the Sui blockchain, resulting in over 4x latency reduction. | 翻訳日:2024-07-17 02:54:11 公開日:2024-07-13 |
# AlignedCoT: ネイティブ講演による大規模言語モデルの実証
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations ( http://arxiv.org/abs/2311.13538v4 ) ライセンス: Link先を確認 | Zhicheng Yang, Yinya Huang, Jing Xiong, Liang Feng, Xiaodan Liang, Yiwei Wang, Jing Tang, | (参考訳) 大規模言語モデル(例えば、文脈内デモなど)は、LLMに高性能で堅固な推論(例えば、数学的推論、常識推論)を実行するための主要なテクニックであり、さらに人間と機械の協調的な科学的発見の可能性を持っている。
しかし、現在のLLMは、素早い言葉やスタイルにおいてデリケートでわかりやすい。
そして、LLM理解と人間書きのプロンプトの間には、目に見えないギャップがある。
本稿では,LLMの文脈内学習における熟達した"母語"を含む,LLM対応のプロンプト技術であるAlignedCoTを紹介する。
具体的には、ゼロショットのシナリオにおいて、段階的かつ正しいプロンプトを段階的に探索し、精錬し、フォーマット化し、即時品質を維持しながら手作りの少数ショットのデモから解放する。
数学的推論とコモンセンス推論の実験を行う。
また,AlignedCoT を用いた LLM は人為的な実演よりも優れていた。
さらに、GSM8kトレーニングセットの書き換えにAlignedCoTを適用し、その結果、GSM8k-Alignデータセットを生成する。
検索拡張生成におけるその利点を観察する。
Large Language Models prompting, such as using in-context demonstrations, is a mainstream technique for invoking LLMs to perform high-performance and solid complex reasoning (e.g., mathematical reasoning, commonsense reasoning), and has the potential for further human-machine collaborative scientific findings. However, current LLMs are delicate and elusive in prompt words and styles. And there is an unseen gap between LLM understanding and human-written prompts. This paper introduces AlignedCoT, an LLM-acquainted prompting technique that includes proficient "native-speaking" in in-context learning for the LLMs. Specifically, it achieves consistent and correct step-wise prompts in zero-shot scenarios by progressively probing, refining, and formatting the LLM chain of thoughts so that free from handcrafted few-shot demonstrations while maintaining the prompt quality. We conduct experiments on mathematical reasoning and commonsense reasoning. We find that LLMs with AlignedCoT perform significantly superior to them with human-crafted demonstrations. We further apply AlignedCoT for rewriting the GSM8k training set, resulting in a GSM8k-Align dataset. We observe its benefits for retrieval augmented generation. | 翻訳日:2024-07-17 02:54:11 公開日:2024-07-13 |
# Vamos:ビデオ理解のためのVersatile Action Model
Vamos: Versatile Action Models for Video Understanding ( http://arxiv.org/abs/2311.13627v3 ) ライセンス: Link先を確認 | Shijie Wang, Qi Zhao, Minh Quan Do, Nakul Agarwal, Kwonjoon Lee, Chen Sun, | (参考訳) 将来の活動を見越したり、ビデオ条件の質問に答えたりするなど、ビデオ理解によい表現は何だろうか?
従来,ビデオ画素から直接のエンド・ツー・エンドの学習に焦点が当てられていたが,大容量の言語モデル(LLM)で直接使用可能な汎用ビデオキャプションなど,テキストベースの表現の再検討を提案する。
直感的には、異なるビデオ理解タスクは相補的で異なる粒度の表現を必要とするかもしれない。
この目的のために我々は,大規模な言語モデルを用いた学習フレームワークである多目的行動モデル(Vamos)を提案し,その入力として視覚的埋め込みや自由形式のテキスト記述を柔軟に活用することができる。
質問応答のための重要なテキストエビデンスを解釈するために,トークンや非線形モデルを扱うために,概念ボトルネックモデルを一般化し,自由形式のテキストからトークンの小さなサブセットをLSM推論器への入力として選択する。
Ego4D,NeXT-QA,IntentQA,Spacewalk-18,EgoSchemaの5つの相補的ベンチマークでVamosを評価する。
驚くべきことに、テキストベースの表現は全てのベンチマークにおいて一貫して競争性能を達成し、視覚的な埋め込みは、LLM時代のテキストベースのビデオ表現の有効性を実証し、限界的あるいは全くのパフォーマンス向上をもたらす。
また, トークンボトルネックモデルにより, フリーフォームテキストから関連する証拠を抽出し, テスト時間介入をサポートし, 競合する質問応答性能を維持しながら, ほぼ5倍の推論高速化を実現できることを実証した。
コードとモデルはhttps://brown-palm.github.io/Vamos/で公開されている。
What makes good representations for video understanding, such as anticipating future activities, or answering video-conditioned questions? While earlier approaches focus on end-to-end learning directly from video pixels, we propose to revisit text-based representations, such as general-purpose video captions, which are interpretable and can be directly consumed by large language models (LLMs). Intuitively, different video understanding tasks may require representations that are complementary and at different granularity. To this end, we propose versatile action models (Vamos), a learning framework powered by a large language model as the ``reasoner'', and can flexibly leverage visual embedding and free-form text descriptions as its input. To interpret the important text evidence for question answering, we generalize the concept bottleneck model to work with tokens and nonlinear models, which uses hard attention to select a small subset of tokens from the free-form text as inputs to the LLM reasoner. We evaluate Vamos on five complementary benchmarks, Ego4D, NeXT-QA, IntentQA, Spacewalk-18, and EgoSchema, on its capability to model temporal dynamics, encode visual history, and perform reasoning. Surprisingly, we observe that text-based representations consistently achieve competitive performance on all benchmarks, and that visual embeddings provide marginal or no performance improvement, demonstrating the effectiveness of text-based video representation in the LLM era. We also demonstrate that our token bottleneck model is able to select relevant evidence from free-form text, support test-time intervention, and achieves nearly 5 times inference speedup while keeping a competitive question answering performance. Code and models are publicly released at https://brown-palm.github.io/Vamos/ | 翻訳日:2024-07-17 02:54:11 公開日:2024-07-13 |
# 単一ショット量子信号処理干渉計
Single-shot Quantum Signal Processing Interferometry ( http://arxiv.org/abs/2311.13703v2 ) ライセンス: Link先を確認 | Jasmine Sinanan-Singh, Gabriel L. Mintzer, Isaac L. Chuang, Yuan Liu, | (参考訳) ボゾン振動子のような無限次元の量子系は、量子センシングのための膨大な資源を提供する。
しかし、そのようなボソニックモードをパラメータ推定を超えた感覚で操作する方法の一般的な理論は分かっていない。
本稿では,ラムゼー型干渉計を一般化し,量子力学の基本極限における量子センシングのための一般アルゴリズムである量子信号処理干渉計(QSPI)を提案する。
我々のQSPIセンシングプロトコルは、キュービットからハイブリッドキュービットオシレータシステムへの量子信号処理(QSP)を一般化することにより、発振器の二次演算子上の非線形多項式変換を実行することに依存している。
我々は、QSPIセンシングフレームワークを使用して、単一ショット限界における変位チャネル上の効率的なバイナリ決定を行う。
理論的解析は、シングルショットキュービットの測定が与えられた場合、検出時間やアルゴリズムの回路深度と逆スケールすることを示している。
さらに, パラメータ推定をビット単位で行うために, 一連の二項決定を結合する。
これらの主張を裏付ける数値シミュレーションを行う。
我々のQSPIプロトコルは、パラメータ推定以上の連続可変ボソニックシステムを用いた量子センシングのための統一的なフレームワークを提供し、NISQ時代を超えて、効率的でスケーラブルな量子制御と量子センシングスキームへの有望な道を確立する。
Quantum systems of infinite dimension, such as bosonic oscillators, provide vast resources for quantum sensing. Yet, a general theory on how to manipulate such bosonic modes for sensing beyond parameter estimation is unknown. We present a general algorithmic framework, quantum signal processing interferometry (QSPI), for quantum sensing at the fundamental limits of quantum mechanics by generalizing Ramsey-type interferometry. Our QSPI sensing protocol relies on performing nonlinear polynomial transformations on the oscillator's quadrature operators by generalizing quantum signal processing (QSP) from qubits to hybrid qubit-oscillator systems. We use our QSPI sensing framework to make efficient binary decisions on a displacement channel in the single-shot limit. Theoretical analysis suggests the sensing accuracy, given a single-shot qubit measurement, scales inversely with the sensing time or circuit depth of the algorithm. We further concatenate a series of such binary decisions to perform parameter estimation in a bit-by-bit fashion. Numerical simulations are performed to support these statements. Our QSPI protocol offers a unified framework for quantum sensing using continuous-variable bosonic systems beyond parameter estimation and establishes a promising avenue toward efficient and scalable quantum control and quantum sensing schemes beyond the NISQ era. | 翻訳日:2024-07-17 02:44:20 公開日:2024-07-13 |
# テンソルSVDにおける非滑らかな挑戦--多目的テンソル回復フレームワーク
Handling The Non-Smooth Challenge in Tensor SVD: A Multi-Objective Tensor Recovery Framework ( http://arxiv.org/abs/2311.13958v3 ) ライセンス: Link先を確認 | Jingjing Zheng, Wanglong Lu, Wenzhe Wang, Yankai Cao, Xiaoqin Zhang, Xianta Jiang, | (参考訳) 近年,多くのテンソル特異値分解(t-SVD)に基づくテンソルリカバリ手法が,カラー画像やビデオなどの視覚データ処理において有望であることが示されている。
しかし、これらの手法は、非滑らかな変化を示すテンソルデータに直面すると、深刻な性能劣化に悩まされることが多い。
現実のシナリオではよく見られるが、従来のt-SVDベースの手法では無視されている。
本研究では,このような課題に対処するために,学習可能なテンソル核ノルムを持つ新しいテンソル復元モデルを提案する。
我々は,提案するテンソル完備化モデルを反復的に解くために,交代近似乗算法 (APMM) という新しい最適化アルゴリズムを開発した。
理論的解析は最適化問題のKKT(Karush-Kuhn-Tucker)点へのAPMMの収束を示す。
さらに,APMMに基づく多目的テンソル復元フレームワークを提案し,様々な次元にわたるテンソルデータの相関関係を効率的に探索し,t-SVD法を高次テンソルケースに拡張する新たな視点を提供する。
数値実験により, テンソル完成における提案手法の有効性が示された。
Recently, numerous tensor singular value decomposition (t-SVD)-based tensor recovery methods have shown promise in processing visual data, such as color images and videos. However, these methods often suffer from severe performance degradation when confronted with tensor data exhibiting non-smooth changes. It has been commonly observed in real-world scenarios but ignored by the traditional t-SVD-based methods. In this work, we introduce a novel tensor recovery model with a learnable tensor nuclear norm to address such a challenge. We develop a new optimization algorithm named the Alternating Proximal Multiplier Method (APMM) to iteratively solve the proposed tensor completion model. Theoretical analysis demonstrates the convergence of the proposed APMM to the Karush-Kuhn-Tucker (KKT) point of the optimization problem. In addition, we propose a multi-objective tensor recovery framework based on APMM to efficiently explore the correlations of tensor data across its various dimensions, providing a new perspective on extending the t-SVD-based method to higher-order tensor cases. Numerical experiments demonstrated the effectiveness of the proposed method in tensor completion. | 翻訳日:2024-07-17 02:44:20 公開日:2024-07-13 |
# テンソルネットワークから見たセールスマン問題
Traveling Salesman Problem from a Tensor Networks Perspective ( http://arxiv.org/abs/2311.14344v2 ) ライセンス: Link先を確認 | Alejandro Mata Ali, Iñigo Perez Delgado, Aitor Moreno Fdez. de Leceta, | (参考訳) 本稿では,トラベリングセールスマン問題(TSP)とその変種をテンソルネットワークを用いて解くための新しい量子インスピレーション付きアルゴリズムを提案する。
このアプローチは、あらゆる可能な組み合わせ、想像上の時間進化、射影、そして最後に解を探す部分的トレースを重ね合わせて、量子システムのシミュレートされた初期化に基づいている。
これは、より安価な計算コストで近似解を得るためのヒューリスティックに近似可能なアルゴリズムである。
我々は、TSPの異なる一般化に適応し、実際の生産的産業ケースであるジョブ再割り当て問題に適用する。
We present a novel quantum-inspired algorithm for solving the Traveling Salesman Problem (TSP) and some of its variations using tensor networks. This approach consists on the simulated initialization of a quantum system with superposition of all possible combinations, an imaginary time evolution, a projection, and lastly a partial trace to search for solutions. This is a heuristically approximable algorithm to obtain approximate solutions with a more affordable computational cost. We adapt it to different generalizations of the TSP and apply it to the job reassignment problem, a real productive industrial case. | 翻訳日:2024-07-17 02:44:20 公開日:2024-07-13 |
# 対称性-正則化ニューラル常微分方程式
Symmetry-regularized neural ordinary differential equations ( http://arxiv.org/abs/2311.16628v2 ) ライセンス: Link先を確認 | Wenbo Hao, | (参考訳) ニューラル常微分方程式(Neural ordinary differential equations)は、ニューラルネットワークを用いて隠れ状態の時間微分を近似する機械学習モデルのクラスである。
これらは連続時間力学系のモデリングのための強力なツールであり、複雑な時間的挙動の分析と予測を可能にする。
しかし、モデルの安定性と物理的解釈可能性を改善する方法は依然として課題である。
本稿では,隠れ状態のダイナミクスとバック伝播のダイナミクスの両方において,Lie対称性を用いたニューラルODEの新たな保存関係を提案する。
これらの保存法則は、損失関数にさらなる正規化項として組み込まれ、モデルの物理的解釈可能性や一般化可能性を高める可能性がある。
この方法を説明するために, 正弦波電場における荷電粒子のモニタリングを目的とした単純なニューラル・オードにおいて, リー対称性と保存則を導出した。
これらの保存関係から新たな損失関数を構築し、力学系のデータ駆動発見のような典型的なモデリングタスクにおける対称性規則化ニューラルODEの適用性を実証する。
Neural ordinary differential equations (Neural ODEs) is a class of machine learning models that approximate the time derivative of hidden states using a neural network. They are powerful tools for modeling continuous-time dynamical systems, enabling the analysis and prediction of complex temporal behaviors. However, how to improve the model's stability and physical interpretability remains a challenge. This paper introduces new conservation relations in Neural ODEs using Lie symmetries in both the hidden state dynamics and the back propagation dynamics. These conservation laws are then incorporated into the loss function as additional regularization terms, potentially enhancing the physical interpretability and generalizability of the model. To illustrate this method, the paper derives Lie symmetries and conservation laws in a simple Neural ODE designed to monitor charged particles in a sinusoidal electric field. New loss functions are constructed from these conservation relations, demonstrating the applicability symmetry-regularized Neural ODE in typical modeling tasks, such as data-driven discovery of dynamical systems. | 翻訳日:2024-07-17 02:44:20 公開日:2024-07-13 |
# 固有状態遷移における可観測物の臨界量子力学
Critical quantum dynamics of observables at eigenstate transitions ( http://arxiv.org/abs/2312.00873v3 ) ライセンス: Link先を確認 | Simon Jiricek, Miroslav Hopjan, Patrycja Łydżba, Fabian Heidrich-Meisner, Lev Vidmar, | (参考訳) 固有状態遷移における量子力学の重要な特徴を明らかにすることは、傑出した目標である。
局所化遷移を示す二次フェルミオンハミルトニアンに着目して、初期局在化電荷密度波状態からクエンチした場合に転移においてスケール不変臨界ダイナミクスを示す物理観測値を特定する。
識別は2つの要素に基づいている。
(a)多体状態における可観測物の時間的進化と単一粒子状態の遷移確率との関係
(b) 転移確率のスケール不変性(M. Hopjan and L. Vidmar, Phys. Lett. 131, 060404 (2023), Phys. Rev. 5, 043301 (2023))を一般化する。
これらの性質は、量子クエンチ力学におけるスケール不変臨界ダイナミクスが、クエンチ前のハミルトンと共通の固有基底を共有する観測値によっても示されることを示唆している。
本研究では,3次元アンダーソンモデルと1次元オーブリー・アンドルーモデルにおける固有状態遷移におけるそれらの臨界挙動を数値的に示す。
It is an outstanding goal to unveil the key features of quantum dynamics at eigenstate transitions. Focusing on quadratic fermionic Hamiltonians that exhibit localization transitions, we identify physical observables that exhibit scale-invariant critical dynamics at the transition when quenched from the initially localized charge density-wave states. The identification is based on two ingredients: (a) A relationship between the time evolution of observables in a many-body state and the transition probabilities of single-particle states, and (b) scale invariance of transition probabilities, which generalizes the corresponding recent result for survival probabilities [M. Hopjan and L. Vidmar, Phys. Rev. Lett. 131, 060404 (2023); Phys. Rev. Res. 5, 043301 (2023)]. These properties suggest that the scale-invariant critical dynamics in the quantum-quench dynamics is also exhibited by the observables, which share the common eigenbasis with the Hamiltonian before the quench. Focusing on experimentally relevant observables such as site occupations and the particle imbalance, we numerically demonstrate their critical behavior at the eigenstate transitions in the three-dimensional Anderson model and the one-dimensional Aubry-Andr\'e model model. | 翻訳日:2024-07-17 02:44:20 公開日:2024-07-13 |
# 継続的強化学習のための離散表現のハーネス化
Harnessing Discrete Representations For Continual Reinforcement Learning ( http://arxiv.org/abs/2312.01203v3 ) ライセンス: Link先を確認 | Edan Meyer, Adam White, Marlos C. Machado, | (参考訳) 強化学習(Reinforcement Learning, RL)エージェントは、環境からの観察のみを用いて決定を行い、その結果、これらの観察の表現に大きく依存する。
最近のブレークスルーでは、しばしば離散表現と呼ばれるベクトルベースの分類表現が用いられているが、そのような選択の重要性を明確に評価する研究はほとんどない。
本研究では,強化学習の文脈における分類的価値のベクトルとして観測を表現できることの利点について,徹底的な実証的研究を行う。
我々は、世界モデル学習、モデルフリーのRL、最終的に連続的なRL問題の評価を行う。
従来の連続表現と比較すると、離散表現よりも学習した世界モデルは、キャパシティの少ない世界をより正確にモデル化し、離散表現で訓練されたエージェントは、少ないデータでより良いポリシーを学ぶ。
連続RLの文脈では、これらの利点はより高速な適応剤へと変換される。
さらに,本分析の結果から,潜在ベクトルに含まれる情報や,離散表現自体の符号化により,観測性能が向上する可能性が示唆された。
Reinforcement learning (RL) agents make decisions using nothing but observations from the environment, and consequently, heavily rely on the representations of those observations. Though some recent breakthroughs have used vector-based categorical representations of observations, often referred to as discrete representations, there is little work explicitly assessing the significance of such a choice. In this work, we provide a thorough empirical investigation of the advantages of representing observations as vectors of categorical values within the context of reinforcement learning. We perform evaluations on world-model learning, model-free RL, and ultimately continual RL problems, where the benefits best align with the needs of the problem setting. We find that, when compared to traditional continuous representations, world models learned over discrete representations accurately model more of the world with less capacity, and that agents trained with discrete representations learn better policies with less data. In the context of continual RL, these benefits translate into faster adapting agents. Additionally, our analysis suggests that the observed performance improvements can be attributed to the information contained within the latent vectors and potentially the encoding of the discrete representation itself. | 翻訳日:2024-07-17 02:44:20 公開日:2024-07-13 |
# RGNet:ロングビデオのための一貫したクリップ検索とグラウンドネットワーク
RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos ( http://arxiv.org/abs/2312.06729v3 ) ライセンス: Link先を確認 | Tanveer Hannan, Md Mohaiminul Islam, Thomas Seidl, Gedas Bertasius, | (参考訳) 長いビデオ(20~120分)の中に特定の瞬間を配置することは、干し草の山の中に針を見つけるのと同じような、重大な課題を提示する。
既存のショートビデオ(5~30秒)のグラウンド化手法をこの問題に適用すると、性能が低下する。
YouTubeやAR/VRなど、ほとんどの実写ビデオは長いので、この問題に対処することが不可欠だ。
既存の手法は通常、クリップ検索と接地という2つの段階で動作する。
しかし、この解離過程は、特定のモーメント検出に不可欠な、検索モジュールのきめ細かいイベント理解を制限する。
本稿では,長い動画を複数の粒度(例えばクリップやフレーム)に処理できる1つのネットワークに深く統合したRGNetを提案する。
コアコンポーネントは、新しいトランスフォーマーエンコーダRG-Encoderで、共有機能と相互最適化によって2つのステージを統一する。
エンコーダはスパースアテンション機構とアテンションロスを具備し、両粒度を共にモデル化する。
さらに,トレーニング中にビデオの長いパラダイムを忠実に模倣するために,コントラッシブなクリップサンプリング手法を導入する。
RGNetは従来の手法を超越し、ロングビデオ時間グラウンド(LVTG)データセットMADとEgo4Dの最先端性能を示す。
Locating specific moments within long videos (20-120 minutes) presents a significant challenge, akin to finding a needle in a haystack. Adapting existing short video (5-30 seconds) grounding methods to this problem yields poor performance. Since most real life videos, such as those on YouTube and AR/VR, are lengthy, addressing this issue is crucial. Existing methods typically operate in two stages: clip retrieval and grounding. However, this disjoint process limits the retrieval module's fine-grained event understanding, crucial for specific moment detection. We propose RGNet which deeply integrates clip retrieval and grounding into a single network capable of processing long videos into multiple granular levels, e.g., clips and frames. Its core component is a novel transformer encoder, RG-Encoder, that unifies the two stages through shared features and mutual optimization. The encoder incorporates a sparse attention mechanism and an attention loss to model both granularity jointly. Moreover, we introduce a contrastive clip sampling technique to mimic the long video paradigm closely during training. RGNet surpasses prior methods, showcasing state-of-the-art performance on long video temporal grounding (LVTG) datasets MAD and Ego4D. | 翻訳日:2024-07-17 02:34:28 公開日:2024-07-13 |
# UniDream: 楽しいテキストから3D生成のための拡散優先事項の統合
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation ( http://arxiv.org/abs/2312.08754v2 ) ライセンス: Link先を確認 | Zexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang, | (参考訳) 近年のテキスト・ツー・3D生成技術の進歩は、テキスト記述を想像上の幾何学的・微妙なテクスチャ化された3Dオブジェクトに変換することを著しく進めている。
これらの発展にもかかわらず、拡散または再構成モデルにおけるRGBデータの使用により、しばしば現実主義から逸脱する固有の照明と影の効果を持つモデルが生じるため、正確なリライト能力を必要とするアプリケーションにおける使用性が制限される。
このギャップを埋めるために、統合拡散先行を組み込んだテキストから3D生成フレームワークUniDreamを提案する。
提案手法は,(1)アルベド正規配位型多視点拡散・再構成モデルを得るための2相学習プロセス,(2)訓練された再構成・拡散モデルを用いたスコア蒸留サンプル(SDS)に基づく幾何およびアルベドテクスチャのプログレッシブ生成手順,(3)安定拡散モデルに基づく固定アルベドを維持しつつPBR生成を確定するSDSの革新的な応用,の3つの要素からなる。
広汎な評価により、UniDreamは、より鮮明なアルベドテクスチャ、より滑らかな表面、強化されたリアリズム、優れたライティング能力を持つ3Dオブジェクトを生成する既存の方法を上回ることが示されている。
Recent advancements in text-to-3D generation technology have significantly advanced the conversion of textual descriptions into imaginative well-geometrical and finely textured 3D objects. Despite these developments, a prevalent limitation arises from the use of RGB data in diffusion or reconstruction models, which often results in models with inherent lighting and shadows effects that detract from their realism, thereby limiting their usability in applications that demand accurate relighting capabilities. To bridge this gap, we present UniDream, a text-to-3D generation framework by incorporating unified diffusion priors. Our approach consists of three main components: (1) a dual-phase training process to get albedo-normal aligned multi-view diffusion and reconstruction models, (2) a progressive generation procedure for geometry and albedo-textures based on Score Distillation Sample (SDS) using the trained reconstruction and diffusion models, and (3) an innovative application of SDS for finalizing PBR generation while keeping a fixed albedo based on Stable Diffusion model. Extensive evaluations demonstrate that UniDream surpasses existing methods in generating 3D objects with clearer albedo textures, smoother surfaces, enhanced realism, and superior relighting capabilities. | 翻訳日:2024-07-17 02:34:28 公開日:2024-07-13 |
# LatentEditor: 3Dシーンのテキスト駆動ローカル編集
LatentEditor: Text Driven Local Editing of 3D Scenes ( http://arxiv.org/abs/2312.09313v4 ) ライセンス: Link先を確認 | Umar Khalid, Hasan Iqbal, Nazmul Karim, Jing Hua, Chen Chen, | (参考訳) ニューラルフィールドは、ビュー合成とシーン再構成において大きな進歩を遂げてきたが、それらの編集は、多視点入力からの幾何学やテクスチャ情報の暗黙的なエンコーディングのために、非常に難しい課題となっている。
本稿では,テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集をユーザに提供する,革新的なフレームワークである‘textsc{LatentEditor} を紹介する。
拡散モデルを活用することで、現実のシーンを潜在空間に埋め込むことで、従来の方法に比べて高速で適応性の高いNeRFバックボーンが得られる。
編集精度を向上させるため,非関連領域を保存しながら局所修正のためのガイドとして機能する潜伏空間の2次元マスクを計算するデルタスコアを導入する。
InstructPix2Pix (IP2P) のパワーを利用して, 遅延空間におけるIP2P条件と非条件雑音の差を識別する。
2Dマスクに調整された被写体は、トレーニングセットで反復的に更新され、3Dローカル編集が達成される。
提案手法は,既存の3D編集モデルに比べて高速な編集速度と出力品質を実現し,テキスト命令と高品質な3Dシーン編集とのギャップを埋める。
LLFF,IN2N,NeRFStudio,NeRF-Artの4つのベンチマーク3Dデータセットに対するアプローチの優位性を示す。
Project Page: https://latenteditor.github.io/
While neural fields have made significant strides in view synthesis and scene reconstruction, editing them poses a formidable challenge due to their implicit encoding of geometry and texture information from multi-view inputs. In this paper, we introduce \textsc{LatentEditor}, an innovative framework designed to empower users with the ability to perform precise and locally controlled editing of neural fields using text prompts. Leveraging denoising diffusion models, we successfully embed real-world scenes into the latent space, resulting in a faster and more adaptable NeRF backbone for editing compared to traditional methods. To enhance editing precision, we introduce a delta score to calculate the 2D mask in the latent space that serves as a guide for local modifications while preserving irrelevant regions. Our novel pixel-level scoring approach harnesses the power of InstructPix2Pix (IP2P) to discern the disparity between IP2P conditional and unconditional noise predictions in the latent space. The edited latents conditioned on the 2D masks are then iteratively updated in the training set to achieve 3D local editing. Our approach achieves faster editing speeds and superior output quality compared to existing 3D editing models, bridging the gap between textual instructions and high-quality 3D scene editing in latent space. We show the superiority of our approach on four benchmark 3D datasets, LLFF, IN2N, NeRFStudio and NeRF-Art. Project Page: https://latenteditor.github.io/ | 翻訳日:2024-07-17 02:34:28 公開日:2024-07-13 |
# 野生における機械学習のテストに関する実証的研究
An empirical study of testing machine learning in the wild ( http://arxiv.org/abs/2312.12604v2 ) ライセンス: Link先を確認 | Moses Openja, Foutse Khomh, Armstrong Foundjem, Zhen Ming, Jiang, Mouna Abidi, Ahmed E. Hassan, | (参考訳) 近年,機械学習とディープラーニング(ML/DL)アルゴリズムが多くのソフトウェアシステムで採用されている。
インダクティブな性質のため、これらのシステムの品質を保証することは、研究コミュニティにとって重要な課題である。
明示的なルールを書くことによって演能的に作られた従来のソフトウェアとは異なり、ML/DLシステムはトレーニングデータからルールを推論する。
ML/DLの品質保証に関する最近の研究は、信頼性を向上させるために、突然変異テストのような従来のソフトウェアテストの概念を適用している。
しかし、これらの提案されたテスト技術が実際に採用されているのか、あるいは、現実のMLデプロイメントから新しいテスト戦略が現れたのかは不明だ。
テスト戦略に関する実証的な証拠はほとんどありません。
このギャップを埋めるために、私たちは、テスト中のMLプロパティ、テスト戦略、およびMLワークフロー全体を通しての実装を特定するために、世界で初めて、MLテストに関する詳細な実証的研究を行います。
我々はMLソフトウェアテストの実践を理解するために混合方法論の研究を行った。
GitHub上の11のオープンソースML/DLプロジェクトのテストファイルとケースを分析した。
オープンコーディングを用いて,テスト戦略を手作業で検証し,ML/DLソフトウェアシステムの構築・リリースにおける実践的応用を理解するためのテスト手法を実装した。
私たちの発見は、いくつかの重要な洞察を浮き彫りにした。
1.) 最も一般的なテスト戦略はGrey-boxメソッドとWhite-boxメソッドです。
2) 幅広い17のMLプロパティがテストされ、そのうち20%から30%しか頻繁にテストされない。
3. バイアスと公正性は勧告においてよりテストされ、セキュリティとプライバシはコンピュータビジョン(CV)システム、アプリケーションプラットフォーム、自然言語処理(NLP)システムでテストされる。
Recently, machine and deep learning (ML/DL) algorithms have been increasingly adopted in many software systems. Due to their inductive nature, ensuring the quality of these systems remains a significant challenge for the research community. Unlike traditional software built deductively by writing explicit rules, ML/DL systems infer rules from training data. Recent research in ML/DL quality assurance has adapted concepts from traditional software testing, such as mutation testing, to improve reliability. However, it is unclear if these proposed testing techniques are adopted in practice, or if new testing strategies have emerged from real-world ML deployments. There is little empirical evidence about the testing strategies. To fill this gap, we perform the first fine-grained empirical study on ML testing in the wild to identify the ML properties being tested, the testing strategies, and their implementation throughout the ML workflow. We conducted a mixed-methods study to understand ML software testing practices. We analyzed test files and cases from 11 open-source ML/DL projects on GitHub. Using open coding, we manually examined the testing strategies, tested ML properties, and implemented testing methods to understand their practical application in building and releasing ML/DL software systems. Our findings reveal several key insights: 1.) The most common testing strategies, accounting for less than 40%, are Grey-box and White-box methods, such as Negative Testing, Oracle Approximation and Statistical Testing. 2.) A wide range of 17 ML properties are tested, out of which only 20% to 30% are frequently tested, including Consistency, Correctness}, and Efficiency. 3.) Bias and Fairness is more tested in Recommendation, while Security & Privacy is tested in Computer Vision (CV) systems, Application Platforms, and Natural Language Processing (NLP) systems. | 翻訳日:2024-07-17 02:24:41 公開日:2024-07-13 |
# データ不均一性を考慮した効率的なコンフォーマル予測
Efficient Conformal Prediction under Data Heterogeneity ( http://arxiv.org/abs/2312.15799v2 ) ライセンス: Link先を確認 | Vincent Plassier, Nikita Kotelevskii, Aleksandr Rubashevskii, Fedor Noskov, Maksim Velikanov, Alexander Fishkov, Samuel Horvath, Martin Takac, Eric Moulines, Maxim Panov, | (参考訳) コンフォーマル予測(CP)は不確実性定量化のための堅牢な枠組みであり、予測の信頼性を確保するために重要である。
しかし、CPの一般的な手法はデータ交換可能性に大きく依存している。
非交換性に対処するための既存のアプローチは、最も単純な例を超えて計算不可能なメソッドにつながる。
この研究は、比較的一般的な非交換可能なデータ分布に対して証明可能な信頼セットを生成する、CPに新しい効率的なアプローチを導入する。
本稿では,エージェント間のデータ不均一性の下でのフェデレート学習の挑戦的設定への一般理論の適用について説明する。
本手法では, エージェントの個人化予測セットを, 完全にフェデレートされた方法で構築することができる。
提案手法の有効性は実世界のデータセットに関する一連の実験で実証された。
Conformal Prediction (CP) stands out as a robust framework for uncertainty quantification, which is crucial for ensuring the reliability of predictions. However, common CP methods heavily rely on data exchangeability, a condition often violated in practice. Existing approaches for tackling non-exchangeability lead to methods that are not computable beyond the simplest examples. This work introduces a new efficient approach to CP that produces provably valid confidence sets for fairly general non-exchangeable data distributions. We illustrate the general theory with applications to the challenging setting of federated learning under data heterogeneity between agents. Our method allows constructing provably valid personalized prediction sets for agents in a fully federated way. The effectiveness of the proposed method is demonstrated in a series of experiments on real-world datasets. | 翻訳日:2024-07-17 02:24:41 公開日:2024-07-13 |
# 古典光学におけるシステム間非分離性とCHSHセル振動
Intersystem Non-separability and CHSH-Bell Violations in Classical Optics ( http://arxiv.org/abs/2401.01615v2 ) ライセンス: Link先を確認 | Partha Ghose, | (参考訳) 古典的な光学状態である 'intersystem non separable' と $\phi^+$ Bell 状態の類似性を生成する方法が提案されている。
CHSH-ベル不等式の導出は古典偏光光学の枠組みの中でスケッチされ、分解可能な状態に対する非コンテキスト性は、隠れた変数理論ではなく公理として用いられる。
古典国家はこの不平等を犯している。
A method is proposed to produce a classical optical state that is `intersystem nonseparable' and a close analog of the $\phi^+$ Bell state. A derivation of the CHSH-Bell inequality is sketched within the framework of classical polarization optics, using non-contextuality for factorizable states as an axiom rather than any hidden variable theory. It is shown that the classical state violates this inequality. | 翻訳日:2024-07-17 02:24:41 公開日:2024-07-13 |
# 遺伝子多光子量子相関のための光子融合の定量化
Quantification of Photon Fusion for Genuine Multiphoton Quantum Correlations ( http://arxiv.org/abs/2401.03860v3 ) ライセンス: Link先を確認 | Sheng-Yan Sun, Yu-Cheng Li, Shih-Hsuan Chen, Kuan-Jou Wang, Ching-Jui Huang, Tung-Ju Tsai, Wei-Ting Kao, Tzu-Liang Hsu, Che-Ming Li, | (参考訳) 融合光子対は、2つの2光子振幅が同じ結合光検出イベントに寄与する不明瞭性が存在するアリーナを生成する。
この2光子干渉は、受動的からスケーラブルな生成から、バルク光学からチップスケールの実装まで、多光子絡み込みの生成に広く利用されている。
重要なことではあるが、光子融合の完全な能力が量子実体のように完全に定量化できるという実験的な証拠は存在しない。
ここでは、実験光子融合の最初の完全能率定量化を示す。
実験における光子融合の全能力を忠実に測定し, 絡み合った光子対を創り, 保存する。
自発パラメトリックダウンコンバージョンエンタングルメント源を用いた4光および6光子エンタングルド状態により、実光子エンタングルメントとアインシュタイン・ポドルスキー・ローゼンステアリングを生成するための干渉計を忠実に評価できることを示す。
これらの結果は、一般的な量子フォトニクスデバイスやネットワークにおけるプリミティブ操作の根底にある光子融合をベンチマークする実用的な診断方法を明らかにする。
Fusing photon pairs creates an arena where indistinguishability can exist between two two-photon amplitudes contributing to the same joint photodetection event. This two-photon interference has been extensively utilized in creating multiphoton entanglement, from passive to scalable generation, from bulk-optical to chip-scale implementations. While significant, no experimental evidence exists that the full capability of photon fusion can be utterly quantified like a quantum entity. Herein, we demonstrate the first complete capability quantification of experimental photon fusion. Our characterization faithfully measures the whole abilities of photon fusion in the experiment to create and preserve entangled photon pairs. With the created four- and six-photon entangled states using spontaneous parametric down-conversion entanglement sources, we show that capability quantification provides a faithful assessment of interferometry for generating genuine multiphoton entanglement and Einstein-Podolsky-Rosen steering. These results reveal a practical diagnostic method to benchmark photon fusion underlying the primitive operations in general quantum photonics devices and networks. | 翻訳日:2024-07-17 02:14:47 公開日:2024-07-13 |
# 知識機能を組み込んだプロンプト学習によるソースコード分類の有効性向上
Enhancing Source Code Classification Effectiveness via Prompt Learning Incorporating Knowledge Features ( http://arxiv.org/abs/2401.05544v2 ) ライセンス: Link先を確認 | Yong Ma, Senlin Luo, Yu-Ming Shang, Yifei Zhang, Zhengjun Li, | (参考訳) 研究者は、CodeBERTのような事前訓練された言語モデルを活用して、ソースコード関連のタスクを強化する可能性を調査している。
従来の手法では、CodeBERTの'[CLS]'トークンをタスクパフォーマンスのための入力シーケンスの埋め込み表現として利用しており、特徴表現を強化するために追加のニューラルネットワーク層が必要であるため、計算コストが増大している。
これらのアプローチは、ソースコードと関連するテキストに固有の包括的な知識を十分に活用することができず、分類の有効性を制限している可能性がある。
我々は,事前学習したモデルから,入力シーケンスに関連する豊富な知識を抽出し,付加的なレイヤの必要性を排除し,計算コストを下げるためのテキスト分類手法であるCodeClassPromptを提案する。
注意機構を適用することで、タスク固有の特徴に多層的知識を合成し、分類精度を向上する。
ソースコード関連タスクを4つに分けて総合的に実験した結果,CodeClassPromptは計算オーバーヘッドを大幅に削減し,競争性能を向上することがわかった。
Researchers have investigated the potential of leveraging pre-trained language models, such as CodeBERT, to enhance source code-related tasks. Previous methodologies have relied on CodeBERT's '[CLS]' token as the embedding representation of input sequences for task performance, necessitating additional neural network layers to enhance feature representation, which in turn increases computational expenses. These approaches have also failed to fully leverage the comprehensive knowledge inherent within the source code and its associated text, potentially limiting classification efficacy. We propose CodeClassPrompt, a text classification technique that harnesses prompt learning to extract rich knowledge associated with input sequences from pre-trained models, thereby eliminating the need for additional layers and lowering computational costs. By applying an attention mechanism, we synthesize multi-layered knowledge into task-specific features, enhancing classification accuracy. Our comprehensive experimentation across four distinct source code-related tasks reveals that CodeClassPrompt achieves competitive performance while significantly reducing computational overhead. | 翻訳日:2024-07-17 02:14:47 公開日:2024-07-13 |
# 障害型スピン鎖におけるオペレータ成長 : 多体局在の欠如を示唆する指標
Operator Growth in Disordered Spin Chains: Indications for the Absence of Many-Body Localization ( http://arxiv.org/abs/2401.08031v3 ) ライセンス: Link先を確認 | A. Weisse, R. Gerstner, J. Sirker, | (参考訳) 一次元多体系における局所作用素$A$の成長は、ハミルトニアン$H$で、$k$折り畳み式$[H,[H,[...,[H,A]]]を計算して考える。
我々は、自由かつ相互作用するフェルミオン系におけるこの可換作用素の作用素ノルムに対する一般境界を導出する。
特に、局所化系において、ノルムは最も指数関数的に成長し、全ノルムに対する作用素の寄与はその長さで指数関数的に抑制されることを示す。
ランダム磁場を持つXXZ鎖の具体例を1つ検討することにより、一般結果を支援する。
XXの場合の演算子は、正確には障害なく拡散する。
Anderson と Aubry-Andr\e のモデルに対して、厳密な上限を与える。
コンピュテータの記号計算を高次まで支援する。
ランダム磁場を持つ XXX の場合、これらの記号計算は指数関数よりも早く作用素ノルムが成長し、エルゴード系に対する一般境界と一致することを示す。
また、その長さの関数として作用素の寄与が指数関数的に崩壊することはない。
我々は多体局在遷移の兆候はないと結論づける。
最後に、連続シュリーファー・ヴォルフ変換による局所保存電荷の有効ハミルトニアンに顕微鏡を摂動変換しようとする場合、相互作用するケースと非相互作用するケースの違いについても論じる。
このようなアプローチは相互作用の場合において十分に定義されていないのは、変換がサイトを接続する$\sim 4^\ell$項を生成するためであり、各項の振幅の$\ell$で指数減衰を圧倒することができるからである。
We consider the growth of a local operator $A$ in one-dimensional many-body systems with Hamiltonian $H$ by calculating the $k$-fold commutator $[H,[H,[...,[H,A]]]]$. We derive general bounds for the operator norm of this commutator in free and interacting fermionic systems with and without disorder thus directly connecting the {\it operator growth hypothesis} with questions of localization. We show, in particular, that in a localized system the norm does grow at most exponentially and that the contributions of operators to the total norm are exponentially suppressed with their length. We support our general results by considering one specific example, the XXZ chain with random magnetic fields. We solve the operator spreading in the XX case without disorder exactly. For the Anderson and Aubry-Andr\'e models we provide strict upper bounds. We support our results by symbolic calculations of the commutator up to high orders. For the XXX case with random magnetic fields, these symbolic calculations show a growth of the operator norm faster than exponential and consistent with the general bound for an ergodic system. Also, there is no exponential decay of the contribution of operators as function of their length. We conclude that there is no indication for a many-body localization transition. Finally, we also discuss the differences between the interacting and non-interacting cases when trying to perturbatively transform the microscopic to an effective Hamiltonian of local conserved charges by consecutive Schrieffer-Wolff transformations. We find that such an approach is not well-defined in the interacting case because the transformation generates $\sim 4^\ell$ terms connecting sites a distance $\ell$ apart which can overwhelm the exponential decay with $\ell$ of the amplitude of each individual term. | 翻訳日:2024-07-17 02:14:47 公開日:2024-07-13 |
# 未知のカテゴリの3次元形状補完:弱教師付きアプローチ
3D Shape Completion on Unseen Categories:A Weakly-supervised Approach ( http://arxiv.org/abs/2401.10578v2 ) ライセンス: Link先を確認 | Lintai Wu, Junhui Hou, Linqi Song, Yong Xu, | (参考訳) スキャン装置が捉えた3D形状は、閉塞のため不完全であることが多い。
この限界に対処するために3次元形状補完法が検討されている。
しかし、これらの手法のほとんどは、カテゴリのサブセットでのみ訓練され、テストされ、その結果、目に見えないカテゴリへの一般化が不十分になる。
本稿では,未確認のカテゴリから完全な形状を再構築する,弱教師付きフレームワークを提案する。
まず,各カテゴリから得られたデータを利用して粗い形状を推定する,エンドツーエンドの事前支援型形状学習ネットワークを提案する。
具体的には、これらのカテゴリから代表的な形状からなる先行バンクを構築する。
そこで我々は,入力内の局所パターンと先行パターンとの相関関係を様々なスケールで解析することにより,入力の完全な形状を学習するマルチスケールパターン相関モジュールを設計する。
さらに, 粗い形状をさらに洗練させるために, 自己教師型形状改善モデルを提案する。
カテゴリごとの3次元物体の形状変化を考慮し, 形状改善を容易にするために, カテゴリ固有の先行バンクを構築した。
次に, ボクセルによる部分的マッチング損失を考案し, 部分的スキャンを活用し, 精製過程を推し進める。
その結果,本手法は最先端手法よりも大きなマージンで優れていることがわかった。
3D shapes captured by scanning devices are often incomplete due to occlusion. 3D shape completion methods have been explored to tackle this limitation. However, most of these methods are only trained and tested on a subset of categories, resulting in poor generalization to unseen categories. In this paper, we introduce a novel weakly-supervised framework to reconstruct the complete shapes from unseen categories. We first propose an end-to-end prior-assisted shape learning network that leverages data from the seen categories to infer a coarse shape. Specifically, we construct a prior bank consisting of representative shapes from the seen categories. Then, we design a multi-scale pattern correlation module for learning the complete shape of the input by analyzing the correlation between local patterns within the input and the priors at various scales. In addition, we propose a self-supervised shape refinement model to further refine the coarse shape. Considering the shape variability of 3D objects across categories, we construct a category-specific prior bank to facilitate shape refinement. Then, we devise a voxel-based partial matching loss and leverage the partial scans to drive the refinement process. Extensive experimental results show that our approach is superior to state-of-the-art methods by a large margin. | 翻訳日:2024-07-17 02:14:47 公開日:2024-07-13 |
# DeCoF:フレーム一貫性による生成ビデオ検出:最初のベンチマークデータセット
DeCoF: Generated Video Detection via Frame Consistency: The First Benchmark Dataset ( http://arxiv.org/abs/2402.02085v5 ) ライセンス: Link先を確認 | Long Ma, Jiajia Zhang, Hongping Deng, Ningyu Zhang, Qinglang Guo, Haiyang Yu, Yong Liao, Pengyuan Zhou, | (参考訳) 高度なビデオ生成手法によって生成されたビデオの品質が向上すると、新たなセキュリティ上の課題がもたらされるが、関連する研究成果はほとんどない。
1)生成したビデオ検出のためのオープンソースデータセットは存在しない。
2) これまでに生成した映像検出手法は提案されていない。
そこで本研究では,生成したビデオのオープンソースデータセットと検出方法を初めて提案する。
まず、964プロンプトからなるスケーラブルなデータセットを提案し、さまざまなフォージェリターゲット、シーン、振る舞い、アクションに加えて、OpenAIのSoraやGoogleのVeoといった最もポピュラーな商用モデルを含む、さまざまなアーキテクチャと生成メソッドを備えたさまざまな世代モデルをカバーしています。
第二に、空間的人工物に基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
そこで,本稿では,特徴学習における空間的アーティファクトの影響を排除し,時間的アーティファクトに着目した,簡易かつ効果的な \textbf{de} 決定モデルを提案する。
大規模な実験は、目に見えないビデオ生成モデルによって生成されたビデオの検出におけるDeCoFの有効性を実証し、その強力な一般化性を複数の商用プロプライエタリなモデルで確認する。
コードとデータセットは \url{https://github.com/wuwuuuuyue/DeCoF} でリリースされます。
The escalating quality of video generated by advanced video generation methods results in new security challenges, while there have been few relevant research efforts: 1) There is no open-source dataset for generated video detection, 2) No generated video detection method has been proposed so far. To this end, we propose an open-source dataset and a detection method for generated video for the first time. First, we propose a scalable dataset consisting of 964 prompts, covering various forgery targets, scenes, behaviors, and actions, as well as various generation models with different architectures and generation methods, including the most popular commercial models like OpenAI's Sora and Google's Veo. Second, we found via probing experiments that spatial artifact-based detectors lack generalizability. Hence, we propose a simple yet effective \textbf{de}tection model based on \textbf{f}rame \textbf{co}nsistency (\textbf{DeCoF}), which focuses on temporal artifacts by eliminating the impact of spatial artifacts during feature learning. Extensive experiments demonstrate the efficacy of DeCoF in detecting videos generated by unseen video generation models and confirm its powerful generalizability across several commercially proprietary models. Our code and dataset will be released at \url{https://github.com/wuwuwuyue/DeCoF}. | 翻訳日:2024-07-17 02:05:02 公開日:2024-07-13 |
# SpecFormer:最大特異値ペナリゼーションによるガードングビジョントランスフォーマーロバストネス
SpecFormer: Guarding Vision Transformer Robustness via Maximum Singular Value Penalization ( http://arxiv.org/abs/2402.03317v2 ) ライセンス: Link先を確認 | Xixu Hu, Runkai Zheng, Jindong Wang, Cheuk Hang Leung, Qi Wu, Xing Xie, | (参考訳) ビジョントランスフォーマー(ViT)は、ハイパフォーマンスのため、コンピュータビジョンでの利用が増えているが、敵攻撃に対する脆弱性が懸念されている。
既存の手法は、主に経験的トレーニングの調整に焦点を当てた、しっかりとした理論的な基礎を欠いている。
本研究は, 敵攻撃に対するViTsの強化に適したSpecFormerを導入し, 理論的基盤となる。
我々は、自己注意層に対する局所的なリプシッツ境界を確立し、これらの境界を正確に管理するための最大特異値ペナル化(MSVP)を提案し、MSVPをViTの注意層に組み込むことにより、トレーニング効率を損なうことなくモデルの堅牢性を高める。
結果のモデルであるSpecFormerは、CIFARとImageNetデータセットの実験によって証明されたように、敵攻撃に対する防御において、他の最先端モデルよりも優れています。
コードはhttps://github.com/microsoft/robustlearn.comで公開されている。
Vision Transformers (ViTs) are increasingly used in computer vision due to their high performance, but their vulnerability to adversarial attacks is a concern. Existing methods lack a solid theoretical basis, focusing mainly on empirical training adjustments. This study introduces SpecFormer, tailored to fortify ViTs against adversarial attacks, with theoretical underpinnings. We establish local Lipschitz bounds for the self-attention layer and propose the Maximum Singular Value Penalization (MSVP) to precisely manage these bounds By incorporating MSVP into ViTs' attention layers, we enhance the model's robustness without compromising training efficiency. SpecFormer, the resulting model, outperforms other state-of-the-art models in defending against adversarial attacks, as proven by experiments on CIFAR and ImageNet datasets. Code is released at https://github.com/microsoft/robustlearn. | 翻訳日:2024-07-17 02:05:02 公開日:2024-07-13 |
# 部分確率的無限深部ベイズニューラルネットワーク
Partially Stochastic Infinitely Deep Bayesian Neural Networks ( http://arxiv.org/abs/2402.03495v4 ) ライセンス: Link先を確認 | Sergio Calvo-Ordonez, Matthieu Meunier, Francesco Piatti, Yuantao Shi, | (参考訳) 本稿では、無限深度ニューラルネットワークの枠組みに部分確率性を統合する新しいアーキテクチャ群である、部分確率 Infinitely Deep Bayesian Neural Networksを提案する。
我々の新しいアーキテクチャのクラスは、既存のアーキテクチャのトレーニングや推論時の計算効率を改善するために設計されています。
これを実現するために, 完全確率性 e g 頑健性, 不確実性定量化, メモリ効率の利点を含む無限深度限界における部分確率性の利点を活用するとともに, 計算複雑性に関する限界を改善する。
重み分割のための様々な方法を含む,ネットワーク設計における柔軟性を提供する,さまざまなアーキテクチャ構成を提案する。
また,我々のネットワークファミリーがUniversal Conditional Distribution Approximatorに該当することを確立することにより,モデル表現性に関する数学的保証も提供する。
最後に、複数のタスクに対する実証的な評価により、提案したアーキテクチャは、ダウンストリームタスクのパフォーマンスと不確かさの定量化を、より効果的に達成できることを示す。
コードは \url{https://github.com/Sergio20f/part_stoch_inf_deep} で見ることができる。
In this paper, we present Partially Stochastic Infinitely Deep Bayesian Neural Networks, a novel family of architectures that integrates partial stochasticity into the framework of infinitely deep neural networks. Our new class of architectures is designed to improve the computational efficiency of existing architectures at training and inference time. To do this, we leverage the advantages of partial stochasticity in the infinite-depth limit which include the benefits of full stochasticity e.g. robustness, uncertainty quantification, and memory efficiency, whilst improving their limitations around computational complexity. We present a variety of architectural configurations, offering flexibility in network design including different methods for weight partition. We also provide mathematical guarantees on the expressivity of our models by establishing that our network family qualifies as Universal Conditional Distribution Approximators. Lastly, empirical evaluations across multiple tasks show that our proposed architectures achieve better downstream task performance and uncertainty quantification than their counterparts while being significantly more efficient. The code can be found at \url{https://github.com/Sergio20f/part_stoch_inf_deep} | 翻訳日:2024-07-17 02:05:02 公開日:2024-07-13 |
# Mamba-ND:多次元データのための選択状態空間モデリング
Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data ( http://arxiv.org/abs/2402.05892v5 ) ライセンス: Link先を確認 | Shufan Li, Harkanwar Singh, Aditya Grover, | (参考訳) 近年、トランスフォーマーはテキストや画像やビデオなどの多次元データを用いたシーケンスモデリングのためのデファクトアーキテクチャとなっている。
しかし、Transformerにおける自己アテンション層の使用は、シーケンス長の4次スケールの計算とメモリの複雑さを禁止している。
状態空間モデルに基づく最近のアーキテクチャであるMambaは、シーケンス長と線形にスケーリングしながら、テキストシーケンスをモデル化するための同等のパフォーマンスを実現することが示されている。
本研究では,マンバアーキテクチャを任意の多次元データに拡張した汎用設計であるマンバ-NDを提案する。
我々の設計では、行長の順序に従って異なる次元の入力データを抽出する。
我々は,2方向LSTMやS4NDといった先行的多次元拡張に基づいて,Mamba-NDを他の代替品と体系的に比較する。
実験により,Mamba-NDは,ImageNet-1K分類,HMDB-51行動認識,ERA5天気予報など,多次元のベンチマークにおいて,最先端技術との競合性を実証した。
In recent years, Transformers have become the de-facto architecture for sequence modeling on text and a variety of multi-dimensional data, such as images and video. However, the use of self-attention layers in a Transformer incurs prohibitive compute and memory complexity that scales quadratically w.r.t. the sequence length. A recent architecture, Mamba, based on state space models has been shown to achieve comparable performance for modeling text sequences, while scaling linearly with the sequence length. In this work, we present Mamba-ND, a generalized design extending the Mamba architecture to arbitrary multi-dimensional data. Our design alternatively unravels the input data across different dimensions following row-major orderings. We provide a systematic comparison of Mamba-ND with several other alternatives, based on prior multi-dimensional extensions such as Bi-directional LSTMs and S4ND. Empirically, we show that Mamba-ND demonstrates performance competitive with the state-of-the-art on a variety of multi-dimensional benchmarks, including ImageNet-1K classification, HMDB-51 action recognition, and ERA5 weather forecasting. | 翻訳日:2024-07-17 02:05:02 公開日:2024-07-13 |
# トリプルエンコーダ:一緒に火を放ち、一緒に結ぶ表現
Triple-Encoders: Representations That Fire Together, Wire Together ( http://arxiv.org/abs/2402.12332v2 ) ライセンス: Link先を確認 | Justus-Jonas Erker, Florian Mai, Nils Reimers, Gerasimos Spanakis, Iryna Gurevych, | (参考訳) 検索ベースのダイアログモデルは通常、すべてのターンでダイアログ履歴を再エンコードし、高いコストを発生させる。
音声間の相対的距離をバイエンコーダで符号化する表現学習法であるCurved Contrastive Learningは,最近,対話モデリングにおいて,はるかに優れた効率で有望な結果を示した。
高効率は独立して発話を符号化することで達成されるが、これは文脈化の重要性を無視する。
そこで本研究では,これら独立に符号化された発話からの分散発話混合物を,局所的な相互作用によってのみ重みを使わずに,新規なヘビアンにインスパイアされた共起学習目標を自己組織的に効率的に計算する三重エンコーダを提案する。
経験的に、トリプルエンコーダはバイエンコーダよりも大幅に改善され、また再エンコーダを必要としない単一ベクトル表現モデルよりもゼロショットの一般化も改善される。
私たちのコード(https://github.com/UKPLab/acl2024-triple-encoders)とモデル(https://huggingface.co/UKPLab/triple-encoders-dailydialog)が公開されています。
Search-based dialog models typically re-encode the dialog history at every turn, incurring high cost. Curved Contrastive Learning, a representation learning method that encodes relative distances between utterances into the embedding space via a bi-encoder, has recently shown promising results for dialog modeling at far superior efficiency. While high efficiency is achieved through independently encoding utterances, this ignores the importance of contextualization. To overcome this issue, this study introduces triple-encoders, which efficiently compute distributed utterance mixtures from these independently encoded utterances through a novel hebbian inspired co-occurrence learning objective in a self-organizing manner, without using any weights, i.e., merely through local interactions. Empirically, we find that triple-encoders lead to a substantial improvement over bi-encoders, and even to better zero-shot generalization than single-vector representation models without requiring re-encoding. Our code (https://github.com/UKPLab/acl2024-triple-encoders) and model (https://huggingface.co/UKPLab/triple-encoders-dailydialog) are publicly available. | 翻訳日:2024-07-17 01:55:15 公開日:2024-07-13 |
# 再構成可能なインテリジェント表面を用いた空間領域無線ジャミング
Spatial-Domain Wireless Jamming with Reconfigurable Intelligent Surfaces ( http://arxiv.org/abs/2402.13773v2 ) ライセンス: Link先を確認 | Philipp Mackensen, Paul Staat, Stefan Roth, Aydin Sezgin, Christof Paar, Veelasha Moonsamy, | (参考訳) 無線通信インフラは現代のデジタル社会の基盤だが、無線妨害の脅威に弱い。
攻撃者は、正常な信号を覆い隠すために容易に電波干渉を発生させ、サービス停止につながる。
無線信号伝搬のブロードキャストの性質は、そもそもそのような攻撃を可能としているが、同時に攻撃者には課題を生じさせる: 妨害信号は被害者のデバイスだけでなく、近隣のデバイスにも届き、正確な攻撃を阻止する。
本研究では,新しいRIS技術を活用して,ジャミング信号の正確な配信を初めて行うことで,この問題を解決する。
特に,無線ジャミング信号の環境適応型空間制御を可能とし,ジャミング攻撃を行うための新たな自由度を与える手法を提案する。
本研究では,この手法を広範囲な実験により検討し,隣接するデバイスに影響を与えないまま,一方または複数の被害者デバイスの無線通信を無効化できることを実証する。
我々はWi-Fiデバイスを完全に否定する一方、5mm近い距離にある第2のデバイスは影響を受けず、25Mbit/sのデータレートで無線通信を継続する。
最後に、RISをベースとした空間領域無線妨害攻撃を阻止する潜在的な対策を提案する。
Wireless communication infrastructure is a cornerstone of modern digital society, yet it remains vulnerable to the persistent threat of wireless jamming. Attackers can easily create radio interference to overshadow legitimate signals, leading to denial of service. The broadcast nature of radio signal propagation makes such attacks possible in the first place, but at the same time poses a challenge for the attacker: The jamming signal does not only reach the victim device but also other neighboring devices, preventing precise attack targeting. In this work, we solve this challenge by leveraging the emerging RIS technology, for the first time, for precise delivery of jamming signals. In particular, we propose a novel approach that allows for environment-adaptive spatial control of wireless jamming signals, granting a new degree of freedom to perform jamming attacks. We explore this novel method with extensive experimentation and demonstrate that our approach can disable the wireless communication of one or multiple victim devices while leaving neighboring devices unaffected. Notably, our method extends to challenging scenarios where wireless devices are very close to each other: We demonstrate complete denial-of-service of a Wi-Fi device while a second device located at a distance as close as 5 mm remains unaffected, sustaining wireless communication at a data rate of 25 Mbit/s. Lastly, we conclude by proposing potential countermeasures to thwart RIS-based spatial domain wireless jamming attacks. | 翻訳日:2024-07-17 01:55:15 公開日:2024-07-13 |
# ChunkAttention: プリフィックス対応KVキャッシュと2相分割による効率的なセルフアテンション
ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition ( http://arxiv.org/abs/2402.15220v3 ) ライセンス: Link先を確認 | Lu Ye, Ze Tao, Yong Huang, Yang Li, | (参考訳) 自己注意は、大規模言語モデル(LLM)の重要なコンポーネントであるが、長いシーケンスに対する推論遅延の重要な原因である。
マルチテナント LLM サービスシナリオでは、複数の LLM 要求がプレフィックス内で共有システムプロンプトを持つ確率を用いて、自己アテンションの計算とメモリ操作のコストを最適化することができる。
本稿では,複数の要求にまたがる一致したプロンプトプレフィックスを検出し,そのキー/値テンソルを実行時にメモリ上で共有し,KVキャッシュのメモリ使用率を向上させるための,プレフィックス対応セルフアテンションモジュールであるChunkAttentionを紹介する。
これは、モノリシックなキー/値テンソルを小さなチャンクに分割し、それらを補助的なプレフィックスツリーに構造化することで実現される。
その結果,プレフィックスツリーをベースとしたKVキャッシュ上に,2相分割アルゴリズムを実装した効率的な自己アテンションカーネルを設計し,共有システムプロンプトが存在する場合の自己アテンション計算におけるデータの局所性を改善する。
実験の結果、ChunkAttentionは1024年から4096年までのシステムプロンプトで、最先端の実装と比較して3.2-4.8$\times$を高速化できることがわかった。
Self-attention is an essential component of large language models (LLM) but a significant source of inference latency for long sequences. In multi-tenant LLM serving scenarios, the compute and memory operation cost of self-attention can be optimized by using the probability that multiple LLM requests have shared system prompts in prefixes. In this paper, we introduce ChunkAttention, a prefix-aware self-attention module that can detect matching prompt prefixes across multiple requests and share their key/value tensors in memory at runtime to improve the memory utilization of KV cache. This is achieved by breaking monolithic key/value tensors into smaller chunks and structuring them into the auxiliary prefix tree. Consequently, on top of the prefix-tree based KV cache, we design an efficient self-attention kernel, where a two-phase partition algorithm is implemented to improve the data locality during self-attention computation in the presence of shared system prompts. Experiments show that ChunkAttention can speed up the self-attention kernel by 3.2-4.8$\times$ compared to the start-of-the-art implementation, with the length of the system prompt ranging from 1024 to 4096. | 翻訳日:2024-07-17 01:55:15 公開日:2024-07-13 |
# 画像圧縮に先立ってセグメンテーションを用いた領域適応変換
Region-Adaptive Transform with Segmentation Prior for Image Compression ( http://arxiv.org/abs/2403.00628v3 ) ライセンス: Link先を確認 | Yuxi Liu, Wenhan Yang, Huihui Bai, Yunchao Wei, Yao Zhao, | (参考訳) Learned Image Compression (LIC)は近年顕著な進歩を見せている。
既存の作業では、圧縮の変換方法としてCNNベースのモジュールや自己アテンションベースのモジュールが一般的である。
しかし、特定の領域に焦点を当てたニューラルトランスフォーメーションに関する以前の研究はない。
そこで本研究では,地域適応型文脈情報抽出のための分類非依存セグメンテーションマスク(カテゴリーラベルのないセグメンテーションマスク)を提案する。
提案モジュールであるRerea-Adaptive Transformは,マスクによって導かれる異なる領域に適応的な畳み込みを適用する。
さらに,様々な領域のリッチなコンテキストを組み込むために,Scale Affine Layerというプラグイン・アンド・プレイモジュールを導入する。
セグメンテーションマスクを追加の中間入力として用いた画像圧縮作業は,これまで行われてきたが,本手法とは大きく異なる。
我々の利点は、余分なビットレートオーバーヘッドを避けるために、これらのマスクを特権情報として扱い、モデルトレーニング段階ではアクセス可能であるが、推論フェーズでは不要である。
我々の知る限り、我々は初めて特権情報としてクラス非依存マスクを採用し、Pak Signal to Noise Ratio (PSNR) などの画素忠実度測定において優れた性能を達成した。
実験の結果,VTM-17.0に比べて約8.2%のビットレート保存が可能であった。
ソースコードはhttps://github.com/GityuxiLiu/SegPIC-for-Image-Compressionで公開されている。
Learned Image Compression (LIC) has shown remarkable progress in recent years. Existing works commonly employ CNN-based or self-attention-based modules as transform methods for compression. However, there is no prior research on neural transform that focuses on specific regions. In response, we introduce the class-agnostic segmentation masks (i.e. semantic masks without category labels) for extracting region-adaptive contextual information. Our proposed module, Region-Adaptive Transform, applies adaptive convolutions on different regions guided by the masks. Additionally, we introduce a plug-and-play module named Scale Affine Layer to incorporate rich contexts from various regions. While there have been prior image compression efforts that involve segmentation masks as additional intermediate inputs, our approach differs significantly from them. Our advantages lie in that, to avoid extra bitrate overhead, we treat these masks as privilege information, which is accessible during the model training stage but not required during the inference phase. To the best of our knowledge, we are the first to employ class-agnostic masks as privilege information and achieve superior performance in pixel-fidelity metrics, such as Peak Signal to Noise Ratio (PSNR). The experimental results demonstrate our improvement compared to previously well-performing methods, with about 8.2% bitrate saving compared to VTM-17.0. The source code is available at https://github.com/GityuxiLiu/SegPIC-for-Image-Compression. | 翻訳日:2024-07-17 01:45:18 公開日:2024-07-13 |
# Android in the Zoo:GUIエージェントのためのアクションのチェーン
Android in the Zoo: Chain-of-Action-Thought for GUI Agents ( http://arxiv.org/abs/2403.02713v2 ) ライセンス: Link先を確認 | Jiwen Zhang, Jihao Wu, Yihua Teng, Minghui Liao, Nuo Xu, Xiao Xiao, Zhongyu Wei, Duyu Tang, | (参考訳) 大きな言語モデル(LLM)は、スマートフォン向けの自律的なGUIエージェントの急増につながり、APIの一連のアクションを予測することによって自然言語によって引き起こされるタスクを完了させる。
タスクは過去の行動や視覚的な観察に大きく依存しているが、既存の研究では、中間のスクリーンショットや画面操作によって実行される意味情報をほとんど考慮していない。
これを解決するために、この研究は、前回のアクション、現在のスクリーン、さらに重要なことは、どのアクションを実行するべきか、選択されたアクションによって導かれる結果について、アクション思考を記述する、Chain-of-Action-Thought (dubed CoAT)を提示する。
我々は,3つの既成LMMのゼロショット設定において,CoATは従来のコンテキストモデルと比較して,動作予測を大幅に改善することを示した。
このラインでの研究をさらに促進するため、我々は18,643のスクリーンアクションペアとチェーン・オブ・アクション・アノテーションを含むAndroid-In-The-Zoo (AitZ) のデータセットを構築した。
AitZデータセット上の1Bモデル(つまりAUTO-UI-base)の微調整は、CogAgent-Chat-18Bでオンパー性能を達成することを示す。
Large language model (LLM) leads to a surge of autonomous GUI agents for smartphone, which completes a task triggered by natural language through predicting a sequence of actions of API. Even though the task highly relies on past actions and visual observations, existing studies typically consider little semantic information carried out by intermediate screenshots and screen operations. To address this, this work presents Chain-of-Action-Thought (dubbed CoAT), which takes the description of the previous actions, the current screen, and more importantly the action thinking of what actions should be performed and the outcomes led by the chosen action. We demonstrate that, in a zero-shot setting upon three off-the-shelf LMMs, CoAT significantly improves the action prediction compared to previous proposed context modeling. To further facilitate the research in this line, we construct a dataset Android-In-The-Zoo (AitZ), which contains 18,643 screen-action pairs together with chain-of-action-thought annotations. Experiments show that fine-tuning a 1B model (i.e. AUTO-UI-base) on our AitZ dataset achieves on-par performance with CogAgent-Chat-18B. | 翻訳日:2024-07-17 01:45:18 公開日:2024-07-13 |
# SMART:インストラクションチューニングのためのサブモジュールデータ混合戦略
SMART: Submodular Data Mixture Strategy for Instruction Tuning ( http://arxiv.org/abs/2403.08370v3 ) ライセンス: Link先を確認 | H S V N S Kowndinya Renduchintala, Sumit Bhatia, Ganesh Ramakrishnan, | (参考訳) インストラクションチューニングは、予測できないタスクへのモデルの一般化性を高めるために、命令形式データセットの集合上の言語モデルを微調整する。
研究では、微調整中に異なるタスク比率のバランスをとることの重要性が示されているが、適切なバランスを見つけることは依然として困難である。
残念ながら、現在手作業のチューニングや実践者の直感に頼るような体系的な方法はありません。
本稿では,SMART(Submodular Data Mixture strAtegy for InstRuction Tuning)について紹介する。
微調整の予算が与えられると、SMARTはタスク間で予算を再分配し、各タスクから非冗長サンプルを選択する。
実験の結果,SMARTは比例混合や等混合など従来の手法よりも有意に優れていた。
さらに,SMARTは,タスクの代表的なサブセットのみに基づくデータミックスの作成を容易にし,タスクプルーニング分析を通じて,限られた予算設定において,代表タスクのサブセットに予算を割り当てることで,すべてのタスクに予算を分配するよりも優れたパフォーマンスが得られることを明らかにした。
結果の再現コードはhttps://github.com/kowndinya-renduchintala/SMART.comで公開されている。
Instruction Tuning involves finetuning a language model on a collection of instruction-formatted datasets in order to enhance the generalizability of the model to unseen tasks. Studies have shown the importance of balancing different task proportions during finetuning, but finding the right balance remains challenging. Unfortunately, there's currently no systematic method beyond manual tuning or relying on practitioners' intuition. In this paper, we introduce SMART (Submodular data Mixture strAtegy for instRuction Tuning) - a novel data mixture strategy which makes use of a submodular function to assign importance scores to tasks which are then used to determine the mixture weights. Given a fine-tuning budget, SMART redistributes the budget among tasks and selects non-redundant samples from each task. Experimental results demonstrate that SMART significantly outperforms traditional methods such as examples proportional mixing and equal mixing. Furthermore, SMART facilitates the creation of data mixtures based on a few representative subsets of tasks alone and through task pruning analysis, we reveal that in a limited budget setting, allocating budget among a subset of representative tasks yields superior performance compared to distributing the budget among all tasks. The code for reproducing our results is open-sourced at https://github.com/kowndinya-renduchintala/SMART. | 翻訳日:2024-07-17 01:35:33 公開日:2024-07-13 |
# 拡散モデルと幾何学的批判
Diffusion Models are Geometry Critics: Single Image 3D Editing Using Pre-Trained Diffusion Priors ( http://arxiv.org/abs/2403.11503v2 ) ライセンス: Link先を確認 | Ruicheng Wang, Jianfeng Xiang, Jiaolong Yang, Xin Tong, | (参考訳) 本研究では,物体の回転や翻訳などの単一画像の3次元操作を可能にする新しい画像編集手法を提案する。
既存の3D画像編集アプローチは、通常、特別なモデルを訓練するための合成マルチビューデータセットに依存しており、レイアウトやスタイルが大幅に異なるオープンドメイン画像にその効果を制限している。
対照的に、本手法は、テキストと画像のペアの広い範囲で訓練された強力な画像拡散モデルを直接利用し、優れた一般化能力を保っている。
この目的は、反復的なビュー合成と幾何アライメントアルゴリズムの開発によって実現される。
このアルゴリズムは2つの目的のために拡散モデルを利用する: 推定深度マップを用いて選択されたオブジェクトの新規なビューを予測し、サンプリングされたビュー全体にわたる3次元形状の不整合を補正することで幾何学的批評家として機能する。
提案手法は,高画質な3D画像編集を多視点変換と高外観・形状整合性で生成し,単一画像の3D画像編集で可能となるものの境界を推し進める。
We propose a novel image editing technique that enables 3D manipulations on single images, such as object rotation and translation. Existing 3D-aware image editing approaches typically rely on synthetic multi-view datasets for training specialized models, thus constraining their effectiveness on open-domain images featuring significantly more varied layouts and styles. In contrast, our method directly leverages powerful image diffusion models trained on a broad spectrum of text-image pairs and thus retain their exceptional generalization abilities. This objective is realized through the development of an iterative novel view synthesis and geometry alignment algorithm. The algorithm harnesses diffusion models for dual purposes: they provide appearance prior by predicting novel views of the selected object using estimated depth maps, and they act as a geometry critic by correcting misalignments in 3D shapes across the sampled views. Our method can generate high-quality 3D-aware image edits with large viewpoint transformations and high appearance and shape consistency with the input image, pushing the boundaries of what is possible with single-image 3D-aware editing. | 翻訳日:2024-07-17 01:25:37 公開日:2024-07-13 |
# LLM2LLM: 新たな反復データ拡張によるLDMの強化
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement ( http://arxiv.org/abs/2403.15042v2 ) ライセンス: Link先を確認 | Nicholas Lee, Thanakul Wattanawong, Sehoon Kim, Karttikeya Mangalam, Sheng Shen, Gopala Anumanchipalli, Michael W. Mahoney, Kurt Keutzer, Amir Gholami, | (参考訳) 事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
多くの現実世界のアプリケーションは、パフォーマンスの満足できるレベルに達するのに微調整を必要とするが、その多くが低データ状態にあるため、微調整が難しい。
そこで本研究では,LLM2LLMを提案する。LLM2LLMは,教師のLLMを用いて,特定のタスクの微調整に使用可能なデータを追加することで,小さなシードデータセットの強化を行う。
LLM2LLM (1) 最初のシードデータに基づいてベースラインの学生LSMを微調整し、(2)モデルが間違っているデータポイントを評価し、抽出し、(3)教師のLSMを使用して、これらの誤ったデータポイントに基づいて合成データを生成し、トレーニングデータに追加する。
このアプローチは、トレーニング中にLLMが誤って予測したデータポイントから信号を増幅し、データセットに再統合して、LLMのより難しい例に集中する。
以上の結果から,LLM2LLMは従来の微調整およびデータ拡張ベースラインよりも優れ,低データ方式におけるLCMの性能を著しく向上させることが示された。
LLM2LLMは、労働集約的なデータキュレーションへの依存を減らし、よりスケーラブルでパフォーマンスの高いLCMソリューションの道を開く。
GSM8Kデータセットでは最大24.2%の改善、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善を実現した。
私たちのコードはhttps://github.com/SqueezeAILab/LLM2LLMで利用可能です。
Pretrained large language models (LLMs) are currently state-of-the-art for solving the vast majority of natural language processing tasks. While many real-world applications still require fine-tuning to reach satisfactory levels of performance, many of them are in the low-data regime, making fine-tuning challenging. To address this, we propose LLM2LLM, a targeted and iterative data augmentation strategy that uses a teacher LLM to enhance a small seed dataset by augmenting additional data that can be used for fine-tuning on a specific task. LLM2LLM (1) fine-tunes a baseline student LLM on the initial seed data, (2) evaluates and extracts data points that the model gets wrong, and (3) uses a teacher LLM to generate synthetic data based on these incorrect data points, which are then added back into the training data. This approach amplifies the signal from incorrectly predicted data points by the LLM during training and reintegrates them into the dataset to focus on more challenging examples for the LLM. Our results show that LLM2LLM significantly enhances the performance of LLMs in the low-data regime, outperforming both traditional fine-tuning and other data augmentation baselines. LLM2LLM reduces the dependence on labor-intensive data curation and paves the way for more scalable and performant LLM solutions, allowing us to tackle data-constrained domains and tasks. We achieve improvements up to 24.2% on the GSM8K dataset, 32.6% on CaseHOLD, 32.0% on SNIPS, 52.6% on TREC and 39.8% on SST-2 over regular fine-tuning in the low-data regime using a Llama-2-7B student model. Our code is available at https://github.com/SqueezeAILab/LLM2LLM . | 翻訳日:2024-07-17 01:25:37 公開日:2024-07-13 |
# LayoutFlow: レイアウト生成のためのフローマッチング
LayoutFlow: Flow Matching for Layout Generation ( http://arxiv.org/abs/2403.18187v2 ) ライセンス: Link先を確認 | Julian Jorge Andrade Guerreiro, Naoto Inoue, Kento Masui, Mayu Otani, Hideki Nakayama, | (参考訳) 適切なレイアウトを見つけることは、グラフィックデザインにおける多様なアプリケーションにとって重要なタスクである。
よりシンプルでスムーズなサンプリングトラジェクトリによって動機付けられたフローマッチングを,現在の拡散に基づくレイアウト生成モデルの代替として活用することを検討する。
具体的には、高品質なレイアウトを生成することができる効率的なフローベースモデルであるLayoutFlowを提案する。
ノイズの多いレイアウトの要素を段階的にデノベートする代わりに、最終的な予測に到達するまで、我々の手法は初期サンプルの要素を徐々に動き、流れることを学習する。
さらに,1つのモデルで条件付けの度合いの異なる様々な生成タスクを処理できる条件付け方式を採用した。
実証的には、LayoutFlowは最先端のモデルと同等に動作し、大幅に高速である。
Finding a suitable layout represents a crucial task for diverse applications in graphic design. Motivated by simpler and smoother sampling trajectories, we explore the use of Flow Matching as an alternative to current diffusion-based layout generation models. Specifically, we propose LayoutFlow, an efficient flow-based model capable of generating high-quality layouts. Instead of progressively denoising the elements of a noisy layout, our method learns to gradually move, or flow, the elements of an initial sample until it reaches its final prediction. In addition, we employ a conditioning scheme that allows us to handle various generation tasks with varying degrees of conditioning with a single model. Empirically, LayoutFlow performs on par with state-of-the-art models while being significantly faster. | 翻訳日:2024-07-17 01:15:36 公開日:2024-07-13 |
# 効率的な画像リタッチのためのルックアップテーブルのモデリング
Taming Lookup Tables for Efficient Image Retouching ( http://arxiv.org/abs/2403.19238v2 ) ライセンス: Link先を確認 | Sidi Yang, Binxiao Huang, Mingdeng Cao, Yatai Ji, Hanzhong Guo, Ngai Wong, Yujiu Yang, | (参考訳) エンドユーザーカメラ、スマートフォン、テレビなどのエッジデバイスにおける高解像度スクリーンの普及は、画像の強化に対する大きな需要を喚起している。
既存の拡張モデルは、ハードウェアの推論時間と消費電力を減らし、特に制約のあるコンピューティングとストレージリソースを持つエッジデバイスでは、高いパフォーマンスのために最適化されることが多い。
この目的のために、畳み込みニューラルネットワーク(CNN)を使わずに、極めて効率的なエッジ推論にLUTを採用する画像色強調ルックアップテーブル(ICELUT)を提案する。
トレーニング中は、ポイントワイズ(1x1)の畳み込みを利用して色情報を抽出し、大域情報を包含する完全連結層を分割する。
両方のコンポーネントは、ハードウェアに依存しないデプロイメントのために、シームレスにLUTに変換される。
ICELUTは最先端の性能と極めて低消費電力を実現している。
ネットワーク構造が頑健な拡張性を示し,32×32入力画像の高解像度化においても性能を向上することが観察された。
これにより、最初のLUTベースのイメージエンハンサーであるICELUTは、GPUでは0.4ms、CPUでは7msという前例のない速度に達し、CNNソリューションよりも少なくとも1桁高速になる。
コードはhttps://github.com/Stephen0808/ICELUT.comで公開されている。
The widespread use of high-definition screens in edge devices, such as end-user cameras, smartphones, and televisions, is spurring a significant demand for image enhancement. Existing enhancement models often optimize for high performance while falling short of reducing hardware inference time and power consumption, especially on edge devices with constrained computing and storage resources. To this end, we propose Image Color Enhancement Lookup Table (ICELUT) that adopts LUTs for extremely efficient edge inference, without any convolutional neural network (CNN). During training, we leverage pointwise (1x1) convolution to extract color information, alongside a split fully connected layer to incorporate global information. Both components are then seamlessly converted into LUTs for hardware-agnostic deployment. ICELUT achieves near-state-of-the-art performance and remarkably low power consumption. We observe that the pointwise network structure exhibits robust scalability, upkeeping the performance even with a heavily downsampled 32x32 input image. These enable ICELUT, the first-ever purely LUT-based image enhancer, to reach an unprecedented speed of 0.4ms on GPU and 7ms on CPU, at least one order faster than any CNN solution. Codes are available at https://github.com/Stephen0808/ICELUT. | 翻訳日:2024-07-17 01:15:36 公開日:2024-07-13 |
# データサイエンスにおける予測的語彙課題に対する大規模言語モデルの可能性
Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science ( http://arxiv.org/abs/2403.20208v6 ) ライセンス: Link先を確認 | Yazheng Yang, Yuqi Wang, Sankalok Sen, Lei Li, Qi Liu, | (参考訳) データサイエンスの分野において、欠落した値の分類、回帰、計算の予測タスクは、表型データに関連する問題によく遭遇する。
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
自然言語を解釈する能力にもかかわらず、LLMは構造化された表データを扱うには不十分である。
この制限は、基礎的なトレーニング中に表データの複雑さに欠けることに起因する。
本研究の目的は、この拡張データセット上で、注釈付きテーブルの包括的コーパスをコンパイルし、Llama-2の大規模トレーニングを実行することにより、このギャップを軽減することである。
さらに、訓練されたモデルをゼロショット予測、少数ショット予測、文脈内学習シナリオに適用する実践的応用について検討する。
大規模な実験を通じて、我々の方法論は既存のベンチマークよりも大幅に改善されている。
これらの進歩は、データサイエンスにおけるテーブル関連問題を解決するためのLLMトレーニングの調整の有効性を強調し、表知性を高めるためにLLMを利用するための新しいベンチマークを確立する。
In the domain of data science, the predictive tasks of classification, regression, and imputation of missing values are commonly encountered challenges associated with tabular data. This research endeavors to apply Large Language Models (LLMs) towards addressing these predictive tasks. Despite their proficiency in comprehending natural language, LLMs fall short in dealing with structured tabular data. This limitation stems from their lacking exposure to the intricacies of tabular data during their foundational training. Our research aims to mitigate this gap by compiling a comprehensive corpus of tables annotated with instructions and executing large-scale training of Llama-2 on this enriched dataset. Furthermore, we investigate the practical application of applying the trained model to zero-shot prediction, few-shot prediction, and in-context learning scenarios. Through extensive experiments, our methodology has shown significant improvements over existing benchmarks. These advancements highlight the efficacy of tailoring LLM training to solve table-related problems in data science, thereby establishing a new benchmark in the utilization of LLMs for enhancing tabular intelligence. | 翻訳日:2024-07-17 01:15:36 公開日:2024-07-13 |
# Aardvarkの天気: エンドツーエンドのデータ駆動天気予報
Aardvark weather: end-to-end data-driven weather forecasting ( http://arxiv.org/abs/2404.00411v3 ) ライセンス: Link先を確認 | Anna Vaughan, Stratis Markou, Will Tebbutt, James Requeima, Wessel P. Bruinsma, Tom R. Andersson, Michael Herzog, Nicholas D. Lane, Matthew Chantry, J. Scott Hosking, Richard E. Turner, | (参考訳) 天気予報は、交通、農業、産業、一般市民の安全など、様々な人間の活動にとって重要である。
機械学習モデルは複雑な天気予報パイプラインを変換する可能性があるが、現在のアプローチは依然として数値天気予報システム(NWP)に依存しており、予測速度と精度を制限している。
ここでは、機械学習モデルが、運用中のNWPパイプライン全体を置き換えることができることを実証する。
エンドツーエンドのデータ駆動天気予報システムであるAardvark Weatherは、生の観測を取り込み、グローバルなグリッド化された予測とローカルステーションの予測を出力する。
さらに、興味事量よりもパフォーマンスを最大化するためにエンドツーエンドを最適化することができる。
グローバル予測は、複数の変数とリードタイムの運用NWPベースラインを上回っます。
ローカルステーションの予測は10日間のリードタイムに熟練しており、後処理されたグローバルなNWPベースラインや、人間の予測装置からの入力による最先端のエンドツーエンドの予測システムと同等かつ低いエラーを達成している。
これらの予測は、入力データのわずか8%と、既存のNWPおよびハイブリッドAI-NWP法よりも3桁少ない計算量を使用して、驚くほど単純なニューラルプロセスモデルで生成される。
我々は、Aardvark Weatherが、現在最先端のローカルモデルが利用できない発展途上国を含む様々な分野のユーザに対して、計算コストを桁違いに削減し、安価かつ迅速かつ安価にベスポークモデルを作成することのできる、中規模予測のための、次世代のエンド・ツー・エンド機械学習モデルの出発点になることを期待している。
Weather forecasting is critical for a range of human activities including transportation, agriculture, industry, as well as the safety of the general public. Machine learning models have the potential to transform the complex weather prediction pipeline, but current approaches still rely on numerical weather prediction (NWP) systems, limiting forecast speed and accuracy. Here we demonstrate that a machine learning model can replace the entire operational NWP pipeline. Aardvark Weather, an end-to-end data-driven weather prediction system, ingests raw observations and outputs global gridded forecasts and local station forecasts. Further, it can be optimised end-to-end to maximise performance over quantities of interest. Global forecasts outperform an operational NWP baseline for multiple variables and lead times. Local station forecasts are skillful up to ten days lead time and achieve comparable and often lower errors than a post-processed global NWP baseline and a state-of-the-art end-to-end forecasting system with input from human forecasters. These forecasts are produced with a remarkably simple neural process model using just 8% of the input data and three orders of magnitude less compute than existing NWP and hybrid AI-NWP methods. We anticipate that Aardvark Weather will be the starting point for a new generation of end-to-end machine learning models for medium-range forecasting that will reduce computational costs by orders of magnitude and enable the rapid and cheap creation of bespoke models for users in a variety of fields, including for the developing world where state-of-the-art local models are not currently available. | 翻訳日:2024-07-17 01:05:49 公開日:2024-07-13 |
# DreamView: ビュー固有のテキストガイダンスをテキストから3D生成に注入する
DreamView: Injecting View-specific Text Guidance into Text-to-3D Generation ( http://arxiv.org/abs/2404.06119v2 ) ライセンス: Link先を確認 | Junkai Yan, Yipeng Gao, Qize Yang, Xihan Wei, Xuansong Xie, Ancong Wu, Wei-Shi Zheng, | (参考訳) テキスト記述に従って3Dアセットを合成するテキスト・ツー・3D生成は著しく進歩している。
しかし、指定した視点をカスタマイズする必要があるが、3Dオブジェクトを生成するための全体的な記述にのみ言及する場合に、課題が生じる。
例えば、前と後ろに異なるパターンを持つTシャツを1つの全体テキストガイダンスで作成する場合、曖昧さは容易に発生します。
本研究では,協調的なテキスト誘導インジェクションモジュールを通じて,ビュー固有および全体テキストガイダンスを適応的に注入することで,総合的な一貫性を維持しつつ,マルチビューのカスタマイズを可能にするテキスト・ツー・イメージのアプローチであるDreamViewを提案する。
DreamViewは、大規模なレンダリングされたマルチビューイメージと、それに対応するビュー固有のテキストでトレーニングされ、各ビューにおける個別のコンテンツ操作と、全体的なオブジェクトのグローバルな一貫性のバランスをとることができる。
その結果、DreamViewはアーティストに3Dオブジェクトを創造的にデザインする権限を与え、より革新的で多様な3Dアセットの作成を促進する。
コードとモデルはhttps://github.com/iSEE-Laboratory/DreamView.comでリリースされる。
Text-to-3D generation, which synthesizes 3D assets according to an overall text description, has significantly progressed. However, a challenge arises when the specific appearances need customizing at designated viewpoints but referring solely to the overall description for generating 3D objects. For instance, ambiguity easily occurs when producing a T-shirt with distinct patterns on its front and back using a single overall text guidance. In this work, we propose DreamView, a text-to-image approach enabling multi-view customization while maintaining overall consistency by adaptively injecting the view-specific and overall text guidance through a collaborative text guidance injection module, which can also be lifted to 3D generation via score distillation sampling. DreamView is trained with large-scale rendered multi-view images and their corresponding view-specific texts to learn to balance the separate content manipulation in each view and the global consistency of the overall object, resulting in a dual achievement of customization and consistency. Consequently, DreamView empowers artists to design 3D objects creatively, fostering the creation of more innovative and diverse 3D assets. Code and model will be released at https://github.com/iSEE-Laboratory/DreamView. | 翻訳日:2024-07-17 01:05:49 公開日:2024-07-13 |
# UltraEval: LLMのフレキシブルで総合的な評価のための軽量プラットフォーム
UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs ( http://arxiv.org/abs/2404.07584v2 ) ライセンス: Link先を確認 | Chaoqun He, Renjie Luo, Shengding Hu, Yuanqian Zhao, Jie Zhou, Hanghao Wu, Jiajie Zhang, Xu Han, Zhiyuan Liu, Maosong Sun, | (参考訳) 評価は、LLM(Large Language Models)の精細化、その能力の特定、改善の指針となる。
LLMの急速な開発により、迅速な評価デプロイメントのための軽量で使いやすいフレームワークが求められている。
しかし、様々な実装の詳細を考慮すると、総合的な評価プラットフォームの開発は容易ではない。
既存のプラットフォームはしばしば複雑でモジュール化が不十分で、研究ワークフローへのシームレスな統合を妨げる。
本稿では,ユーザフレンドリな評価フレームワークであるUltraEvalを紹介し,その軽量性,包括性,モジュール性,効率性を特徴とする。
モデル評価(モデル、データ、メトリクス)の3つのコアコンポーネントを特定し、再実装します。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、ベンチマーク、メトリクスを自由に組み合わせることができる。
さらにUltraEvalは、統一HTTPサービスによる多様なモデルをサポートし、十分な推論アクセラレーションを提供する。
UltraEvalは現在、研究者向けに公開されている。
Evaluation is pivotal for refining Large Language Models (LLMs), pinpointing their capabilities, and guiding enhancements. The rapid development of LLMs calls for a lightweight and easy-to-use framework for swift evaluation deployment. However, considering various implementation details, developing a comprehensive evaluation platform is never easy. Existing platforms are often complex and poorly modularized, hindering seamless incorporation into research workflows. This paper introduces UltraEval, a user-friendly evaluation framework characterized by its lightweight nature, comprehensiveness, modularity, and efficiency. We identify and reimplement three core components of model evaluation (models, data, and metrics). The resulting composability allows for the free combination of different models, tasks, prompts, benchmarks, and metrics within a unified evaluation workflow. Additionally, UltraEval supports diverse models owing to a unified HTTP service and provides sufficient inference acceleration. UltraEval is now available for researchers publicly. | 翻訳日:2024-07-17 01:05:49 公開日:2024-07-13 |
# 空洞ネットワークにおける量子ウォークと絡み合い
Quantum walks and entanglement in cavity networks ( http://arxiv.org/abs/2404.11331v2 ) ライセンス: Link先を確認 | Christian Di Fidio, Laura Ares, Jan Sperling, | (参考訳) 量子現象のポテンシャルを最大限に活用するためには、異なる物理プラットフォームのジョイント量子演算に依存して、光物質界面と複雑な量子ネットワークが必要である。
本研究では、多部量子系の量子特性を解析し、2レベル原子を持つ光学キャビティの任意に大きな集合から成る。
特に、そのような系の量子ウォークを探索し、結果として生じる絡み合いを決定する。
現実的な不完全性は、原子の光学的損失と自然崩壊としてモデルに含まれる。
トーラスのトポロジーと非配向性M\オビウスストリップは、我々のアプローチの汎用性を実証し、量子シミュレーション応用に興味深い量子力学と干渉効果をもたらす複雑なネットワークの例として機能する。
For harnessing the full potential of quantum phenomena, light-matter interfaces and complexly connected quantum networks are required, relying on the joint quantum operation of different physical platforms. In this work, we analyze the quantum properties of multipartite quantum systems, consisting of an arbitrarily large collection of optical cavities with two-level atoms. In particular, we explore quantum walks in such systems and determine the resulting entanglement. Realistic imperfections are included in the model as optical losses and spontaneous decays of atoms. The topology of torus and the non-orientable M\"obius strip serve as examples of complex networks we consider, demonstrating the versatility of our approach and resulting in interesting quantum dynamics and interference effects for quantum simulation applications. | 翻訳日:2024-07-17 00:56:00 公開日:2024-07-13 |
# 知識伝達による統一教師なし有能物体検出
Unified Unsupervised Salient Object Detection via Knowledge Transfer ( http://arxiv.org/abs/2404.14759v2 ) ライセンス: Link先を確認 | Yao Yuan, Wutao Liu, Pan Gao, Qun Dai, Jie Qin, | (参考訳) 近年,アノテーションを含まないため,非教師対象物検出(USOD)が注目されている。
しかし、現在の手法は主にRGBやRGB-Dのような特定のタスクに焦点を当てており、タスクマイグレーションの可能性を無視している。
本稿では,汎用USODタスクのための統一USODフレームワークを提案する。
まず,PCL-SD(Progressive Curriculum Learning-based Saliency Distilling)機構を提案する。
このメカニズムは簡単なサンプルから始まり、硬いサンプルによる最初の干渉を避けるために、徐々に硬いサンプルに向かって動く。
その後,得られたサリエンシ・キューを用いて,サリエンシ・ディテクターを訓練し,擬似ラベルの品質向上のために自己修正擬似ラベル・リファインメント(SPR)機構を用いる。
最後に、取得した相性知識を伝達するアダプタチューニング法を考案し、共有知識を活用して、目標タスクの転送性能を向上する。
5つのSODタスクの広範囲な実験により,提案手法の有効性と有効性が確認された。
コードとサプリメント資料はhttps://github.com/I2-Multimedia-Lab/A2S-v3.comで入手できる。
Recently, unsupervised salient object detection (USOD) has gained increasing attention due to its annotation-free nature. However, current methods mainly focus on specific tasks such as RGB and RGB-D, neglecting the potential for task migration. In this paper, we propose a unified USOD framework for generic USOD tasks. Firstly, we propose a Progressive Curriculum Learning-based Saliency Distilling (PCL-SD) mechanism to extract saliency cues from a pre-trained deep network. This mechanism starts with easy samples and progressively moves towards harder ones, to avoid initial interference caused by hard samples. Afterwards, the obtained saliency cues are utilized to train a saliency detector, and we employ a Self-rectify Pseudo-label Refinement (SPR) mechanism to improve the quality of pseudo-labels. Finally, an adapter-tuning method is devised to transfer the acquired saliency knowledge, leveraging shared knowledge to attain superior transferring performance on the target tasks. Extensive experiments on five representative SOD tasks confirm the effectiveness and feasibility of our proposed method. Code and supplement materials are available at https://github.com/I2-Multimedia-Lab/A2S-v3. | 翻訳日:2024-07-17 00:56:00 公開日:2024-07-13 |
# GIST: 局所適応型ハミルトンモンテカルロのギブズ自習
GIST: Gibbs self-tuning for locally adaptive Hamiltonian Monte Carlo ( http://arxiv.org/abs/2404.15253v2 ) ライセンス: Link先を確認 | Nawaf Bou-Rabee, Bob Carpenter, Milo Marsden, | (参考訳) 本稿では,各ステップの位置と運動量に基づいてアルゴリズムのチューニングパラメータを条件付きサンプリングすることで,ハミルトン・モンテカルロ(HMC)サンプリング器の局所化チューニングのための新しいフレキシブルなフレームワークを提案する。
経路長を適応的にサンプリングするために、このフレームワークは、ランダム化されたHMC、多項HMC、No-U-Turn Sampler (NUTS)、Apogee-to-Apogee Path Samplerを特別なケースとして含む。
Gibbs self-tuning (GIST) フレームワークは、経路長を局所的に適応するためのNUTSの代替として、不条件の正規に対して正確なハミルトン式、様々なモデルのテストスイートに対して跳躍アルゴリズムを用いて評価されている。
We present a novel and flexible framework for localized tuning of Hamiltonian Monte Carlo (HMC) samplers by Gibbs sampling the algorithm's tuning parameters conditionally based on the position and momentum at each step. For adaptively sampling path lengths, the framework encompasses randomized HMC, multinomial HMC, the No-U-Turn Sampler (NUTS), and the Apogee-to-Apogee Path Sampler as special cases. The Gibbs self-tuning (GIST) framework is illustrated with an alternative to NUTS for locally adapting path lengths, evaluated with an exact Hamiltonian for an ill-conditioned normal and with the leapfrog algorithm for a test suite of diverse models. | 翻訳日:2024-07-17 00:56:00 公開日:2024-07-13 |
# ボソンサンプリングのためのパターン認識検証手法の拡張
Extension of a Pattern Recognition Validation Approach for Boson Sampling ( http://arxiv.org/abs/2404.15603v2 ) ライセンス: Link先を確認 | Yang Ji, Yongzheng Wu, Shi Wang, Jie Hou, Meiling Chen, Ming Ni, | (参考訳) ボソンサンプリングは、量子計算の利点を示す主要な量子計算モデルの一つである。
しかし、この目的は光子識別性などのノイズ源を考慮することは困難である。
この利点を実証するには光子識別性が高すぎるかどうかを評価するためにベイズ検証に触発され、ボソンサンプリングのためのパターン認識検証が拡張される。
K平均++法で構築されたクラスタに基づいて、特性値の分布は、特に光子が識別不能に近い場合に、光子を識別不能にすることでほぼ単調に変化する。
本研究では, 確率分布と平均2ノルム距離を算出し, 固有データ構造を解析する。
近似アルゴリズムは、光子識別性を伴う正規データ構造変化を示すためにも用いられる。
Boson sampling is one of the main quantum computation models to demonstrate the quantum computational advantage. However, this aim may be hard to realize considering noise sources such as photon distinguishability. Inspired by the Bayesian validation extended to evaluate whether photon distinguishability is too high to demonstrate this advantage, the pattern recognition validation is extended for boson sampling. Based on clusters constructed with the K means++ method, the distribution of characteristic values is nearly monotonically changed with the photon indistinguishability, especially when photons are close to be indistinguishable. We analyze the intrinsic data structure through calculating probability distributions and mean 2-norm distances of the sorted outputs. An approximation algorithm is also used to show the regular data structure changes with photon distinguishability. | 翻訳日:2024-07-17 00:56:00 公開日:2024-07-13 |
# 統計的機械学習によるオートマタ学習の強化:ネットワークセキュリティケーススタディ
Enhancing Automata Learning with Statistical Machine Learning: A Network Security Case Study ( http://arxiv.org/abs/2405.11141v2 ) ライセンス: Link先を確認 | Negin Ayoughi, Shiva Nejati, Mehrdad Sabetzadeh, Patricio Saavedra, | (参考訳) 侵入検知システムはネットワークセキュリティにとって不可欠である。
これらのシステムの検証は、ネットワークプラットフォームの不均一性や、サイバー脅威の継続的な変化など、さまざまな要因によって複雑である。
本稿では,侵入検知システムの動作検証を支援することを目的とした,ネットワークトラヒックデータから状態マシンを抽出するオートマチック学習を提案する。
我々の研究の最も革新的な側面は、そのようなデータの数値的性質のため、既存のオートマトン学習技術をネットワークトラヒックデータに直接適用できないことである。
具体的には、解釈可能な機械学習(ML)を用いて、数値の範囲を、侵入検出に関するシステムの判断と強く相関する間隔に分割する。
これらの区間はその後、自動学習の前に数値範囲を抽象化するために使用される。
産業パートナーのRabbitRun Technologiesが開発した商用ネットワーク侵入検知システムに,機械学習による自動学習アプローチを適用した。
提案手法は,学習した状態マシンの状態を67.5%削減すると同時に,専門知識に基づく数値データ抽象化と比較して,平均28%の精度向上を実現している。
さらに、結果のステートマシンは、システムレベルのセキュリティ要件の検証や、モデルチェックや時間的クエリチェックを通じて、これまで知らなかったシステム動作の探索を支援する。
実装と実験データをオンラインで公開しています。
Intrusion detection systems are crucial for network security. Verification of these systems is complicated by various factors, including the heterogeneity of network platforms and the continuously changing landscape of cyber threats. In this paper, we use automata learning to derive state machines from network-traffic data with the objective of supporting behavioural verification of intrusion detection systems. The most innovative aspect of our work is addressing the inability to directly apply existing automata learning techniques to network-traffic data due to the numeric nature of such data. Specifically, we use interpretable machine learning (ML) to partition numeric ranges into intervals that strongly correlate with a system's decisions regarding intrusion detection. These intervals are subsequently used to abstract numeric ranges before automata learning. We apply our ML-enhanced automata learning approach to a commercial network intrusion detection system developed by our industry partner, RabbitRun Technologies. Our approach results in an average 67.5% reduction in the number of states and transitions of the learned state machines, while achieving an average 28% improvement in accuracy compared to using expertise-based numeric data abstraction. Furthermore, the resulting state machines help practitioners in verifying system-level security requirements and exploring previously unknown system behaviours through model checking and temporal query checking. We make our implementation and experimental data available online. | 翻訳日:2024-07-17 00:36:09 公開日:2024-07-13 |
# LiPost:マルチタスクコントラスト学習の効果的な活用によるコンテンツ理解の改善
LiPost: Improved Content Understanding With Effective Use of Multi-task Contrastive Learning ( http://arxiv.org/abs/2405.11344v3 ) ライセンス: Link先を確認 | Akanksha Bindal, Sudarshan Ramanujam, Dave Golland, TJ Hazen, Tina Jiang, Fengyu Zhang, Peng Yan, | (参考訳) LinkedInのコアコンテンツレコメンデーションモデルを強化する上で、重要な課題はセマンティック理解機能の改善である。
本稿では,様々な領域において有望な手法であるマルチタスク学習を活用することで,この問題に対処する。
多様なセマンティックラベリングタスクから得られたデータとマルチタスクのコントラスト学習を用いて、事前学習されたトランスフォーマーベースのLLMを微調整する。
我々は前向きな移行を観察し、各タスクのトレーニングを独立して行う場合と比較して、すべてのタスクにおいて優れたパフォーマンスをもたらす。
我々のモデルはゼロショット学習のベースラインを上回り、多言語サポートの改善を提供し、より広範なアプリケーションの可能性を強調している。
当社のモデルが生成した特殊なコンテンツ埋め込みは,Linkedinデータセットとタスク上でOpenAIが提供する汎用的な埋め込みよりも優れています。
この作業は、LLMを特定のアプリケーションにカスタマイズし、微調整するLinkedInの垂直チームにとって、堅牢な基盤を提供する。
私たちの仕事は、現場を構築するための洞察とベストプラクティスを提供します。
In enhancing LinkedIn core content recommendation models, a significant challenge lies in improving their semantic understanding capabilities. This paper addresses the problem by leveraging multi-task learning, a method that has shown promise in various domains. We fine-tune a pre-trained, transformer-based LLM using multi-task contrastive learning with data from a diverse set of semantic labeling tasks. We observe positive transfer, leading to superior performance across all tasks when compared to training independently on each. Our model outperforms the baseline on zero shot learning and offers improved multilingual support, highlighting its potential for broader application. The specialized content embeddings produced by our model outperform generalized embeddings offered by OpenAI on Linkedin dataset and tasks. This work provides a robust foundation for vertical teams across LinkedIn to customize and fine-tune the LLM to their specific applications. Our work offers insights and best practices for the field to build on. | 翻訳日:2024-07-17 00:36:09 公開日:2024-07-13 |
# Mamba-in-Mamba:Tokenized Mamba Modelにおけるハイパースペクトル画像分類のための集中型Mamba-Cross-Scan
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification ( http://arxiv.org/abs/2405.12003v4 ) ライセンス: Link先を確認 | Weilian Zhou, Sei-Ichiro Kamata, Haipeng Wang, Man-Sing Wong, Huiying, Hou, | (参考訳) ハイパースペクトル画像(HSI)分類は、リモートセンシング(RS)分野、特に深層学習技術の進歩において重要である。
RNN(Recurrent Neural Networks)やTransformers(Transformers)といった自然言語処理(NLP)の分野に適応したシーケンスモデルは、このタスクに特化しており、ユニークな視点を提供している。
しかし、いくつかの課題が続いている。
1)RNNは中心的特徴集約に苦慮し,画素干渉に敏感である。
2)変換器は重要な計算資源を必要とし、しばしば限られたHSIトレーニングサンプルで性能が低下する。
3) 画像からシーケンスデータに変換する現在の走査法は, 単純かつ非効率である。
そこで本研究では,HSI分類のための新しいMamba-in-Mamba(MiM)アーキテクチャを導入する。
MiM モデルには
1) 画像からシーケンスデータへ変換する新しい集中型マンバ・クロススキャン(MCS)機構
2)ガウス式Decay Mask(GDM)、STL(Semantic Token Learner)、STF(Semantic Token Fuser)を内蔵したT-Mambaエンコーダ
3) 重み付きMCSフュージョン(WMF)モジュールとマルチスケールロスデザインを組み合わせることで復号効率を向上する。
固定および非結合型トレーニング-テストサンプルを用いた3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れ,HSIアプリケーションの有効性と可能性を強調した。
Hyperspectral image (HSI) classification is pivotal in the remote sensing (RS) field, particularly with the advancement of deep learning techniques. Sequential models, adapted from the natural language processing (NLP) field such as Recurrent Neural Networks (RNNs) and Transformers, have been tailored to this task, offering a unique viewpoint. However, several challenges persist 1) RNNs struggle with centric feature aggregation and are sensitive to interfering pixels, 2) Transformers require significant computational resources and often underperform with limited HSI training samples, and 3) Current scanning methods for converting images into sequence-data are simplistic and inefficient. In response, this study introduces the innovative Mamba-in-Mamba (MiM) architecture for HSI classification, the first attempt of deploying State Space Model (SSM) in this task. The MiM model includes 1) A novel centralized Mamba-Cross-Scan (MCS) mechanism for transforming images into sequence-data, 2) A Tokenized Mamba (T-Mamba) encoder that incorporates a Gaussian Decay Mask (GDM), a Semantic Token Learner (STL), and a Semantic Token Fuser (STF) for enhanced feature generation and concentration, and 3) A Weighted MCS Fusion (WMF) module coupled with a Multi-Scale Loss Design to improve decoding efficiency. Experimental results from three public HSI datasets with fixed and disjoint training-testing samples demonstrate that our method outperforms existing baselines and state-of-the-art approaches, highlighting its efficacy and potential in HSI applications. | 翻訳日:2024-07-17 00:36:09 公開日:2024-07-13 |
# フローサイトメトリー予測のためのグラフニューラルネットワークへの階層的生物前駆体注入
Injecting Hierarchical Biological Priors into Graph Neural Networks for Flow Cytometry Prediction ( http://arxiv.org/abs/2405.18507v2 ) ライセンス: Link先を確認 | Fatemeh Nassajian Mojarrad, Lorenzo Bini, Thomas Matthes, Stéphane Marchand-Maillet, | (参考訳) フローサイトメトリー(FC)データから得られた末梢血や骨髄などの血液学的サンプルの複雑な景観において、細胞レベルでの予測は深刻な課題を呈している。
本研究では、グラフニューラルネットワーク(GNN)に階層的な事前知識を注入して、表層セルデータの単一セルマルチクラス分類を行う。
データをグラフとして表現し,クラス間の階層的関係を符号化することにより,複数のGNNモデル,すなわちFCHC-GNNに適用可能な階層的プラグイン手法を提案する。
19人の異なる患者のコホートに対する大規模な実験により、階層的な生物学的制約を取り入れることによって、複数の指標においてパフォーマンスが著しく向上することが実証された。
提案手法は, 複雑な生物予測タスクにおける一般化向上のための構造的帰納バイアスの重要性を強調した。
In the complex landscape of hematologic samples such as peripheral blood or bone marrow derived from flow cytometry (FC) data, cell-level prediction presents profound challenges. This work explores injecting hierarchical prior knowledge into graph neural networks (GNNs) for single-cell multi-class classification of tabular cellular data. By representing the data as graphs and encoding hierarchical relationships between classes, we propose our hierarchical plug-in method to be applied to several GNN models, namely, FCHC-GNN, and effectively designed to capture neighborhood information crucial for single-cell FC domain. Extensive experiments on our cohort of 19 distinct patients, demonstrate that incorporating hierarchical biological constraints boosts performance significantly across multiple metrics compared to baseline GNNs without such priors. The proposed approach highlights the importance of structured inductive biases for gaining improved generalization in complex biological prediction tasks. | 翻訳日:2024-07-17 00:26:25 公開日:2024-07-13 |
# 一般化等角的強フレームからの量子測定の不確かさ関係
Uncertainty relations for quantum measurements from generalized equiangular tight frames ( http://arxiv.org/abs/2405.19900v2 ) ライセンス: Link先を確認 | Alexey E. Rastegin, | (参考訳) 本研究は, 一般化された等角的きつ枠からの測定における不確実性について検討することを目的としている。
情報過剰測定は、トモグラフィーや状態推定を含む量子情報処理において貴重なツールである。
互いに偏りのない基底の最大集合は、そのような測定の最も一般的な場合である。
互いにバイアスのない基底を持つ$d+1$の存在は、素パワーである$d$に対して証明される。
様々な目的のために、情報過完全測定のより一般的なクラスが提案されている。
興味の測定は典型的には、要求される特性を維持する内部構造によって特徴づけられる。
それは生成された確率に課される制限につながります。
検討された測定値を適用するためには、これらの制限を情報理論用語に変換する必要がある。
ある種の制限が過度に不注意に保たれることは興味深い。
不確実性の量を定量的に記述するために、Tsallis と R\'{e}nyi エントロピーと、別の結果の確率を用いる。
得られた結果は一致の指数の推定に基づく。
派生した関係は、簡単に例示される。
The current study aims to examine uncertainty relations for measurements from generalized equiangular tight frames. Informationally overcomplete measurements are a valuable tool in quantum information processing, including tomography and state estimation. The maximal sets of mutually unbiased bases are the most common case of such measurements. The existence of $d+1$ mutually unbiased bases is proved for $d$ being a prime power. More general classes of informationally overcomplete measurements have been proposed for various purposes. Measurements of interest are typically characterized by some inner structure maintaining the required properties. It leads to restrictions imposed on generated probabilities. To apply the considered measurements, these restrictions should be converted into information-theoretic terms. It is interesting that certain restrictions hold irrespectively to overcompleteness. To describe the amount of uncertainty quantitatively, we use the Tsallis and R\'{e}nyi entropies as well as probabilities of separate outcomes. The obtained results are based on estimation of the index of coincidence. The derived relations are briefly exemplified. | 翻訳日:2024-07-17 00:26:24 公開日:2024-07-13 |
# 言語モデル透かしのブラックボックス検出
Black-Box Detection of Language Model Watermarks ( http://arxiv.org/abs/2405.20777v2 ) ライセンス: Link先を確認 | Thibaud Gloaguen, Nikola Jovanović, Robin Staab, Martin Vechev, | (参考訳) 透かしはLLM生成テキストを検出するための有望な方法として登場した。
LLMプロバイダがシークレットキーを付与した透かしを適用できるようにする。
最近の研究は3つの主要な透かし方式を提案しており、そのうち2つはLLM分布の保存性に焦点を当てている。
これは、LLM機能を維持するための魅力的なプロキシであると同時に、透かしの配置を隠すことで、悪意のあるアクターが特定のLCMを避けたり、その透かしを攻撃したりすることで誤用を隠すのが難しくなるという考えによっても動機づけられている。
しかし、検出可能性に関して多くの議論があるにもかかわらず、これらのスキームファミリーのうちどれかが現実的なブラックボックス設定で検出可能かどうかを以前の研究は調査していない。
ブラックボックスクエリの限られた数だけを用いて、最も人気のある3つの透かしスキーム群すべての存在を検出するための厳密な統計的テストを開発した。
提案手法の有効性を,多種多様なオープンソースモデルを用いて実験的に検証した。
以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。
GPT4、Claude 3、Gemini 1.0 Proといった一般的な公開APIの背後にある透かしの存在をテストするために、私たちのメソッドをさらに適用します。
Watermarking has emerged as a promising way to detect LLM-generated text. To apply a watermark an LLM provider, given a secret key, augments generations with a signal that is later detectable by any party with the same key. Recent work has proposed three main families of watermarking schemes, two of which focus on the property of preserving the LLM distribution. This is motivated by it being a tractable proxy for maintaining LLM capabilities, but also by the idea that concealing a watermark deployment makes it harder for malicious actors to hide misuse by avoiding a certain LLM or attacking its watermark. Yet, despite much discourse around detectability, no prior work has investigated if any of these scheme families are detectable in a realistic black-box setting. We tackle this for the first time, developing rigorous statistical tests to detect the presence of all three most popular watermarking scheme families using only a limited number of black-box queries. We experimentally confirm the effectiveness of our methods on a range of schemes and a diverse set of open-source models. Our findings indicate that current watermarking schemes are more detectable than previously believed, and that obscuring the fact that a watermark was deployed may not be a viable way for providers to protect against adversaries. We further apply our methods to test for watermark presence behind the most popular public APIs: GPT4, Claude 3, Gemini 1.0 Pro, finding no strong evidence of a watermark at this point in time. | 翻訳日:2024-07-17 00:26:24 公開日:2024-07-13 |
# Alice in Wonderland: State-Of-the-Art Large Language Modelにおける完全推論のブレークダウンを示す単純なタスク
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models ( http://arxiv.org/abs/2406.02061v4 ) ライセンス: Link先を確認 | Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, Jenia Jitsev, | (参考訳) 大規模言語モデル(LLM)は、しばしば基礎モデルの例として記述される。すなわち、様々なタスクや状況に対して、ほとんどショーやゼロショットの方法で強く移行するモデルであると同時に、事前トレーニングスケールを拡大する際の関数改善を予測するスケーリング法則を示す。
これらの異なる機能やタスクが優れているという主張は、そのようなモデルに対して高いスコアを示す標準化されたベンチマークの様々なセットにまたがる測定に依存する。
ここでは,人間によって容易に解ける,簡潔で簡潔な共通感覚問題(AIW問題)を用いて,強機能(強機能)を主張する最大規模で訓練された最先端モデルの機能と推論能力の劇的な分解を実演する。
モデルは、問題の解決に影響を与えないような、微妙な問題バリエーションの強い揺らぎを示し、間違った解に強い自信を表わす。
正しいソリューションを得るための様々な標準的な介入、例えば、様々な種類の強化プロンプト、あるいは、複数のステップの再評価によって間違ったソリューションを再考するようモデルに促す、といったことは失敗します。
我々は,これらの最初の観測を科学・技術コミュニティに提供し,次世代LLMの要求能力の迅速な再評価を促進させる。
このような再評価は、現在の最先端の評価手順やベンチマークによって明らかに発見されることのないような基本的な推論欠陥を適切に検出できるような標準化されたベンチマークを作成するための共通の行動も要求される。
論文における実験の再現コードと生の実験データはhttps://github.com/LAION-AI/AIWで見ることができる。
Large Language Models (LLMs) are often described as being instances of foundation models - that is, models that transfer strongly across various tasks and conditions in few-show or zero-shot manner, while exhibiting scaling laws that predict function improvement when increasing the pre-training scale. These claims of excelling in different functions and tasks rely on measurements taken across various sets of standardized benchmarks showing high scores for such models. We demonstrate here a dramatic breakdown of function and reasoning capabilities of state-of-the-art models trained at the largest available scales which claim strong function, using a simple, short, conventional common sense problem (AIW problem) formulated in concise natural language, easily solvable by humans. The breakdown is dramatic, as models show strong fluctuations across even slight problem variations that should not affect problem solving, also expressing strong overconfidence in the wrong solutions, often backed up by plausible sounding explanation-like confabulations. Various standard interventions in an attempt to get the right solution, like various type of enhanced prompting, or urging the models to reconsider the wrong solutions again by multi step re-evaluation, fail. We take these initial observations to the scientific and technological community to stimulate urgent re-assessment of the claimed capabilities of current generation of LLMs. Such re-assessment also requires common action to create standardized benchmarks that would allow proper detection of such basic reasoning deficits that obviously manage to remain undiscovered by current state-of-the-art evaluation procedures and benchmarks. Code for reproducing experiments in the paper and raw experiments data can be found at https://github.com/LAION-AI/AIW | 翻訳日:2024-07-17 00:26:24 公開日:2024-07-13 |
# ベクトル化された条件付きニューラルネットワーク:時間依存パラメトリック部分微分方程式を解くためのフレームワーク
Vectorized Conditional Neural Fields: A Framework for Solving Time-dependent Parametric Partial Differential Equations ( http://arxiv.org/abs/2406.03919v2 ) ライセンス: Link先を確認 | Jan Hagnberger, Marimuthu Kalimuthu, Daniel Musekamp, Mathias Niepert, | (参考訳) 変圧器モデルは部分微分方程式(PDE)の解法としてますます使われている。
いくつかの適応法が提案されており、これらは全て2次記憶や時間複雑性といったトランスフォーマーの典型的な問題に悩まされている。
さらに、PDE解決のためのすべての一般的なアーキテクチャは、イデアル・サロゲートモデルのようないくつかの望ましい性質の少なくとも1つを欠いている。
(i)訓練中に見えないPDEパラメータへの一般化
(II)空間的・時間的ゼロショット超解像
(三)連続時間外挿
(四)1D、2D、3DPDEのサポート、及び
(v) より長い時間的ロールアウトのための効率的な推論。
これらの制約に対処するため、時間依存型PDEの解をニューラルネットワークとして表現するVCNeF(Vectorized Conditional Neural Fields)を提案する。
しかし、従来の方法とは対照的に、VCNeFsは複数の時空間のクエリポイントに対して、それらのソリューションを並列に計算し、アテンション機構を通じて依存関係をモデル化する。
さらに、VCNeFは初期条件とPDEのパラメータの両方でニューラルネットワークを条件付けすることができる。
広範な実験により、VCNeFは既存のMLベースのサロゲートモデルと競合し、しばしば優れていることが示されている。
Transformer models are increasingly used for solving Partial Differential Equations (PDEs). Several adaptations have been proposed, all of which suffer from the typical problems of Transformers, such as quadratic memory and time complexity. Furthermore, all prevalent architectures for PDE solving lack at least one of several desirable properties of an ideal surrogate model, such as (i) generalization to PDE parameters not seen during training, (ii) spatial and temporal zero-shot super-resolution, (iii) continuous temporal extrapolation, (iv) support for 1D, 2D, and 3D PDEs, and (v) efficient inference for longer temporal rollouts. To address these limitations, we propose Vectorized Conditional Neural Fields (VCNeFs), which represent the solution of time-dependent PDEs as neural fields. Contrary to prior methods, however, VCNeFs compute, for a set of multiple spatio-temporal query points, their solutions in parallel and model their dependencies through attention mechanisms. Moreover, VCNeF can condition the neural field on both the initial conditions and the parameters of the PDEs. An extensive set of experiments demonstrates that VCNeFs are competitive with and often outperform existing ML-based surrogate models. | 翻訳日:2024-07-17 00:26:24 公開日:2024-07-13 |
# 予測動的融合
Predictive Dynamic Fusion ( http://arxiv.org/abs/2406.04802v2 ) ライセンス: Link先を確認 | Bing Cao, Yinan Xia, Yi Ding, Changqing Zhang, Qinghua Hu, | (参考訳) 総合的な判断を下すための共同意思決定システムにおいて,マルチモーダル融合は不可欠である。
オープン環境でのマルチモーダルデータの変化以来、動的融合が出現し、多くのアプリケーションで顕著な進歩を遂げている。
しかし、既存の動的マルチモーダル融合法は理論的な保証がなく、容易に準最適問題に陥り、信頼性と不安定性をもたらす。
この問題に対処するために,マルチモーダル学習のための予測動的融合(PDF)フレームワークを提案する。
一般化の観点からマルチモーダル融合を明らかにし、予測可能なコラボレーティブ信念(Co-Belief)をMonoとHolo-Confidenceで導出し、一般化誤差の上限を確実に減少させる。
そこで本研究では,予測されたコ・ビリーフを,潜在的な不確実性に対して校正する相対校正戦略を提案する。
複数のベンチマークに関する大規模な実験は、私たちの優位性を確認します。
私たちのコードはhttps://github.com/Yinan-Xia/PDFで公開されています。
Multimodal fusion is crucial in joint decision-making systems for rendering holistic judgments. Since multimodal data changes in open environments, dynamic fusion has emerged and achieved remarkable progress in numerous applications. However, most existing dynamic multimodal fusion methods lack theoretical guarantees and easily fall into suboptimal problems, yielding unreliability and instability. To address this issue, we propose a Predictive Dynamic Fusion (PDF) framework for multimodal learning. We proceed to reveal the multimodal fusion from a generalization perspective and theoretically derive the predictable Collaborative Belief (Co-Belief) with Mono- and Holo-Confidence, which provably reduces the upper bound of generalization error. Accordingly, we further propose a relative calibration strategy to calibrate the predicted Co-Belief for potential uncertainty. Extensive experiments on multiple benchmarks confirm our superiority. Our code is available at https://github.com/Yinan-Xia/PDF. | 翻訳日:2024-07-17 00:26:24 公開日:2024-07-13 |
# メタバースアイデンティティ: コア原則と批判的課題
Metaverse Identity: Core Principles and Critical Challenges ( http://arxiv.org/abs/2406.08029v2 ) ライセンス: Link先を確認 | Liang Yang, Yan Xu, Pan Hui, | (参考訳) 本稿ではメタバースにおけるアイデンティティの構築とガバナンスを導くべき基本原則について考察し、対処すべき重要な課題を特定する。
多分野の理論と視点に基づいてメタバースアイデンティティを定義し,その本質的な特徴と影響を理解するための2つの基本原理,すなわち等価性とアライメント,融合と拡張性を提案する。
第1の原則は、メタバースアイデンティティは、ガイドラインの確立と権利の保護に不可欠である現実世界の規範と標準に一致すべきである、と主張する。
第2の原則は、シームレスな統合とメタバースアイデンティティの拡張の必要性を強調し、多様なニーズを満たすために現実世界の制限を超越し、包括的参加を促進する。
これら2つの原則は,新興メタバース時代の説明責任,包括性,一貫性を保証する上で不可欠である,と我々は主張する。
さらに、アイデンティティの相互運用性、法的含意、プライバシとアイデンティティ管理、DeepfakesとSynthetic Identities、Identity Fragmentation and Psychological Well-beingの5つの重要な課題を特定します。
これらの課題をナビゲートするための潜在的な戦略について議論する。
メタバースアイデンティティーの未来を形作るための積極的かつ協調的なアプローチの重要性について,本論文は結論づける。
メタバースの進化が進むにつれて、我々はこの未知の領域におけるアイデンティティを取り巻く原則と課題を理解し、対処し、責任あるアイデンティティの構築と表現を促進するメタバースを構築するために一括して働くことが不可欠である。
This paper explores the core principles that should guide the construction and governance of identity in the metaverse and identifies the critical challenges that need to be addressed. Drawing on multidisciplinary theories and perspectives, we define metaverse identity and propose two core principles for understanding its intrinsic characteristics and impacts: Equivalence and Alignment, and Fusion and Expansiveness. The first principle asserts that metaverse identities should align with real-world norms and standards, which is crucial for establishing guidelines and safeguarding rights. The second principle emphasizes the need for seamless integration and boundless expansion of metaverse identities, transcending real-world limitations to accommodate diverse needs and foster inclusive participation. We argue that these two principles are vital for ensuring the accountability, inclusiveness, and consistency in the emerging metaverse era. Additionally, we identify five critical challenges: Identity Interoperability, Legal Implications, Privacy and Identity Management, Deepfakes and Synthetic Identities, and Identity Fragmentation and Psychological Well-being. We discuss potential strategies to navigate these challenges. The paper concludes by underscoring the importance of a proactive and collaborative approach to shaping the future of metaverse identity. As the metaverse continues to evolve, it is imperative that we understand and address the principles and challenges surrounding identity in this uncharted territory and work collectively to build a metaverse that fosters responsible identity construction and expression. | 翻訳日:2024-07-17 00:16:39 公開日:2024-07-13 |
# リンドブラッド力学の量子時空ポアンカレ不等式
Quantum space-time Poincaré inequality for Lindblad dynamics ( http://arxiv.org/abs/2406.09115v2 ) ライセンス: Link先を確認 | Bowen Li, Jianfeng Lu, | (参考訳) 原始低圧リンドブラッド力学の混合特性について検討する。
アンダーダム化ランゲヴィン力学のためにもともと開発された変分フレームワークを拡張することで、非可換な$L^2$-ノルムの収束に対する完全に明示的で建設的な指数的減衰推定を導出する。
我々の解析は、時空のポアンカー='{e}不等式の量子アナログを確立することに依存する。
これらの低圧推定を補完するために、リンドブラッド力学のスペクトルギャップの制限挙動をコヒーレントな寄与で解析し、この漸近的状態においてより鋭い収束率推定を提供する。
理論的結果の応用例として, 具体例をいくつか挙げる。
We investigate the mixing properties of primitive hypocoercive Lindblad dynamics. By extending the variational framework originally developed for underdamped Langevin dynamics, we derive fully explicit and constructive exponential decay estimates for the convergence in the noncommutative $L^2$-norm. Our analysis relies on establishing a quantum analog of space-time Poincar\'{e} inequalities. To complement these hypocoercive estimates, we also analyze the limiting behavior of the spectral gap for Lindblad dynamics with a large coherent contribution, providing sharper convergence rate estimates in this asymptotic regime. A number of concrete examples are provided as applications of our theoretical results. | 翻訳日:2024-07-17 00:16:39 公開日:2024-07-13 |
# Byzantine-Robust分散フェデレーションラーニング
Byzantine-Robust Decentralized Federated Learning ( http://arxiv.org/abs/2406.10416v4 ) ライセンス: Link先を確認 | Minghong Fang, Zifan Zhang, Hairi, Prashant Khanduri, Jia Liu, Songtao Lu, Yuchen Liu, Neil Gong, | (参考訳) フェデレートラーニング(FL)は、複数のクライアントがプライベートトレーニングデータを公開せずに、機械学習モデルを協調的にトレーニングすることを可能にする。
従来のFLでは、システムはサーバ支援アーキテクチャ(サーバ支援FL)に従い、トレーニングプロセスは中央サーバによって調整される。
しかし、サーバ支援のFLフレームワークは、サーバでの通信ボトルネックと依存関係の問題によりスケーラビリティの低下に悩まされている。
課題に対処するため、クライアントがサーバレスとピアツーピアの方法でモデルを協調的にトレーニングできるようにするために、分散フェデレーションラーニング(DFL)アーキテクチャが提案されている。
しかし、完全に分散した性質のため、DFLは有害な攻撃に対して非常に脆弱であり、悪意のあるクライアントは、近隣のクライアントに慎重に構築されたローカルモデルを送信することでシステムを操作できる。
現在では限られた数のビザンチン・ローバストDFL法が提案されており、そのほとんどは通信効率が良くないか、先進的な毒殺攻撃に弱いままである。
本稿では,DFLにおける毒殺対策として,BALANCE (Byzantine-robust averaging through local similarity in decentralization) というアルゴリズムを提案する。
BALANCEでは、各クライアントは独自のローカルモデルを類似参照として利用し、受信したモデルが悪意があるか良性があるかを判断する。
我々は, 強凸および非凸の双方において, 毒性攻撃下でのBALANCEの理論的収束保証を確立する。
さらに、毒殺攻撃によるBALANCEの収束率は、ビザンチンフリー環境での最先端のものと一致している。
大規模な実験は、BALANCEが既存のDFL法より優れており、効果的に中毒攻撃を防いでいることも示している。
Federated learning (FL) enables multiple clients to collaboratively train machine learning models without revealing their private training data. In conventional FL, the system follows the server-assisted architecture (server-assisted FL), where the training process is coordinated by a central server. However, the server-assisted FL framework suffers from poor scalability due to a communication bottleneck at the server, and trust dependency issues. To address challenges, decentralized federated learning (DFL) architecture has been proposed to allow clients to train models collaboratively in a serverless and peer-to-peer manner. However, due to its fully decentralized nature, DFL is highly vulnerable to poisoning attacks, where malicious clients could manipulate the system by sending carefully-crafted local models to their neighboring clients. To date, only a limited number of Byzantine-robust DFL methods have been proposed, most of which are either communication-inefficient or remain vulnerable to advanced poisoning attacks. In this paper, we propose a new algorithm called BALANCE (Byzantine-robust averaging through local similarity in decentralization) to defend against poisoning attacks in DFL. In BALANCE, each client leverages its own local model as a similarity reference to determine if the received model is malicious or benign. We establish the theoretical convergence guarantee for BALANCE under poisoning attacks in both strongly convex and non-convex settings. Furthermore, the convergence rate of BALANCE under poisoning attacks matches those of the state-of-the-art counterparts in Byzantine-free settings. Extensive experiments also demonstrate that BALANCE outperforms existing DFL methods and effectively defends against poisoning attacks. | 翻訳日:2024-07-17 00:16:39 公開日:2024-07-13 |
# 効率的なヒューマンポース推定:MediaPipeによる高度な手法の活用
Efficient Human Pose Estimation: Leveraging Advanced Techniques with MediaPipe ( http://arxiv.org/abs/2406.15649v2 ) ライセンス: Link先を確認 | Sandeep Singh Sengar, Abhishek Kumar, Owen Singh, | (参考訳) 本研究では,MediaPipeフレームワークを用いた人間のポーズ推定の大幅な向上について述べる。
この研究は、基礎となるアルゴリズムを網羅的に最適化することで、精度、計算効率、リアルタイム処理能力を改善することに焦点を当てている。
動的運動や部分閉塞といった難解なシナリオにまたがるポーズ推定精度を大幅に向上させる新しい修正が導入された。
改良されたフレームワークは従来のモデルに対してベンチマークされ、かなりの精度と計算速度の向上を示す。
この進歩は、拡張現実、スポーツ分析、ヘルスケアに幅広く応用されており、より没入的な体験、洗練されたパフォーマンス分析、高度な患者モニタリングを可能にしている。
この研究は、モバイルおよび組み込みシステムへのこれらの拡張の統合についても検討し、計算効率とより広範なアクセシビリティの必要性に対処する。
この研究がもたらす意味は、リアルタイムの人間のポーズ推定技術のための新しいベンチマークを設定し、この分野における将来のイノベーションの道を開くことである。
論文の実装コードはhttps://github.com/avhixd/Human_pose_estimationで公開されている。
This study presents significant enhancements in human pose estimation using the MediaPipe framework. The research focuses on improving accuracy, computational efficiency, and real-time processing capabilities by comprehensively optimising the underlying algorithms. Novel modifications are introduced that substantially enhance pose estimation accuracy across challenging scenarios, such as dynamic movements and partial occlusions. The improved framework is benchmarked against traditional models, demonstrating considerable precision and computational speed gains. The advancements have wide-ranging applications in augmented reality, sports analytics, and healthcare, enabling more immersive experiences, refined performance analysis, and advanced patient monitoring. The study also explores the integration of these enhancements within mobile and embedded systems, addressing the need for computational efficiency and broader accessibility. The implications of this research set a new benchmark for real-time human pose estimation technologies and pave the way for future innovations in the field. The implementation code for the paper is available at https://github.com/avhixd/Human_pose_estimation. | 翻訳日:2024-07-17 00:06:54 公開日:2024-07-13 |
# 低品質ネットワークシナリオにおけるグループ指向アプリケーションのためのおそらく安全な非対話鍵交換プロトコル
Provably Secure Non-interactive Key Exchange Protocol for Group-Oriented Applications in Scenarios with Low-Quality Networks ( http://arxiv.org/abs/2407.00073v2 ) ライセンス: Link先を確認 | Rui Zhang, Lei Zhang, | (参考訳) 非インタラクティブキー交換(NIKE)は、2つまたは複数のパーティ(公開システムのパラメータと互いの公開鍵を単に知っているだけ)が、相互作用を必要とせずに(グループ)セッションキーを導出することを可能にする。
近年、NIKEが重要視されている。
しかし、既存のNIKEプロトコルの多くは、コストのかかる暗号技術(例えば、マルチリニアマップと識別不能な難読化)を基盤としており、実際に使われた場合の計算コストが高いことに留意する。
したがって、より実用的な暗号プリミティブを使用することで、マルチパーティのNIKEプロトコルを実現することは難しい課題である。
本稿では,動的グループにおけるセキュアな通信のためのセキュアかつ効率的なNIKEプロトコルを提案する。
このプロトコルにより、複数のパーティが非対称なグループキー(公開グループ暗号化キーと各パーティの復号鍵)を相互にやりとりすることなく交渉することができる。
さらに、このプロトコルは、グループ外のパーティやグループメンバーがグループに参加または離脱した場合、効率的で非インタラクティブな方法でグループキーの更新をサポートする。
さらに、グループ内の受信者と呼ばれるグループメンバーの一部または全部と接続しようとする送信者(グループ外であっても)と呼ばれる当事者は、公開グループ暗号化キーの下で一定の大きさの暗号文を生成する必要があり、実際の受信者であるグループメンバーのみが暗号文を復号してセッションキーを取得することができる。
我々は,k-Bilinear Diffie-Hellman exponent (k-BDHE) の仮定により,セッションキーの正当性と不明瞭性を証明した。
効率評価は、我々のプロトコルの効率を示す。
Non-interactive key exchange (NIKE) enables two or multiple parties (just knowing the public system parameters and each other's public key) to derive a (group) session key without the need for interaction. Recently, NIKE in multi-party settings has been attached importance. However, we note that most existing multi-party NIKE protocols, underlying costly cryptographic techniques (i.e., multilinear maps and indistinguishability obfuscation), lead to high computational costs once employed in practice. Therefore, it is a challenging task to achieve multi-party NIKE protocols by using more practical cryptographic primitives. In this paper, we propose a secure and efficient NIKE protocol for secure communications in dynamic groups, whose construction only bases on bilinear maps. This protocol allows multiple parties to negotiate asymmetric group keys (a public group encryption key and each party's decryption key) without any interaction among one another. Additionally, the protocol supports updating of group keys in an efficient and non-interactive way once any party outside a group or any group member joins or leaves the group. Further, any party called a sender (even outside a group) intending to connect with some or all of group members called receivers in a group, just needs to generate a ciphertext with constant size under the public group encryption key, and only the group member who is the real receiver can decrypt the ciphertext to obtain the session key. We prove our protocol captures the correctness and indistinguishability of session key under k-Bilinear Diffie-Hellman exponent (k-BDHE) assumption. Efficiency evaluation shows the efficiency of our protocol. | 翻訳日:2024-07-16 23:57:10 公開日:2024-07-13 |
# 逆気象下におけるロバストLiDARセマンティックセマンティックセグメンテーションのためのデータ拡張の再考
Rethinking Data Augmentation for Robust LiDAR Semantic Segmentation in Adverse Weather ( http://arxiv.org/abs/2407.02286v2 ) ライセンス: Link先を確認 | Junsung Park, Kyungmin Kim, Hyunjung Shim, | (参考訳) 既存のLiDARセマンティックセグメンテーション手法は、悪天候下での性能低下に苦慮することが多い。
これまでの研究では、悪天候をシミュレートしたり、トレーニング中に普遍的なデータ拡張を採用することでこの問題に対処してきた。
しかし, これらの手法は, 悪天候がLiDARセマンティックセグメンテーション性能に悪影響を及ぼすか, 詳細な分析と理解を欠いている。
本研究では, 大気中の霧や液滴による屈折による幾何学的摂動と, エネルギー吸収と閉塞による点降下の2つの要因を同定し, 性能劣化の主な原因を特定するための玩具実験を行った。
これらの知見に基づいて,新たな戦略的データ拡張手法を提案する。
まず、幾何学的摂動を模倣するために、ランダムな深さ(または角度)の点を揺らぐ選択ジッタリング(SJ)を紹介した。
さらに,Learnerable Point Drop (LPD) を開発し,悪天候からの点滴現象を近似するために,Deep Q-Learning Network を用いて脆弱な消去パターンを学習した。
これらの手法は、正確な気象シミュレーションを伴わず、データ中心分析によって同定された脆弱な条件に晒すことにより、LiDARセマンティックセマンティックセマンティックセマンティクスモデルを強化する。
実験により, 悪天候に対するロバスト性を高めるため, 提案手法の適合性を確認した。
提案手法はセマンティックKITTI-to-SemanticSTFベンチマークで39.5 mIoUの精度を達成し,従来の手法に比べて3倍に向上した。
Existing LiDAR semantic segmentation methods often struggle with performance declines in adverse weather conditions. Previous research has addressed this issue by simulating adverse weather or employing universal data augmentation during training. However, these methods lack a detailed analysis and understanding of how adverse weather negatively affects LiDAR semantic segmentation performance. Motivated by this issue, we identified key factors of adverse weather and conducted a toy experiment to pinpoint the main causes of performance degradation: (1) Geometric perturbation due to refraction caused by fog or droplets in the air and (2) Point drop due to energy absorption and occlusions. Based on these findings, we propose new strategic data augmentation techniques. First, we introduced a Selective Jittering (SJ) that jitters points in the random range of depth (or angle) to mimic geometric perturbation. Additionally, we developed a Learnable Point Drop (LPD) to learn vulnerable erase patterns with Deep Q-Learning Network to approximate the point drop phenomenon from adverse weather conditions. Without precise weather simulation, these techniques strengthen the LiDAR semantic segmentation model by exposing it to vulnerable conditions identified by our data-centric analysis. Experimental results confirmed the suitability of the proposed data augmentation methods for enhancing robustness against adverse weather conditions. Our method attains a remarkable 39.5 mIoU on the SemanticKITTI-to-SemanticSTF benchmark, surpassing the previous state-of-the-art by over 5.4%p, tripling the improvement over the baseline compared to previous methods achieved. | 翻訳日:2024-07-16 23:57:10 公開日:2024-07-13 |
# VEGS:学習先行情報を用いた3次元ガウス平滑化における都市景観の可視化
VEGS: View Extrapolation of Urban Scenes in 3D Gaussian Splatting using Learned Priors ( http://arxiv.org/abs/2407.02945v3 ) ライセンス: Link先を確認 | Sungwon Hwang, Min-Jung Kim, Taewoong Kang, Jayeon Kang, Jaegul Choo, | (参考訳) ニューラルレンダリングに基づく都市景観再構築手法は、一般的に、カメラが対向して前進する運転車両から収集された画像に頼っている。
これらの方法は、トレーニングカメラの軌跡と同様のビューからうまく合成できるが、トレーニングカメラの外部に新しいビューを誘導することは、オンパー性能を保証しない。
本稿では, カメラ分布のトレーニングにおいて, 左, 右, 下などの視線に対する再構成を評価することで, EVS問題に対処する。
EVSのレンダリング品質を向上させるため,高密度LiDARマップの構築によりモデルの初期化を行い,表面正規推定器や大規模拡散モデルといった事前のシーン知識を活用することを提案する。
定性的および定量的な比較は,EVSにおける手法の有効性を示す。
我々の知る限りでは、都市景観再建におけるESV問題に最初に取り組む人物である。
プロジェクトページへのリンクは、https://vegs3d.github.io/.com/です。
Neural rendering-based urban scene reconstruction methods commonly rely on images collected from driving vehicles with cameras facing and moving forward. Although these methods can successfully synthesize from views similar to training camera trajectory, directing the novel view outside the training camera distribution does not guarantee on-par performance. In this paper, we tackle the Extrapolated View Synthesis (EVS) problem by evaluating the reconstructions on views such as looking left, right or downwards with respect to training camera distributions. To improve rendering quality for EVS, we initialize our model by constructing dense LiDAR map, and propose to leverage prior scene knowledge such as surface normal estimator and large-scale diffusion model. Qualitative and quantitative comparisons demonstrate the effectiveness of our methods on EVS. To the best of our knowledge, we are the first to address the EVS problem in urban scene reconstruction. Link to our project page: https://vegs3d.github.io/. | 翻訳日:2024-07-16 23:47:24 公開日:2024-07-13 |
# エクストリームラーニングマシンを用いた投資決定と株式市場参加に対する金融リテラシーの影響
Impact of Financial Literacy on Investment Decisions and Stock Market Participation using Extreme Learning Machines ( http://arxiv.org/abs/2407.03498v2 ) ライセンス: Link先を確認 | Gunbir Singh Baveja, Aaryavir Verma, | (参考訳) 株式市場は新世代の間でますます人気のある投資オプションとなり、個人はより複雑な資産を探索している。
この小売投資家の参加の高まりは、この傾向の背景にある要因と、投資決定の強化における金融リテラシーの役割について、より深く理解する必要がある。
本研究は、金融リテラシーが金融意思決定や株式市場の参加にどのように影響するかを検討することを目的とする。
主要な障壁とモチベーターを特定することで、この発見は個人や政策立案者にとって、インフォームド・インベストメントの実践を促進する貴重な洞察を与えることができる。
当社の研究は、ソーシャルメディアプラットフォームから収集したデータを利用して、リアルタイム投資家の行動や態度を分析し、質的に定性的である。
このアプローチにより、金融リテラシーが投資選択や株式市場への参加に影響を及ぼす微妙な方法を捉えることができる。
この結果は、金融リテラシーが株式市場の参加と金融決定において重要な役割を担っていることを示している。
参加の鍵となる障壁は、金融リテラシーの低いこと、金融知識の増大は投資の信頼と意思決定を高めることである。
さらに、金融詐欺に対する行動的金融要因や感受性は、金融リテラシーのレベルに大きく影響される。
これらの結果は、金融リテラシーを改善し、個人が株式市場に効果的に参加できるようにするための、対象とする金融教育プログラムの重要性を浮き彫りにしている。
The stock market has become an increasingly popular investment option among new generations, with individuals exploring more complex assets. This rise in retail investors' participation necessitates a deeper understanding of the driving factors behind this trend and the role of financial literacy in enhancing investment decisions. This study aims to investigate how financial literacy influences financial decision-making and stock market participation. By identifying key barriers and motivators, the findings can provide valuable insights for individuals and policymakers to promote informed investing practices. Our research is qualitative in nature, utilizing data collected from social media platforms to analyze real-time investor behavior and attitudes. This approach allows us to capture the nuanced ways in which financial literacy impacts investment choices and participation in the stock market. The findings indicate that financial literacy plays a critical role in stock market participation and financial decision-making. Key barriers to participation include low financial literacy, while increased financial knowledge enhances investment confidence and decision-making. Additionally, behavioral finance factors and susceptibility to financial scams are significantly influenced by levels of financial literacy. These results underscore the importance of targeted financial education programs to improve financial literacy and empower individuals to participate effectively in the stock market. | 翻訳日:2024-07-16 23:47:23 公開日:2024-07-13 |
# リーダーボード運用(LBOps)のワークフローとスメルについて : 基礎モデルリーダーボードの探索的研究
On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards ( http://arxiv.org/abs/2407.04065v2 ) ライセンス: Link先を確認 | Zhimin Zhao, Abdul Ali Bangash, Filipe Roseiro Côgo, Bram Adams, Ahmed E. Hassan, | (参考訳) 大規模機械学習(ML)モデルである大規模言語モデル(LLM)のような基礎モデル(FM)は、コード補完、コード理解、ソフトウェア開発など、様々な下流ソフトウェア工学(SE)タスクにおいて顕著な適応性を示している。
その結果、FMリーダーボード、特にクラウドプラットフォームにホストされているものは、SEチームが特定の製品や目的のために、最高のサードパーティ製のFMを比較、選択するための必須のツールになっています。
しかし、FM評価と比較のための標準化されたガイドラインの欠如は、FMリーダーボードの透明性を脅かし、効果的にFM選択を行うステークホルダーの能力を制限している。
この課題に対処する第一歩として、我々の研究は、FMリーダーボードが現実世界のシナリオ(リーダーボード操作)でどのように機能するかを理解し、潜在的なリーダーボードの落とし穴と改善のための領域(リーダーボード臭い)を特定することに焦点を当てています。
本稿では,最大721個のFMリーダボードを収集する多言語文献レビューを実施し,その上で,それらのドキュメントを調査し,そのワークフローパターンを理解するために,リーダボードオペレータと直接コミュニケーションを行う。
カードソートと交渉された合意を用いて、5つのユニークなワークフローパターンを特定し、FMリーダーボード内で必要不可欠なコンポーネントとその相互作用を概説するドメインモデルを開発する。
次に、LBOpsで8種類のリーダーボードの匂いを識別します。
これらの臭いを和らげることで、SEチームは現在のLBOpsプラクティスにおける透明性、説明責任、コラボレーションを改善し、FM比較と選択のためのより堅牢で責任あるエコシステムを育むことができる。
Foundation models (FM), such as large language models (LLMs), which are large-scale machine learning (ML) models, have demonstrated remarkable adaptability in various downstream software engineering (SE) tasks, such as code completion, code understanding, and software development. As a result, FM leaderboards, especially those hosted on cloud platforms, have become essential tools for SE teams to compare and select the best third-party FMs for their specific products and purposes. However, the lack of standardized guidelines for FM evaluation and comparison threatens the transparency of FM leaderboards and limits stakeholders' ability to perform effective FM selection. As a first step towards addressing this challenge, our research focuses on understanding how these FM leaderboards operate in real-world scenarios ("leaderboard operations") and identifying potential leaderboard pitfalls and areas for improvement ("leaderboard smells"). In this regard, we perform a multivocal literature review to collect up to 721 FM leaderboards, after which we examine their documentation and engage in direct communication with leaderboard operators to understand their workflow patterns. Using card sorting and negotiated agreement, we identify 5 unique workflow patterns and develop a domain model that outlines the essential components and their interaction within FM leaderboards. We then identify 8 unique types of leaderboard smells in LBOps. By mitigating these smells, SE teams can improve transparency, accountability, and collaboration in current LBOps practices, fostering a more robust and responsible ecosystem for FM comparison and selection. | 翻訳日:2024-07-16 23:47:23 公開日:2024-07-13 |
# DailyDVS-200: イベントベースのアクション認識のための総合ベンチマークデータセット
DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition ( http://arxiv.org/abs/2407.05106v2 ) ライセンス: Link先を確認 | Qi Wang, Zhou Xu, Yuming Lin, Jingtao Ye, Hongsheng Li, Guangming Zhu, Syed Afaq Ali Shah, Mohammed Bennamoun, Liang Zhang, | (参考訳) ニューロモルフィックセンサー、特にイベントカメラは、異常なダイナミックレンジ、最小レイテンシ、エネルギー効率でピクセル強度の変化を捉え、従来のフレームベースのカメラと区別することで、視覚データ取得に革命をもたらす。
イベントカメラの特徴的な能力は、イベントベースのアクション認識の領域に大きな関心を抱き、その進歩の可能性を認識している。
しかし、この分野での開発は、堅牢な認識フレームワークを開発する上で重要な、包括的な大規模データセットの欠如によって、現在遅くなっている。
このギャップを埋めるために、イベントベースのアクション認識コミュニティ用に微妙にキュレートされたベンチマークデータセットであるDailyDVS-200を紹介した。
DailyDVS-200は、実世界のシナリオにまたがる200のアクションカテゴリをカバーし、47人の参加者によって記録され、22,000以上のイベントシーケンスで構成されている。
このデータセットは、幅広いアクションタイプ、シーンの複雑さ、データ取得の多様性を反映するように設計されている。
データセットの各シーケンスには14の属性がアノテートされ、記録されたアクションの詳細なキャラクタリゼーションが保証される。
さらに、DailyDVS-200は幅広い研究パスを促進するために構成されており、既存のアプローチを検証し、新しい方法論を創出するための確かな基盤を提供する。
この分野に新しいベンチマークを設定することで、ニューロモルフィックデータ処理の現在の限界に挑戦し、イベントベースのアクション認識技術における新しいアプローチの急増を招き、ニューロモルフィックコンピューティングなどにおける将来の探索の道を開く。
データセットとソースコードはhttps://github.com/QiWang233/DailyDVS-200で公開されている。
Neuromorphic sensors, specifically event cameras, revolutionize visual data acquisition by capturing pixel intensity changes with exceptional dynamic range, minimal latency, and energy efficiency, setting them apart from conventional frame-based cameras. The distinctive capabilities of event cameras have ignited significant interest in the domain of event-based action recognition, recognizing their vast potential for advancement. However, the development in this field is currently slowed by the lack of comprehensive, large-scale datasets, which are critical for developing robust recognition frameworks. To bridge this gap, we introduces DailyDVS-200, a meticulously curated benchmark dataset tailored for the event-based action recognition community. DailyDVS-200 is extensive, covering 200 action categories across real-world scenarios, recorded by 47 participants, and comprises more than 22,000 event sequences. This dataset is designed to reflect a broad spectrum of action types, scene complexities, and data acquisition diversity. Each sequence in the dataset is annotated with 14 attributes, ensuring a detailed characterization of the recorded actions. Moreover, DailyDVS-200 is structured to facilitate a wide range of research paths, offering a solid foundation for both validating existing approaches and inspiring novel methodologies. By setting a new benchmark in the field, we challenge the current limitations of neuromorphic data processing and invite a surge of new approaches in event-based action recognition techniques, which paves the way for future explorations in neuromorphic computing and beyond. The dataset and source code are available at https://github.com/QiWang233/DailyDVS-200. | 翻訳日:2024-07-16 23:47:23 公開日:2024-07-13 |
# Deep Online Probability Aggregation Clustering
Deep Online Probability Aggregation Clustering ( http://arxiv.org/abs/2407.05246v2 ) ライセンス: Link先を確認 | Yuxuan Yan, Na Lu, Ruofan Yan, | (参考訳) マシンクラスタリングとディープモデルの組み合わせは、ディープクラスタリングにおいて顕著な優位性を示している。
データ処理パイプラインを2つの交互フェーズ – 機能クラスタリングとモデルトレーニング – に修正する。
しかし、このようなスケジュール変更は不安定性と計算負荷の問題を引き起こす可能性がある。
本稿では,ディープラーニング技術に積極的に適応し,オンラインのディープクラスタリングに容易に展開できるようにする,Probability Aggregation Clustering (PAC)と呼ばれるセンタレスクラスタリングアルゴリズムを提案する。
PACはクラスタ中心を回避し、クラスタリングを最適化問題として新しい目的関数で定式化し、確率空間と分布空間を整列する。
PACの計算機構に基づき、ミニバッチデータ上で安定かつ柔軟な特徴クラスタリングを行い、さらに深い視覚的クラスタリングフレームワークDep PAC(DPAC)を構築するための一般的なオンライン確率集計モジュールを提案する。
大規模な実験により、PACはクラスタリングの堅牢性と性能が優れており、DPACは最先端のディープクラスタリング手法よりも著しく優れていることが示された。
Combining machine clustering with deep models has shown remarkable superiority in deep clustering. It modifies the data processing pipeline into two alternating phases: feature clustering and model training. However, such alternating schedule may lead to instability and computational burden issues. We propose a centerless clustering algorithm called Probability Aggregation Clustering (PAC) to proactively adapt deep learning technologies, enabling easy deployment in online deep clustering. PAC circumvents the cluster center and aligns the probability space and distribution space by formulating clustering as an optimization problem with a novel objective function. Based on the computation mechanism of the PAC, we propose a general online probability aggregation module to perform stable and flexible feature clustering over mini-batch data and further construct a deep visual clustering framework deep PAC (DPAC). Extensive experiments demonstrate that PAC has superior clustering robustness and performance and DPAC remarkably outperforms the state-of-the-art deep clustering methods. | 翻訳日:2024-07-16 21:47:52 公開日:2024-07-13 |
# Emilia:大規模音声生成のための多言語・多言語・多言語音声データセット
Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation ( http://arxiv.org/abs/2407.05361v2 ) ライセンス: Link先を確認 | Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu, | (参考訳) 近年,大規模学習データを用いて音声生成モデルに大きな進歩を遂げている。
しかし、研究コミュニティは、大規模で多様な、そして自発的な音声データが不足しているため、非常に自然で人間らしい音声を作り出すのに苦労している。
そこで本論文では,第1回多言語音声生成データセットであるEmiliaと,第1回オープンソース前処理パイプラインであるEmilia-Pipeについて述べる。
Emiliaは、6つの言語で101k時間以上のスピーチから始まり、様々な話し方で多様なスピーチを特徴としている。
Emiliaのスケールアップを容易にするために、オープンソースのパイプラインであるEmilia-Pipeは、数分間でモデルのトレーニングに備えた生の音声データを1時間処理することができる。
エミリアの有効性を実験的に検証した。
デモは、https://emilia-dataset.github.io/Emilia-Demo-Page/.comで公開されている。
Recently, speech generation models have made significant progress by using large-scale training data. However, the research community struggle to produce highly spontaneous and human-like speech due to the lack of large-scale, diverse, and spontaneous speech data. This paper present Emilia, the first multilingual speech generation dataset from in-the-wild speech data, and Emilia-Pipe, the first open-source preprocessing pipeline designed to transform in-the-wild speech data into high-quality training data with annotations for speech generation. Emilia starts with over 101k hours of speech in six languages and features diverse speech with varied speaking styles. To facilitate the scale-up of Emilia, the open-source pipeline Emilia-Pipe can process one hour of raw speech data ready for model training in a few mins, which enables the research community to collaborate on large-scale speech generation research. Experimental results validate the effectiveness of Emilia. Demos are available at: https://emilia-dataset.github.io/Emilia-Demo-Page/. | 翻訳日:2024-07-16 21:47:52 公開日:2024-07-13 |
# 線形方程式の解系の量子深さ下界
Tight Quantum Depth Lower Bound for Solving Systems of Linear Equations ( http://arxiv.org/abs/2407.06012v2 ) ライセンス: Link先を確認 | Qisheng Wang, Zhicheng Zhang, | (参考訳) Harrow, Hassidim, and Lloyd (2009) は、$N$変数と条件数 $\kappa$ を持つ線形方程式の系が、量子コンピュータ上で $\operatorname{poly}(\log(N), \kappa)$ time で解けることを示したので、どの古典的アルゴリズムよりも指数関数的に高速である。
この問題の最先端の量子アルゴリズムは、Costa, An, Sanders, Su, Babbush, and Berry (2022) によるものであり、最適なクエリ複雑性は$\Theta(\kappa)$である。
重要な疑問は、並列処理がさらなる最適化をもたらすかどうかである。
本稿では,この問題に対する並列量子コンピューティングの限界について考察する。
時間複雑性を持つ線形方程式の系を解くための量子アルゴリズムとして、$\operatorname{poly}(\log(N), \kappa)$ はクエリの深さで$\Omega(\kappa)$ の低い境界を持ち、これは定数係数に固まる。
Since Harrow, Hassidim, and Lloyd (2009) showed that a system of linear equations with $N$ variables and condition number $\kappa$ can be solved on a quantum computer in $\operatorname{poly}(\log(N), \kappa)$ time, exponentially faster than any classical algorithms, its improvements and applications have been extensively investigated. The state-of-the-art quantum algorithm for this problem is due to Costa, An, Sanders, Su, Babbush, and Berry (2022), with optimal query complexity $\Theta(\kappa)$. An important question left is whether parallelism can bring further optimization. In this paper, we study the limitation of parallel quantum computing on this problem. We show that any quantum algorithm for solving systems of linear equations with time complexity $\operatorname{poly}(\log(N), \kappa)$ has a lower bound of $\Omega(\kappa)$ on the depth of queries, which is tight up to a constant factor. | 翻訳日:2024-07-16 21:47:52 公開日:2024-07-13 |
# ORAN-Bench-13K: オープン無線アクセスネットワークにおけるLLMの評価のためのオープンソースベンチマーク
ORAN-Bench-13K: An Open Source Benchmark for Assessing LLMs in Open Radio Access Networks ( http://arxiv.org/abs/2407.06245v2 ) ライセンス: Link先を確認 | Pranshav Gajjar, Vijay K. Shah, | (参考訳) 大規模言語モデル(LLM)は、ネットワーク分析、異常検出、コード生成を強化し、多数のO-RANタスクの効率と信頼性を大幅に向上することで、Open Radio Access Networks(O-RAN)の展開と運用方法に革命をもたらすことができます。
本稿では,O-RANの文脈内でのLarge Language Models(LLM)の性能を評価するために設計された,最初の総合ベンチマークであるORAN-Bench-13Kを提案する。
ベンチマークは,O-RAN仕様文書116件から得られた13,952件からなる。
我々は,新しい3段階LLMフレームワークを活用し,ORAN関連の知識を幅広く網羅する3つの難問に分類する。
我々は、Gemini、Chat-GPT、Mistralなど、最先端のLLMの性能を徹底的に評価した。
さらに,ORAN-Bench-13Kにおいて,他のクローズドソースモデルと比較して優れた性能を示すRAG(Retrieval-Augmented Generation)ベースのパイプラインであるORANSightを提案する。
以上の結果から,現在のLLMモデルはO-RANに精通していないことが示唆され,特殊なモデルの必要性が浮き彫りになっている。
我々はRAGをベースとしたORANSightパイプラインをマクロ精度0.784、重量精度0.776で組み込んだ場合の顕著な性能改善を観察した。
Large Language Models (LLMs) can revolutionize how we deploy and operate Open Radio Access Networks (O-RAN) by enhancing network analytics, anomaly detection, and code generation and significantly increasing the efficiency and reliability of a plethora of O-RAN tasks. In this paper, we present ORAN-Bench-13K, the first comprehensive benchmark designed to evaluate the performance of Large Language Models (LLMs) within the context of O-RAN. Our benchmark consists of 13,952 meticulously curated multiple-choice questions generated from 116 O-RAN specification documents. We leverage a novel three-stage LLM framework, and the questions are categorized into three distinct difficulties to cover a wide spectrum of ORAN-related knowledge. We thoroughly evaluate the performance of several state-of-the-art LLMs, including Gemini, Chat-GPT, and Mistral. Additionally, we propose ORANSight, a Retrieval-Augmented Generation (RAG)-based pipeline that demonstrates superior performance on ORAN-Bench-13K compared to other tested closed-source models. Our findings indicate that current popular LLM models are not proficient in O-RAN, highlighting the need for specialized models. We observed a noticeable performance improvement when incorporating the RAG-based ORANSight pipeline, with a Macro Accuracy of 0.784 and a Weighted Accuracy of 0.776, which was on average 21.55% and 22.59% better than the other tested LLMs. | 翻訳日:2024-07-16 21:47:52 公開日:2024-07-13 |
# APIドキュメンテーションによるLLM幻覚の緩和について
On Mitigating Code LLM Hallucinations with API Documentation ( http://arxiv.org/abs/2407.09726v1 ) ライセンス: Link先を確認 | Nihal Jain, Robert Kwiatkowski, Baishakhi Ray, Murali Krishna Ramanathan, Varun Kumar, | (参考訳) 本研究では,様々なソフトウェア工学の文脈におけるAPI幻覚の問題に対処する。
CloudAPIBenchは、API幻覚の発生を測定するために設計された新しいベンチマークである。
CloudAPIBenchはまた、パブリックドメインにおけるAPI発生頻度のアノテーションを提供しており、様々な周波数レベルでAPI幻覚を研究することができます。
例えば、GPT-4oは38.58%の有効な低周波API呼び出ししか達成していない。
ドキュメンテーション拡張ジェネレーション(DAG)は低周波APIの性能(DAGでは47.94%に向上)を著しく向上するが、サブ最適レトリバー(39.02%絶対降下)を使用する場合の高周波APIに悪影響を及ぼすことを示した。
これを軽減するため,APIインデックスに対するチェックやCode LLMsの信頼性スコアを利用したDAGをインテリジェントにトリガして,必要な時にのみ検索する手法を提案する。
提案手法は低周波API性能と高周波API性能のバランスを向上し,より信頼性の高いAPI呼び出しを実現している(GPT-4o用CloudAPIBenchの8.20%の絶対改善)。
In this study, we address the issue of API hallucinations in various software engineering contexts. We introduce CloudAPIBench, a new benchmark designed to measure API hallucination occurrences. CloudAPIBench also provides annotations for frequencies of API occurrences in the public domain, allowing us to study API hallucinations at various frequency levels. Our findings reveal that Code LLMs struggle with low frequency APIs: for e.g., GPT-4o achieves only 38.58% valid low frequency API invocations. We demonstrate that Documentation Augmented Generation (DAG) significantly improves performance for low frequency APIs (increase to 47.94% with DAG) but negatively impacts high frequency APIs when using sub-optimal retrievers (a 39.02% absolute drop). To mitigate this, we propose to intelligently trigger DAG where we check against an API index or leverage Code LLMs' confidence scores to retrieve only when needed. We demonstrate that our proposed methods enhance the balance between low and high frequency API performance, resulting in more reliable API invocations (8.20% absolute improvement on CloudAPIBench for GPT-4o). | 翻訳日:2024-07-16 21:08:35 公開日:2024-07-13 |
# ボーリング坑井の設定, 位置, 透水性を考慮した貯留層シミュレーションのためのニューラル演算子に基づくプロキシ
Neural Operator-Based Proxy for Reservoir Simulations Considering Varying Well Settings, Locations, and Permeability Fields ( http://arxiv.org/abs/2407.09728v1 ) ライセンス: Link先を確認 | Daniel Badawi, Eduardo Gildin, | (参考訳) 多孔質媒質中におけるダーシー流動のシミュレーションは,炭化水素および炭素貯蔵貯留層における流体の将来の流動挙動を理解するために重要である。
貯水池の地質モデルは、しばしば高い不確実性と関連付けられ、歴史マッチングと生産最適化のための多くの数値シミュレーションに繋がる。
シミュレーションデータでトレーニングされた機械学習モデルは、従来のシミュレータよりも高速な代替手段を提供することができる。
本稿では, 種々の透水性フィールド, 井戸位置, 井戸数に対する圧力および飽和を予測し, 従来の貯水池シミュレータよりも優れる単一フーリエニューラル演算子(FNO)を提案する。
圧力および飽和予測の最大平均相対誤差は5\%未満である。
これは、データセットのサイズを75倍に減らし、オーバーフィッティングを減らす、シンプルだが非常に効果的なデータ拡張技術を使用することによって達成される。
また、入力テンソルをバイナリ方式で構築することで、見えない井戸の位置、井戸の制御、井戸の数を予測することができる。
このようなモデルは、履歴マッチングと貯水池キャラクタリゼーションの手順を、数桁のオーダーで高速化することができる。
新しい井戸の位置、井戸の制御、井戸の数を予測する能力は、高効率な貯水池の管理と最適化を可能にする。
Simulating Darcy flows in porous media is fundamental to understand the future flow behavior of fluids in hydrocarbon and carbon storage reservoirs. Geological models of reservoirs are often associated with high uncertainly leading to many numerical simulations for history matching and production optimization. Machine learning models trained with simulation data can provide a faster alternative to traditional simulators. In this paper we present a single Fourier Neural Operator (FNO) surrogate that outperforms traditional reservoir simulators by the ability to predict pressures and saturations on varying permeability fields, well locations, well controls, and number of wells. The maximum-mean relative error of 95\% of pressure and saturation predictions is less than 5\%. This is achieved by employing a simple yet very effective data augmentation technique that reduces the dataset size by 75\% and reduces overfitting. Also, constructing the input tensor in a binary fashion enables predictions on unseen well locations, well controls, and number of wells. Such model can accelerate history matching and reservoir characterization procedures by several orders of magnitude. The ability to predict on new well locations, well controls, and number of wells enables highly efficient reservoir management and optimization. | 翻訳日:2024-07-16 21:08:35 公開日:2024-07-13 |
# Casimir-Lifshitzアンハーモニック発振器
The Casimir-Lifshitz Anharmonic Oscillator ( http://arxiv.org/abs/2407.09729v1 ) ライセンス: Link先を確認 | E. Arias, G. O. Heymans, N. F. Svaiter, | (参考訳) 三次元時空における2つの異なる誘電体材料からなる長方形導波路の存在下での電磁場に関連するカシミール・リフシッツ効果を解析した。
この特異幾何に対して一般化されたリーフシッツ公式を導出するために、曲面モード法を用いる。
我々の定式化は導波管を構成する材料の独特な誘電特性を説明し、カシミール・リフシッツエネルギーの正確な計算に繋がる。
漸近的限界では, 完全反射境界に対する古典的な表現が復元される。
矩形キャビティ壁上の力の挙動は,2つの平行な非固定壁を許すと,真空応力のみによって振動するカシミール・リフシッツ無調波発振器としてシステムを認識することを認めている。
We analyze the Casimir-Lifshitz effect associated with the electromagnetic field in the presence of a rectangular waveguide consisting of two distinct dielectric materials in a (3 + 1)-dimensional spacetime. We employ the surface mode technique to derive a generalized Lifshitz formula for this specific geometry. Our formulation accounts for the unique dielectric properties of the materials composing the waveguide, leading to a precise calculation of the Casimir-Lifshitz energy. In the asymptotic limit, our results recover the classical expressions for perfect reflecting boundaries. The behavior of the force on the rectangular cavity walls admit us to identify the system as a Casimir-Lifshitz anharmonic oscillator, that may vibrate due only the to vacuum stress if we allow two parallel non-fixed walls. | 翻訳日:2024-07-16 21:08:35 公開日:2024-07-13 |
# Sliding Window Bi-Objective Evolutionary Algorithms fortimizing Chance-Constrained Monotone Submodular Function (特集:ユビキタスコンピューティング)
Sliding Window Bi-Objective Evolutionary Algorithms for Optimizing Chance-Constrained Monotone Submodular Functions ( http://arxiv.org/abs/2407.09731v1 ) ライセンス: Link先を確認 | Xiankun Yan, Anneta Neumann, Frank Neumann, | (参考訳) 多目的定式化を用いたGSEMOアルゴリズムの変数を解析し,確率制約付き部分モジュラー関数の最適化に応用した。
しかし,これらの研究で考慮されたGSEMOアルゴリズムの個体数増加の影響により,最適化実行中に得られたトレードオフ数が急速に増加すると,この手法は効果が低下する。
本稿では,[21]で導入されたスライディング・セレクションのアプローチを,確率制約付き単調部分モジュラ関数の最適化に適用する。
GSEMOアルゴリズムは,実行環境に影響を及ぼす重要な要因として個体群サイズを制限し,現在GSEMOで知られているものよりも優れた実行保証が得られることを示す。
本研究では,SW-GSEMO と GSEMO と NSGA-II の最大カバレッジ問題における性能を比較し,SW-GSEMO が他の2つのアプローチよりも優れていることを示す。
SW-GSEMOの最適化動作に関するさらなる知見を得るため、SW-GSEMOの最適化過程における選択挙動を可視化し、他のアルゴリズムに勝って可変インスタンスにおける解の最高品質を得ることを示す。
Variants of the GSEMO algorithm using multi-objective formulations have been successfully analyzed and applied to optimize chance-constrained submodular functions. However, due to the effect of the increasing population size of the GSEMO algorithm considered in these studies from the algorithms, the approach becomes ineffective if the number of trade-offs obtained grows quickly during the optimization run. In this paper, we apply the sliding-selection approach introduced in [21] to the optimization of chance-constrained monotone submodular functions. We theoretically analyze the resulting SW-GSEMO algorithm which successfully limits the population size as a key factor that impacts the runtime and show that this allows it to obtain better runtime guarantees than the best ones currently known for the GSEMO. In our experimental study, we compare the performance of the SW-GSEMO to the GSEMO and NSGA-II on the maximum coverage problem under the chance constraint and show that the SW-GSEMO outperforms the other two approaches in most cases. In order to get additional insights into the optimization behavior of SW-GSEMO, we visualize the selection behavior of SW-GSEMO during its optimization process and show it beats other algorithms to obtain the highest quality of solution in variable instances. | 翻訳日:2024-07-16 21:08:35 公開日:2024-07-13 |
# 発声スリテリン: 発声分離, 認識, 合成のためのマンバの性能と効率の検討
Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis ( http://arxiv.org/abs/2407.09732v1 ) ライセンス: Link先を確認 | Xilin Jiang, Yinghao Aaron Li, Adrian Nicolas Florea, Cong Han, Nima Mesgarani, | (参考訳) 複数の音声関連タスクのパフォーマンスと効率の両面で、Mambaを変換器と比較する前に、Mambaが音声の変換器のより良い代替手段であると結論付けるのは早すぎる。
そこで本研究では, 音声分離のためのMamba-TasNet, 音声認識のためのConMamba, 音声合成のためのVALL-Mの3つのモデルを提案し, 評価する。
性能、メモリ、スピードにおいて、同様の大きさのトランスフォーマーと比較する。
私たちのMambaやMamba-transformerハイブリッドモデルは、Sepformer、Conformer、VALL-Eといったトランスフォーマーと同等か高いパフォーマンスを示しています。
メモリのトランスフォーマーよりも効率的で、しきい値よりも長い音声の処理速度があり、逆に音声トークンの分解能と関係がある。
分離のためのMambaは最も効率的であり、認識のためのMambaは最小限である。
さらに,2つの入力の交叉やマスマスキングといったテキストと音声の連成モデリングを必要とするモデルにおいて,Mambaはしきい値よりも短い音声変換器よりも効率が良くないことを示す。
したがって、マンバや変圧器の優越性は特定の問題やモデルに依存すると論じる。
https://github.com/xi-j/Mamba-TasNetとhttps://github.com/xi-j/Mamba-ASRで公開されている。
It is too early to conclude that Mamba is a better alternative to transformers for speech before comparing Mamba with transformers in terms of both performance and efficiency in multiple speech-related tasks. To reach this conclusion, we propose and evaluate three models for three tasks: Mamba-TasNet for speech separation, ConMamba for speech recognition, and VALL-M for speech synthesis. We compare them with transformers of similar sizes in performance, memory, and speed. Our Mamba or Mamba-transformer hybrid models show comparable or higher performance than their transformer counterparts: Sepformer, Conformer, and VALL-E. They are more efficient than transformers in memory and speed for speech longer than a threshold duration, inversely related to the resolution of a speech token. Mamba for separation is the most efficient, and Mamba for recognition is the least. Further, we show that Mamba is not more efficient than transformer for speech shorter than the threshold duration and performs worse in models that require joint modeling of text and speech, such as cross or masked attention of two inputs. Therefore, we argue that the superiority of Mamba or transformer depends on particular problems and models. Code available at https://github.com/xi-j/Mamba-TasNet and https://github.com/xi-j/Mamba-ASR. | 翻訳日:2024-07-16 21:08:35 公開日:2024-07-13 |
# テクスチャ-GS:空間的に定義された色と平和を持つガウススプラッティング
Textured-GS: Gaussian Splatting with Spatially Defined Color and Opacity ( http://arxiv.org/abs/2407.09733v1 ) ライセンス: Link先を確認 | Zhentao Huang, Minglun Gong, | (参考訳) 本稿では,Spherical Harmonics (SH) を用いた空間的に定義された色と不透明度の変化を取り入れたガウススプラッティングの手法である Textured-GS を紹介する。
このアプローチにより、各ガウス語は、様々な色や不透明度を表面にわたって調節することで、よりリッチな表現を表現できるようになり、従来の手法に比べてレンダリング品質が著しく向上する。
提案手法のメリットを実証するため,我々はミニ・スプレイティング・アーキテクチャを応用し,ガウスの数を増大させることなくテクスチャ化されたガウスを統合した。
複数の実世界のデータセットを対象とした実験では、Textured-GSがベースラインのMini-Splattingと標準の3DGSの両方を視覚的忠実度で一貫して上回っていることが示された。
その結果、Textured-GSがガウスベースのレンダリング技術を進歩させ、より効率的で高品質なシーン再構築を約束する可能性を浮き彫りにした。
In this paper, we introduce Textured-GS, an innovative method for rendering Gaussian splatting that incorporates spatially defined color and opacity variations using Spherical Harmonics (SH). This approach enables each Gaussian to exhibit a richer representation by accommodating varying colors and opacities across its surface, significantly enhancing rendering quality compared to traditional methods. To demonstrate the merits of our approach, we have adapted the Mini-Splatting architecture to integrate textured Gaussians without increasing the number of Gaussians. Our experiments across multiple real-world datasets show that Textured-GS consistently outperforms both the baseline Mini-Splatting and standard 3DGS in terms of visual fidelity. The results highlight the potential of Textured-GS to advance Gaussian-based rendering technologies, promising more efficient and high-quality scene reconstructions. | 翻訳日:2024-07-16 21:08:35 公開日:2024-07-13 |
# 正・未ラベルデータ:モデル、推定、推論、分類
Positive and Unlabeled Data: Model, Estimation, Inference, and Classification ( http://arxiv.org/abs/2407.09735v1 ) ライセンス: Link先を確認 | Siyan Liu, Chi-Kuang Yeh, Xin Zhang, Qinglong Tian, Pengfei Li, | (参考訳) 本研究では,2次指数傾斜モデル(DETM)による正・ラベルなし(PU)データへの新たなアプローチを提案する。
従来の手法は、正とラベルなしの正のデータが同じ分布から来ると仮定されるランダムな(SCAR)PUデータでのみ適用されるため、しばしば不足する。
対照的に、DEMの双対構造は、ラベル付きおよびラベルなしの正のデータが異なる分布から得られるランダムPUデータにおいて、より複雑で未探索のデータを効果的に許容する。
同定可能性,パラメータ推定,漸近特性など,DETMの理論的基礎を厳格に確立する。
さらに、SCAR条件の適合性テストを開発し、対象領域における正のインスタンスの割合に対する信頼区間を構築することにより、統計的推測を推し進める。
我々は、近似ベイズ分類器を分類タスクに利用し、予測におけるDETMの頑健な性能を実証する。
本研究は、理論的洞察と実用的応用を通じて、PUデータの課題に対処するための包括的なフレームワークとして、DETMを強調した。
This study introduces a new approach to addressing positive and unlabeled (PU) data through the double exponential tilting model (DETM). Traditional methods often fall short because they only apply to selected completely at random (SCAR) PU data, where the labeled positive and unlabeled positive data are assumed to be from the same distribution. In contrast, our DETM's dual structure effectively accommodates the more complex and underexplored selected at random PU data, where the labeled and unlabeled positive data can be from different distributions. We rigorously establish the theoretical foundations of DETM, including identifiability, parameter estimation, and asymptotic properties. Additionally, we move forward to statistical inference by developing a goodness-of-fit test for the SCAR condition and constructing confidence intervals for the proportion of positive instances in the target domain. We leverage an approximated Bayes classifier for classification tasks, demonstrating DETM's robust performance in prediction. Through theoretical insights and practical applications, this study highlights DETM as a comprehensive framework for addressing the challenges of PU data. | 翻訳日:2024-07-16 21:08:35 公開日:2024-07-13 |
# スパース漸近性PCA : 時間軸におけるスパース潜伏因子の同定
Sparse Asymptotic PCA: Identifying Sparse Latent Factors Across Time Horizon ( http://arxiv.org/abs/2407.09738v1 ) ライセンス: Link先を確認 | Zhaoxing Gao, | (参考訳) 本稿では,新しいスパース漸近主成分分析(APCA)を用いたスパース潜在因子モデリング法を提案する。
このアプローチは、一般的な近似因子モデルフレームワーク内での時間的地平線上の大次元パネルデータシステムのコムーブメントを分析する。
スパース負荷行列を仮定するスパースPCAに基づく既存のスパース因子モデリング手法とは異なり、我々のスパースAPCAは、ファクタプロセスは時間水平線上でスパースであり、対応するロード行列はスパースではないと仮定する。
この発展は、市場要因への露出が一般的に普遍的で非スパースである場合、スパース負荷の仮定が金融リターンに適さないという観察によって動機づけられる。
そこで本研究では,第1のスパース因子過程を推定する停電電力法と,多要素ケースの逐次デフレ法を提案する。
さらに,新たなクロスセクション・クロスバリデーション手法を用いて,時間的地平線上でのリスク要因の空間性を特定するためのデータ駆動型手法を開発した。
理論的には、我々の推定器は穏やかな条件下で一貫していることが証明される。
モンテカルロシミュレーションは、提案手法が有限標本でうまく動作することを示した。
2004年1月から2016年12月までのS&P500種株価バランスパネルの日次リターンを実証的に分析した。
本研究はテキスト分析を通じて,市場を体系的に左右するスパース要因に関連する特定の事象について検討する。
我々のアプローチは、経済学者が経済・金融システムの体系的なリスクを時間とともに研究し理解する新たな道筋を提供する。
This paper proposes a novel method for sparse latent factor modeling using a new sparse asymptotic Principal Component Analysis (APCA). This approach analyzes the co-movements of large-dimensional panel data systems over time horizons within a general approximate factor model framework. Unlike existing sparse factor modeling approaches based on sparse PCA, which assume sparse loading matrices, our sparse APCA assumes that factor processes are sparse over the time horizon, while the corresponding loading matrices are not necessarily sparse. This development is motivated by the observation that the assumption of sparse loadings may not be appropriate for financial returns, where exposure to market factors is generally universal and non-sparse. We propose a truncated power method to estimate the first sparse factor process and a sequential deflation method for multi-factor cases. Additionally, we develop a data-driven approach to identify the sparsity of risk factors over the time horizon using a novel cross-sectional cross-validation method. Theoretically, we establish that our estimators are consistent under mild conditions. Monte Carlo simulations demonstrate that the proposed method performs well in finite samples. Empirically, we analyze daily stock returns for a balanced panel of S&P 500 stocks from January 2004 to December 2016. Through textual analysis, we examine specific events associated with the identified sparse factors that systematically influence the stock market. Our approach offers a new pathway for economists to study and understand the systematic risks of economic and financial systems over time. | 翻訳日:2024-07-16 21:08:35 公開日:2024-07-13 |
# ガウス過程を用いた導出的グローバル感性分析のためのアクティブラーニング
Active Learning for Derivative-Based Global Sensitivity Analysis with Gaussian Processes ( http://arxiv.org/abs/2407.09739v1 ) ライセンス: Link先を確認 | Syrine Belakaria, Benjamin Letham, Janardhan Rao Doppa, Barbara Engelhardt, Stefano Ermon, Eytan Bakshy, | (参考訳) 高価なブラックボックス関数のグローバル感度解析におけるアクティブラーニングの問題点を考察する。
本研究の目的は,車両安全実験における入力変数の重要性を効率よく学習することであり,各種部品の厚さが安全性に与える影響について検討することである。
関数評価は高価であるため,最も価値の高い実験資源の優先順位付けにアクティブラーニングを利用する。
本稿では,ガウス過程サロゲートモデルの下で,導関数に基づくグローバル感度測定(DGSM)の重要量の直接的ターゲットとする,新たな能動的学習獲得関数を提案する。
本稿では, DGSM に直接能動学習を応用し, トラクタブルな不確実性低減と情報取得機能を開発する。
本研究は,合成・実世界の問題に対する総合的な評価を通じて,DGSM推定のサンプル効率を,特に限られた評価予算で大きく向上させる方法を示す。
我々の研究は、様々な科学的・工学的応用において、より効率的で正確な感度分析の道を開いた。
We consider the problem of active learning for global sensitivity analysis of expensive black-box functions. Our aim is to efficiently learn the importance of different input variables, e.g., in vehicle safety experimentation, we study the impact of the thickness of various components on safety objectives. Since function evaluations are expensive, we use active learning to prioritize experimental resources where they yield the most value. We propose novel active learning acquisition functions that directly target key quantities of derivative-based global sensitivity measures (DGSMs) under Gaussian process surrogate models. We showcase the first application of active learning directly to DGSMs, and develop tractable uncertainty reduction and information gain acquisition functions for these measures. Through comprehensive evaluation on synthetic and real-world problems, our study demonstrates how these active learning acquisition strategies substantially enhance the sample efficiency of DGSM estimation, particularly with limited evaluation budgets. Our work paves the way for more efficient and accurate sensitivity analysis in various scientific and engineering applications. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# SocialRec: ソーシャルメディアにおける動的パーソナライズされたポストレコメンデーションシステム
SocialRec: User Activity Based Post Weighted Dynamic Personalized Post Recommendation System in Social Media ( http://arxiv.org/abs/2407.09747v1 ) ライセンス: Link先を確認 | Ismail Hossain, Sai Puppala, Md Jahangir Alam, Sajedul Talukder, | (参考訳) ユーザアクティビティは、投稿とその後のインタラクションに影響を与える可能性があるため、ユーザへの関心が生まれます。
通常、ユーザーはコメントやリアクション絵文字を使って友達からの投稿と対話し、Facebook、Twitter、Redditといったソーシャルメディアへの関心レベルを反映する。
我々の目的は、さまざまなトピックに対する投稿やエンゲージメントを含む、時間の経過とともにユーザー履歴を分析することである。
さらに,利用者のプロフィールを考慮し,活動とソーシャルメディアプラットフォームとのつながりを求める。
ユーザ履歴,エンゲージメント,ペルソナを統合することで,ヒットレート(HR)による項目共有と正規化カウント累積ゲイン(NDCG)によるランキングシステムの品質に基づいて推薦スコアの評価を行おうとする。
我々のハイブリッドアプローチは、新しいユーザーがいるときのコールドスタート問題を解き、ポストカテゴリの値を考えると、新しいアイテムのコールドスタート問題は決して発生しない。
冷間開始時のモデルの性能向上のために、類似ユーザを探し、最も類似度の高いスコアに基づいてユーザをランク付けすることで協調フィルタリングを導入する。
User activities can influence their subsequent interactions with a post, generating interest in the user. Typically, users interact with posts from friends by commenting and using reaction emojis, reflecting their level of interest on social media such as Facebook, Twitter, and Reddit. Our objective is to analyze user history over time, including their posts and engagement on various topics. Additionally, we take into account the user's profile, seeking connections between their activities and social media platforms. By integrating user history, engagement, and persona, we aim to assess recommendation scores based on relevant item sharing by Hit Rate (HR) and the quality of the ranking system by Normalized Discounted Cumulative Gain (NDCG), where we achieve the highest for NeuMF 0.80 and 0.6 respectively. Our hybrid approach solves the cold-start problem when there is a new user, for new items cold-start problem will never occur, as we consider the post category values. To improve the performance of the model during cold-start we introduce collaborative filtering by looking for similar users and ranking the users based on the highest similarity scores. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# TASeg:LiDARセマンティックセグメンテーションのためのテンポラルアグリゲーションネットワーク
TASeg: Temporal Aggregation Network for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2407.09751v1 ) ライセンス: Link先を確認 | Xiaopei Wu, Yuenan Hou, Xiaoshui Huang, Binbin Lin, Tong He, Xinge Zhu, Yuexin Ma, Boxi Wu, Haifeng Liu, Deng Cai, Wanli Ouyang, | (参考訳) LiDARセマンティックセマンティックセグメンテーションのための深層モデルのトレーニングは、ポイントクラウドの本質的な分散性のために難しい。
時間的データを活用することは、入力信号をより密にするため、空間性問題に対する自然な対策である。
しかし,従来の多フレーム融合アルゴリズムではメモリ制約による時間的情報の利用が不十分であり,情報的時間的イメージも無視する。
長期の時間点雲や画像に隠されたリッチな情報をフル活用するために,TASegと呼ばれるテンポラルアグリゲーションネットワークを提示する。
具体的には,時間的LiDAR凝集蒸留(TLAD)アルゴリズムを提案する。
高い精度を実現しながら、メモリと時間のオーバーヘッドを大幅に減らすことができる。
さらに、TLADはモデルを蒸留するためにgtを注入した教師を訓練し、パフォーマンスをさらに向上させる。
時間画像のフル活用を目的として,時間画像集約・融合モジュールを設計し,カメラFOVを大幅に拡張し,現在の特徴を増強する。
カメラFOVにおける時間的LiDAR点は、時間的画像特徴を時間的マルチモーダル融合のための現在の座標に変換する媒体として使用される。
さらに,静的移動スイッチ拡張 (SMSA) アルゴリズムを開発し,時間的情報を利用してオブジェクトの動作状態を自由に切り替えることを可能にし,静的かつ移動的なトレーニングサンプルを大幅に増加させる。
我々のTASegは、SemanticKITTIシングルスキャントラック、マルチスキャントラック、nuScenes LiDARセグメンテーショントラックの3つの挑戦トラックで1位であり、この手法の優位性を強く示している。
コードはhttps://github.com/LittlePey/TASegで入手できる。
Training deep models for LiDAR semantic segmentation is challenging due to the inherent sparsity of point clouds. Utilizing temporal data is a natural remedy against the sparsity problem as it makes the input signal denser. However, previous multi-frame fusion algorithms fall short in utilizing sufficient temporal information due to the memory constraint, and they also ignore the informative temporal images. To fully exploit rich information hidden in long-term temporal point clouds and images, we present the Temporal Aggregation Network, termed TASeg. Specifically, we propose a Temporal LiDAR Aggregation and Distillation (TLAD) algorithm, which leverages historical priors to assign different aggregation steps for different classes. It can largely reduce memory and time overhead while achieving higher accuracy. Besides, TLAD trains a teacher injected with gt priors to distill the model, further boosting the performance. To make full use of temporal images, we design a Temporal Image Aggregation and Fusion (TIAF) module, which can greatly expand the camera FOV and enhance the present features. Temporal LiDAR points in the camera FOV are used as mediums to transform temporal image features to the present coordinate for temporal multi-modal fusion. Moreover, we develop a Static-Moving Switch Augmentation (SMSA) algorithm, which utilizes sufficient temporal information to enable objects to switch their motion states freely, thus greatly increasing static and moving training samples. Our TASeg ranks 1st on three challenging tracks, i.e., SemanticKITTI single-scan track, multi-scan track and nuScenes LiDAR segmentation track, strongly demonstrating the superiority of our method. Codes are available at https://github.com/LittlePey/TASeg. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# リンク特徴とグラフニューラルネットワークを用いたバイアス付きバックプレッシャルーティング
Biased Backpressure Routing Using Link Features and Graph Neural Networks ( http://arxiv.org/abs/2407.09753v1 ) ライセンス: Link先を確認 | Zhongyuan Zhao, Bojan Radojičić, Gunjan Verma, Ananthram Swami, Santiago Segarra, | (参考訳) 無線マルチホップネットワークにおけるバックプレッシャ(BP)ルーティングのレイテンシを低減するため,基本BPにステップワイドなオーバヘッドを付加しないため,既存の最短パスバイアスBP(SP-BP)と待ち時間ベースのバックログメトリクスを強化することを提案する。
ホップ距離に頼るのではなく、無線リンクのスケジューリングデューティサイクルに基づいて構築された新しいエッジ重み付きショートパスバイアスを導入し、無線ネットワークのトポロジとトラフィックに基づいてグラフ畳み込みニューラルネットワークによって予測できる。
さらに,SP-BPに関連する長期的課題として,最適バイアススケーリング,効率的なバイアス維持,遅延認識の統合の3つに取り組む。
提案手法は, 基本BPのスループット最適性に加えて, 低複雑性と完全分散実装の実用的利点を継承する。
提案手法では,従来のSP-BP方式に1時間的オーバーヘッドしか導入せず,ネットワークサイズを基本BPに1時間的オーバーヘッドを導入している。
数値実験により,提案手法は,ネットワークトラフィック,干渉,モビリティといった様々な条件下で,既存の低オーバヘッドBPアルゴリズムの終端遅延を改善することにより,起動時間,ランダムウォーク,最後のパケット問題などに効果的に対処できることが示されている。
To reduce the latency of Backpressure (BP) routing in wireless multi-hop networks, we propose to enhance the existing shortest path-biased BP (SP-BP) and sojourn time-based backlog metrics, since they introduce no additional time step-wise signaling overhead to the basic BP. Rather than relying on hop-distance, we introduce a new edge-weighted shortest path bias built on the scheduling duty cycle of wireless links, which can be predicted by a graph convolutional neural network based on the topology and traffic of wireless networks. Additionally, we tackle three long-standing challenges associated with SP-BP: optimal bias scaling, efficient bias maintenance, and integration of delay awareness. Our proposed solutions inherit the throughput optimality of the basic BP, as well as its practical advantages of low complexity and fully distributed implementation. Our approaches rely on common link features and introduces only a one-time constant overhead to previous SP-BP schemes, or a one-time overhead linear in the network size to the basic BP. Numerical experiments show that our solutions can effectively address the major drawbacks of slow startup, random walk, and the last packet problem in basic BP, improving the end-to-end delay of existing low-overhead BP algorithms under various settings of network traffic, interference, and mobility. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# 超狭光キャビティに結合した窒素空孔中心からの超放射能
Superradiance from Nitrogen Vacancy Centers Coupled to An Ultranarrow Optical Cavity ( http://arxiv.org/abs/2407.09755v1 ) ライセンス: Link先を確認 | Yi-Dan Qu, Yuan Zhang, Peinan Ni, Chongxin Shan, Hunger David, Klaus Mølmer, | (参考訳) ダイヤモンド中の窒素空孔(NV)中心は、パーセル効果によって放射線を増強するために様々な光学構造とうまく結合されている。
これらの研究に多くのNVセンターが加わったことにより、自然界における協調放射と超放射能がもたらされる可能性があり、繊維ベースの超狭光共振器におけるダイヤモンド膜を用いた最近の実験では、このような集団効果のサインとなる非線形放射力と高速光子束が示された。
本稿では,2次相関関数における束縛肩の出現,安定状態スペクトルにおけるRabi分裂,励起ディック状態における集団動態など,より複雑な現象に対処するために前回の研究で用いられた単純なモデルを超えた。
以上の結果から,NV中心でのさらなる実験を導くことができ,また,ダイヤモンドおよび炭化ケイ素のシリコン空洞中心,ホウ素空洞中心,六方晶窒化ホウ素の炭素関連中心など,他の固体色中心にも関係している。
Nitrogen-vacancy (NV) centers in diamond have been successfully coupled to various optical structures to enhance their radiation by the Purcell effect. The participation of many NV centers in these studies may naturally lead to cooperative emission and superradiance, and our recent experimental study with a diamond membrane in a fiber-based ultra-narrow optical cavity demonstrated nonlinear radiation power and fast photon bunching which are signatures of such collective effects. In this theoretical article, we go beyond the simple model used in the previous study to address more phenomena, such as the appearance of bunching shoulders in the second-order correlation function, Rabi splitting in the steady-state spectrum, and population dynamics on excited Dicke states, which for moderate pumping explains the observed collective effects. Overall, our results can guide further experiments with NV centers, and they are also relevant for other solid-state color centers, such as silicon-vacancy centers in diamond and silicon carbide, boron-vacancy centers and carbon-related centers in hexagonal boron-nitride. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# LLM-Collaboration on Automatic Science Journalism for the General Audience
LLM-Collaboration on Automatic Science Journalism for the General Audience ( http://arxiv.org/abs/2407.09756v1 ) ライセンス: Link先を確認 | Gongyao Jiang, Xinran Shi, Qiong Luo, | (参考訳) 科学ジャーナリズムは、現在の科学的発見を非専門主義者に報告し、最先端の公衆の理解を可能にすることを目的としている。
しかし、この課題は、聴衆が提示された研究に関する具体的な知識を欠いている場合が多いため、困難である。
この課題に対処するため,本稿では,現実の書込み・フィードバック・リビジョンワークフローを模倣した3つのLLMを統合し,ジャーナリストとして1つのLLM,一般読者として1つの小型LLM,編集者として3番目のLLMを提案する。
ジャーナリストの執筆は、読者からのフィードバックと編集者からの提言によって反復的に洗練されている。
実験の結果,2つの 7B と 1 1.8B のオープンソース LLM の協調を利用して,GPT-4 などの先進モデルを含む既存手法よりもアクセスしやすい記事を生成することができた。
Science journalism reports current scientific discoveries to non-specialists, aiming to enable public comprehension of the state of the art. However, this task can be challenging as the audience often lacks specific knowledge about the presented research. To address this challenge, we propose a framework that integrates three LLMs mimicking the real-world writing-reading-feedback-revision workflow, with one LLM acting as the journalist, a smaller LLM as the general public reader, and the third LLM as an editor. The journalist's writing is iteratively refined by feedback from the reader and suggestions from the editor. Our experiments demonstrate that by leveraging the collaboration of two 7B and one 1.8B open-source LLMs, we can generate articles that are more accessible than those generated by existing methods, including advanced models such as GPT-4. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# ICCV23 Visual-Dialog Emotion Explanation Challenge: SEU_309 Team Technical Report
ICCV23 Visual-Dialog Emotion Explanation Challenge: SEU_309 Team Technical Report ( http://arxiv.org/abs/2407.09760v1 ) ライセンス: Link先を確認 | Yixiao Yuan, Yingzhe Peng, | (参考訳) The Visual-Dialog Based Emotion Explanation Generation Challengeは、アートディスカッションにおけるビジュアル・ダイアログのインタラクションを通じて感情の説明を生成することに焦点を当てている。
提案手法は,言語モデル (LM) やLVLM (Large Vision Language Model) など,最先端のマルチモーダルモデルを組み合わせることで,優れた性能を実現する。
これらのモデルを活用することで、既存のベンチマークを上回り、ICCV23 Visual-Dialog Based Emotion Explanation Generation Challengeの最高ランクを確保しました。
本手法は, 感情の正確な説明を導き, 芸術における感情的影響の理解を深める上で, 極めて優れた能力を示すものである。
The Visual-Dialog Based Emotion Explanation Generation Challenge focuses on generating emotion explanations through visual-dialog interactions in art discussions. Our approach combines state-of-the-art multi-modal models, including Language Model (LM) and Large Vision Language Model (LVLM), to achieve superior performance. By leveraging these models, we outperform existing benchmarks, securing the top rank in the ICCV23 Visual-Dialog Based Emotion Explanation Generation Challenge, which is part of the 5th Workshop On Closing The Loop Between Vision And Language (CLCV) with significant scores in F1 and BLEU metrics. Our method demonstrates exceptional ability in generating accurate emotion explanations, advancing our understanding of emotional impacts in art. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# 可逆逆問題に対する原型クラスター拡散モデル
Prototype Clustered Diffusion Models for Versatile Inverse Problems ( http://arxiv.org/abs/2407.09768v1 ) ライセンス: Link先を確認 | Jinghao Zhang, Zizheng Yang, Qi Zhu, Feng Zhao, | (参考訳) 拡散モデルは、データ多様体の生成的モデリング能力に起因して、様々な逆問題の解法において顕著な進歩を遂げている。
条件付きスコア関数からの後方サンプリングにより、測定ベースの可能性項によって認証された貴重なデータの一貫性が実現される。
しかし,最も普及しているアプローチは,実世界の風景における有能な予測不能な乱れにかかわらず,測定モデルの決定論的劣化過程に限られる。
この障害に対処するため, 測定に基づく可能性の復元は, 逆の確率的図形方向を通して行うことが可能であり, 様々な既往の復元モデルの保護を付与し, 厳密な決定論的劣化過程を, 想定されたプロトタイプを用いて適応可能なクラスタ化プロセスに拡張する。
特に,多目的プロトタイプを任意に組み込んだ場合,サンプル品質の選別による逆問題に対処し,精度の高い劣化制御を実現することができる。
本研究は,逆問題解法の分野における分類器ガイダンスから分類器フリーガイダンスへの移行に,形式的に類似できることを示す。
マルチファーラス逆問題に対する実験により, 画像脱毛, 雨害除去, 動き脱毛などの手法の有効性が示された。
Diffusion models have made remarkable progress in solving various inverse problems, attributing to the generative modeling capability of the data manifold. Posterior sampling from the conditional score function enable the precious data consistency certified by the measurement-based likelihood term. However, most prevailing approaches confined to the deterministic deterioration process of the measurement model, regardless of capricious unpredictable disturbance in real-world sceneries. To address this obstacle, we show that the measurement-based likelihood can be renovated with restoration-based likelihood via the opposite probabilistic graphic direction, licencing the patronage of various off-the-shelf restoration models and extending the strictly deterministic deterioration process to adaptable clustered processes with the supposed prototype, in what we call restorer guidance. Particularly, assembled with versatile prototypes optionally, we can resolve inverse problems with bunch of choices for assorted sample quality and realize the proficient deterioration control with assured realistic. We show that our work can be formally analogous to the transition from classifier guidance to classifier-free guidance in the field of inverse problem solver. Experiments on multifarious inverse problems demonstrate the effectiveness of our method, including image dehazing, rain streak removal, and motion deblurring. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# 連続変数系における位相遷移の測定方法
Scheme for measuring topological transitions in a continuous variable system ( http://arxiv.org/abs/2407.09770v1 ) ライセンス: Link先を確認 | Bi-Yao Wang, Hao-Long Zhang, Shou-Bang Yang, Fan Wu, Zhen-Biao Yang, Shi-Biao Zheng, | (参考訳) 単光子変調を受ける2光子駆動のKNR(Kerr-nonlinear Resonator)における位相特性の測定手法を提案する。
このトポロジカルな性質はベリー曲率の観測によって明らかにされ、従って第1チャーン数は、変調駆動の制御パラメータの変化率に比例する物理観測値の非断熱的応答である。
パラメータ多様体は系のハミルトニアンから構築され、偶数および奇数猫状態が2つの基底状態として交わる状態空間で制約されたその力学を決定づけ、多様体を横断する縮退が位相遷移を示すように調整される。
このスキームはメソシック系におけるそのような連続的な変数状態を持ち、幾何学と関連する位相を複雑な系で探索するための新たな視点を提供する。
We propose a scheme for measuring topological properties in a two-photon-driven Kerr-nonlinear resonator (KNR) subjected to a single-photon modulation. The topological properties are revealed through the observation of the Berry curvature and hence the first Chern number, as a nonadiabatic response of the physical observable to the change rate of the control parameter of the modulated drive. The parameter manifold, constructed from the system's Hamiltonian that determines its dynamics constrained in the state space spanned by the even and odd cat states as two basis states, is adjusted so that the degeneracy crossing the manifold indicates a topological transition. The scheme, with such continuous variable states in mesoscpic systems, provides a new perspective for exploration of the geometry and the related topology with complex systems. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# データ市場におけるデータバイヤープライバシ保護
Protecting Data Buyer Privacy in Data Markets ( http://arxiv.org/abs/2407.09771v1 ) ライセンス: Link先を確認 | Minxing Zhang, Jian Pei, | (参考訳) データマーケットは、データディスカバリ、交換、共有、データユーザとプロバイダ間の統合を促進する重要なプラットフォームとして機能する。
しかし、プライバシに関する最大の懸念は、主にデータ所有者とサードパーティのプライバシを保護することに集中しており、データバイヤーのプライバシを保護することに関わる課題を無視している。
本稿では、データバイヤーのプライバシ保護の複雑さをモデル化し、プライバシと購入コストの微妙なバランスを調査することによって、このギャップに対処する。
総合的な実験を通じて,提案手法の有効性と有効性に光を当て,貴重な知見を得た。
Data markets serve as crucial platforms facilitating data discovery, exchange, sharing, and integration among data users and providers. However, the paramount concern of privacy has predominantly centered on protecting privacy of data owners and third parties, neglecting the challenges associated with protecting the privacy of data buyers. In this article, we address this gap by modeling the intricacies of data buyer privacy protection and investigating the delicate balance between privacy and purchase cost. Through comprehensive experimentation, our results yield valuable insights, shedding light on the efficacy and efficiency of our proposed approaches. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# TemporalStory:空間的テンポラルアテンションを用いたストーリービジュアライゼーションにおける一貫性の強化
TemporalStory: Enhancing Consistency in Story Visualization using Spatial-Temporal Attention ( http://arxiv.org/abs/2407.09774v1 ) ライセンス: Link先を確認 | Sixiao Zheng, Yanwei Fu, | (参考訳) ストーリービジュアライゼーションは、テキストプロンプトから視覚的な詳細をレンダリングするだけでなく、画像間の一貫性を確保する必要がある。
近年,従来のイメージ・文対に条件付き自己回帰的手法を用いて不整合問題に対処するアプローチがほとんどである。
しかし、ストーリーコンテキストがすべての文に分散しているという事実を見落としている。
自動回帰アプローチでは、偽画像と文のペアから情報をエンコードすることができないため、ストーリーコンテキストの全体像をキャプチャできない。
そこで本研究では,画像の複雑な空間的・時間的依存関係をモデル化するために,空間的・時間的注意を生かしたTemporalStoryを導入し,与えられたストーリーラインに基づいて一貫性のある画像を生成する。
ストーリーラインの文脈をよりよく理解するために,他の文からの情報を現在の文の埋め込みに組み込むことのできるテキストアダプタを導入する。
また,このモデルのためのガイダンスとして,ストーリー画像間のシーン変化を利用するために,ストーリーフロー適応器を提案し,画像間の変化の度合いを計測する。
PororoSVとFlintstonesSVという2つの人気のあるベンチマークに関する広範な実験を通じて、私たちのTemporalStoryは、ストーリーの可視化とストーリー継続のタスクにおいて、過去の最先端よりも優れています。
Story visualization presents a challenging task in text-to-image generation, requiring not only the rendering of visual details from text prompt but also ensuring consistency across images. Recently, most approaches address inconsistency problem using an auto-regressive manner conditioned on previous image-sentence pairs. However, they overlook the fact that story context is dispersed across all sentences. The auto-regressive approach fails to encode information from susequent image-sentence pairs, thus unable to capture the entirety of the story context. To address this, we introduce TemporalStory, leveraging Spatial-Temporal attention to model complex spatial and temporal dependencies in images, enabling the generation of coherent images based on a given storyline. In order to better understand the storyline context, we introduce a text adapter capable of integrating information from other sentences into the embedding of the current sentence. Additionally, to utilize scene changes between story images as guidance for the model, we propose the StoryFlow Adapter to measure the degree of change between images. Through extensive experiments on two popular benchmarks, PororoSV and FlintstonesSV, our TemporalStory outperforms the previous state-of-the-art in both story visualization and story continuation tasks. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# マックスプラスセミナーにおける重み付き有限オートマタの学習とその終了
Learning Weighted Finite Automata over the Max-Plus Semiring and its Termination ( http://arxiv.org/abs/2407.09775v1 ) ライセンス: Link先を確認 | Takamasa Okudono, Masaki Waga, Taro Sekiyama, Ichiro Hasuo, | (参考訳) 有限オートマトンの能動的学習はブラックボックスシステムの解析と説明のために活発に追求されてきた。
本稿では,最大余剰半環上の重み付きオートマトンに対するL*型学習アルゴリズムについて検討する。
最大余剰設定は、L* の半順序拡張において「整合性」の問題を明らかにする: 表の整合性の維持に失敗し、従って明らかに間違った仮説オートマトン上で等価なクエリを作成できることを示す。
列閉性という数学的にクリーンな概念による理論的修正を提案する。
また、アルゴリズムが終了する最大余剰半環上で、非自明で合理的に広い重み付き言語のクラスを示す。
Active learning of finite automata has been vigorously pursued for the purposes of analysis and explanation of black-box systems. In this paper, we study an L*-style learning algorithm for weighted automata over the max-plus semiring. The max-plus setting exposes a "consistency" issue in the previously studied semiring-generic extension of L*: we show that it can fail to maintain consistency of tables, and can thus make equivalence queries on obviously wrong hypothesis automata. We present a theoretical fix by a mathematically clean notion of column-closedness. We also present a nontrivial and reasonably broad class of weighted languages over the max-plus semiring in which our algorithm terminates. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# グラフ変換器: サーベイ
Graph Transformers: A Survey ( http://arxiv.org/abs/2407.09777v1 ) ライセンス: Link先を確認 | Ahsan Shehzad, Feng Xia, Shagufta Abid, Ciyuan Peng, Shuo Yu, Dongyu Zhang, Karin Verspoor, | (参考訳) グラフトランスフォーマーは機械学習の最近の進歩であり、グラフ構造化データのためのニューラルネットワークモデルの新たなクラスを提供する。
変換器とグラフ学習の相乗効果は、様々なグラフ関連タスクにおいて、高いパフォーマンスと汎用性を示す。
この調査は、グラフトランスフォーマー研究における最近の進歩と課題について、詳細なレビューを提供する。
グラフと変換器の基本概念から始めます。
次に、グラフインダクティブバイアスとグラフアテンション機構をトランスフォーマーアーキテクチャに統合する方法について、グラフトランスフォーマーの設計視点について検討する。
さらに,グラフトランスモデルを効果的に開発するための重要な原則を要約した,深さ,拡張性,事前学習戦略に基づく分類分類法を提案する。
技術的解析の他に、ノードレベル、エッジレベル、グラフレベルのタスクに対するグラフトランスフォーマーモデルの応用について議論し、他のアプリケーションシナリオにおいてもその可能性を探る。
最後に、拡張性と効率、一般化と堅牢性、解釈可能性と説明可能性、動的で複雑なグラフ、データ品質と多様性、グラフトランスフォーマー研究の将来方向のチャート化など、この分野における残りの課題を特定する。
Graph transformers are a recent advancement in machine learning, offering a new class of neural network models for graph-structured data. The synergy between transformers and graph learning demonstrates strong performance and versatility across various graph-related tasks. This survey provides an in-depth review of recent progress and challenges in graph transformer research. We begin with foundational concepts of graphs and transformers. We then explore design perspectives of graph transformers, focusing on how they integrate graph inductive biases and graph attention mechanisms into the transformer architecture. Furthermore, we propose a taxonomy classifying graph transformers based on depth, scalability, and pre-training strategies, summarizing key principles for effective development of graph transformer models. Beyond technical analysis, we discuss the applications of graph transformer models for node-level, edge-level, and graph-level tasks, exploring their potential in other application scenarios as well. Finally, we identify remaining challenges in the field, such as scalability and efficiency, generalization and robustness, interpretability and explainability, dynamic and complex graphs, as well as data quality and diversity, charting future directions for graph transformer research. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# Layout-and-Retouch: パーソナライズされた画像生成における多様性向上のためのデュアルステージフレームワーク
Layout-and-Retouch: A Dual-stage Framework for Improving Diversity in Personalized Image Generation ( http://arxiv.org/abs/2407.09779v1 ) ライセンス: Link先を確認 | Kangyeol Kim, Wooseok Seo, Sehyun Nam, Bodam Kim, Suhyeon Jeong, Wonwoo Cho, Jaegul Choo, Youngjae Yu, | (参考訳) パーソナライズされたテキスト・ツー・イメージ(P-T2I)生成は、パーソナライズされた被写体を数枚の参照画像で特徴付ける新しいテキスト誘導画像を作成することを目的としている。
しかし、素早い忠実さとアイデンティティ保存のトレードオフ関係のバランスは、依然として重要な課題である。
そこで本研究では,2段階からなる新しいP-T2I手法であるLayout-and-Retouchを提案する。
1)レイアウト生成
2) 修正。
ステップブレンド推論では,バニラT2Iモデル固有のサンプルの多様性を利用して,多彩なレイアウト画像を生成するとともに,迅速な忠実度を向上させる。
第2段階では、マルチソースアテンションスワップは、第1ステージからのコンテキストイメージと参照画像とを統合し、コンテキスト画像から構造を活用し、参照画像から視覚的特徴を抽出する。
これにより、アイデンティティ特性を保持しながら、高い迅速な忠実性が得られる。
提案手法は, 多様なレイアウトを持つ多様な画像を生成するとともに, 課題のあるテキストプロンプトを伴っても, パーソナライズされたオブジェクトのユニークな特徴を保ちながら, 多様な画像を生成することを実証する。
この汎用性は、複雑な条件を扱うフレームワークの可能性を強調し、パーソナライズされた画像合成の多様性と適用性を大幅に向上させる。
Personalized text-to-image (P-T2I) generation aims to create new, text-guided images featuring the personalized subject with a few reference images. However, balancing the trade-off relationship between prompt fidelity and identity preservation remains a critical challenge. To address the issue, we propose a novel P-T2I method called Layout-and-Retouch, consisting of two stages: 1) layout generation and 2) retouch. In the first stage, our step-blended inference utilizes the inherent sample diversity of vanilla T2I models to produce diversified layout images, while also enhancing prompt fidelity. In the second stage, multi-source attention swapping integrates the context image from the first stage with the reference image, leveraging the structure from the context image and extracting visual features from the reference image. This achieves high prompt fidelity while preserving identity characteristics. Through our extensive experiments, we demonstrate that our method generates a wide variety of images with diverse layouts while maintaining the unique identity features of the personalized objects, even with challenging text prompts. This versatility highlights the potential of our framework to handle complex conditions, significantly enhancing the diversity and applicability of personalized image synthesis. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# オープンボキャブラリ3次元シーン理解のための高密度マルチモーダルアライメント
Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding ( http://arxiv.org/abs/2407.09781v1 ) ライセンス: Link先を確認 | Ruihuang Li, Zhengqiang Zhang, Chenhang He, Zhiyuan Ma, Vishal M. Patel, Lei Zhang, | (参考訳) 最近の視覚言語事前学習モデルは、ゼロショット認識タスクにおいて顕著な一般化能力を示した。
従来のオープンな3Dシーン理解手法は、主に画像やテキストの監督を用いて3Dモデルを訓練するが、すべてのモダリティの集合的な強さは無視する。
本研究では,Dense Multimodal Alignment (DMA) フレームワークを提案する。
粗い視点や領域レベルのテキストプロンプトを抽出する代わりに、大きな視覚言語モデルを用いて、完全なカテゴリ情報とスケーラブルなシーン記述を抽出し、テキストモダリティを構築し、画像のモダリティをブリッジとして、高密度のポイントピクセルテキストアソシエーションを構築する。
また,下流3次元課題に対する2次元モデルの一般化能力を向上させるために,凍結したCLIP視覚特徴と学習可能なマスク特徴を組み合わせるために,二重経路統合手法を採用した。
大規模実験により, DMA法は様々な屋内・屋外タスクにおいて, 高い競争力を持つ開語彙セグメンテーション性能を示すことが示された。
Recent vision-language pre-training models have exhibited remarkable generalization ability in zero-shot recognition tasks. Previous open-vocabulary 3D scene understanding methods mostly focus on training 3D models using either image or text supervision while neglecting the collective strength of all modalities. In this work, we propose a Dense Multimodal Alignment (DMA) framework to densely co-embed different modalities into a common space for maximizing their synergistic benefits. Instead of extracting coarse view- or region-level text prompts, we leverage large vision-language models to extract complete category information and scalable scene descriptions to build the text modality, and take image modality as the bridge to build dense point-pixel-text associations. Besides, in order to enhance the generalization ability of the 2D model for downstream 3D tasks without compromising the open-vocabulary capability, we employ a dual-path integration approach to combine frozen CLIP visual features and learnable mask features. Extensive experiments show that our DMA method produces highly competitive open-vocabulary segmentation performance on various indoor and outdoor tasks. | 翻訳日:2024-07-16 20:58:50 公開日:2024-07-13 |
# 多視点逆学習による自己教師付き3Dポイントクラウドコンプリート
Self-supervised 3D Point Cloud Completion via Multi-view Adversarial Learning ( http://arxiv.org/abs/2407.09786v1 ) ライセンス: Link先を確認 | Lintai Wu, Xianjing Cheng, Junhui Hou, Yong Xu, Huanqiang Zeng, | (参考訳) 現実のシナリオでは、スキャンされた点雲はしばしば閉塞問題のために不完全である。
自己監督点雲完備化の課題は、完全な地底の真実を監督することなく、これらの不完全な物体の欠落した領域を再構築することである。
現在の自己監督法は、監視のために部分観測の複数の視点に依存するか、または与えられた部分点雲から特定され、利用することができる固有の幾何学的類似性を見渡すかのいずれかである。
本稿では,オブジェクトレベルとカテゴリ固有の幾何学的類似性を効果的に活用するフレームワークであるMAL-SPCを提案する。
私たちのMAL-SPCは3Dの完全な監視を一切必要とせず、各オブジェクトに1つの部分点クラウドを必要とするだけです。
具体的には、まず、部分入力と予測形状との間の類似した位置と曲率パターンを検索し、これらの類似性を活用して再構成結果の密度化と精査を行うパターン検索ネットワークを提案する。
さらに、再構成された完全形状を多視点深度マップに描画し、カテゴリ固有の一視点深度画像から対象形状の幾何学を学習するための対角学習モジュールを設計する。
異方性レンダリングを実現するために,レンダリング画像の品質向上を目的とした密度認識半径推定アルゴリズムを設計する。
私たちのMAL-SPCは、現在の最先端のメソッドと比較して、最高の結果をもたらします。
In real-world scenarios, scanned point clouds are often incomplete due to occlusion issues. The task of self-supervised point cloud completion involves reconstructing missing regions of these incomplete objects without the supervision of complete ground truth. Current self-supervised methods either rely on multiple views of partial observations for supervision or overlook the intrinsic geometric similarity that can be identified and utilized from the given partial point clouds. In this paper, we propose MAL-SPC, a framework that effectively leverages both object-level and category-specific geometric similarities to complete missing structures. Our MAL-SPC does not require any 3D complete supervision and only necessitates a single partial point cloud for each object. Specifically, we first introduce a Pattern Retrieval Network to retrieve similar position and curvature patterns between the partial input and the predicted shape, then leverage these similarities to densify and refine the reconstructed results. Additionally, we render the reconstructed complete shape into multi-view depth maps and design an adversarial learning module to learn the geometry of the target shape from category-specific single-view depth images. To achieve anisotropic rendering, we design a density-aware radius estimation algorithm to improve the quality of the rendered images. Our MAL-SPC yields the best results compared to current state-of-the-art methods.We will make the source code publicly available at \url{https://github.com/ltwu6/malspc | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# PatchTeacher と PillarMix を用いた半教師付き3次元物体検出
Semi-supervised 3D Object Detection with PatchTeacher and PillarMix ( http://arxiv.org/abs/2407.09787v1 ) ライセンス: Link先を確認 | Xiaopei Wu, Liang Peng, Liang Xie, Yuenan Hou, Binbin Lin, Xiaoshui Huang, Haifeng Liu, Deng Cai, Wanli Ouyang, | (参考訳) 半教師付き学習は、多数のラベルのないデータを活用してモデルの性能を向上させることを目的としている。
現在の半教師付き3Dオブジェクト検出法では、教師が学生に擬似ラベルを生成するのが一般的であり、擬似ラベルの品質は最終的なパフォーマンスに欠かせない。
本稿では,学生に高品質な擬似ラベルを提供するために,部分的なシーン3Dオブジェクト検出に焦点を当てたPatchTeacherを提案する。
具体的には、完全なシーンを一連のパッチに分割し、PatchTeacherにシーケンシャルにフィードします。
PatchTeacherは、部分シーン検出の低メモリ消費の利点を高解像度のボキセル化によるプロセスポイントクラウドに活用し、量子化の情報損失を最小限に抑え、よりきめ細かい特徴を抽出することができる。
しかし、シーンのごく一部で検出器を訓練するのは簡単ではない。
そこで本研究では,PatchTeacherの性能向上のために,Patch Normalizer,Quadrant Align,Fovea Selectionの3つの重要なテクニックを紹介した。
さらに、異なるLiDARスキャンから切り刻まれた柱を混合して多様なトレーニングサンプルを生成する強力なデータ拡張戦略であるPillarMixを考案し、モデルがより一般的な表現を学習できるようにする。
Waymo と ONCE のデータセットを用いた大規模な実験により,提案手法の有効性と優位性を検証し,既存の手法を大きなマージンで上回り,新たな最先端の成果を得ることができた。
コードはhttps://github.com/LittlePey/PTPMで入手できる。
Semi-supervised learning aims to leverage numerous unlabeled data to improve the model performance. Current semi-supervised 3D object detection methods typically use a teacher to generate pseudo labels for a student, and the quality of the pseudo labels is essential for the final performance. In this paper, we propose PatchTeacher, which focuses on partial scene 3D object detection to provide high-quality pseudo labels for the student. Specifically, we divide a complete scene into a series of patches and feed them to our PatchTeacher sequentially. PatchTeacher leverages the low memory consumption advantage of partial scene detection to process point clouds with a high-resolution voxelization, which can minimize the information loss of quantization and extract more fine-grained features. However, it is non-trivial to train a detector on fractions of the scene. Therefore, we introduce three key techniques, i.e., Patch Normalizer, Quadrant Align, and Fovea Selection, to improve the performance of PatchTeacher. Moreover, we devise PillarMix, a strong data augmentation strategy that mixes truncated pillars from different LiDAR scans to generate diverse training samples and thus help the model learn more general representation. Extensive experiments conducted on Waymo and ONCE datasets verify the effectiveness and superiority of our method and we achieve new state-of-the-art results, surpassing existing methods by a large margin. Codes are available at https://github.com/LittlePey/PTPM. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# バイアとショートカット学習の軽減
Explanation is All You Need in Distillation: Mitigating Bias and Shortcut Learning ( http://arxiv.org/abs/2407.09788v1 ) ライセンス: Link先を確認 | Pedro R. A. S. Bassi, Andrea Cavalli, Sergio Decherchi, | (参考訳) データにおけるバイアスと急激な相関はショートカット学習を引き起こし、ディープニューラルネットワークにおけるOOD(out-of-distribution)の一般化を損なう可能性がある。
ほとんどの方法は、ショートカット学習に対処するために、トレーニング中にバイアスのないデータ(および/またはハイパーパラメータチューニング)を必要とする。
本稿では,ショートカット学習の妨げとなる説明蒸留法を提案する。
この技術は、偏見のないデータへのアクセスを前提とせず、任意のサイズの学生ネットワークが、視覚言語モデルやネットワーク処理の偏見のある画像といった、偏見のない教師の決定の背後にある理由を学習することができる。
我々は,ニューラルネットワークを説明付きでトレーニングすることは可能であること,また,この手法が,グループ不変学習,説明背景最小化,代替蒸留技術に高い耐性をもたらすことを見出した。
COLOURED MNISTデータセットでは、LRP蒸留は98.2%の精度で、深い特徴蒸留とIRMはそれぞれ92.1%と60.2%の精度で達成された。
COCO-on-Placesでは、配当とOODの精度の間の望ましくない一般化ギャップは、LPP蒸留においてわずか4.4%であり、他の2つの技術はそれぞれ15.1%と52.1%である。
Bias and spurious correlations in data can cause shortcut learning, undermining out-of-distribution (OOD) generalization in deep neural networks. Most methods require unbiased data during training (and/or hyper-parameter tuning) to counteract shortcut learning. Here, we propose the use of explanation distillation to hinder shortcut learning. The technique does not assume any access to unbiased data, and it allows an arbitrarily sized student network to learn the reasons behind the decisions of an unbiased teacher, such as a vision-language model or a network processing debiased images. We found that it is possible to train a neural network with explanation (e.g by Layer Relevance Propagation, LRP) distillation only, and that the technique leads to high resistance to shortcut learning, surpassing group-invariant learning, explanation background minimization, and alternative distillation techniques. In the COLOURED MNIST dataset, LRP distillation achieved 98.2% OOD accuracy, while deep feature distillation and IRM achieved 92.1% and 60.2%, respectively. In COCO-on-Places, the undesirable generalization gap between in-distribution and OOD accuracy is only of 4.4% for LRP distillation, while the other two techniques present gaps of 15.1% and 52.1%, respectively. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# グラフ合成データ生成のための凸空間学習
Convex space learning for tabular synthetic data generation ( http://arxiv.org/abs/2407.09789v1 ) ライセンス: Link先を確認 | Manjunath Mahendra, Chaithra Umesh, Saptarshi Bej, Kristian Schultz, Olaf Wolkenhauer, | (参考訳) 少数クラスの凸空間から合成サンプルを生成することは、不均衡な分類問題に対する一般的なオーバーサンプリング手法である。
近年,少数サンプルの凸空間をモデル化するためのディープラーニングアプローチが成功している。
オーバーサンプリング以外にも、トレーニングデータにおける近所の凸空間の学習は、表のデータセット全体を生成するために使われていない。
本稿では,グラフデータの凸空間をモデル化して合成サンプルを生成可能な生成器と識別器コンポーネントを備えたディープラーニングアーキテクチャ(NextConvGeN)を提案する。
ジェネレータは、データ近傍を入力として、その近傍の凸空間内で合成サンプルを生成する。
その後、判別器は、これらの合成サンプルを、データ空間の他の部分からランダムにサンプリングされたデータのバッチに対して分類しようとする。
提案したモデルを,バイオメディカルドメインから利用可能な10のデータセットに対して,最先端の5つのグラフ生成モデルと比較した。
分析の結果,NextConvGeNが生成した合成サンプルは,他の合成データ生成モデルよりも,実データおよび合成データ間での分類とクラスタリング性能を良好に維持できることがわかった。
凸空間の深層学習による合成データ生成は、一般的な効用尺度に高いスコアを与える。
さらに、プライバシ・ユーティリティ・スペクトラムにおいて、多様な合成データ生成戦略がどのように機能するかを比較し、高ユーティリティ・モデルの必要性について批判的な議論を巻き起こした。
表状データの凸空間の深層学習に関する研究は,臨床研究,機械学習モデル開発,意思決定支援システム,臨床データ共有の機会を開く。
Generating synthetic samples from the convex space of the minority class is a popular oversampling approach for imbalanced classification problems. Recently, deep-learning approaches have been successfully applied to modeling the convex space of minority samples. Beyond oversampling, learning the convex space of neighborhoods in training data has not been used to generate entire tabular datasets. In this paper, we introduce a deep learning architecture (NextConvGeN) with a generator and discriminator component that can generate synthetic samples by learning to model the convex space of tabular data. The generator takes data neighborhoods as input and creates synthetic samples within the convex space of that neighborhood. Thereafter, the discriminator tries to classify these synthetic samples against a randomly sampled batch of data from the rest of the data space. We compared our proposed model with five state-of-the-art tabular generative models across ten publicly available datasets from the biomedical domain. Our analysis reveals that synthetic samples generated by NextConvGeN can better preserve classification and clustering performance across real and synthetic data than other synthetic data generation models. Synthetic data generation by deep learning of the convex space produces high scores for popular utility measures. We further compared how diverse synthetic data generation strategies perform in the privacy-utility spectrum and produced critical arguments on the necessity of high utility models. Our research on deep learning of the convex space of tabular data opens up opportunities in clinical research, machine learning model development, decision support systems, and clinical data sharing. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# GBDT と DNN を組む:木ハイブリッド MLP を用いた効率的かつ効果的な語彙予測
Team up GBDTs and DNNs: Advancing Efficient and Effective Tabular Prediction with Tree-hybrid MLPs ( http://arxiv.org/abs/2407.09790v1 ) ライセンス: Link先を確認 | Jiahuan Yan, Jintai Chen, Qianxing Wang, Danny Z. Chen, Jian Wu, | (参考訳) タブラルデータセットは、様々なアプリケーションにおいて重要な役割を果たす。
したがって、表データの効率的で効果的で、広く互換性のある予測アルゴリズムを開発することが重要である。
現在、Gradient Boosted Decision Trees (GBDTs) とDeep Neural Networks (DNNs) という2つの著名なモデルタイプが、異なる表形式の予測タスクでパフォーマンス上のアドバンテージを示している。
しかし、特定の表データセットに対して有効なモデルを選択することは困難であり、しばしば時間を要するハイパーパラメータチューニングを必要とする。
このモデル選択ジレンマに対処するために,GBDTとDNNの両方の利点を両立させる新しいフレームワークを提案する。
我々の考えは、ディープラーニング(DL)が優れたGBDTモデルを表現できるより大きなパラメータ空間を提供するという観察に根ざしているが、現在のバックプロパゲーションオプティマイザは、そのような最適な機能を効率的に発見するのに苦労している。
一方, GBDT 開発においては, 硬木刈り, エントロピー駆動型特徴ゲート, モデルアンサンブルが表層データに適応することが証明されている。
これらのキーコンポーネントを組み合わせることで、Tree-hybrid Simple MLP(T-MLP)を提案する。
我々のフレームワークでは、テンソル化、高速訓練されたGBDT機能ゲート、DNNアーキテクチャプルーニングアプローチ、およびバニラバックプロパゲーションオプティマイザがランダムに初期化MLPモデルを協調訓練する。
総合的な実験により、T-MLPは、それぞれの支配的な表式ベンチマーク(88データセット)において、広範囲に調整されたDNNとGBDTと競合し、いずれもコンパクトなモデルストレージとトレーニング期間を大幅に短縮した。
Tabular datasets play a crucial role in various applications. Thus, developing efficient, effective, and widely compatible prediction algorithms for tabular data is important. Currently, two prominent model types, Gradient Boosted Decision Trees (GBDTs) and Deep Neural Networks (DNNs), have demonstrated performance advantages on distinct tabular prediction tasks. However, selecting an effective model for a specific tabular dataset is challenging, often demanding time-consuming hyperparameter tuning. To address this model selection dilemma, this paper proposes a new framework that amalgamates the advantages of both GBDTs and DNNs, resulting in a DNN algorithm that is as efficient as GBDTs and is competitively effective regardless of dataset preferences for GBDTs or DNNs. Our idea is rooted in an observation that deep learning (DL) offers a larger parameter space that can represent a well-performing GBDT model, yet the current back-propagation optimizer struggles to efficiently discover such optimal functionality. On the other hand, during GBDT development, hard tree pruning, entropy-driven feature gate, and model ensemble have proved to be more adaptable to tabular data. By combining these key components, we present a Tree-hybrid simple MLP (T-MLP). In our framework, a tensorized, rapidly trained GBDT feature gate, a DNN architecture pruning approach, as well as a vanilla back-propagation optimizer collaboratively train a randomly initialized MLP model. Comprehensive experiments show that T-MLP is competitive with extensively tuned DNNs and GBDTs in their dominating tabular benchmarks (88 datasets) respectively, all achieved with compact model storage and significantly reduced training duration. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# 量子コヒーレンス制御系としての量子ビームスプリッタ
Quantum Beam Splitter as a Quantum Coherence Controller ( http://arxiv.org/abs/2407.09791v1 ) ライセンス: Link先を確認 | Li-Ping Yang, Yue Chang, | (参考訳) 可変反射および伝送係数を持つ量子ビームスプリッタ(QBS)を提案する。
さらに、Hermitian parity-time(\mathcal{PT}$)対称系に基づくデバイスは、出力光子の非対称量子コヒーレンスの生成と操作を可能にする。
2つの弱いコヒーレント状態の入力を干渉するために、我々のQBSは1つの出力ポートから反結合光子を、もう1つの出力ポートから束縛光子を生成し、高いパリティ非対称性と強いコヒーレンス制御能力を示す。
香港・ウー・マンデル効果の他に、消滅する$g^{(2)}(0)$の完全光子遮断は2光子干渉で達成できる。
これらのQBSの衝撃効果は、パリティ対称性を破る相互作用と光子散乱チャネル間の量子干渉に由来する。
我々の結果は、弱い量子光を操作するための新しい応用と革新的なフォトニックデバイスの開発を刺激する可能性がある。
We propose a quantum beam splitter (QBS) with tunable reflection and transmission coefficients. More importantly, our device based on a Hermitian parity-time ($\mathcal{PT}$) symmetric system enables the generation and manipulation of asymmetric quantum coherence of the output photons. For the interference of two weak coherent-state inputs, our QBS can produce anti-bunched photons from one output port and bunched photons from the other, showcasing high parity asymmetry and strong coherence control capabilities. Beyond the Hong-Ou-Mandel effect, perfect photon blockade with vanishing $g^{(2)}(0)$ is achievable in two-photon interference. These striking effects of the QBS fundamentally arise from the parity-symmetry-breaking interaction and the quantum interference between the photon scattering channels. Our results could inspire novel applications and the development of innovative photonic devices for the manipulation of weak quantum light. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# ニューラルコード生成における弱さの発見
Uncovering Weaknesses in Neural Code Generation ( http://arxiv.org/abs/2407.09793v1 ) ライセンス: Link先を確認 | Xiaoli Lian, Shuaisong Wang, Jieping Ma, Fang Liu, Xin Tan, Lin Shi, Li Zhang, | (参考訳) プロンプトからソースコードを生成するタスクであるコード生成は、事前訓練された大規模言語モデル(PLM)の出現によって大幅に進歩した。
これらの成果にもかかわらず、ベンチマークと生成されたコードに関する弱点の包括的分類が欠けているため、未調査領域のコストで既知の問題にコミュニティが集中するリスクがある。
我々の体系的な研究は、5つの最先端PLMを評価することでこのギャップを埋めることを目指している。3つの大きなモデル、70億のパラメータを持つCodeGen2.5、60億のパラメータを持つCodeGeeX2、GPT-4 Turbo、そして2つの小さなモデル、110万のパラメータを持つUnixCoder、22000万のパラメータを持つCodeT5ベースであるCoNaLa、HumanEval Plus、DS-1000である。
マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。
我々は、大小両方のモデルの弱み分布を分離し、モデル固有のだけでなく、モデル間の集団分析(ユニオンと交差)を含む広範な方法論を適用した。
私たちの研究は3つの有能な発見を発見しました。
1. CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースでフェールし、より小さなモデルでは40%高いフェール率で失敗する。
2 CoNaLaタスクの65.78%でキーセマンティクスを省略し、同様にHumanEval Plus (66.09%) とDS-1000 (80.51%) で発生する。
3. すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
私たちの研究は、コード生成における特定の弱点と課題に対処するために研究者を指導することを目的としています。
さらに、アノテーションは詳細な分析のためにターゲットとなるベンチマークサブセットを提供することができます。
Code generation, the task of producing source code from prompts, has seen significant advancements with the advent of pre-trained large language models (PLMs). Despite these achievements, there lacks a comprehensive taxonomy of weaknesses about the benchmark and the generated code, which risks the community's focus on known issues at the cost of under-explored areas. Our systematic study aims to fill this gap by evaluating five state-of-the-art PLMs: three larger models, CodeGen2.5 with 7 billion parameters, CodeGeeX2 with 6 billion parameters, GPT-4 Turbo, and two smaller ones, UnixCoder with 110 million parameters and CodeT5 base with 220 million parameters, across three popular datasets, CoNaLa, HumanEval Plus, and DS-1000. We assess the quality of generated code using match-based and execution-based metrics, then conduct thematic analysis to develop a taxonomy of nine types of weaknesses. We dissected weakness distributions in both larger and smaller models, applying an extensive methodology that encompasses model-specific as well as collective analysis (union and intersection) across models. Our research uncovers three salient findings: 1. In the CoNaLa dataset, inaccurate prompts are a notable problem, causing all large models to fail in 26.84% of cases, with even higher failure rates of 40% for smaller models; 2. Missing pivotal semantics is a pervasive issue across benchmarks, with one or more large models omitting key semantics in 65.78% of CoNaLa tasks, and similarly high occurrences in HumanEval Plus (66.09%) and DS-1000 (80.51%); 3. All models struggle with proper API usage, a challenge amplified by vague or complex prompts. Our findings aim to steer researchers towards addressing specific weaknesses and challenges in code generation. Furthermore, our annotations can offer a targeted benchmark subset for detailed analysis. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# ScaleRAFT:3次元運動推定のためのクロススケールリカレント全ペア場変換
ScaleRAFT: Cross-Scale Recurrent All-Pairs Field Transforms for 3D Motion Estimation ( http://arxiv.org/abs/2407.09797v1 ) ライセンス: Link先を確認 | Han Ling, Quansen Sun, | (参考訳) 本稿では,連続画像対から高密度画素の3次元運動を推定する問題について検討する。
従来の手法のほとんどは、成熟した光フローベースラインと深度値に基づいており、画素面上の2次元運動を3次元空間に投影し、さらに深度運動ブランチと他のサブモジュールを組み合わせることで結果を最適化している。
この積み重ねられたフレームワークは、光学フローと他のモジュールの相補性を利用することができず、正確な深度情報への依存を逃れることはできない。
上記の課題に対処するため,クロススケールマッチングに基づく正規化シーンフローフレームワークScaleRAFTを提案する。
中心となる特徴は、3次元スケール空間における2つのフレーム間のオブジェクトの直接マッチング、すなわち正しい位置とスケールにおける特徴のマッチングである。
従来の方法とは異なり、ScaleRAFTは光フローと深部モーション推定を統一アーキテクチャに統合し、光フローパイプラインと深部モーション推定を相互に促進する。
さらに、ScaleRAFTは特徴マッチングに基づいて深度方向の動きを推定し、正確な深度情報への依存から逸脱する。
実験により,本手法は,運転シナリオにおける動作推定タスクにおいて,これまでで最高の前景性能を達成し,下流3Dタスクを著しく改善した。
In this paper, we study the problem of estimating the 3D motion of dense pixels from continuous image pairs. Most previous methods are based on mature optical flow baselines and depth values, projecting the 2D motion on pixel planes into 3D space, and further optimizing the results by combining depth-motion-branch and other sub-modules. This stacked framework cannot leverage the complementarity between optical flow and other modules nor escape the dependence on accurate depth information. To address the above challenges, we propose a normalized scene flow framework, ScaleRAFT, based on cross-scale matching. Its core feature is directly matching objects between two frames in 3D scale space, i.e. matching features at the correct location and scale. Unlike previous methods, ScaleRAFT integrates optical flow and deep motion estimation into a unified architecture, allowing the optical flow pipeline and deep motion estimation to promote each other mutually. Moreover, ScaleRAFT estimates motion in the depth direction based on feature matching, breaking away from the dependence on accurate depth information. Experimentally, our method has achieved the best foreground performance so far in motion estimation tasks in driving scenarios, and has significantly improved various downstream 3D tasks. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# IoT-LM:モノのインターネットのための大規模マルチセンサー言語モデル
IoT-LM: Large Multisensory Language Models for the Internet of Things ( http://arxiv.org/abs/2407.09801v1 ) ライセンス: Link先を確認 | Shentong Mo, Russ Salakhutdinov, Louis-Philippe Morency, Paul Pu Liang, | (参考訳) IoT(Internet of Things)ネットワークは、センサー、ソフトウェア、通信技術に埋め込まれた何十億ものスマート物理デバイスを統合することで、現代世界の重要かつ急速に拡大しているコンポーネントです。
IoTエコシステムは、人や物理的オブジェクトの状態を認識するために、モーション、サーマル、ジオロケーション、イメージング、ディープ、センサー、オーディオといった現実世界のモダリティの豊富なソースを提供する。
機械学習は、IoTデータを大規模に自動的に処理する豊富な機会を提供し、人間の幸福を理解し、物理的デバイスを制御し、スマートシティを相互接続する効率的な推論を可能にする。
この可能性を実現するために、IoTエコシステムに適した、オープンソースの大規模マルチセンサー言語モデルであるIoT-LMを紹介します。
IoT-LMは2つの技術的コントリビューションによって実現されている。ひとつはMulti IoTで、これまでで最も拡張された統合IoTデータセットで、12のモダリティから115万以上のサンプルと、マルチセンサー事前トレーニングとインストラクションチューニングのために準備された8つのタスクを含んでいる。
2つ目は、マルチセンサIoTデータに事前トレーニングされた大規模言語モデルを条件付けるための、新しいマルチタスクアダプタ層である。
IoT-LMは8つの教師付きIoT分類タスクを大幅に改善するだけでなく、IoTセンサに設定されたインタラクティブな質問回答、推論、ダイアログ機能もデモされている。
我々はIoT-LMのデータソースと新しい多感覚言語モデリングフレームワークをリリースする。
The Internet of Things (IoT) network integrating billions of smart physical devices embedded with sensors, software, and communication technologies is a critical and rapidly expanding component of our modern world. The IoT ecosystem provides a rich source of real-world modalities such as motion, thermal, geolocation, imaging, depth, sensors, and audio to recognize the states of humans and physical objects. Machine learning presents a rich opportunity to automatically process IoT data at scale, enabling efficient inference for understanding human wellbeing, controlling physical devices, and interconnecting smart cities. To realize this potential, we introduce IoT-LM, an open-source large multisensory language model tailored for the IoT ecosystem. IoT-LM is enabled by two technical contributions: the first is MultiIoT, the most expansive unified IoT dataset to date, encompassing over 1.15 million samples from 12 modalities and 8 tasks prepared for multisensory pre-training and instruction-tuning. The second is a new multisensory multitask adapter layer to condition pre-trained large language models on multisensory IoT data. Not only does IoT-LM yield substantial improvements on 8 supervised IoT classification tasks, but it also demonstrates new interactive question-answering, reasoning, and dialog capabilities conditioned on IoT sensors. We release IoT-LM's data sources and new multisensory language modeling framework. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# 量子ラビモデルにおけるカオス、絡み合い、フシミQ関数
Chaos, entanglement and Husimi Q function in quantum Rabi model ( http://arxiv.org/abs/2407.09802v1 ) ライセンス: Link先を確認 | Shangyun Wang, Songbai Chen, Jiliang Jing, | (参考訳) 量子ラビモデル(QRM)における有名な効果の1つとして、ラビ振動は量子崩壊やリバイバル効果のような古典的な動的現象のない量子力学の挙動を引き起こす可能性がある。
本稿では,量子システムにおける量子カオスの診断ツールである絡み合いエントロピーとフシミQ関数が,量子崩壊と回復によって無効になるかどうかを検討する。
その結果,QRMのカオス海における初期状態に対するエンタングルメントエントロピーの飽和値は,通常の地域よりも高いことがわかった。
系が動的平衡に達すると、カオス海にある初期状態が通常の領域よりも分散するフシミQ関数が現れる。
さらに、時間平均エンタングルメントエントロピーと古典位相空間構造との良好な対応を観察する。
この結果から, エンタングルメントエントロピーとフシミQ関数は, QRMのカオスを診断する関数を維持しており, 対応する原理は量子崩壊やリバイバル効果によって無効化されないことが示唆された。
As one of the famous effects in quantum Rabi model (QRM), Rabi oscillation may lead to the occurrence of quantum dynamics behaviors without classical dynamic counterparts, such as quantum collapse and revival effects. In this paper, we focus on studying whether the entanglement entropy and Husimi Q function, as diagnostic tools for quantum chaos in quantum systems, are invalidated by quantum collapse and revival. It is shown that the saturation values of entanglement entropy for initial states located in the chaotic sea of QRM are higher than that in the regular regions. When the system reaches dynamic equilibrium, the Husimi Q function which initial states located in the chaotic sea are more dispersed than that in the regular regions. Moreover, we observe a good correspondence between the the time-average entanglement entropy and classical phase space structures. Our results imply that entanglement entropy and Husimi Q function maintain the function for diagnosing chaos in the QRM and the corresponding principle does not be invalidated by quantum collapse and revival effects in this system. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# 知覚点クラウド品質評価のための非同期フィードバックネットワーク
Asynchronous Feedback Network for Perceptual Point Cloud Quality Assessment ( http://arxiv.org/abs/2407.09806v1 ) ライセンス: Link先を確認 | Yujie Zhang, Qi Yang, Ziyu Shan, Yiling Xu, | (参考訳) 近年,Non-Reference Point Cloud Quality Assessment (NR-PCQA) の研究において,ディープラーニングベースの手法が成功している。
より正確な品質予測のために、多くの過去の研究は、ボトムアップ方式でグローバルな特徴とローカルな特徴を捉えようとしたが、それらの相互作用と促進を無視した。
そこで本研究では,非同期フィードバックネットワーク(AFNet)を提案する。
AFNetは人間の視覚知覚機構に動機付けられ、大域的および局所的な特徴を扱うために二重ブランチ構造を採用し、人間の脳の左右半球をシミュレートし、それらの間にフィードバックモジュールを構築する。
具体的には、入力ポイントクラウドをまずトランスフォーマーベースのグローバルエンコーダに入力し、これらのセマンティックにリッチな領域をハイライトするアテンションマップを生成し、続いてグローバル機能にマージする。
そして、生成した注目マップを用いて、異なる意味領域の動的畳み込みを行い、局所的な特徴を得る。
最後に、2つの特徴を最終品質スコアにマージするための粗い戦略が採用されている。
3つのデータセットに関する包括的な実験を行い、これらのデータセットに対する最先端のアプローチよりも優れたパフォーマンスを実現する。
コードはhttps://github.com/zhangyujie-1998/AFNet.comから入手できる。
Recent years have witnessed the success of the deep learning-based technique in research of no-reference point cloud quality assessment (NR-PCQA). For a more accurate quality prediction, many previous studies have attempted to capture global and local feature in a bottom-up manner, but ignored the interaction and promotion between them. To solve this problem, we propose a novel asynchronous feedback network (AFNet). Motivated by human visual perception mechanisms, AFNet employs a dual-branch structure to deal with global and local feature, simulating the left and right hemispheres of the human brain, and constructs a feedback module between them. Specifically, the input point clouds are first fed into a transformer-based global encoder to generate the attention maps that highlight these semantically rich regions, followed by being merged into the global feature. Then, we utilize the generated attention maps to perform dynamic convolution for different semantic regions and obtain the local feature. Finally, a coarse-to-fine strategy is adopted to merge the two features into the final quality score. We conduct comprehensive experiments on three datasets and achieve superior performance over the state-of-the-art approaches on all of these datasets. The code will be available at https://github.com/zhangyujie-1998/AFNet. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# 偽装によるMDPにおけるリワード関数のプライバシ保護
Preserving the Privacy of Reward Functions in MDPs through Deception ( http://arxiv.org/abs/2407.09809v1 ) ライセンス: Link先を確認 | Shashank Reddy Chirra, Pradeep Varakantham, Praveen Paruchuri, | (参考訳) 多くの物理的およびサイバーセキュリティドメインにおいて、決定が監視可能である場合、シーケンシャルな意思決定エージェントの好み(または報酬)のプライバシを保存することが不可欠である。
例えば、野生生物のモニタリングでは、エージェントは密猟者に動物の位置を明らかにすることなくパトロール資源を割り当てなければならない。
本稿では,MDPにおける行動の連続を計画する際のプライバシ保護について論じる。
オブザーバはInverse RL(IRL)を使用してこれらの好みを学習できるため、これは難しい作業である。
報酬関数における微分プライバシに関する現在の研究は、最小限の報酬を保証することができず、IRLベースのオブザーバには不十分な理論的保証を提供する。
このギャップを埋めるために,詐欺理論に根ざした新しいアプローチを提案する。
偽装には、デシミュレーション(真実を隠す)とシミュレーション(間違ったものを描く)の2つのモデルが含まれる。
私たちの最初のコントリビューションは、既存のシミュレーションベースの手法における重要なプライバシー漏洩を理論的に実証する。
第2のコントリビューションは、RLベースの新しい計画アルゴリズムで、予測される報酬の保証を保ちながら、これらのプライバシー問題に効果的に対処するためにシミュレーションを使用する。
複数のベンチマーク問題に対する実験の結果,提案手法は報奨関数のプライバシ保護における従来の手法よりも優れていた。
Preserving the privacy of preferences (or rewards) of a sequential decision-making agent when decisions are observable is crucial in many physical and cybersecurity domains. For instance, in wildlife monitoring, agents must allocate patrolling resources without revealing animal locations to poachers. This paper addresses privacy preservation in planning over a sequence of actions in MDPs, where the reward function represents the preference structure to be protected. Observers can use Inverse RL (IRL) to learn these preferences, making this a challenging task. Current research on differential privacy in reward functions fails to ensure guarantee on the minimum expected reward and offers theoretical guarantees that are inadequate against IRL-based observers. To bridge this gap, we propose a novel approach rooted in the theory of deception. Deception includes two models: dissimulation (hiding the truth) and simulation (showing the wrong). Our first contribution theoretically demonstrates significant privacy leaks in existing dissimulation-based methods. Our second contribution is a novel RL-based planning algorithm that uses simulation to effectively address these privacy concerns while ensuring a guarantee on the expected reward. Experiments on multiple benchmark problems show that our approach outperforms previous methods in preserving reward function privacy. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# CellAgent: 単一セルデータの自動解析のためのLLM駆動マルチエージェントフレームワーク
CellAgent: An LLM-driven Multi-Agent Framework for Automated Single-cell Data Analysis ( http://arxiv.org/abs/2407.09811v1 ) ライセンス: Link先を確認 | Yihang Xiao, Jinyi Liu, Yan Zheng, Xiaohan Xie, Jianye Hao, Mingzhi Li, Ruitao Wang, Fei Ni, Yuxiao Li, Jintian Luo, Shaoqing Jiao, Jiajie Peng, | (参考訳) 単細胞RNAシークエンシング (scRNA-seq) データ解析は、細胞多様性の精密な解析を可能にするため、生物学的研究に不可欠である。
しかし、望ましい結果を得るために様々なツールを手動で操作することは、研究者にとって労働集約的である。
この問題に対処するため,我々は,ScRNA-seqデータ解析タスクの自動処理と実行を目的として,LLM駆動のマルチエージェントフレームワークであるCellAgent(http://cell.agent4science.cn/)を紹介した。
まず、一般のLSMを生物学的分野に適用するために、CellAgentは、それぞれ特定の責任を持つプランナー、実行者、評価者といったLCM主導の生物学的専門家の役割を構築している。
次にCellAgentは、これらの生物学的専門家を協調させる階層的な意思決定メカニズムを導入し、複雑なデータ分析タスクの計画とステップバイステップの実行を効果的に推進する。
さらに,CellAgentが自律的に解を評価・最適化し,出力品質を保証できる自己定性最適化機構を提案する。
我々はCellAgentを、数十の組織と数百の異なる細胞タイプを含む包括的なベンチマークデータセットで評価した。
評価結果から,CellAgentは単一セル解析タスクに最適なツールやハイパーパラメータを効果的に識別し,最適な性能を実現していることが示された。
この自動化されたフレームワークは、科学データ分析の負荷を劇的に減らし、"Agent for Science"時代に入ります。
Single-cell RNA sequencing (scRNA-seq) data analysis is crucial for biological research, as it enables the precise characterization of cellular heterogeneity. However, manual manipulation of various tools to achieve desired outcomes can be labor-intensive for researchers. To address this, we introduce CellAgent (http://cell.agent4science.cn/), an LLM-driven multi-agent framework, specifically designed for the automatic processing and execution of scRNA-seq data analysis tasks, providing high-quality results with no human intervention. Firstly, to adapt general LLMs to the biological field, CellAgent constructs LLM-driven biological expert roles - planner, executor, and evaluator - each with specific responsibilities. Then, CellAgent introduces a hierarchical decision-making mechanism to coordinate these biological experts, effectively driving the planning and step-by-step execution of complex data analysis tasks. Furthermore, we propose a self-iterative optimization mechanism, enabling CellAgent to autonomously evaluate and optimize solutions, thereby guaranteeing output quality. We evaluate CellAgent on a comprehensive benchmark dataset encompassing dozens of tissues and hundreds of distinct cell types. Evaluation results consistently show that CellAgent effectively identifies the most suitable tools and hyperparameters for single-cell analysis tasks, achieving optimal performance. This automated framework dramatically reduces the workload for science data analyses, bringing us into the "Agent for Science" era. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# MaskMoE:Mixture-of-ExpertsにおけるタスクのルーティングによるToken-Level学習の促進
MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts ( http://arxiv.org/abs/2407.09816v1 ) ライセンス: Link先を確認 | Zhenpeng Su, Zijia Lin, Xue Bai, Xing Wu, Yizhe Xiong, Haoran Lian, Guangyuan Ma, Hui Chen, Guiguang Ding, Wei Zhou, Songlin Hu, | (参考訳) モデルキャパシティのスケーリングは、その能力を高めるが、計算量を大幅に増加させる。
Mixture-of-Experts Model (MoEs)は、モデルキャパシティをトレーニングや推論コストを大幅に増加させることなく拡張可能にすることで、この問題に対処する。
期待された結果にもかかわらず、MoEモデルはいくつかの課題に直面している。
主に、複数の専門家にまたがる訓練トークンの分散は、特に希少なトークンに不適合をもたらす可能性がある。
さらに、固定されたルーティング機構はこの問題を軽減することができるが、表現の多様性を損なう。
本論文では,Mixture-of-Expertsモデル内でのルーティングマスキング手法を用いてトークンレベルの学習を改善する手法であるMaskMoEを提案する。
MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。
実験結果から,提案手法は従来のMixture-of-Expertsモデルよりもパープレキシティ(PPL)および下流タスクの方が優れていることが示された。
Scaling model capacity enhances its capabilities but significantly increases computation. Mixture-of-Experts models (MoEs) address this by allowing model capacity to scale without substantially increasing training or inference costs. Despite their promising results, MoE models encounter several challenges. Primarily, the dispersion of training tokens across multiple experts can lead to underfitting, particularly for infrequent tokens. Additionally, while fixed routing mechanisms can mitigate this issue, they compromise on the diversity of representations. In this paper, we propose MaskMoE, a method designed to enhance token-level learning by employing a routing masking technique within the Mixture-of-Experts model. MaskMoE is capable of maintaining representation diversity while achieving more comprehensive training. Experimental results demonstrate that our method outperforms previous dominant Mixture-of-Experts models in both perplexity (PPL) and downstream tasks. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# マルチ話者とターゲット話者の同時音声認識システムとしてのウィスパーの活用
Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System ( http://arxiv.org/abs/2407.09817v1 ) ライセンス: Link先を確認 | Lingwei Meng, Jiawen Kang, Yuejiao Wang, Zengrui Jin, Xixin Wu, Xunying Liu, Helen Meng, | (参考訳) マルチトーカー音声認識とターゲットストーカー音声認識は、どちらもマルチトーカーコンテキストにおける転写を含むが、依然として大きな課題である。
しかし、既存のメソッドは両方のタスクを同時に処理しようとすることは滅多にない。
本研究では,言語基盤モデルであるWhisperを,複数話者とターゲット話者の同時音声認識タスクに適応させる先駆的手法を提案する。
具体的には
(i)Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
2 目標話者識別器を導入して、目標話者のハエへの埋め込みの流れを識別し、cueとして3秒の音声のみを必要とする。
3) タスク適応性を向上させるため, デコーダのソフトプロンプトチューニングについて検討した。
AishellMix Mandarin データセット上で,2-および3-talker の LibriMix と LibriSpeechMix の2つのタスクに対して従来手法よりも優れており,AishellMix Mandarin データセット上でのマルチストーカー ASR のゼロショット性能が許容できる。
Multi-talker speech recognition and target-talker speech recognition, both involve transcription in multi-talker contexts, remain significant challenges. However, existing methods rarely attempt to simultaneously address both tasks. In this study, we propose a pioneering approach to empower Whisper, which is a speech foundation model, to tackle joint multi-talker and target-talker speech recognition tasks. Specifically, (i) we freeze Whisper and plug a Sidecar separator into its encoder to separate mixed embedding for multiple talkers; (ii) a Target Talker Identifier is introduced to identify the embedding flow of the target talker on the fly, requiring only three-second enrollment speech as a cue; (iii) soft prompt tuning for decoder is explored for better task adaptation. Our method outperforms previous methods on two- and three-talker LibriMix and LibriSpeechMix datasets for both tasks, and delivers acceptable zero-shot performance on multi-talker ASR on AishellMix Mandarin dataset. | 翻訳日:2024-07-16 20:47:21 公開日:2024-07-13 |
# AraFinNLP 2024: アラビア初の金融NLP共有タスク
AraFinNLP 2024: The First Arabic Financial NLP Shared Task ( http://arxiv.org/abs/2407.09818v1 ) ライセンス: Link先を確認 | Sanad Malaysha, Mo El-Haj, Saad Ezzini, Mohammed Khalilia, Mustafa Jarrar, Sultan Almujaiwel, Ismail Berrada, Houda Bouamor, | (参考訳) アラブ世界の金融市場は、洗練されたアラビア語のNLPツールを必要としている。
銀行分野におけるこのニーズに対処するため、アラビア金融NLP(AraFinNLP)共有タスクは2つのサブタスクを提案している。
一 マルチダイアレクトインテント検出及び検出方法
(二)通訳及び留置
この共有タスクは、更新されたArBanking77データセットを使用し、MSAと4つの方言で約39kの並列クエリを含む。
各クエリには、銀行ドメイン内の一般的な77のインテントの1つ以上のラベルが付けられている。
これらの資源は、特に機械翻訳や銀行チャットボットの分野で、ロバストな金融アラビアNLPの開発を促進することを目的としている。
合計45のチームがこの共有タスクに登録され、そのうち11チームがテストフェーズに積極的に参加した。
具体的には11チームがSubtask 1に参加し、1チームがSubtask 2に参加した。
Subtask 1の勝利チームは0.8773点を獲得し、Subtask 2で提出された唯一のチームは1.667点のBLEU点を獲得した。
The expanding financial markets of the Arab world require sophisticated Arabic NLP tools. To address this need within the banking domain, the Arabic Financial NLP (AraFinNLP) shared task proposes two subtasks: (i) Multi-dialect Intent Detection and (ii) Cross-dialect Translation and Intent Preservation. This shared task uses the updated ArBanking77 dataset, which includes about 39k parallel queries in MSA and four dialects. Each query is labeled with one or more of a common 77 intents in the banking domain. These resources aim to foster the development of robust financial Arabic NLP, particularly in the areas of machine translation and banking chat-bots. A total of 45 unique teams registered for this shared task, with 11 of them actively participated in the test phase. Specifically, 11 teams participated in Subtask 1, while only 1 team participated in Subtask 2. The winning team of Subtask 1 achieved F1 score of 0.8773, and the only team submitted in Subtask 2 achieved a 1.667 BLEU score. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# ドックレス自転車シェアリング利用者の日々の通勤パターンのマイニング--時空間フロークラスタリングとルールに基づく決定木を統合した2層フレームワーク
Mining individual daily commuting patterns of dockless bike-sharing users: a two-layer framework integrating spatiotemporal flow clustering and rule-based decision trees ( http://arxiv.org/abs/2407.09820v1 ) ライセンス: Link先を確認 | Caigang Zhuang, Shaoying Li, Xiaoping Liu, | (参考訳) ドックレス自転車共有システムの台頭により、都市交通や旅行行動研究に自転車共有データを使うことへの関心が高まっている。
しかし、日々の移動パターンに注目する研究はほとんどなく、都市部における活発な交通計画の必要性がますます高まっていくのを妨げている。
このギャップを埋めるため,本研究では,フロークラスタリング法と複数のルールベース決定木を統合した2層構造を構築し,ドッキングレス自転車共有旅行データから各サイクリストの日々の通勤パターンをユーザIDで抽出する。
このフレームワークの有効性と適用性は、深センで2億回以上のドックレス自転車シェアリング記録によって実証されている。
最終的に、採鉱の結果に基づき、自転車共有通勤の2つのカテゴリー(自転車専用通勤の74.38%、自転車乗り通勤の25.62%)と、日々の通勤パターンに関する興味深い知見を得た。
例えば、多くの自転車シェアリング通勤者が都市村や古い町の近くに住んでおり、特に中心部では生活費が低い。
自転車通勤者の方が通勤者の方が残業率が高く、製造業中心のロングワ工業団地では平均労働時間(一日10時間以上)が最長である。
大規模な通勤者は通勤に自転車シェアリングを利用するが、これは通勤ピーク時の職場周辺での自転車シェアリングの過度な需要と密接に関連している。
全体として、このフレームワークは住民の非運動パターンを理解するためのコスト効率の良い方法を提供する。
さらに、社会経済的属性の人口格差を考慮した大規模サイクリング行動の研究の道を開く。
The rise of dockless bike-sharing systems has led to increased interest in using bike-sharing data for urban transportation and travel behavior research. However, few studies have focused on the individual daily mobility patterns, hindering their alignment with the increasingly refined needs of urban active transportation planning. To bridge this gap, this study presents a two-layer framework, integrating improved flow clustering methods and multiple rule-based decision trees, to mine individual cyclists' daily home-work commuting patterns from vast dockless bike-sharing trip data with users' IDs. The effectiveness and applicability of the framework is demonstrated by over 200 million dockless bike-sharing trip records in Shenzhen. Ultimately, based on the mining results, we obtain two categories of bike-sharing commuters (i.e., 74.38% of Only-biking commuters and 25.62% of Biking-with-transit commuters) and some interesting findings about their daily commuting patterns. For instance, lots of bike-sharing commuters live near urban villages and old communities with lower costs of living, especially in the central city. Only-biking commuters have a higher proportion of overtime than Biking-with-transit commuters, and the Longhua Industrial Park, a manufacturing-oriented area, having the longest average working hours (over 10 hours per day). Massive commuters utilize bike-sharing for commuting to work more frequently than for returning home, which is closely related to the over-demand for bike-sharing around workplaces during commuting peak. Overall, this framework offers a cost-effective way to understand residents' non-motorized mobility patterns. Moreover, it paves the way for subsequent research on fine-scale cycling behaviors that consider demographic disparities in socio-economic attributes. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# VividDreamer:超現実的なテキストから3D生成のための不変スコア蒸留
VividDreamer: Invariant Score Distillation For Hyper-Realistic Text-to-3D Generation ( http://arxiv.org/abs/2407.09822v1 ) ライセンス: Link先を確認 | Wenjie Zhuo, Fan Ma, Hehe Fan, Yi Yang, | (参考訳) Invariant Score Distillation (ISD) を提案する。
ISDは、スコア蒸留サンプリング(SDS)における過飽和と過平滑化の問題に対処することを目的としている。
本稿では,SDSを再構成項と分類器フリーガイダンス項の重み付き和に分解する。
過飽和は大規模な分類器のない指導尺度から生じるものであり,過飽和は再建用語から生じるものである。
これらの問題を解決するため、IDSはDDIMサンプリングから派生した不変スコア項を用いてSDSの再構成項を置き換える。
この操作は、中級分類器フリーガイダンス尺度の利用を可能にし、再構成関連エラーを軽減し、過度なスムース化と過飽和化を防止する。
大規模な実験により,本手法はSDSを大幅に向上し,一段最適化により現実的な3Dオブジェクトを生成することが示された。
This paper presents Invariant Score Distillation (ISD), a novel method for high-fidelity text-to-3D generation. ISD aims to tackle the over-saturation and over-smoothing problems in Score Distillation Sampling (SDS). In this paper, SDS is decoupled into a weighted sum of two components: the reconstruction term and the classifier-free guidance term. We experimentally found that over-saturation stems from the large classifier-free guidance scale and over-smoothing comes from the reconstruction term. To overcome these problems, ISD utilizes an invariant score term derived from DDIM sampling to replace the reconstruction term in SDS. This operation allows the utilization of a medium classifier-free guidance scale and mitigates the reconstruction-related errors, thus preventing the over-smoothing and over-saturation of results. Extensive experiments demonstrate that our method greatly enhances SDS and produces realistic 3D objects through single-stage optimization. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# NativQA: LLMのための多言語文化的適応型自然言語クエリ
NativQA: Multilingual Culturally-Aligned Natural Query for LLMs ( http://arxiv.org/abs/2407.09823v1 ) ライセンス: Link先を確認 | Md. Arid Hasan, Maram Hasanain, Fatema Ahmad, Sahinur Rahman Laskar, Sunaya Upadhyay, Vrunda N Sukhadia, Mucahid Kutlu, Shammur Absar Chowdhury, Firoj Alam, | (参考訳) 自然質問回答(QA)データセットは、大規模言語モデル(LLM)の能力の開発と評価において重要な役割を果たす。
開発されている多くのQAデータセットにも拘わらず、独自の言語でネイティブユーザによって生成された地域固有のデータセットは、注目すべきに欠如している。
このギャップは、地域や文化的特異性に対するLLMの効果的なベンチマークを妨げている。
本研究では,LLMの評価とチューニングを目的とした,文化的かつ地域的に整合したQAデータセットをネイティブ言語でシームレスに構築する,スケーラブルなフレームワークであるNativQAを提案する。
さらに,提案手法の有効性を実証するために,18のトピックをカバーする母語話者からの質問に基づいて,ハイリソースから極低リソースまでの7言語で72KのQAペアからなる多言語自然QAデータセットであるMultiNativQAを設計した。
我々は、MultiNativQAデータセットをオープンソースLLMとクローズドソースLLMでベンチマークする。
私たちはNativQAフレームワークとMultiNativQAデータセットをコミュニティ向けに公開しました。
(https://nativqa.gitlab.io)
Natural Question Answering (QA) datasets play a crucial role in developing and evaluating the capabilities of large language models (LLMs), ensuring their effective usage in real-world applications. Despite the numerous QA datasets that have been developed, there is a notable lack of region-specific datasets generated by native users in their own languages. This gap hinders the effective benchmarking of LLMs for regional and cultural specificities. In this study, we propose a scalable framework, NativQA, to seamlessly construct culturally and regionally aligned QA datasets in native languages, for LLM evaluation and tuning. Moreover, to demonstrate the efficacy of the proposed framework, we designed a multilingual natural QA dataset, MultiNativQA, consisting of ~72K QA pairs in seven languages, ranging from high to extremely low resource, based on queries from native speakers covering 18 topics. We benchmark the MultiNativQA dataset with open- and closed-source LLMs. We made both the framework NativQA and MultiNativQA dataset publicly available for the community. (https://nativqa.gitlab.io) | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# 2次元視線ガイドを用いた3次元重み付きセマンティックセグメンテーション
3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance ( http://arxiv.org/abs/2407.09826v1 ) ライセンス: Link先を確認 | Xiaoxu Xu, Yitian Yuan, Jinlong Li, Qiudan Zhang, Zequn Jie, Lin Ma, Hao Tang, Nicu Sebe, Xu Wang, | (参考訳) 本稿では,2次元視覚-言語モデルを用いた3次元セマンティック・セマンティック・セマンティクスの弱教師付きアプローチである3DSS-VLGを提案する。
具体的には、2次元視覚言語モデルの優れた一般化能力を生かし、3次元埋め込みとテキスト埋め込みを暗黙的にアライメントするための埋め込みソフトガイダンスステージを提案する。
さらに,特定のシーンレベルラベルの助けを借りて特徴表現を浄化するために,埋め込み特化ステージを導入し,対応するテキスト埋め込みによって監督される優れた特徴を指定する。
したがって、3Dモデルは画像埋め込みとテキスト埋め込みの両方から情報的監督を得ることができ、競争力のあるセグメンテーション性能をもたらす。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
さらに,3DSS-VLGは,S3DISデータセットとScanNetデータセットの両方で最先端の性能を達成できるだけでなく,強力な一般化能力も維持できることを示す。
In this paper, we propose 3DSS-VLG, a weakly supervised approach for 3D Semantic Segmentation with 2D Vision-Language Guidance, an alternative approach that a 3D model predicts dense-embedding for each point which is co-embedded with both the aligned image and text spaces from the 2D vision-language model. Specifically, our method exploits the superior generalization ability of the 2D vision-language models and proposes the Embeddings Soft-Guidance Stage to utilize it to implicitly align 3D embeddings and text embeddings. Moreover, we introduce the Embeddings Specialization Stage to purify the feature representation with the help of a given scene-level label, specifying a better feature supervised by the corresponding text embedding. Thus, the 3D model is able to gain informative supervisions both from the image embedding and text embedding, leading to competitive segmentation performances. To the best of our knowledge, this is the first work to investigate 3D weakly supervised semantic segmentation by using the textual semantic information of text category labels. Moreover, with extensive quantitative and qualitative experiments, we present that our 3DSS-VLG is able not only to achieve the state-of-the-art performance on both S3DIS and ScanNet datasets, but also to maintain strong generalization capability. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# アダプティブ・フーカル・ロスによるセマンティック・セグメンテーションの促進 : 新しいアプローチ
Enhancing Semantic Segmentation with Adaptive Focal Loss: A Novel Approach ( http://arxiv.org/abs/2407.09828v1 ) ライセンス: Link先を確認 | Md Rakibul Islam, Riad Hassan, Abdullah Nazib, Kien Nguyen, Clinton Fookes, Md Zahidul Islam, | (参考訳) 深層学習は、医用画像のセグメンテーションにおいて、特にスムーズな境界や大きな大きさの臓器や腫瘍のような物体に対して顕著な精度を達成した。
一方、ジグザグ境界を持つ物体や大きさが小さい物体では重大な困難に遭遇し、セグメンテーションの有効性が顕著に低下する。
この文脈では、滑らかさとボリューム情報をモデルの予測に組み込む損失関数を用いることで、これらの欠点に対する有望な解決策が得られる。
本研究では, 難解な例の損失を減らし, 難解な例の損失を重み付けし, 小さい例や不規則な形をした例などの課題に重きを置くことで, クラス不均衡を緩和するアダプティブ・フォカル・ロス(A-FL)関数を提案する。
提案したA-FLは、物体の表面の滑らかさ、大きさ情報に基づいて焦点パラメータを動的に調整し、画像中の全領域に対する対象領域の比率に基づいてクラスバランスパラメータを調整する。
我々は、Picai 2022およびBraTS 2018データセット上でResNet50エンコードされたU-Netアーキテクチャを用いて、A-FLの性能を評価した。
ピチャイ2022のデータセットでは、A-FLは0.696のユニオン(IoU)と0.769のDice similarity Coefficient(DSC)を達成し、通常のFocal Loss(FL)の5.5%と5.4%を上回った。
また、Dice-Focalを2.0%、Dice-Focalを1.2%上回った。
BraTS 2018データセットでは、A-FLは0.883のIoUと0.931のDSCを達成した。
比較研究により、提案されたA-FL関数は、IoU、DSC、感度、特異性の測定値において、Dice Loss、Focal Loss、およびそれらのハイブリッドな変種を含む従来の手法を超えることが示された。
この研究は、医療画像の臨床的に重要な領域をセグメント化するためのディープラーニングモデルを改善するA-FLの可能性を強調し、より正確で信頼性の高い診断ツールを生み出した。
Deep learning has achieved outstanding accuracy in medical image segmentation, particularly for objects like organs or tumors with smooth boundaries or large sizes. Whereas, it encounters significant difficulties with objects that have zigzag boundaries or are small in size, leading to a notable decrease in segmentation effectiveness. In this context, using a loss function that incorporates smoothness and volume information into a model's predictions offers a promising solution to these shortcomings. In this work, we introduce an Adaptive Focal Loss (A-FL) function designed to mitigate class imbalance by down-weighting the loss for easy examples that results in up-weighting the loss for hard examples and giving greater emphasis to challenging examples, such as small and irregularly shaped objects. The proposed A-FL involves dynamically adjusting a focusing parameter based on an object's surface smoothness, size information, and adjusting the class balancing parameter based on the ratio of targeted area to total area in an image. We evaluated the performance of the A-FL using ResNet50-encoded U-Net architecture on the Picai 2022 and BraTS 2018 datasets. On the Picai 2022 dataset, the A-FL achieved an Intersection over Union (IoU) of 0.696 and a Dice Similarity Coefficient (DSC) of 0.769, outperforming the regular Focal Loss (FL) by 5.5% and 5.4% respectively. It also surpassed the best baseline Dice-Focal by 2.0% and 1.2%. On the BraTS 2018 dataset, A-FL achieved an IoU of 0.883 and a DSC of 0.931. The comparative studies show that the proposed A-FL function surpasses conventional methods, including Dice Loss, Focal Loss, and their hybrid variants, in IoU, DSC, Sensitivity, and Specificity metrics. This work highlights A-FL's potential to improve deep learning models for segmenting clinically significant regions in medical images, leading to more precise and reliable diagnostic tools. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# LiveHPS++:動的自由環境におけるロバストかつコヒーレントなモーションキャプチャ
LiveHPS++: Robust and Coherent Motion Capture in Dynamic Free Environment ( http://arxiv.org/abs/2407.09833v1 ) ライセンス: Link先を確認 | Yiming Ren, Xiao Han, Yichen Yao, Xiaoxiao Long, Yujing Sun, Yuexin Ma, | (参考訳) LiDARをベースとした人間のモーションキャプチャーは、大規模で制約のない環境での実践性において近年大きな関心を集めている。
しかし、ほとんどの手法は、入力としてきれいに区分けされた人点雲を頼りにしており、ノイズの多いデータに直面すると、動きの正確さと滑らかさが損なわれ、実用的な応用には適さない。
これらの制約に対処し、ノイズ干渉によるモーションキャプチャの堅牢性と精度を高めるために、単一LiDARシステムに基づく革新的で効果的なソリューションであるLiveHPS++を導入する。
3つのモジュールを巧妙に設計し、人間の動きから動的・運動的特徴を学習し、よりオープンな環境でのコヒーレントな人間の動きを正確に捉え、現実世界のシナリオに適用できる。
広範な実験を通じて、LiveHPS++はさまざまなデータセットにまたがる既存の最先端メソッドを大幅に超え、この分野に新たなベンチマークを確立することが証明された。
LiDAR-based human motion capture has garnered significant interest in recent years for its practicability in large-scale and unconstrained environments. However, most methods rely on cleanly segmented human point clouds as input, the accuracy and smoothness of their motion results are compromised when faced with noisy data, rendering them unsuitable for practical applications. To address these limitations and enhance the robustness and precision of motion capture with noise interference, we introduce LiveHPS++, an innovative and effective solution based on a single LiDAR system. Benefiting from three meticulously designed modules, our method can learn dynamic and kinematic features from human movements, and further enable the precise capture of coherent human motions in open settings, making it highly applicable to real-world scenarios. Through extensive experiments, LiveHPS++ has proven to significantly surpass existing state-of-the-art methods across various datasets, establishing a new benchmark in the field. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# 変圧器言語モデルにおける低ランク学習の検討:効率性とスケーリング分析
Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis ( http://arxiv.org/abs/2407.09835v1 ) ライセンス: Link先を確認 | Xiuying Wei, Skander Moalla, Razvan Pascanu, Caglar Gulcehre, | (参考訳) 最先端のLLMは、しばしば高い計算コストのスケールに依存しており、性能に大きな影響を及ぼすことなくパラメータ数とコストを削減するための研究課題を引き起こしている。
本研究はトランスフォーマーを用いたLSMに着目し,特に注目ブロックよりも少ない計算集約フィードフォワードネットワーク(FFN)に低ランクパラメトリゼーションを適用した。
以前の作品とは対照的である。
i) 最大1.3Bパラメータのスケールでの低ランクパラメトリゼーションを探索する。
(ii) 畳み込み型アーキテクチャではなくトランスフォーマー言語モデル内
(三) ゼロから訓練から始めること。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションは(例: 2.6$\times$ FFNで32\%のパラメータで)効率的かつ効果的である。
興味深いことに、これらの構造化FFNはオリジナルのモデルよりも急激なスケーリング曲線を示す。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
State-of-the-art LLMs often rely on scale with high computational costs, which has sparked a research agenda to reduce parameter counts and costs without significantly impacting performance. Our study focuses on Transformer-based LLMs, specifically applying low-rank parametrization to the computationally intensive feedforward networks (FFNs), which are less studied than attention blocks. In contrast to previous works, (i) we explore low-rank parametrization at scale, up to 1.3B parameters; (ii) within Transformer language models rather than convolutional architectures; and (iii) starting from training from scratch. Experiments on the large RefinedWeb dataset show that low-rank parametrization is both efficient (e.g., 2.6$\times$ FFN speed-up with 32\% parameters) and effective during training. Interestingly, these structured FFNs exhibit steeper scaling curves than the original models. Motivated by this finding, we develop the wide and structured networks surpassing the current medium-sized and large-sized Transformer in perplexity and throughput performance. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# 既成のクラス・インクリメンタル・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セ
Background Adaptation with Residual Modeling for Exemplar-Free Class-Incremental Semantic Segmentation ( http://arxiv.org/abs/2407.09838v1 ) ライセンス: Link先を確認 | Anqi Zhang, Guangyu Gao, | (参考訳) 意味的セグメンテーションのためのインクリメンタルラーニングにおけるクラスインクリメンタルセグマンティックセグメンテーション~(CISS)は,従来のカテゴリにおける破滅的な忘れを減らしつつ,新たなカテゴリのセグメンテーションを目標としており,各ステップにおいて背景カテゴリが常に変化する背景シフトは,CISSにとって特別な課題である。
共有背景分類器を用いた現在の手法は,これらの変化に追随し,背景予測の安定性が低下し,セグメンテーションの精度が低下する。
この特別な課題のために、我々は、各ステップの背景自体よりも背景残差を明示的にモデル化する新しい背景適応機構を設計し、これらの残差を、進化する背景を表現するために集約した。
そのため、背景適応機構により、従来の背景分類器の安定性が保証され、新たなカテゴリーの予測精度を高めるため、新たなチャンネルからの学習が容易な残差に集中することが可能となる。
背景適応機構を正確に最適化するために,擬似背景二元交叉損失と背景適応損失を提案し,適応効果を増幅する。
グループ知識蒸留と背景特徴蒸留は,古いカテゴリーを忘れないように設計されている。
提案手法は, Pascal VOC 2012 および ADE20K データセットにおける様々な段階的なシナリオで評価され, 従来は mIoU が VOC 10-1 で 3.0%, ADE 100-5 が 2.0% であった手法よりも優れていた。
コードはhttps://andyzaq.github.io/barmsite/で入手できる。
Class Incremental Semantic Segmentation~(CISS), within Incremental Learning for semantic segmentation, targets segmenting new categories while reducing the catastrophic forgetting on the old categories.Besides, background shifting, where the background category changes constantly in each step, is a special challenge for CISS. Current methods with a shared background classifier struggle to keep up with these changes, leading to decreased stability in background predictions and reduced accuracy of segmentation. For this special challenge, we designed a novel background adaptation mechanism, which explicitly models the background residual rather than the background itself in each step, and aggregates these residuals to represent the evolving background. Therefore, the background adaptation mechanism ensures the stability of previous background classifiers, while enabling the model to concentrate on the easy-learned residuals from the additional channel, which enhances background discernment for better prediction of novel categories. To precisely optimize the background adaptation mechanism, we propose Pseudo Background Binary Cross-Entropy loss and Background Adaptation losses, which amplify the adaptation effect. Group Knowledge Distillation and Background Feature Distillation strategies are designed to prevent forgetting old categories. Our approach, evaluated across various incremental scenarios on Pascal VOC 2012 and ADE20K datasets, outperforms prior exemplar-free state-of-the-art methods with mIoU of 3.0% in VOC 10-1 and 2.0% in ADE 100-5, notably enhancing the accuracy of new classes while mitigating catastrophic forgetting. Code is available in https://andyzaq.github.io/barmsite/. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# 確率クロックの究極的不確かさ関係と最適性能
Ultimate Kinetic Uncertainty Relation and Optimal Performance of Stochastic Clocks ( http://arxiv.org/abs/2407.09839v1 ) ライセンス: Link先を確認 | Katarzyna Macieszczak, | (参考訳) 離散的な構成上のマルコフ過程に対して、確率的フラックスの不確実性に関する漸近境界は、定常分布に関する崩壊率の調和平均によって導かれる。
この境界は、算術平均(つまり、運動論的不確実性関係として知られる)の観点から、必ずしも境界よりも厳密である。
また、常に飽和していることもある。
代わりに、最初の通過時間の不確実性に対する正確な制限と、確率時計の最適長時間性能が確立される。
結果は量子リセットプロセスを含むセミマルコフプロセスに一般化され、コヒーレント駆動によりクロック性能が向上した時に決定できる。
For Markov processes over discrete configurations, an asymptotic bound on the uncertainty of stochastic fluxes is derived in terms of the harmonic mean of decay rates with respect to the stationary distribution. This bound is necessarily tighter than the bound in terms of the arithmetic mean, i.e., the activity, known as the kinetic uncertainty relation. What is more, it can always be saturated. In turn, an exact limit for the uncertainty of first-passage times as well as the optimal long-time performance of stochastic clocks are established. The results generalise to semi-Markov processes, including quantum reset processes, where it can be determined when clock performance improves thanks to coherent driving. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# Few-Shotセグメンテーションにおける特徴の曖昧さの排除
Eliminating Feature Ambiguity for Few-Shot Segmentation ( http://arxiv.org/abs/2407.09842v1 ) ライセンス: Link先を確認 | Qianxiong Xu, Guosheng Lin, Chen Change Loy, Cheng Long, Ziyue Li, Rui Zhao, | (参考訳) マイクロショットセグメンテーション(FSS)の最近の進歩は、クエリとサポート機能間のピクセル間マッチングを利用しており、通常はクロスアテンションに基づいて、同じクラスのサポートFG機能に対応するクエリフォアグラウンド(FG)機能を選択的に活性化している。
しかし,背骨の深層部における受容野が大きいため,抽出されたクエリとサポートFG機能は,必然的にバックグラウンド(BG)機能と混同され,FG-FGマッチングが横断的に阻害される。
したがって、クエリFG機能は、サポートFG機能が少なく、つまり、サポート情報が十分に活用されていない。
本稿では,既存のクロスアテンションベースのFSS手法に接続可能な,新しいアンビグニティ除去ネットワーク(AENet)を提案する。
主な考え方は、不明瞭なFG特徴を正すために識別クエリFG領域をマイニングし、FG情報の比率を高め、ドープされたBG特徴の負の影響を抑制することである。
このようにして、FG-FGマッチングが自然に強化される。
評価のためにAENetをCyCTR,SCCAN,HDMNetの3つのベースラインに接続し,そのスコアを大きなマージン,例えばPASCAL-5$^i$とCOCO-20$^i$で3.0%以上向上させることができる。
コードはhttps://github.com/Sam1224/AENetで公開されている。
Recent advancements in few-shot segmentation (FSS) have exploited pixel-by-pixel matching between query and support features, typically based on cross attention, which selectively activate query foreground (FG) features that correspond to the same-class support FG features. However, due to the large receptive fields in deep layers of the backbone, the extracted query and support FG features are inevitably mingled with background (BG) features, impeding the FG-FG matching in cross attention. Hence, the query FG features are fused with less support FG features, i.e., the support information is not well utilized. This paper presents a novel plug-in termed ambiguity elimination network (AENet), which can be plugged into any existing cross attention-based FSS methods. The main idea is to mine discriminative query FG regions to rectify the ambiguous FG features, increasing the proportion of FG information, so as to suppress the negative impacts of the doped BG features. In this way, the FG-FG matching is naturally enhanced. We plug AENet into three baselines CyCTR, SCCAN and HDMNet for evaluation, and their scores are improved by large margins, e.g., the 1-shot performance of SCCAN can be improved by 3.0%+ on both PASCAL-5$^i$ and COCO-20$^i$. The code is available at https://github.com/Sam1224/AENet. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# 効果的な研究の方法としてのデザインサイエンスを教える
Teaching Design Science as a Method for Effective Research Development ( http://arxiv.org/abs/2407.09844v1 ) ライセンス: Link先を確認 | Oscar Pastor, Mmatshuene Anna Segooa, Jose Ignacio Panach, | (参考訳) デザインサイエンスリサーチ(DSR)方法論の適用は、ほとんどの情報システム(IS)やソフトウェア工学研究において、一般的な作業資源になりつつある。
直面するべき研究や実践的な設計問題は、特定のコンテキストにおけるアーティファクトの作成や調査の方法に関する質問に答えることを目的としている。
アーティファクトとコンテキストの両方を正確に特徴付けることは、効果的な研究開発に不可欠である。
IS工学の専門家によって様々なデザイン科学ガイドラインやフレームワークが作成されているが、新興の研究者や大学院生は依然としてこの研究手法を正しく適用することは困難であると考えている。
DSRの特定の問題や意思決定に対処するために開発できるアーティファクトの種類について、初心者の研究者を指導し支援する文献や資料は限られている。
本章では、DSRにおけるこのギャップに対処するため、DSRの概念とそれを教える効果的な方法の両方を説明し、教育的な観点からDSRを探求する。
この章には、DSR、教育方法論、学習目的、レコメンデーションの例が含まれている。
さらに,デザインサイエンス利用者の体験データ収集を目的とした調査アーティファクトも作成した。
ゴールは、現代の問題やDSRのベストプラクティスの必要性に関する洞察を見つけることです(その結果、私たちが教えようとしている方法論を評価します)。
本調査は,SEおよびIS Engineering領域におけるDSRの参加者の経験を概観し,主にPhD研究の過程で開始され,監督指導や研究の課題によって引き起こされた幅広い取り組みを明らかにするものである。
対象者の体験に合わせてDSRを教えるための準備として,他の教育者が利用できるように,ようやくコミュニティに公開しました。
Applying Design Science Research (DSR) methodology is becoming a popular working resource for most Information Systems (IS) and Software engineering studies. The research and/or practical design problems that must be faced aim to answer the question of how to create or investigate an artifact in a given context. Precisely characterizing both artifact and context is essential for effective research development. While various design science guidelines and frameworks have been created by experts in IS engineering, emerging researchers and postgraduate students still find it challenging to apply this research methodology correctly. There is limited literature and materials that guide and support teaching novice researchers about the types of artifacts that can be developed to address a particular problem and decision-making in DSR. To address this gap in DSR, in this chapter, we explore DSR from an educational perspective, explaining both the concept of DSR and an effective method for teaching it. This chapter includes examples of DSR, a teaching methodology, learning objectives, and recommendations. Moreover, we have created a survey artifact intended to gather data on the experiences of design science users. The goal is to discover insights into contemporary issues and needs for DSR best practices (and, in consequence, evaluate the methodology we aim to teach). Our survey results offer a comprehensive overview of participants' experiences with DSR in the SE and IS Engineering domain, highlighting broad engagement primarily initiated during PhD studies and driven by supervisory guidance and research problems. We finally disclose the artifact to the community so that it can be used by other educators as a preparation when planning to teach DSR in tune with the experiences of their target audience. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# 2層線形ニューラルネットワークにおけるエポックワイズ二重降下の理解に向けて
Towards understanding epoch-wise double descent in two-layer linear neural networks ( http://arxiv.org/abs/2407.09845v1 ) ライセンス: Link先を確認 | Amanda Olmin, Fredrik Lindsten, | (参考訳) Epoch-wise double descendは、一般化性能が過度な適合点を超えて改善され、結果として、学習の過程で2つの降下点を示す一般化曲線が現れる現象である。
この動作を駆動するメカニズムを理解することは、一般的に機械学習モデルの一般化行動を理解するためにだけでなく、オーバーフィッティングを緩和するために早期停止の使用など、従来の選択手法を採用するためにも重要である。
最終的に、ディープニューラルネットワークのようなより複雑なモデルの結論を描きたいが、エポックワイド二重降下の根本原因に関する理論的な結論の多くは、標準的な線形回帰のような単純なモデルに基づいている。
このギャップを埋め始めるために、2層線形ニューラルネットワークにおけるエポックワイズ二重降下について検討した。
まず、標準線形回帰モデルの学習力学を橋渡しする線形二層モデルと、二次重み付き線形二層対角ネットワークの勾配流を導出する。
第2に、一般化誤差が二重降下パターンに従うために必要な条件を導出することにより、余剰モデル層に現れるエポックな二重降下の余剰因子を同定する。
線形回帰におけるエポックワイズ二重降下は入力分散の差に起因するが、2層モデルでは入力-出力共分散行列の特異値も重要な役割を果たす。
これは真に深いモデルに対するエポックワイズ二重降下の未同定因子に関するさらなる疑問を提起する。
Epoch-wise double descent is the phenomenon where generalisation performance improves beyond the point of overfitting, resulting in a generalisation curve exhibiting two descents under the course of learning. Understanding the mechanisms driving this behaviour is crucial not only for understanding the generalisation behaviour of machine learning models in general, but also for employing conventional selection methods, such as the use of early stopping to mitigate overfitting. While we ultimately want to draw conclusions of more complex models, such as deep neural networks, a majority of theoretical conclusions regarding the underlying cause of epoch-wise double descent are based on simple models, such as standard linear regression. To start bridging this gap, we study epoch-wise double descent in two-layer linear neural networks. First, we derive a gradient flow for the linear two-layer model, that bridges the learning dynamics of the standard linear regression model, and the linear two-layer diagonal network with quadratic weights. Second, we identify additional factors of epoch-wise double descent emerging with the extra model layer, by deriving necessary conditions for the generalisation error to follow a double descent pattern. While epoch-wise double descent in linear regression has been attributed to differences in input variance, in the two-layer model, also the singular values of the input-output covariance matrix play an important role. This opens up for further questions regarding unidentified factors of epoch-wise double descent for truly deep models. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# コンタクトセンターコールにおけるオンホールドスクリプトのテキストによる検出
Text-Based Detection of On-Hold Scripts in Contact Center Calls ( http://arxiv.org/abs/2407.09849v1 ) ライセンス: Link先を確認 | Dmitrii Galimzianov, Viacheslav Vyshegorodtsev, | (参考訳) 平均保持時間は、顧客満足度に影響を与えるため、コールセンターにとって懸念事項である。
連絡先センターは、特別なオンホールドスクリプトを使用してクライアントとのポジティブなインタラクションを維持するよう、エージェントに指示する必要がある。
本研究では,自動音声認識技術により書き起こされたカスタマーサービスコールのオンホールドフレーズを検出する自然言語処理モデルを提案する。
対話中のホルドスクリプトを見つけるタスクは、クライアントをホールドするスクリプト、クライアントに返却するスクリプト、オンホールドスクリプトとは無関係なフレーズの3つの排他的なクラスで、マルチクラステキスト分類問題として定式化された。
私たちは社内でコールのデータセットを収集し、各コールで各対話のターンをラベル付けしました。
我々は,様々なハイパーパラメータ集合を探索し,データセット上でRuBERTを微調整し,高いモデル性能を実現した。
開発されたモデルは、エージェントが事前に定義されたオンホールドスクリプトに従うかどうかをチェックする方法を提供することによって、エージェントの監視を支援する。
Average hold time is a concern for call centers because it affects customer satisfaction. Contact centers should instruct their agents to use special on-hold scripts to maintain positive interactions with clients. This study presents a natural language processing model that detects on-hold phrases in customer service calls transcribed by automatic speech recognition technology. The task of finding hold scripts in dialogue was formulated as a multiclass text classification problem with three mutually exclusive classes: scripts for putting a client on hold, scripts for returning to a client, and phrases irrelevant to on-hold scripts. We collected an in-house dataset of calls and labeled each dialogue turn in each call. We fine-tuned RuBERT on the dataset by exploring various hyperparameter sets and achieved high model performance. The developed model can help agent monitoring by providing a way to check whether an agent follows predefined on-hold scripts. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# 機械学習と多目的最適化に基づく自由形格子構造解析
Free-form Grid Structure Form Finding based on Machine Learning and Multi-objective Optimisation ( http://arxiv.org/abs/2407.09852v1 ) ライセンス: Link先を確認 | Yiping Meng, Yiming Sun, | (参考訳) 自由形の構造形式は、その不規則な空間形態のための空間構造を設計するために広く用いられている。
現在の自由形形状解析法は, 材料特性, 構造条件, 建設条件を十分に満たすことができないため, 初期3次元形状設計モデルと構築自由形構造との偏差が生じる。
そこで本論文の主な焦点は, 材料の特性や制約に則って, 複数の目的を考慮した自由形形態の合理性を改善することである。
本論文では、接着剤を添加した積層材を事例として選択する。
まず、予測能力に基づいて機械学習を採用する。
自由形式格子構造を選択し、NURBSの原理に従うことにより、自由形式構造は自由形式曲線に単純化される。
変圧器は、材料特性を考慮した曲線の曲率を訓練し、予測するために選択される。
曲率を予測すると、曲線は制御点、重み、結び目ベクトルからなるベクトルに変換される。
構造物の施工性と堅牢性を確保するため、構造物の質量、応力、ひずみエネルギーを最小化することが最適化目的である。
自由形形態学の変数として、自由形形態学の2つのパラメータ(重みと制御点のz座標)を抽出し、最適化を行う。
評価アルゴリズムは,複数のパラメータを最適化できるため,最適なツールとして選択された。
2つの変数を最適化しながら、z方向の最大変位などの機械的性能評価指標を第60ステップで示す。
60ステップ後の構造質量, 応力, ひずみエネルギーの最適化結果は, 多目的最適化の効率性を示す発振収束の傾向を示す。
Free-form structural forms are widely used to design spatial structures for their irregular spatial morphology. Current free-form form-finding methods cannot adequately meet the material properties, structural requirements or construction conditions, which brings the deviation between the initial 3D geometric design model and the constructed free-form structure. Thus, the main focus of this paper is to improve the rationality of free-form morphology considering multiple objectives in line with the characteristics and constraints of material. In this paper, glued laminated timber is selected as a case. Firstly, machine learning is adopted based on the predictive capability. By selecting a free-form timber grid structure and following the principles of NURBS, the free-form structure is simplified into free-form curves. The transformer is selected to train and predict the curvatures of the curves considering the material characteristics. After predicting the curvatures, the curves are transformed into vectors consisting of control points, weights, and knot vectors. To ensure the constructability and robustness of the structure, minimising the mass of the structure, stress and strain energy are the optimisation objectives. Two parameters (weight and the z-coordinate of the control points) of the free-from morphology are extracted as the variables of the free-form morphology to conduct the optimisation. The evaluation algorithm was selected as the optimal tool due to its capability to optimise multiple parameters. While optimising the two variables, the mechanical performance evaluation indexes such as the maximum displacement in the z-direction are demonstrated in the 60th step. The optimisation results for structure mass, stress and strain energy after 60 steps show the tendency of oscillation convergence, which indicates the efficiency of the proposal multi-objective optimisation. | 翻訳日:2024-07-16 20:37:36 公開日:2024-07-13 |
# 空間周波数適応による機械と人間の視覚の画像圧縮
Image Compression for Machine and Human Vision with Spatial-Frequency Adaptation ( http://arxiv.org/abs/2407.09853v1 ) ライセンス: Link先を確認 | Han Li, Shaohui Li, Shuangrui Ding, Wenrui Dai, Maida Cao, Chenglin Li, Junni Zou, Hongkai Xiong, | (参考訳) 近年,機械と人間の視覚のための画像圧縮 (ICMH) が注目されている。
既存のICMH手法は、タスク固有のネットワークの設計が重く、高いトレーニングとストレージオーバーヘッドによって制限されている。
そこで本研究では,タスク性能とビットレートのバランスを向上し,オーバーヘッドを低減したICMHのための軽量なアダプタベースのチューニングフレームワークであるAdapt-ICMHを開発する。
本研究では、空間変調アダプタによる非意味的冗長性を同時に排除し、タスク関連周波数成分の強化と周波数変調アダプタによるタスク関連周波数成分の抑制を行う空間周波数変調アダプタ(SFMA)を提案する。
提案アダプタはプラグアンドプレイであり、既存の学習画像圧縮モデルと互換性があり、事前学習されたモデルの性能を損なうことはない。
実験により、Adapt-ICMHは様々なマシンビジョンタスクにおける既存のIMMHフレームワークを、微調整されたパラメータが少なく、計算の複雑さを低減して一貫して上回っていることが示された。
コードはhttps://github.com/qingshi9974/ECCV2024-AdpatICMHでリリースされる。
Image compression for machine and human vision (ICMH) has gained increasing attention in recent years. Existing ICMH methods are limited by high training and storage overheads due to heavy design of task-specific networks. To address this issue, in this paper, we develop a novel lightweight adapter-based tuning framework for ICMH, named Adapt-ICMH, that better balances task performance and bitrates with reduced overheads. We propose a spatial-frequency modulation adapter (SFMA) that simultaneously eliminates non-semantic redundancy with a spatial modulation adapter, and enhances task-relevant frequency components and suppresses task-irrelevant frequency components with a frequency modulation adapter. The proposed adapter is plug-and-play and compatible with almost all existing learned image compression models without compromising the performance of pre-trained models. Experiments demonstrate that Adapt-ICMH consistently outperforms existing ICMH frameworks on various machine vision tasks with fewer fine-tuned parameters and reduced computational complexity. Code will be released at https://github.com/qingshi9974/ECCV2024-AdpatICMH . | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# INDIC言語のためのプレトレインLLMデータセットの構築:ヒンディー語を事例として
Building pre-train LLM Dataset for the INDIC Languages: a case study on Hindi ( http://arxiv.org/abs/2407.09855v1 ) ライセンス: Link先を確認 | Shantipriya Parida, Shakshi Panwar, Kusum Lata, Sanskruti Mishra, Sambit Sekhar, | (参考訳) 大規模言語モデル(LLM)は、人間の命令に基づいて応答を自動的に生成する必要がある多くのアプリケーションにおいて、変換能力を示した。
しかし、特にIndic言語でLLMを構築する上での大きな課題は、基礎となるLLMを構築するための高品質なデータを提供することである。
本稿では,ヒンディー語のヒンディー語に有用な,ヒンディー語における事前訓練前の大規模データセットを提案する。
我々はヒンディー語の主要な方言を含むいくつかの領域にまたがるデータを収集した。
データセットには28億のヒンディー語トークンが含まれている。
データ収集、事前処理、LLM事前トレーニングの可用性など、パイプラインについて説明しました。
提案手法は、他のIndicおよび低リソース言語に容易に拡張でき、LLM事前学習およびLLM研究目的で自由に利用できる。
Large language models (LLMs) demonstrated transformative capabilities in many applications that require automatically generating responses based on human instruction. However, the major challenge for building LLMs, particularly in Indic languages, is the availability of high-quality data for building foundation LLMs. In this paper, we are proposing a large pre-train dataset in Hindi useful for the Indic language Hindi. We have collected the data span across several domains including major dialects in Hindi. The dataset contains 1.28 billion Hindi tokens. We have explained our pipeline including data collection, pre-processing, and availability for LLM pre-training. The proposed approach can be easily extended to other Indic and low-resource languages and will be available freely for LLM pre-training and LLM research purposes. | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# IFTR:視覚的協調知覚のためのインスタンスレベル融合変換器
IFTR: An Instance-Level Fusion Transformer for Visual Collaborative Perception ( http://arxiv.org/abs/2407.09857v1 ) ライセンス: Link先を確認 | Shaohong Wang, Lu Bin, Xinyu Xiao, Zhiyu Xiang, Hangguan Shan, Eryun Liu, | (参考訳) 近年,自律運転の分野では,多エージェント協調認識が広く認知されている。
しかし、現在のコラボレーティブな認識は主にLiDAR点雲に依存しており、カメラ画像を用いた手法にはあまり注目されていない。
これにより、予算制約付き協調システムの開発と、カメラのモダリティによる利点の活用が著しく阻害される。
本研究では,視覚的特徴の伝達と共有を通じて,カメラのみの協調認識システムの検出性能を向上させる,視覚的協調認識のためのインスタンスレベルの融合変換器を提案する。
複数のエージェントから視覚情報をキャプチャするために,事前に定義された格子状鳥眼ビュー(BEV)クエリを用いて個々のエージェントの視覚的特徴と相互作用し,より包括的で正確なBEV特徴を生成するインスタンス特徴集約を設計する。
さらに,対象の候補位置を暗黙的に符号化することで,ドメイン間クエリ適応をヒューズ2Dプリエントに対するヒューリスティックとして考案する。
さらに、IFTRは、インスタンスレベルの機能を送信して通信効率を最適化し、最適なパフォーマンス帯域トレードオフを実現する。
提案したIFTRを実際のデータセットであるDAIR-V2Xと、OPV2VとV2XSetの2つのシミュレーションデータセットで評価し、以前のSOTAと比較すると、それぞれ57.96%、9.23%、12.99%の性能向上を達成した。
IFTRの優位性と、その鍵となる構成要素の有効性を広範囲にわたる実験で実証した。
コードはhttps://github.com/wangsh0111/IFTRで公開されている。
Multi-agent collaborative perception has emerged as a widely recognized technology in the field of autonomous driving in recent years. However, current collaborative perception predominantly relies on LiDAR point clouds, with significantly less attention given to methods using camera images. This severely impedes the development of budget-constrained collaborative systems and the exploitation of the advantages offered by the camera modality. This work proposes an instance-level fusion transformer for visual collaborative perception (IFTR), which enhances the detection performance of camera-only collaborative perception systems through the communication and sharing of visual features. To capture the visual information from multiple agents, we design an instance feature aggregation that interacts with the visual features of individual agents using predefined grid-shaped bird eye view (BEV) queries, generating more comprehensive and accurate BEV features. Additionally, we devise a cross-domain query adaptation as a heuristic to fuse 2D priors, implicitly encoding the candidate positions of targets. Furthermore, IFTR optimizes communication efficiency by sending instance-level features, achieving an optimal performance-bandwidth trade-off. We evaluate the proposed IFTR on a real dataset, DAIR-V2X, and two simulated datasets, OPV2V and V2XSet, achieving performance improvements of 57.96%, 9.23% and 12.99% in AP@70 metrics compared to the previous SOTAs, respectively. Extensive experiments demonstrate the superiority of IFTR and the effectiveness of its key components. The code is available at https://github.com/wangsh0111/IFTR. | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# 活性物質の量子ビックスモデル
Quantum Vicsek Model for Active Matter ( http://arxiv.org/abs/2407.09860v1 ) ライセンス: Link先を確認 | Hong Yuan, L. X. Cui, L. T. Chen, C. P. Sun, | (参考訳) 本研究では,一様偏極磁場によって駆動される強磁性結合を持つ過剰なスピン$-1/2$粒子のアンサンブルからなるビエクモデルの量子アナログを提案する。
スピン成分の自発磁化は$SO(3)$(または$SO(2)$)対称性を破り、フラッキングの秩序な位相を誘導する。
量子アナログモデルに平均場近似を適用することにより、トナーとチューによって定式化された流体力学方程式を導出する。
我々の研究は、活物質に対するビエクモデルとトナー-Tu流体力学の微視的な関係を確立するだけでなく、量子状態における活性物質のさらなる研究を促進することを目的としている。
We propose a quantum analog of the Vicsek model, consisting of an ensemble of overdamped spin$-1/2$ particles with ferromagnetic couplings, driven by a uniformly polarized magnetic field. The spontaneous magnetization of the spin components breaks the $SO(3)$ (or $SO(2)$) symmetry, inducing an ordered phase of flocking. We derive the hydrodynamic equations, similar to those formulated by Toner and Tu, by applying a mean-field approximation to the quantum analog model up to the next leading order. Our investigation not only establishes a microscopic connection between the Vicsek model and the Toner-Tu hydrodynamics for active matter, but also aims to inspire further studies of active matter in the quantum regime. | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# 単言語NLPの体系化に向けて:ギリシャ語NLPのGenA
Towards Systematic Monolingual NLP Surveys: GenA of Greek NLP ( http://arxiv.org/abs/2407.09861v1 ) ライセンス: Link先を確認 | Juli Bakagianni, Kanella Pouli, Maria Gavriilidou, John Pavlopoulos, | (参考訳) 自然言語処理(NLP)の研究は伝統的に、資源の入手、研究コミュニティの大きさ、市場要求などによって、主に英語に焦点を当ててきた。
近年、NLPにおける多言語主義への顕著なシフトがあり、多様な言語や文化にまたがる傾きと有効性の必要性を認識している。
モノリンガルサーベイは、グローバルコミュニケーションの言語多様性を効果的に解決するために必要な基礎的な洞察とリソースを提供することによって、NLPにおける多言語主義に対するより広範な傾向を補完する可能性がある。
しかし、モノリンガルNLPサーベイは文学では極めて稀である。
本研究は, 体系的かつ総合的な単言語NLPサーベイを作成する手法を導入することで, ギャップを埋めるものである。
構造化された検索プロトコルによって特徴づけられ、出版物を選定し、NLPタスクの分類によってそれらを整理することができる。
利用可能なLR(Language Resources:言語資源)の分類とアノテーションによるデータセットが含まれており、公開可能なLRとマシン対応のLRを強調している。
本手法の適用により,2012年から2022年にかけて,ギリシャNLPの体系的な文献レビューを行い,ギリシャNLP研究の現状と課題を概観した。
我々は、ギリシャのNLPの進歩と、可用性とユーザビリティによって分類されたギリシャのLRの概要について論じる。
提案手法は,データ漏洩や汚染などの一般的な落とし穴を回避し,NLPタスク毎の言語サポートを評価する。
我々は,ギリシャ語NLPの体系的な文献レビューを,単言語NLPサーベイの利点を示す手法の応用とみなす。
同様の応用は、よくサポートされた言語よりもNLPの進歩が遅れている言語が無数にあると見なすことができる。
Natural Language Processing (NLP) research has traditionally been predominantly focused on English, driven by the availability of resources, the size of the research community, and market demands. Recently, there has been a noticeable shift towards multilingualism in NLP, recognizing the need for inclusivity and effectiveness across diverse languages and cultures. Monolingual surveys have the potential to complement the broader trend towards multilingualism in NLP by providing foundational insights and resources necessary for effectively addressing the linguistic diversity of global communication. However, monolingual NLP surveys are extremely rare in literature. This study fills the gap by introducing a method for creating systematic and comprehensive monolingual NLP surveys. Characterized by a structured search protocol, it can be used to select publications and organize them through a taxonomy of NLP tasks. We include a classification of Language Resources (LRs), according to their availability, and datasets, according to their annotation, to highlight publicly-available and machine-actionable LRs. By applying our method, we conducted a systematic literature review of Greek NLP from 2012 to 2022, providing a comprehensive overview of the current state and challenges of Greek NLP research. We discuss the progress of Greek NLP and outline encountered Greek LRs, classified by availability and usability. As we show, our proposed method helps avoid common pitfalls, such as data leakage and contamination, and to assess language support per NLP task. We consider this systematic literature review of Greek NLP an application of our method that showcases the benefits of a monolingual NLP survey. Similar applications could be regard the myriads of languages whose progress in NLP lags behind that of well-supported languages. | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# ML-SemReg: マルチレベルのセマンティック一貫性を備えたポイントクラウド登録
ML-SemReg: Boosting Point Cloud Registration with Multi-level Semantic Consistency ( http://arxiv.org/abs/2407.09862v1 ) ライセンス: Link先を確認 | Shaocheng Yan, Pengcheng Shi, Jiayuan Li, | (参考訳) ポイントクラウド登録の最近の進歩は、主に幾何学的情報を活用する。
これらの手法は有望な結果をもたらしたが、それでも重複の少ない問題に苦しむため、実用的利用は制限されている。
本稿では,セマンティック情報を完全に活用するプラグイン・アンド・プレイポイントクラウド登録フレームワークであるML-SemRegを提案する。
キーとなる洞察は、ミスマッチはセマンティックなヒントをレンダリングした後、クラス間とクラス内という2つのタイプに分類でき、マルチレベルなセマンティックな一貫性を利用することでうまく対処できるということです。
まず、クラス間ミスマッチに対処するグループマッチングモジュールを提案し、ローカルセマンティック一貫性を本質的に満足する複数のマッチンググループを出力する。
各グループについて、Scene Semantic Consistencyに基づくマスクマッチングモジュールを導入し、クラス内ミスマッチを抑制する。
これら2つのモジュールから恩恵を受けるため、ML-SemRegは高いイリヤ比の対応を生成する。
KITTIデータセットのハードケースでは,ML-SeemRegが装備された場合,MACの登録リコールが約34パーセント増加し,ML-SeemRegの性能と堅牢性が向上した。
コードは \url{https://github.com/Laka-3DV/ML-SemReg} で入手できる。
Recent advances in point cloud registration mostly leverage geometric information. Although these methods have yielded promising results, they still struggle with problems of low overlap, thus limiting their practical usage. In this paper, we propose ML-SemReg, a plug-and-play point cloud registration framework that fully exploits semantic information. Our key insight is that mismatches can be categorized into two types, i.e., inter- and intra-class, after rendering semantic clues, and can be well addressed by utilizing multi-level semantic consistency. We first propose a Group Matching module to address inter-class mismatching, outputting multiple matching groups that inherently satisfy Local Semantic Consistency. For each group, a Mask Matching module based on Scene Semantic Consistency is then introduced to suppress intra-class mismatching. Benefit from those two modules, ML-SemReg generates correspondences with a high inlier ratio. Extensive experiments demonstrate excellent performance and robustness of ML-SemReg, e.g., in hard-cases of the KITTI dataset, the Registration Recall of MAC increases by almost 34 percentage points when our ML-SemReg is equipped. Code is available at \url{https://github.com/Laka-3DV/ML-SemReg} | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# クラウドソーシングソフトウェアエンジニアリングのためのタスク勧告システムに関する体系的文献レビュー
A Systematic Literature Review on Task Recommendation Systems for Crowdsourced Software Engineering ( http://arxiv.org/abs/2407.09872v1 ) ライセンス: Link先を確認 | Shashiwadana Nirmani, Mojtaba Shahin, Hourieh Khalajzadeh, Xiao Liu, | (参考訳) コンテキスト: クラウドソーシングソフトウェアエンジニアリング CSEは、グローバルなオンライン労働力を活用することで、ソフトウェア実践者にアウトソーシング作業を提供します。
しかしながら、これらのソフトウェア実践者は、利用可能なさまざまなオプションのために、適切なタスクを特定するのに苦労しています。
そのため、ソフトウェア実践者にCSEタスクを推奨するレコメンデーションシステムの導入に関する研究が増えている。
目的:本研究の目的は,既存のCSEタスクレコメンデーションシステムを分析し,抽出したデータ,レコメンデーション手法,重要なアドバンテージと制限,推奨タスクタイプ,レコメンデーションにおけるヒューマンファクタの使用,人気のあるプラットフォーム,レコメンデーションに使用される機能を分析することである。
方法: このSLRはKitchenham and Chartersのガイドラインに従って実施された。
関連論文の検索に時間制限を課すことなく,手動検索と自動検索を併用した。
結果: データ抽出, 分析, 合成に関する63の主研究を, 既定の包含基準と排他基準に基づいて選択した。
データ分析の結果,抽出したデータをデータ抽出源に基づいて4つのカテゴリに分類し,提案したレコメンデーションシステムを分類体系に分類し,これらのシステムの主な利点と限界を特定した。
以上の結果から,人的要因がCSEタスクレコメンデーションにおいて重要な役割を担っていることが明らかとなった。
さらに、推奨される5つの一般的なタスクタイプ、人気のあるプラットフォーム、およびタスクレコメンデーションで使用されるそれらの機能を特定した。
また,今後の研究の方向性についても提言した。
結論: このSLRはCSEタスクレコメンデーションシステムにおける現在のトレンドギャップと今後の研究方向性に関する洞察を提供する。
Context: Crowdsourced Software Engineering CSE offers outsourcing work to software practitioners by leveraging a global online workforce. However these software practitioners struggle to identify suitable tasks due to the variety of options available. Hence there have been a growing number of studies on introducing recommendation systems to recommend CSE tasks to software practitioners. Objective: The goal of this study is to analyze the existing CSE task recommendation systems, investigating their extracted data, recommendation methods, key advantages and limitations, recommended task types, the use of human factors in recommendations, popular platforms, and features used to make recommendations. Method: This SLR was conducted according to the Kitchenham and Charters guidelines. We used both manual and automatic search strategies without putting any time limitation for searching the relevant papers. Results: We selected 63 primary studies for data extraction, analysis, and synthesis based on our predefined inclusion and exclusion criteria. From the results of the data analysis, we classified the extracted data into 4 categories based on the data extraction source, categorized the proposed recommendation systems to fit into a taxonomy, and identified the key advantages and limitations of these systems. Our results revealed that human factors play a major role in CSE task recommendation. Further we identified five popular task types recommended, popular platforms, and their features used in task recommendation. We also provided recommendations for future research directions. Conclusion: This SLR provides insights into current trends gaps and future research directions in CSE task recommendation systems. | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# ネットワークエッジにおけるファウンデーションモデルの低レイテンシ協調微調整のための資源管理
Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge ( http://arxiv.org/abs/2407.09873v1 ) ライセンス: Link先を確認 | Hai Wu, Xu Chen, Kaibin Huang, | (参考訳) ヒューマンライクなインテリジェンスを実現する大規模なファンデーションモデル(FoMo)の出現は、デバイスが最先端の人工知能にアクセスするためのネットワークエッジへのデプロイメントを動機付けている。
より良いユーザー体験を得るためには、訓練済みのFoMoは、微調整技術により、特定の下流タスクに適応する必要がある。
単一デバイスのメモリと計算の制限を超越するために、エッジデバイスがFoMo内の様々な微調整パラメータを同時に最適化する、デバイスエッジ協調微調整(DEFT)パラダイムにおけるマルチデバイス協調を提唱する。
しかし、パラメータブロックはFoMoアーキテクチャ内の異なる深さに存在するため、勾配のバックプロパゲーションに基づく計算によって計算遅延とメモリコストが変化する。
ヘテロジニアスなオンデバイス計算とメモリ容量とチャネル条件は、ローレイテンシ(LoLa)DEFTを実現するために、ローカルな計算負荷と通信リソースの統合的な通信・計算割り当てを必要とする。
そこで本研究では,Deep-ware DEFTブロック割り当て問題について考察する。
ブロック深さと計算遅延・メモリコストの間のモノトン増加特性を利用したCRUNCHアルゴリズムを提案する。
次に、結合帯域とブロックの割り当てにより、この問題はより洗練されたものになる。
本稿では,デバイスが関与することを示す変数が導入された元の問題の変換と解析を通じて,分割可能なラグランジアン表現を観察する。
次に、この問題に反復的に取り組むために二重昇華法を用いる。
GLUEベンチマークで行った広範囲な実験により,LoLa DEFTによりRoBERTaモデルの微調整が可能となった。
The emergence of large-scale foundation models (FoMo's) that can perform human-like intelligence motivates their deployment at the network edge for devices to access state-of-the-art artificial intelligence. For better user experiences, the pre-trained FoMo's need to be adapted to specialized downstream tasks through fine-tuning techniques. To transcend a single device's memory and computation limitations, we advocate multi-device cooperation within the device-edge cooperative fine-tuning (DEFT) paradigm, where edge devices cooperate to simultaneously optimize different parts of fine-tuning parameters within a FoMo. However, the parameter blocks reside at different depths within a FoMo architecture, leading to varied computation latency-and-memory cost due to gradient backpropagation-based calculations. The heterogeneous on-device computation and memory capacities and channel conditions necessitate an integrated communication-and-computation allocation of local computation loads and communication resources to achieve low-latency (LoLa) DEFT. To this end, we consider the depth-ware DEFT block allocation problem. The involved optimal block-device matching is tackled by the proposed low-complexity Cutting-RecoUNting-CHecking (CRUNCH) algorithm, which is designed by exploiting the monotone-increasing property between block depth and computation latency-and-memory cost. Next, the joint bandwidth-and-block allocation makes the problem more sophisticated. We observe a splittable Lagrangian expression through the transformation and analysis of the original problem, where the variables indicating device involvement are introduced. Then, the dual ascent method is employed to tackle this problem iteratively. Through extensive experiments conducted on the GLUE benchmark, our results demonstrate significant latency reduction achievable by LoLa DEFT for fine-tuning a RoBERTa model. | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# セマンティックな変更検出パラダイム「SeFi-CD」
SeFi-CD: A Semantic First Change Detection Paradigm That Can Detect Any Change You Want ( http://arxiv.org/abs/2407.09874v1 ) ライセンス: Link先を確認 | Ling Zhao, Zhenyang Huang, Dongsheng Kuang, Chengli Peng, Jun Gan, Haifeng Li, | (参考訳) 既存の変化検出(CD)手法は、視覚的な違いから変化の特徴を抽出し、特定の意味情報を割り当てるビジュアルファーストな変化検出(ViFi-CD)パラダイムとして要約することができる。
しかし、CDは基本的に関心の変化領域(CRoIs)に依存しており、CDの結果は関心のセマンティックスの変化によって直接決定される。
ViFi-CDパラダイムは、視覚的差異から抽出された特定の変化特徴にのみ興味のある特定の意味論を割り当てることができるため、潜在的なCRoIが不要になり、異なるCRoI CDタスクに適応できない。
言い換えれば、ViFi-CD法で他のCRoIの変化を検知することはできない。
本稿では,新しいCDパラダイム,セマンティックファーストCD(SeFi-CD)パラダイムを紹介する。
SeFi-CDの中核となる考え方は、まず関心の動的なセマンティクスを理解し、そのセマンティクスに関連する変化の特徴を視覚的に検索することである。
SeFi-CDのパラダイムに基づいて,Anything You Want Change Detection (AUWCD)を設計した。
公開データセットの実験では、AUWCDは現在の最先端CD法よりも優れており、SECONDデータセット上のこれらの高度な教師付きベースラインよりも平均5.01\%高く、最大13.17\%上昇している。
提案されているSeFi-CDは、新しいCDの視点とアプローチを提供する。
The existing change detection(CD) methods can be summarized as the visual-first change detection (ViFi-CD) paradigm, which first extracts change features from visual differences and then assigns them specific semantic information. However, CD is essentially dependent on change regions of interest (CRoIs), meaning that the CD results are directly determined by the semantics changes of interest, making its primary image factor semantic of interest rather than visual. The ViFi-CD paradigm can only assign specific semantics of interest to specific change features extracted from visual differences, leading to the inevitable omission of potential CRoIs and the inability to adapt to different CRoI CD tasks. In other words, changes in other CRoIs cannot be detected by the ViFi-CD method without retraining the model or significantly modifying the method. This paper introduces a new CD paradigm, the semantic-first CD (SeFi-CD) paradigm. The core idea of SeFi-CD is to first perceive the dynamic semantics of interest and then visually search for change features related to the semantics. Based on the SeFi-CD paradigm, we designed Anything You Want Change Detection (AUWCD). Experiments on public datasets demonstrate that the AUWCD outperforms the current state-of-the-art CD methods, achieving an average F1 score 5.01\% higher than that of these advanced supervised baselines on the SECOND dataset, with a maximum increase of 13.17\%. The proposed SeFi-CD offers a novel CD perspective and approach. | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# 量子デバイスのモデルフリー歪みキャンセリングと制御
Model-free Distortion Canceling and Control of Quantum Devices ( http://arxiv.org/abs/2407.09877v1 ) ライセンス: Link先を確認 | Ahmed F. Fouad, Akram Youssry, Ahmed El-Rafei, Sherif Hammad, | (参考訳) 量子デバイスはその完全な能力を達成するために正確な制御が必要である。
本研究では, 閉量子系制御の問題に対処し, 2つの問題に対処する。
第一に、制御信号は通常、デバイス製造、材料特性、および/またはそれらの信号を生成する機器から生じる可能性のある、未知の古典的な歪みの影響を受ける。
第二に、システムのモデリングは、変数間の不確実性や、システム内のいくつかの測定値に到達できないため、非常に困難または不可能である。
本稿では,任意の閉量子系に対して有効な深部強化学習(DRL)に基づく一般モデル自由制御手法を提案する。
我々は、REINFORCEポリシー勾配アルゴリズムを用いてディープニューラルネットワーク(NN)を訓練し、それが進化するにつれて閉じた量子システムの状態確率分布を制御し、異なるターゲット分布に誘導する。
複数のNNを構成する新しいコントローラアーキテクチャを提案する。
これにより、NNやそのトレーニングプロセスの複雑さを増大させることなく、必要に応じて多くの異なるターゲット状態の分散を調整できる。
使用済みのDRLアルゴリズムは、制御問題をマルコフ決定過程(MDP)または部分的に観察されたMDPとしてモデル化できるかどうかを検証する。
本手法は,制御信号が離散値か連続値かを検証する。
光導波路アレイチップを用いた数値シミュレーションにより本手法の検証を行った。
我々は,99%以上の忠実度を有するチップの異なる目標出力分布列を生成するために,コントローラを訓練し,古典的な信号歪みをキャンセルする際の優れた性能を示した。
Quantum devices need precise control to achieve their full capability. In this work, we address the problem of controlling closed quantum systems, tackling two main issues. First, in practice the control signals are usually subject to unknown classical distortions that could arise from the device fabrication, material properties and/or instruments generating those signals. Second, in most cases modeling the system is very difficult or not even viable due to uncertainties in the relations between some variables and inaccessibility to some measurements inside the system. In this paper, we introduce a general model-free control approach based on deep reinforcement learning (DRL), that can work for any closed quantum system. We train a deep neural network (NN), using the REINFORCE policy gradient algorithm to control the state probability distribution of a closed quantum system as it evolves, and drive it to different target distributions. We present a novel controller architecture that comprises multiple NNs. This enables accommodating as many different target state distributions as desired, without increasing the complexity of the NN or its training process. The used DRL algorithm works whether the control problem can be modeled as a Markov decision process (MDP) or a partially observed MDP. Our method is valid whether the control signals are discrete- or continuous-valued. We verified our method through numerical simulations based on a photonic waveguide array chip. We trained a controller to generate sequences of different target output distributions of the chip with fidelity higher than 99%, where the controller showed superior performance in canceling the classical signal distortions. | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# sPhinX:N-shot Guided Promptingによる多言語指導の高精度微調整
sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting ( http://arxiv.org/abs/2407.09879v1 ) ライセンス: Link先を確認 | Sanchit Ahuja, Kumar Tanmay, Hardik Hansrajbhai Chauhan, Barun Patra, Kriti Aggarwal, Tejas Indulal Dhamecha, Monojit Choudhary, Vishrav Chaudhary, Sunayana Sitaram, | (参考訳) 英語におけるLLMの顕著な成功にもかかわらず、英語以外の言語では性能に大きな差がある。
そこで本研究では,英語から50言語への命令応答対を選択的に翻訳して生成する,多言語合成命令チューニングデータセット sPhinX を提案する。
我々は,Phi-3-small と Mistral-7B の2つの最先端モデルの微調整にsPhinX の有効性を検証し,推論,質問応答,理解を試験する多言語ベンチマークの総合的なスイートで評価した。
Phi-3-small および Mistral-7B を sPhinX で微調整すると, ベースラインに比べて平均4.2%, 5% の精度で良好な結果が得られた。
また、各微調整サンプルにNショットの例を組み込むことで、これらのモデルの性能をそれぞれ3%、10%向上させる戦略も考案した。
さらに、sPhinXは、同じベンチマークで他の多言語命令チューニングデータセットよりも優れており、サンプル効率と多様性があり、データセット作成コストが削減されている。
さらに、sPhinXによるインストラクションチューニングは、ほとんどのイングランドのベンチマークでレグレッションに繋がらない。
Despite the remarkable success of LLMs in English, there is a significant gap in performance in non-English languages. In order to address this, we introduce a novel recipe for creating a multilingual synthetic instruction tuning dataset, sPhinX, which is created by selectively translating instruction response pairs from English into 50 languages. We test the effectiveness of sPhinX by using it to fine-tune two state-of-the-art models, Phi-3-small and Mistral-7B and then evaluating them across a comprehensive suite of multilingual benchmarks that test reasoning, question answering, and reading comprehension. Our results show that Phi-3-small and Mistral-7B fine-tuned with sPhinX perform better on an average by 4.2%pt and 5%pt respectively as compared to the baselines. We also devise a strategy to incorporate N-shot examples in each fine-tuning sample which further boosts the performance of these models by 3%pt and 10%pt respectively. Additionally, sPhinX also outperforms other multilingual instruction tuning datasets on the same benchmarks along with being sample efficient and diverse, thereby reducing dataset creation costs. Additionally, instruction tuning with sPhinX does not lead to regression on most English benchmarks. | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# 音声コパイロット:タスク分割, モジュール化, プログラム生成による大規模言語モデルによる音声処理
Speech-Copilot: Leveraging Large Language Models for Speech Processing via Task Decomposition, Modularization, and Program Generation ( http://arxiv.org/abs/2407.09886v1 ) ライセンス: Link先を確認 | Chun-Yi Kuan, Chih-Kai Yang, Wei-Ping Huang, Ke-Han Lu, Hung-yi Lee, | (参考訳) 本研究では,ツールセット構築における人的労力を最小限に抑える,命令指向の音声処理タスクのためのモジュール型フレームワークであるSpeech-Copilotを紹介する。
大規模音声モデルを用いたエンドツーエンドの手法とは異なり、Speech-Copilotは、事前にコンパイルされたタスク命令を分析し、タスクを管理可能なサブタスクに分割することで、音声処理固有のツールセットを構築する。
プログラム生成を通じてタスクを実行する大きな言語モデルに基づく柔軟なエージェントを備えている。
提案手法はDynamic-SUPERBベンチマーク上での最先端性能を実現し,多様な音声処理タスクにまたがってその性能を実証する。
主な貢献は以下の通り。
1)音声処理に特化したツールセット構築のための革新的なフレームワークの開発
2)大規模言語モデルに基づく高性能エージェントの確立,及び
3) 命令指向の音声処理課題に対処する新たな視点を提供する。
エンド・ツー・エンドのアプローチで必要となる追加のトレーニングプロセスがなければ、幅広い音声処理アプリケーションに対して柔軟で拡張可能なソリューションを提供する。
In this work, we introduce Speech-Copilot, a modular framework for instruction-oriented speech-processing tasks that minimizes human effort in toolset construction. Unlike end-to-end methods using large audio-language models, Speech-Copilot builds speech processing-specific toolsets by analyzing pre-collected task instructions and breaking tasks into manageable sub-tasks. It features a flexible agent based on large language models that performs tasks through program generation. Our approach achieves state-of-the-art performance on the Dynamic-SUPERB benchmark, demonstrating its effectiveness across diverse speech-processing tasks. Key contributions include: 1) developing an innovative framework for speech processing-specific toolset construction, 2) establishing a high-performing agent based on large language models, and 3) offering a new perspective on addressing challenging instruction-oriented speech-processing tasks. Without additional training processes required by end-to-end approaches, our method provides a flexible and extendable solution for a wide range of speech-processing applications. | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# 逆ソクラテス合成による最適化モデリングと推論の強化のためのベンチマークLLM
Benchmarking LLMs for Optimization Modeling and Enhancing Reasoning via Reverse Socratic Synthesis ( http://arxiv.org/abs/2407.09887v1 ) ライセンス: Link先を確認 | Zhicheng Yang, Yinya Huang, Wei Shi, Liang Feng, Linqi Song, Yiwei Wang, Xiaodan Liang, Jing Tang, | (参考訳) 大規模言語モデル(LLM)は、数学的推論においてその問題解決能力を示した。
工業アプリケーションシナリオにおける現実的な最適化(OPT)問題の解決には、高度で応用された数学能力が必要である。
しかし、線形プログラミングを単に解くだけの現在のOPTベンチマークは、複雑な現実的な状況とは程遠い。
本研究では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるE-OPTを提案する。
E-OPTには、LLMの解解能力を包括的に評価できるテーブルデータ付き線形/非線形プログラミングを含む、リッチな最適化問題が含まれている。
本ベンチマークでは,E-OPTの問題を正確に理解し,正確な数値解を求める必要がある。
さらに,最適化問題に対するデータの不足を軽減し,Llama-2-7b と Llama-3-8b のオープンソース LLM と閉オープンソース LLM (eg , GPT-4) のギャップを埋めるため,ReSocratic という新たなデータ合成手法を提案する。
質問から回答へと進む一般的なデータ合成方法とは異なり、ReSocraticはまず、数学的定式化によって最適化シナリオを段階的に合成し、生成したシナリオを質問に逆変換する。
このようにして、オープンソースの強力な大規模モデルであるDeepSeek-V2を用いて、小さなシードサンプルプールからReSocratic-29kデータセットを構築する。
ReSocraticの有効性を示すために,複数のオープンソースモデル上でReSocratic-29kによる微調整を行う。
その結果、Llama3-8bはE-OPTで13.6%から51.7%に大幅に改善され、DeepSeek-V2は61.0%に達し、GPT-4の65.5%に近づいた。
Large language models (LLMs) have exhibited their problem-solving ability in mathematical reasoning. Solving realistic optimization (OPT) problems in industrial application scenarios requires advanced and applied math ability. However, current OPT benchmarks that merely solve linear programming are far from complex realistic situations. In this work, we propose E-OPT, a benchmark for end-to-end optimization problem-solving with human-readable inputs and outputs. E-OPT contains rich optimization problems, including linear/nonlinear programming with/without table data, which can comprehensively evaluate LLMs' solving ability. In our benchmark, LLMs are required to correctly understand the problem in E-OPT and call code solver to get precise numerical answers. Furthermore, to alleviate the data scarcity for optimization problems, and to bridge the gap between open-source LLMs on a small scale (e.g., Llama-2-7b and Llama-3-8b) and closed-source LLMs (e.g., GPT-4), we further propose a novel data synthesis method namely ReSocratic. Unlike general data synthesis methods that proceed from questions to answers, ReSocratic first incrementally synthesizes optimization scenarios with mathematical formulations step by step and then back-translates the generated scenarios into questions. In such a way, we construct the ReSocratic-29k dataset from a small seed sample pool with the powerful open-source large model DeepSeek-V2. To demonstrate the effectiveness of ReSocratic, we conduct supervised fine-tuning with ReSocratic-29k on multiple open-source models. The results show that Llama3-8b is significantly improved from 13.6% to 51.7% on E-OPT, while DeepSeek-V2 reaches 61.0%, approaching 65.5% of GPT-4. | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# FarFetched: テキスト表現環境に基づくギリシャ語のエンティティ中心推論とクレーム検証
FarFetched: Entity-centric Reasoning and Claim Validation for the Greek Language based on Textually Represented Environments ( http://arxiv.org/abs/2407.09888v1 ) ライセンス: Link先を確認 | Dimitris Papadopoulos, Katerina Metropoulou, Nikolaos Matsatsinis, Nikolaos Papadakis, | (参考訳) オンライン情報の洪水により、私たちの集団的注意は短縮されます。
ここでは,複数のオンラインニュースソースから得られた集約された証拠に基づいて,自動クレーム検証の必要性に対処する。
我々はエンティティ中心の推論フレームワークを導入し、イベント、アクション、ステートメント間の遅延接続をエンティティの参照を通じて明らかにし、グラフデータベースで表現する。
エンティティリンクと意味的類似性を用いて,ユーザの主張に関連のある証拠を生成するために,多様な情報源から情報を収集し,組み合わせる方法を提供する。
そこで,本論文では,この主張が信頼できるかどうかを定量的に判断するために,テキストの包含認識を活用している。
提案手法は,低リソース言語に対する自動クレーム検証のギャップを埋めることを目的としており,関連する意味的テキスト類似性(STS)と共通ベンチマークの翻訳版で評価される自然言語推論(NLI)モデルのトレーニングを補完して,ギリシャ語で展示されている。
Our collective attention span is shortened by the flood of online information. With \textit{FarFetched}, we address the need for automated claim validation based on the aggregated evidence derived from multiple online news sources. We introduce an entity-centric reasoning framework in which latent connections between events, actions, or statements are revealed via entity mentions and represented in a graph database. Using entity linking and semantic similarity, we offer a way for collecting and combining information from diverse sources in order to generate evidence relevant to the user's claim. Then, we leverage textual entailment recognition to quantitatively determine whether this assertion is credible, based on the created evidence. Our approach tries to fill the gap in automated claim validation for less-resourced languages and is showcased on the Greek language, complemented by the training of relevant semantic textual similarity (STS) and natural language inference (NLI) models that are evaluated on translated versions of common benchmarks. | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# NamedCurves:カラーナーミングによる画像強調学習
NamedCurves: Learned Image Enhancement via Color Naming ( http://arxiv.org/abs/2407.09892v1 ) ライセンス: Link先を確認 | David Serrano-Lozano, Luis Herranz, Michael S. Brown, Javier Vazquez-Corral, | (参考訳) 画像強調のための一般的な方法は、元の入力とエディタ拡張版からなるトレーニング画像のペアを使用して、プロのフォトエディターのスタイルを学ぶことである。
画像を操作する際、多くの編集ツールは、ユーザが慣れ親しんだ色の限られた選択を操作できる機能を提供する。
色名による編集は、空の「青」や木の「緑」といった要素を容易に調整できる。
色操作のこのアプローチに触発されて、学習に基づく画像強調技術であるNamedCurvesを提案する。
提案手法では,各色をトーンカーブでグローバルに調整し,空間的編集を模倣するために注意に基づく融合機構を用いて画像を組み合わせる。
我々は、有名なAdobe 5KデータセットとPPR10Kデータセットの競合するいくつかの手法に対して、本手法の有効性を実証し、顕著な改善点を示した。
A popular method for enhancing images involves learning the style of a professional photo editor using pairs of training images comprised of the original input with the editor-enhanced version. When manipulating images, many editing tools offer a feature that allows the user to manipulate a limited selection of familiar colors. Editing by color name allows easy adjustment of elements like the "blue" of the sky or the "green" of trees. Inspired by this approach to color manipulation, we propose NamedCurves, a learning-based image enhancement technique that separates the image into a small set of named colors. Our method learns to globally adjust the image for each specific named color via tone curves and then combines the images using an attention-based fusion mechanism to mimic spatial editing. We demonstrate the effectiveness of our method against several competing methods on the well-known Adobe 5K dataset and the PPR10K dataset, showing notable improvements. | 翻訳日:2024-07-16 20:27:46 公開日:2024-07-13 |
# 知識集約型タスクのための軌道学習を用いた相乗的多エージェントフレームワーク
Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks ( http://arxiv.org/abs/2407.09893v1 ) ライセンス: Link先を確認 | Shengbin Yue, Siyuan Wang, Wei Chen, Xuanjing Huang, Zhongyu Wei, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な自然言語処理タスクにおいて大きなブレークスルーをもたらしている。
しかし, 覚醒, 長期的知識獲得の難しさ, メモリ拡張の制限などの問題により, 知識集約シナリオにおいて, 現実的に一貫した応答を生成することは依然として課題である。
本稿では,LSM生成応答の解釈可能性と現実的一貫性を高めるために,外部知識を活用する新しいマルチエージェントフレームワークSMARTを紹介する。
SMARTは4つの特殊エージェントから構成され、それぞれが複雑な知識集約タスクをナビゲートするための特定のサブ軌道アクションを実行する。
エージェント間の相乗的協調を保証するとともに,各エージェントによるきめ細かい実行を維持できるマルチエージェント協調学習パラダイムであるLong- and Short-Trajectory Learningを提案する。
5つのタスクに関する大規模な実験は、SMARTが従来の広く採用されていた手法に比べて優れた性能を示した。
Recent advancements in Large Language Models (LLMs) have led to significant breakthroughs in various natural language processing tasks. However, generating factually consistent responses in knowledge-intensive scenarios remains a challenge due to issues such as hallucination, difficulty in acquiring long-tailed knowledge, and limited memory expansion. This paper introduces SMART, a novel multi-agent framework that leverages external knowledge to enhance the interpretability and factual consistency of LLM-generated responses. SMART comprises four specialized agents, each performing a specific sub-trajectory action to navigate complex knowledge-intensive tasks. We propose a multi-agent co-training paradigm, Long- and Short-Trajectory Learning, which ensures synergistic collaboration among agents while maintaining fine-grained execution by each agent. Extensive experiments on 5 tasks demonstrate SMART's superior performance compared to previous widely adopted methods. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# 構造知識の伝達:コールドスタート伝播に向けたニュース検出のための新しい課題
Transferring Structure Knowledge: A New Task to Fake news Detection Towards Cold-Start Propagation ( http://arxiv.org/abs/2407.09894v1 ) ライセンス: Link先を確認 | Lingwei Wei, Dou Hu, Wei Zhou, Songlin Hu, | (参考訳) 多くの偽ニュース検出研究は、コンテンツと伝搬木の両方から効果的な意味的特徴と構造的特徴を抽出することで、有望な性能を達成した。
しかし、特に、訓練された伝搬モデルを用いて伝搬データのないニュースを検出する場合、実践的な状況にそれらを適用することは困難である。
そこで本研究では,コンテンツのみのサンプル検出を目的とした,コールドスタートフェイクニュース検出という新たなタスクについて検討する。
この課題を達成するために,コンテンツのみのサンプルの検出を促進するために,利用可能な伝搬から伝達可能な特徴を学習する,シンプルだが効果的な構造適応ネット(SAN)フレームワークを設計する。
SANは、学習した特徴と伝播のない特徴の相違を推定する構造判別器を導入し、さらに構造不変性を学び、コンテンツのみのサンプルに対する既存の伝搬法を一般化する。
3つのデータセットについて定性的かつ定量的な実験を行う。
その結果、新しいタスクの課題とSANフレームワークの有効性が示された。
Many fake news detection studies have achieved promising performance by extracting effective semantic and structure features from both content and propagation trees. However, it is challenging to apply them to practical situations, especially when using the trained propagation-based models to detect news with no propagation data. Towards this scenario, we study a new task named cold-start fake news detection, which aims to detect content-only samples with missing propagation. To achieve the task, we design a simple but effective Structure Adversarial Net (SAN) framework to learn transferable features from available propagation to boost the detection of content-only samples. SAN introduces a structure discriminator to estimate dissimilarities among learned features with and without propagation, and further learns structure-invariant features to enhance the generalization of existing propagation-based methods for content-only samples. We conduct qualitative and quantitative experiments on three datasets. Results show the challenge of the new task and the effectiveness of our SAN framework. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# EATXT:EAST-ADLのためのテキスト具体的な構文
EATXT: A textual concrete syntax for EAST-ADL ( http://arxiv.org/abs/2407.09895v1 ) ライセンス: Link先を確認 | Weixing Zhang, Jörg Holtmann, Daniel Strüber, Jan-Philipp Steghöfer, | (参考訳) ブレンドモデリング(Blended Modeling)は、複数の表記法でモデルと対話できるアプローチである。
この文脈では、利用可能な言語工学のアーティファクトを持つオープンソースの業界グレードの言語、特に、異なる表現(テキスト、グラフィカル、表形式など)で単一のメタモデルに基づいたモデルの作成をサポートするためのエディタと表記の必要性がますます高まっている。
これらの例は、ブレンドされたモデリング要求によって引き起こされる現実的な課題に対処するために、高度なソリューションの開発を支援することができる。
本稿では,EAST-ADL を用いた自動車アーキテクチャモデリングのためのテキスト構文である EATXT について紹介する。
EATXTエディタはXtextをベースにしており、コンテンツアシストの改善や、ブレンドされたモデリング要求に特に対処するシリアライゼーションなど、基本的な機能と高度な機能を提供する。
本稿では, 編集機能とアーキテクチャ, 実装アプローチ, EATXT の以前の利用について述べる。
EATXTエディタは公開されており、言語開発者にとって貴重なリソースとなっている。
Blended modeling is an approach that enables users to interact with a model via multiple notations. In this context, there is a growing need for open-source industry-grade exemplars of languages with available language engineering artifacts, in particular, editors and notations for supporting the creation of models based on a single metamodel in different representations (e.g., textual, graphical, and tabular ones). These exemplars can support the development of advanced solutions to address the practical challenges posed by blended modeling requirements. As one such exemplar, this paper introduces EATXT, a textual concrete syntax for automotive architecture modeling with EAST-ADL, developed in cooperation with an industry partner in the automotive domain. The EATXT editor is based on Xtext and provides basic and advanced features, such as an improved content-assist and serialization specifically addressing blended modeling requirements. We present the editor features and architecture, the implementation approach, and previous use of EATXT in research. The EATXT editor is publicly available, rendering it a valuable resource for language developers. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# 拡散型後方サンプリングによるゼロショット画像圧縮
Zero-Shot Image Compression with Diffusion-Based Posterior Sampling ( http://arxiv.org/abs/2407.09896v1 ) ライセンス: Link先を確認 | Noam Elata, Tomer Michaeli, Michael Elad, | (参考訳) 拡散モデルは画像生成の分野を支配しているが、画像圧縮の分野ではまだ大きなブレークスルーを起こさない。
実際、事前訓練された拡散モデルは、様々な下流タスクにうまく適応しているが、拡散に基づく画像圧縮における既存の作業はタスク固有のモデルトレーニングを必要としており、これは煩雑で制限的である。
本研究は、既存の事前学習拡散モデルで学習された画像を利用して、損失画像圧縮の課題を解決することで、このギャップに対処する。
これにより、さまざまなパブリックモデルの使用が可能になり、トレーニングや微調整の必要がなくなる。
PSC (Posterior Sampling-based Compression) は, ゼロショット拡散を用いた後部サンプルを用いた。
能動的取得技術である「Adasense」にインスパイアされた新たなシーケンシャルなプロセスにより、画像の情報的計測を蓄積する。
この戦略は、再構成された画像の不確実性を最小化し、エンコーダとデコーダの両方で調整された画像適応変換の構築を可能にする。
PSCは、実用的で簡単に実装できるプログレッシブ圧縮スキームを提供する。
最小限のチューニングと単純な量子化とエントロピー符号化にもかかわらず、PSCは確立された手法と比較して競合的な結果を達成し、事前訓練された拡散モデルと画像圧縮のための後部サンプルのさらなる探索の道を開く。
Diffusion models dominate the field of image generation, however they have yet to make major breakthroughs in the field of image compression. Indeed, while pre-trained diffusion models have been successfully adapted to a wide variety of downstream tasks, existing work in diffusion-based image compression require task specific model training, which can be both cumbersome and limiting. This work addresses this gap by harnessing the image prior learned by existing pre-trained diffusion models for solving the task of lossy image compression. This enables the use of the wide variety of publicly-available models, and avoids the need for training or fine-tuning. Our method, PSC (Posterior Sampling-based Compression), utilizes zero-shot diffusion-based posterior samplers. It does so through a novel sequential process inspired by the active acquisition technique "Adasense" to accumulate informative measurements of the image. This strategy minimizes uncertainty in the reconstructed image and allows for construction of an image-adaptive transform coordinated between both the encoder and decoder. PSC offers a progressive compression scheme that is both practical and simple to implement. Despite minimal tuning, and a simple quantization and entropy coding, PSC achieves competitive results compared to established methods, paving the way for further exploration of pre-trained diffusion models and posterior samplers for image compression. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# Cohesive Conversations: Multi-Agent Simulated Dialoguesにおける認証性向上
Cohesive Conversations: Enhancing Authenticity in Multi-Agent Simulated Dialogues ( http://arxiv.org/abs/2407.09897v1 ) ライセンス: Link先を確認 | KuanChao Chu, Yi-Pei Chen, Hideki Nakayama, | (参考訳) 本稿では,Large Language Models (LLMs) を用いたシミュレーションにおけるマルチエージェント対話の質について検討し,Park et al (2023) のケーススタディに注目した。
複数のセッションにおける対話や記憶の分析は、誤情報の伝播によって悪化する反復、矛盾、幻覚といった重要な問題を明らかにした。
これらの課題に対処するために,過去の対話からの証拠収集,発話修正のためのLCM分析を含む包括的プロセスを通じて発話誤りを検出し,修正する新しいスクリーニング,診断,再生(SDR)フレームワークを提案する。
SDR フレームワークの有効性は GPT-4 の評価と人間による評価によって検証され,対話の一貫性,多様性,誤情報の低減が顕著に向上した。
本研究は,多エージェントシミュレーションにおける対話品質向上のための先駆的なアプローチを示し,今後の研究の基準を確立する。
This paper investigates the quality of multi-agent dialogues in simulations powered by Large Language Models (LLMs), focusing on a case study from Park et al. (2023), where 25 agents engage in day-long simulations of life, showcasing complex behaviors and interactions. Analyzing dialogues and memory over multiple sessions revealed significant issues such as repetition, inconsistency, and hallucination, exacerbated by the propagation of erroneous information. To combat these challenges, we propose a novel Screening, Diagnosis, and Regeneration (SDR) framework that detects and corrects utterance errors through a comprehensive process involving immediate issue identification, evidence gathering from past dialogues, and LLM analysis for utterance revision. The effectiveness of the SDR framework is validated through GPT-4 assessments and human evaluations, demonstrating marked improvements in dialogue consistency, diversity, and the reduction of false information. This work presents a pioneering approach to enhancing dialogue quality in multi-agent simulations, establishing a new standard for future research in the field. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# 2段階インタラクション拡張によるミニバッチグラフ変換器の学習
Learning a Mini-batch Graph Transformer via Two-stage Interaction Augmentation ( http://arxiv.org/abs/2407.09904v1 ) ライセンス: Link先を確認 | Wenda Li, Kaixuan Chen, Shunyu Liu, Tongya Zheng, Wenjie Huang, Mingli Song, | (参考訳) グラフ学習モデルであるミニバッチグラフ変換器(MGT)は、計算効率の向上とモデルロバスト性の向上により、半教師付きノード予測タスクにおいて大きな利点を示してきた。
しかし,従来のローカル情報処理手法ではサンプリングや単純な集約に頼っているため,それぞれに重要な隣接情報の損失やスキャッシングが発生するため,各ミニバッチ内のノード数が制限されているため,グラフのグローバルな特性を捉えることができる。
本稿では,2段階のMGTモデルであるLGMformerを提案する。局所的相互作用拡張(LIA)により,近隣ノードと対象ノード間の相互作用パターンの理解を深め,MGTの入力として機能する局所的有効トークンリストを得る。
対照的に、GIA(Global Interaction Augmentation)は、グラフプロトタイプ全体を対象ノード表現に組み込むことで、グローバルグラフ情報の補償を行い、より包括的な認識を確実にするクロスアテンション機構を採用している。
この目的のために,LGMformerはMGTパラダイムに基づくノード表現の強化を実現し,提案手法の有効性を示す。
私たちのコードはhttps://github.com/l-wd/LGMformer.comから入手可能です。
Mini-batch Graph Transformer (MGT), as an emerging graph learning model, has demonstrated significant advantages in semi-supervised node prediction tasks with improved computational efficiency and enhanced model robustness. However, existing methods for processing local information either rely on sampling or simple aggregation, which respectively result in the loss and squashing of critical neighbor information.Moreover, the limited number of nodes in each mini-batch restricts the model's capacity to capture the global characteristic of the graph. In this paper, we propose LGMformer, a novel MGT model that employs a two-stage augmented interaction strategy, transitioning from local to global perspectives, to address the aforementioned bottlenecks.The local interaction augmentation (LIA) presents a neighbor-target interaction Transformer (NTIformer) to acquire an insightful understanding of the co-interaction patterns between neighbors and the target node, resulting in a locally effective token list that serves as input for the MGT. In contrast, global interaction augmentation (GIA) adopts a cross-attention mechanism to incorporate entire graph prototypes into the target node epresentation, thereby compensating for the global graph information to ensure a more comprehensive perception. To this end, LGMformer achieves the enhancement of node representations under the MGT paradigm.Experimental results related to node classification on the ten benchmark datasets demonstrate the effectiveness of the proposed method. Our code is available at https://github.com/l-wd/LGMformer. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# グローバル強化学習:部分モジュラー半勾配法による線形・凸リワードを超えて
Global Reinforcement Learning: Beyond Linear and Convex Rewards via Submodular Semi-gradient Methods ( http://arxiv.org/abs/2407.09905v1 ) ライセンス: Link先を確認 | Riccardo De Santi, Manish Prajapat, Andreas Krause, | (参考訳) 古典的強化学習(RL)では、エージェントは訪れた状態、例えば値関数の加法目的を最大化する。
残念ながら、このタイプの目的は、実験設計、探索、模倣学習、リスク回避RLなど、多くの現実世界の応用をモデル化することはできない。
これは、加法目的が特定のタスクに不可欠な状態間の相互作用を無視しているためである。
この問題に対処するためにGlobal RL(GRL)を導入する。
グローバルな報酬は、探索において、準モジュラリティ、正の相互作用、eg、超モジュラリティによる相乗効果、そしてそれらの組み合わせによる混合相互作用を通じて、状態間の負の相互作用をキャプチャすることができる。
本稿では,任意のGRL問題を古典的RL問題列に変換し,曲率依存近似保証を用いて効率よく解くアルゴリズムを提案する。
また、近似結果の硬度も提供し、複数のGRLインスタンス上での手法の有効性を実証的に示す。
In classic Reinforcement Learning (RL), the agent maximizes an additive objective of the visited states, e.g., a value function. Unfortunately, objectives of this type cannot model many real-world applications such as experiment design, exploration, imitation learning, and risk-averse RL to name a few. This is due to the fact that additive objectives disregard interactions between states that are crucial for certain tasks. To tackle this problem, we introduce Global RL (GRL), where rewards are globally defined over trajectories instead of locally over states. Global rewards can capture negative interactions among states, e.g., in exploration, via submodularity, positive interactions, e.g., synergetic effects, via supermodularity, while mixed interactions via combinations of them. By exploiting ideas from submodular optimization, we propose a novel algorithmic scheme that converts any GRL problem to a sequence of classic RL problems and solves it efficiently with curvature-dependent approximation guarantees. We also provide hardness of approximation results and empirically demonstrate the effectiveness of our method on several GRL instances. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# SensEmo: スマートウォッチを用いたリアルタイム感情認識による感情学習の実現
SensEmo: Enabling Affective Learning through Real-time Emotion Recognition with Smartwatches ( http://arxiv.org/abs/2407.09911v1 ) ライセンス: Link先を確認 | Kushan Choksi, Hongkai Chen, Karan Joshi, Sukrutha Jade, Shahriar Nirjon, Shan Lin, | (参考訳) 近年の研究では、ユーザーの感情と注意の両方を推測する生理的信号の能力が実証されている。
これにより、スマートウォッチで広く利用可能な生理的センサーを活用する機会が得られ、ストレスや興奮といったリアルタイムな感情的手がかりを検出することができる。
本稿では,感情学習のためのスマートウォッチシステムであるSensEmoを紹介する。
SensEmoは、心拍数やガルバニック皮膚反応などの複数の生理的センサーデータを使用して、授業中の学生のモチベーションと濃度レベルを認識する。
この認識は、原子価と覚醒度に基づいて感情状態を予測するパーソナライズされた感情認識モデルによって促進される。
学生からのリアルタイムの感情と注意フィードバックにより、教師にコンテンツやペアリングに関する提案を提供することで、学生の学習効率と経験を向上させるマルコフ決定プロセスに基づくアルゴリズムを設計する。
現実世界の教室環境において,22人を対象にSensEmoを評価した。
評価の結果,SensEmoは学生の感情を平均88.9%の精度で認識していることがわかった。
さらに重要なのは、SensEmoは、学生の感情的なフィードバックを伴わない従来の学習よりも、オンライン学習の成績が平均40.0%高くなることだ。
Recent research has demonstrated the capability of physiological signals to infer both user emotional and attention responses. This presents an opportunity for leveraging widely available physiological sensors in smartwatches, to detect real-time emotional cues in users, such as stress and excitement. In this paper, we introduce SensEmo, a smartwatch-based system designed for affective learning. SensEmo utilizes multiple physiological sensor data, including heart rate and galvanic skin response, to recognize a student's motivation and concentration levels during class. This recognition is facilitated by a personalized emotion recognition model that predicts emotional states based on degrees of valence and arousal. With real-time emotion and attention feedback from students, we design a Markov decision process-based algorithm to enhance student learning effectiveness and experience by by offering suggestions to the teacher regarding teaching content and pacing. We evaluate SensEmo with 22 participants in real-world classroom environments. Evaluation results show that SensEmo recognizes student emotion with an average of 88.9% accuracy. More importantly, SensEmo assists students to achieve better online learning outcomes, e.g., an average of 40.0% higher grades in quizzes, over the traditional learning without student emotional feedback. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# 身体のジェスチャーと顔による感情検出
Emotion Detection through Body Gesture and Face ( http://arxiv.org/abs/2407.09913v1 ) ライセンス: Link先を確認 | Haoyang Liu, | (参考訳) このプロジェクトは、高度な機械学習と深層学習技術を活用し、非顔の手がかり、特に手、身振り、ジェスチャーに焦点を当てて、感情認識の課題に対処する。
従来の感情認識システムは、主に表情分析に依存しており、ボディランゲージを通して伝達される豊かな感情情報を無視することが多い。
このギャップを埋めるために、この手法はAff-Wild2データベースとDFEWデータベースを利用して、7つの基本的な感情(怒り、嫌悪感、恐怖、幸福、悲しみ、驚き、中立)を認識できるモデルを訓練し、評価する。
ポーズ推定のためのOpenPoseを活用して、画像やビデオから詳細な身体姿勢と姿勢の特徴を抽出する。
これらの機能は、感情分類のためのResNetやANNなど、最先端のニューラルネットワークアーキテクチャへの入力として機能する。
この分岐戦略は、感情認識の分野における分類と回帰問題を解くことができる。
このプロジェクトの目的は、マシンが人間の感情をより包括的でニュアンスな方法で解釈し、反応する能力を高めることで、感情コンピューティングの分野に貢献することにある。
マルチモーダルデータと最先端の計算モデルを統合することで、人間とコンピュータの相互作用を豊かにするだけでなく、メンタルヘルスサポート、教育技術、自動運転車システムといった分野にも潜在的な応用を期待する。
The project leverages advanced machine and deep learning techniques to address the challenge of emotion recognition by focusing on non-facial cues, specifically hands, body gestures, and gestures. Traditional emotion recognition systems mainly rely on facial expression analysis and often ignore the rich emotional information conveyed through body language. To bridge this gap, this method leverages the Aff-Wild2 and DFEW databases to train and evaluate a model capable of recognizing seven basic emotions (angry, disgust, fear, happiness, sadness, surprise, and neutral) and estimating valence and continuous scales wakeup descriptor. Leverage OpenPose for pose estimation to extract detailed body posture and posture features from images and videos. These features serve as input to state-of-the-art neural network architectures, including ResNet, and ANN for emotion classification, and fully connected layers for valence arousal regression analysis. This bifurcation strategy can solve classification and regression problems in the field of emotion recognition. The project aims to contribute to the field of affective computing by enhancing the ability of machines to interpret and respond to human emotions in a more comprehensive and nuanced way. By integrating multimodal data and cutting-edge computational models, I aspire to develop a system that not only enriches human-computer interaction but also has potential applications in areas as diverse as mental health support, educational technology, and autonomous vehicle systems. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# 高品質伝送線路共振器を用いた2次元超伝導体の運動インダクタンスと超流動剛性の測定
Measuring kinetic inductance and superfluid stiffness of two-dimensional superconductors using high-quality transmission-line resonators ( http://arxiv.org/abs/2407.09916v1 ) ライセンス: Link先を確認 | Mary Kreidel, Xuanjing Chu, Jesse Balgley, Nishchhal Verma, Julian Ingham, Leonardo Ranzani, Raquel Queiroz, Robert M. Westervelt, James Hone, Kin Chung Fong, | (参考訳) 近年のファンデルワールス超伝導体の発見は、新しいペアリング機構に多くの興奮をもたらした。
しかし、それらの典型的な原子スケールの厚さとミクロスケールの側方寸法は、従来の方法によるペアリング対称性の研究に深刻な課題を課している。
本稿では, 高温超伝導共振器を用いて, 運動インダクタンス(最大100万分の1) とファンデルワールス超伝導体の損失を測定する新しい手法について述べる。
等価回路モデルを用いて, 運動インダクタンス, 超流動剛性, 浸透深さ, 複素導電率の虚部と実部の比を抽出する。
アルミニウムを計測し,BCS理論と比較した場合の0温度超伝導ギャップと複素導電率データの両方において優れた一致を見出すことにより,この技術の有効性を検証した。
次に,多層窒化ニオブの運動インダクタンスを測定し,試料の遷移温度が7.06KのNbSe$_2$,8.59KのNbプローブ共振器に近づくと,その精度の限界を議論する。この手法は超伝導回路成分のキャラクタリゼーションや,層状2次元材料やヘテロ構造に生じる新しい超伝導状態のペアリング機構の研究の手段として,超伝導物理,材料科学,量子センシングの分野における実践者にとって有用である。
The discovery of van der Waals superconductors in recent years has generated a lot of excitement for their potentially novel pairing mechanisms. However, their typical atomic-scale thickness and micrometer-scale lateral dimensions impose severe challenges to investigations of pairing symmetry by conventional methods. In this report we demonstrate a new technique that employs high-quality-factor superconducting resonators to measure the kinetic inductance -- up to a part per million -- and loss of a van der Waals superconductor. We analyze the equivalent circuit model to extract the kinetic inductance, superfluid stiffness, penetration depth, and ratio of imaginary and real parts of the complex conductivity. We validate the technique by measuring aluminum and finding excellent agreement in both the zero-temperature superconducting gap as well as the complex conductivity data when compared with BCS theory. We then demonstrate the utility of the technique by measuring the kinetic inductance of multi-layered niobium diselenide and discuss the limits to the accuracy of our technique when the transition temperature of the sample, NbSe$_2$ at 7.06 K, approaches our Nb probe resonator at 8.59 K. Our method will be useful for practitioners in the growing fields of superconducting physics, materials science, and quantum sensing, as a means of characterizing superconducting circuit components and studying pairing mechanisms of the novel superconducting states which arise in layered 2D materials and heterostructures. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# DiffRect: 半監督的医用画像分割のための潜時拡散ラベル整形術
DiffRect: Latent Diffusion Label Rectification for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2407.09918v1 ) ライセンス: Link先を確認 | Xinyu Liu, Wuyang Li, Yixuan Yuan, | (参考訳) 半教師付き医用画像セグメンテーションは、限られた注釈付きデータとリッチなラベルなしデータを利用して正確なセグメンテーションを行う。
しかし,既存の半教師付き手法は自己生成型擬似ラベルの品質に大きく依存している。
一方、ラテント空間におけるラベル分布の取得には不十分であり、ラベルなしデータへの限定的な一般化に苦しむ。
これらの課題に対処するために,半教師付き医用画像分割のための遅延拡散ラベル認識モデル(DiffRect)を提案する。
DiffRect はまずラベルコンテキスト校正モジュール (LCC) を用いて、擬似ラベルのカテゴリー関係を学習してクラス間のバイアス関係を校正し、次に潜時空間に潜時特徴再現モジュール (LFR) を適用して、潜時拡散を通して異なるレベルの擬似ラベル分布を定式化し整列する。
そのネットワークを利用して、粗さを学習し、正確に連続した流通輸送を微調整し、微調整する。
DiffRectをACDC、MS-CMRSEG 2019、Deathlon Prostateの3つの公開データセットで評価した。
実験結果は、DiffRectの有効性を示し、例えば、ACDCで82.40\%のDiceスコアを達成し、わずか1\%のラベル付きスキャンしか得られず、以前のDiceの4.60\%を上回り、完全に監督されたパフォーマンスとさえ競合する。
コードは \url{https://github.com/CUHK-AIM-Group/DiffRect} で公開されている。
Semi-supervised medical image segmentation aims to leverage limited annotated data and rich unlabeled data to perform accurate segmentation. However, existing semi-supervised methods are highly dependent on the quality of self-generated pseudo labels, which are prone to incorrect supervision and confirmation bias. Meanwhile, they are insufficient in capturing the label distributions in latent space and suffer from limited generalization to unlabeled data. To address these issues, we propose a Latent Diffusion Label Rectification Model (DiffRect) for semi-supervised medical image segmentation. DiffRect first utilizes a Label Context Calibration Module (LCC) to calibrate the biased relationship between classes by learning the category-wise correlation in pseudo labels, then apply Latent Feature Rectification Module (LFR) on the latent space to formulate and align the pseudo label distributions of different levels via latent diffusion. It utilizes a denoising network to learn the coarse to fine and fine to precise consecutive distribution transportations. We evaluate DiffRect on three public datasets: ACDC, MS-CMRSEG 2019, and Decathlon Prostate. Experimental results demonstrate the effectiveness of DiffRect, e.g. it achieves 82.40\% Dice score on ACDC with only 1\% labeled scan available, outperforms the previous state-of-the-art by 4.60\% in Dice, and even rivals fully supervised performance. Code is released at \url{https://github.com/CUHK-AIM-Group/DiffRect}. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# 構造とテクスチャを優先した任意スケールビデオ超解法
Arbitrary-Scale Video Super-Resolution with Structural and Textural Priors ( http://arxiv.org/abs/2407.09919v1 ) ライセンス: Link先を確認 | Wei Shang, Dongwei Ren, Wanying Zhang, Yuming Fang, Wangmeng Zuo, Kede Ma, | (参考訳) 任意スケールビデオ超解像(AVSR)は、ビデオフレームの解像度を高めることを目的としており、空間的詳細再生、時間的一貫性、計算複雑性に関するいくつかの課題を提起している。
本稿では,3種類の基本構造ブロックを組み立てることで,AVSRの強力なベースラインを最初に記述する。
1) 前フレームから時空間情報を集約する流路誘導リカレントユニット
2)将来のフレームから時空間情報を選択するフローリフィインクロスアテンションユニット、及び
3) スケールアウェアとコンテンツ非依存のアップサンプリングカーネルを生成するハイパーアップサンプリングユニット。
次に、事前学習したVGGネットワークから計算したマルチスケールの構造とテクスチャをベースラインに組み込むことにより、ST-AVSRを導入する。
この前者は、異なる場所やスケールで構造やテクスチャを識別するのに有効であることが証明されており、これはAVSRにとって有益である。
総合的な実験により、ST-AVSRは最先端技術よりも超解像品質、一般化能力、推論速度を大幅に改善することが示された。
コードはhttps://github.com/shangwei5/ST-AVSRで公開されている。
Arbitrary-scale video super-resolution (AVSR) aims to enhance the resolution of video frames, potentially at various scaling factors, which presents several challenges regarding spatial detail reproduction, temporal consistency, and computational complexity. In this paper, we first describe a strong baseline for AVSR by putting together three variants of elementary building blocks: 1) a flow-guided recurrent unit that aggregates spatiotemporal information from previous frames, 2) a flow-refined cross-attention unit that selects spatiotemporal information from future frames, and 3) a hyper-upsampling unit that generates scaleaware and content-independent upsampling kernels. We then introduce ST-AVSR by equipping our baseline with a multi-scale structural and textural prior computed from the pre-trained VGG network. This prior has proven effective in discriminating structure and texture across different locations and scales, which is beneficial for AVSR. Comprehensive experiments show that ST-AVSR significantly improves super-resolution quality, generalization ability, and inference speed over the state-of-theart. The code is available at https://github.com/shangwei5/ST-AVSR. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# MutDet: リモートセンシングオブジェクト検出のための事前トレーニングを相互に最適化する
MutDet: Mutually Optimizing Pre-training for Remote Sensing Object Detection ( http://arxiv.org/abs/2407.09920v1 ) ライセンス: Link先を確認 | Ziyue Huang, Yongchao Feng, Qingjie Liu, Yunhong Wang, | (参考訳) DETRシリーズ検出器の事前学習法は自然界、例えばDETRegで広く研究されている。
しかし、検出事前訓練はリモートセンシングシーンでは未発見のままである。
既存の事前学習法では、事前訓練したバックボーンから抽出した物体の埋め込みと検出器の特徴との間のアライメントが重要である。
しかし,特徴抽出法の違いにより,特徴差が残っており,事前学習性能が損なわれている。
複雑な環境とより密集した物体を持つリモートセンシング画像は、その差を悪化させる。
本研究では,MutDetと呼ばれるリモートセンシングオブジェクト検出のための,Mutally最適化事前学習フレームワークを提案する。
MutDetでは,この問題に対するシステム的解決策を提案する。
まず,最終エンコーダ層に物体の埋め込みと検出器の特徴を融合させ,情報相互作用を増強する相互強化モジュールを提案する。
最後に,拡張モジュールの導入に伴うタスクギャップを軽減するために,補助シムヘッドを設計する。
様々な環境における総合的な実験は、新しい最先端の転送性能を示す。
データ量に制限がある場合、改善は特に顕著である。
DIOR-Rデータの10%を使用する場合、MutDetはAP50でDetRegを6.1%改善する。
コードとモデルは、https://github.com/floatingstarZ/MutDet.comで入手できる。
Detection pre-training methods for the DETR series detector have been extensively studied in natural scenes, e.g., DETReg. However, the detection pre-training remains unexplored in remote sensing scenes. In existing pre-training methods, alignment between object embeddings extracted from a pre-trained backbone and detector features is significant. However, due to differences in feature extraction methods, a pronounced feature discrepancy still exists and hinders the pre-training performance. The remote sensing images with complex environments and more densely distributed objects exacerbate the discrepancy. In this work, we propose a novel Mutually optimizing pre-training framework for remote sensing object Detection, dubbed as MutDet. In MutDet, we propose a systemic solution against this challenge. Firstly, we propose a mutual enhancement module, which fuses the object embeddings and detector features bidirectionally in the last encoder layer, enhancing their information interaction.Secondly, contrastive alignment loss is employed to guide this alignment process softly and simultaneously enhances detector features' discriminativity. Finally, we design an auxiliary siamese head to mitigate the task gap arising from the introduction of enhancement module. Comprehensive experiments on various settings show new state-of-the-art transfer performance. The improvement is particularly pronounced when data quantity is limited. When using 10% of the DIOR-R data, MutDet improves DetReg by 6.1% in AP50. Codes and models are available at: https://github.com/floatingstarZ/MutDet. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# 不十分な選択性測定による2モード連続可変クラスター状態におけるテレポーテーションの確率と忠実性
Probability and fidelity of teleportation in a two-mode continuous variable cluster state via an insufficiently selective measurement ( http://arxiv.org/abs/2407.09921v1 ) ライセンス: Link先を確認 | Julio Abraham Mendoza Fierro, Luis Manuel Arévalo Aguilar, | (参考訳) 連続可変射影測定は、離散的な場合のように個々の測定結果を選択することができず、その代わりに、可能な結果が測定の選択間隔によって境界づけられる。
この概念を利用することで、2モードのクラスタ状態におけるテレポーテーションの確率と忠実性は、測定装置の選択間隔の局所化によって処理可能であることを示す。
さらに,熱方程式の基本解である2モードクラスタにおける測定結果の確率分布を数学的に表現する。
さらに,非均一熱方程式の2乗解と従来の熱方程式の解との商により,2モードクラスタ内のテレポーテーションの忠実度が与えられることを示した。
さらに、各テレポーテーションステップ間の中間補正を伴う逐次クラスタを含む構成にアプローチを拡張した。
本提案を実証するために, 圧縮コヒーレント状態の特定のケースを, テレポーテーション下での量子状態とみなす。
Continuous-variable projective measurements can not select individual measurement results as in the discrete case; instead, the possible outcomes are bounded by the selectivity interval of the measurement; then, it is say that continuous-variable measurement devices are insufficiently selective. By utilizing this concept we show that the probability and fidelity of teleportation in a two-mode cluster state can be handled by the localization of the selectivity interval of the measurement apparatus. Besides, we provide a mathematical expression describing the probability distribution of the measurement outcomes in the two-mode cluster, which is a fundamental solution of the heat equation. In addition, we show that the fidelity of teleportation in the two mode cluster is given by the quotient between the squared solution of a non-homogeneous heat equation and the solution of the conventional heat equation. Furthermore, we extend our approach to a configuration involving successive clusters with intermediate corrections between each teleportation step. To exemplify our proposal, we consider the specific case of a squeezed-coherent state as the quantum state under teleportation. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# 変圧器を用いた領域認識画像に基づく人間行動検索
Region-aware Image-based Human Action Retrieval with Transformers ( http://arxiv.org/abs/2407.09924v1 ) ライセンス: Link先を確認 | Hongsong Wang, Jie Gui, | (参考訳) 人間の行動理解はコンピュータビジョンの基本的な課題である。
この分野には膨大な研究があるが、ほとんどの研究は行動認識に焦点をあてているが、アクション検索はあまり注目されていない。
本稿では,検索画像と同一の動作を表現した画像を見つけることを目的とした,画像に基づく行動検索において,無視されるが重要な課題に焦点をあてる。
我々は,このタスクのベンチマークを作成し,公正な比較のための重要なベースライン手法を構築した。
本稿では,3つの側面からリッチな行動表現を学習するエンド・ツー・エンド・モデルを提案する。
新たな融合トランスモジュールは、異なる特徴間の関係をモデル化し、それらをアクション表現に効果的に融合するように設計されている。
Stanford-40 と PASCAL VOC 2012 Action データセットを用いた実験により,提案手法は従来の画像に基づく行動検索手法よりも有意に優れていた。
Human action understanding is a fundamental and challenging task in computer vision. Although there exists tremendous research on this area, most works focus on action recognition, while action retrieval has received less attention. In this paper, we focus on the neglected but important task of image-based action retrieval which aims to find images that depict the same action as a query image. We establish benchmarks for this task and set up important baseline methods for fair comparison. We present an end-to-end model that learns rich action representations from three aspects: the anchored person, contextual regions, and the global image. A novel fusion transformer module is designed to model the relationships among different features and effectively fuses them into an action representation. Experiments on the Stanford-40 and PASCAL VOC 2012 Action datasets show that the proposed method significantly outperforms previous approaches for image-based action retrieval. | 翻訳日:2024-07-16 20:18:01 公開日:2024-07-13 |
# クリフォード群同変ニューラルネットワークの計量学習
Metric Learning for Clifford Group Equivariant Neural Networks ( http://arxiv.org/abs/2407.09926v1 ) ライセンス: Link先を確認 | Riccardo Ali, Paulina Kulytė, Haitz Sáez de Ocáriz Borde, Pietro Liò, | (参考訳) クリフォード群同変ニューラルネットワーク (Clifford Group Equivariant Neural Networks, CGENNs) は、クリフォード代数と乗数ベクトルを、群同値を取り込むことによって、ニューラル表現における対称性の制約を確実にする代替アプローチとして活用する。
原則として、この定式化は直交群に一般化し、計量シグネチャによらず同値を保つ。
しかし、以前の研究は内部ネットワークの表現をユークリッドやミンコフスキー(擬似計量)に制限しており、手元にある問題に応じて手書きされている。
本研究では,データ駆動方式でメトリクスを学習し,CGENNネットワークがより柔軟な表現を学習できるようにする方法を提案する。
具体的には、距離行列を完全に設定し、構成によって対称であることを保証し、固有値分解を利用して、この新たな学習可能な成分を原理的に元のCGENNの定式化に統合する。
さらに、カテゴリ理論からの洞察を用いて手法を動機付け、クラフォード代数を分類的構成として説明し、アプローチの数学的健全性を保証する。
提案手法を様々なタスクで検証し,より柔軟な潜在距離表現の学習の利点を示す。
コードとデータはhttps://github.com/rick-ali/Metric-Learning-for-CGENNsで公開されている。
Clifford Group Equivariant Neural Networks (CGENNs) leverage Clifford algebras and multivectors as an alternative approach to incorporating group equivariance to ensure symmetry constraints in neural representations. In principle, this formulation generalizes to orthogonal groups and preserves equivariance regardless of the metric signature. However, previous works have restricted internal network representations to Euclidean or Minkowski (pseudo-)metrics, handpicked depending on the problem at hand. In this work, we propose an alternative method that enables the metric to be learned in a data-driven fashion, allowing the CGENN network to learn more flexible representations. Specifically, we populate metric matrices fully, ensuring they are symmetric by construction, and leverage eigenvalue decomposition to integrate this additional learnable component into the original CGENN formulation in a principled manner. Additionally, we motivate our method using insights from category theory, which enables us to explain Clifford algebras as a categorical construction and guarantee the mathematical soundness of our approach. We validate our method in various tasks and showcase the advantages of learning more flexible latent metric representations. The code and data are available at https://github.com/rick-ali/Metric-Learning-for-CGENNs | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# 支援ベクトルマシンアルゴリズムの分類性能に及ぼす異なる量子カーネルの影響評価:医療データセットの応用
Evaluating the Impact of Different Quantum Kernels on the Classification Performance of Support Vector Machine Algorithm: A Medical Dataset Application ( http://arxiv.org/abs/2407.09930v1 ) ライセンス: Link先を確認 | Emine Akpinar, Sardar M. N. Islam, Murat Oduncuoglu, | (参考訳) 量子カーネル推定器(QSVM-Kernel)を用いたサポートベクターマシンアルゴリズムは、量子機械学習技術の先駆けとして、大幅な進歩を遂げている。
それでも、古典的なデータとの統合は、ユニークな課題を呈している。
量子コンピュータは、主に量子状態のデータと相互作用するが、特徴マッピング技術を用いて古典的なデータを量子状態に埋め込むことは、量子アルゴリズムを活用する上で不可欠である。
本研究は,様々な特徴マッピング手法が分類結果に与える影響を包括的に評価し,医療データ分析を事例として扱うことにより,このギャップに対処する。
本研究では、QSVM-Kernel法を、ウィスコンシン乳がん(オリジナル)とThe Cancer Genome Atlas(TCGA)グリオーマデータセットの2つの異なる医用データセットの分類問題に適用した。
QSVM-Kernelアルゴリズムでは、9つの異なる量子特徴写像から得られた量子カーネル行列を用いた。
そこで,これらの量子特徴写像がQSVM-Kernelアルゴリズムの分類結果に与える影響を,分類器の性能と総実行時間の両方の観点から検討した。
その結果,ウィスコンシン乳癌(元)とTGAグリオーマデータセットでは,RxとRyの回転ゲートがそれぞれQSVM-カーネルアルゴリズムの特徴マップとして用いられ,分類性能と総実行時間の両方で最高の分類性能が得られた。
本研究の貢献は,(1)QSVM-Kernelアルゴリズムを用いた医療データ分類結果に対する特徴マッピング手法の有意な影響を強調し,(2)QSVM分類性能の向上に向けた研究の指針となることである。
The support vector machine algorithm with a quantum kernel estimator (QSVM-Kernel), as a leading example of a quantum machine learning technique, has undergone significant advancements. Nevertheless, its integration with classical data presents unique challenges. While quantum computers primarily interact with data in quantum states, embedding classical data into quantum states using feature mapping techniques is essential for leveraging quantum algorithms Despite the recognized importance of feature mapping, its specific impact on data classification outcomes remains largely unexplored. This study addresses this gap by comprehensively assessing the effects of various feature mapping methods on classification results, taking medical data analysis as a case study. In this study, the QSVM-Kernel method was applied to classification problems in two different and publicly available medical datasets, namely, the Wisconsin Breast Cancer (original) and The Cancer Genome Atlas (TCGA) Glioma datasets. In the QSVM-Kernel algorithm, quantum kernel matrices obtained from 9 different quantum feature maps were used. Thus, the effects of these quantum feature maps on the classification results of the QSVM-Kernel algorithm were examined in terms of both classifier performance and total execution time. As a result, in the Wisconsin Breast Cancer (original) and TCGA Glioma datasets, when Rx and Ry rotational gates were used, respectively, as feature maps in the QSVM-Kernel algorithm, the best classification performances were achieved both in terms of classification performance and total execution time. The contributions of this study are that (1) it highlights the significant impact of feature mapping techniques on medical data classification outcomes using the QSVM-Kernel algorithm, and (2) it also guides undertaking research for improved QSVM classification performance. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# シリコンチップ二重励起光子源を用いた量子クロック同期ネットワーク
Quantum Clock Synchronization Network with Silicon-chip Dual-Pumped Entangled Photon Source ( http://arxiv.org/abs/2407.09932v1 ) ライセンス: Link先を確認 | J. A. Li, H. Han, X. P. Huang, B. Y. Tang, K. Guo, J. Q. Huang, S. Y. Xiong, W. R. Yu, Z. J. Zhang, J. B. Yang, B. Liu, H. Chen, Z. K. Lu, | (参考訳) 本稿では,シリコンチップ二重励起光子源を用いた量子クロック同期(QCS)ネットワーク方式を提案する。
この方式では、2つのポンプビームをシリコンベースの導波路に結合し、縮退および非縮退自発4波混合(SFWM)が起こり、1つの信号チャネルと3つのアイドラーチャネル間の絡み合いが生じる。
絡み合った光子は波長分割多重化戦略により遠隔ユーザへ分散し、絡み合った分布ネットワークを構築するとともに、複数のユーザに提供するQCSネットワークを実現するためにラウンドトリップQCSを採用する。
サーバと複数のユーザ(Alice、Bob、Charlie)の間で11.1時間、AliceとCharlieはサーバから10km、Bobはサーバから25km離れている。
サーバと各ユーザ(アリス、ボブ、チャーリー)間の最低時間偏差(TDEV)は平均8000秒、8000秒、800秒で1.57 ps、0.82 ps、2.57 psである。
その結果,2段式SFWM光子源を用いたQCSネットワーク方式は精度が高く,他のラウンドトリップQCS方式と比較して,nユーザによるチャネルリソースを約30%削減できることがわかった。
In this paper, we propose a quantum clock synchronization (QCS) network scheme with silicon-chip dual-pumped entangled photon source. This scheme couples two pump beams into the silicon-based waveguide, where degenerate and non-degenerate spontaneous four-wave mixing (SFWM) occurs, generating entanglement between one signal channel and three idler channels. The entangled photons are distributed to remote users through the wavelength division multiplexing strategy to construct an entanglement distribution network, and the round-trip QCS is adopted to realize a QCS network that can serve multiple users. A proof-of-principle QCS network experiment is implemented among the server and multiple users (Alice, Bob, and Charlie) for 11.1 hours, where Alice and Charlie are 10 km away from the server and Bob is 25 km away from the server. The lowest time deviations (TDEV) between the server and each user (Alice, Bob, and Charlie) are 1.57 ps, 0.82 ps and 2.57 ps at the average time of 8000 s, 8000 s and 800 s respectively. The results show that the QCS network scheme with dual-pumped SFWM photon source proposed by us achieves high accuracy, and the channel resources used by n users are reduced by about 30% compared with other round-trip QCS schemes. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# LeRF:適応的・効率的な画像補間のための学習再サンプリング機能
LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation ( http://arxiv.org/abs/2407.09935v1 ) ライセンス: Link先を確認 | Jiacheng Li, Chang Chen, Fenglong Song, Youliang Yan, Zhiwei Xiong, | (参考訳) 画像再サンプリングは、カメラ写真編集のような日常的なアプリケーションで広く使われている基本的な技術である。
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
しかし、これらの手法は効率と汎用性に欠点があるため、補間には最適ではない。
本研究では,DNNが学習した構造的前提と局所的補間仮定の両方を生かした学習再サンプリング関数(Learning Resampling Function, LeRF)を提案する。
具体的には、空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークでこれらの再サンプリング関数の形状を決定するハイパーパラメータを予測することを学習する。
LeRFの定式化に基づいて,効率指向モデルと性能指向モデルの両方を含むモデル群を開発した。
補間レベルの効率を達成するために、学習したニューラルネットワークの推論を高速化するルックアップテーブル(LUT)を採用する。
さらに,局所構造をよりよく捉えるために,指向性アンサンブル戦略とエッジ感応性インデクシングパターンを設計する。
一方、DNNレベルの性能を得るため、ケースドリサンプリングのための事前訓練されたアップサンプリングモデルと協調してLeRFの拡張を提案する。
大規模な実験により、LeRFの効率指向バージョンは補間と同じくらいの速さで動作し、任意の変換を一般化し、例えば、マンガ109のx2アップサンプリングでビクビックより最大3dBPSNRのゲインを著しく上回ることが示された。
さらに、パフォーマンス指向バージョンのLeRFは、既存のDNNと同等のパフォーマンスに到達し、デスクトップGPU上での実行時間を25%以下に抑えることができる。
Image resampling is a basic technique that is widely employed in daily applications, such as camera photo editing. Recent deep neural networks (DNNs) have made impressive progress in performance by introducing learned data priors. Still, these methods are not the perfect substitute for interpolation, due to the drawbacks in efficiency and versatility. In this work, we propose a novel method of Learning Resampling Function (termed LeRF), which takes advantage of both the structural priors learned by DNNs and the locally continuous assumption of interpolation. Specifically, LeRF assigns spatially varying resampling functions to input image pixels and learns to predict the hyper-parameters that determine the shapes of these resampling functions with a neural network. Based on the formulation of LeRF, we develop a family of models, including both efficiency-orientated and performance-orientated ones. To achieve interpolation-level efficiency, we adopt look-up tables (LUTs) to accelerate the inference of the learned neural network. Furthermore, we design a directional ensemble strategy and edge-sensitive indexing patterns to better capture local structures. On the other hand, to obtain DNN-level performance, we propose an extension of LeRF to enable it in cooperation with pre-trained upsampling models for cascaded resampling. Extensive experiments show that the efficiency-orientated version of LeRF runs as fast as interpolation, generalizes well to arbitrary transformations, and outperforms interpolation significantly, e.g., up to 3dB PSNR gain over Bicubic for x2 upsampling on Manga109. Besides, the performance-orientated version of LeRF reaches comparable performance with existing DNNs at much higher efficiency, e.g., less than 25% running time on a desktop GPU. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# WojoodNER 2024: The Second Arabic Named Entity Recognition Shared Task
WojoodNER 2024: The Second Arabic Named Entity Recognition Shared Task ( http://arxiv.org/abs/2407.09936v1 ) ライセンス: Link先を確認 | Mustafa Jarrar, Nagham Hamad, Mohammed Khalilia, Bashar Talafha, AbdelRahim Elmadany, Muhammad Abdul-Mageed, | (参考訳) 本稿では,2番目のアラビア名称認識(NER)共有タスクであるWojoodNER-2024を紹介する。
WojoodNER-2024では、きめ細かいアラビアNERに焦点を当てている。
サブタイプのエンティティを付加したWojoodfineというアラビア細粒NERデータセットを参加者に提供した。
WojoodNER-2024には3つのサブタスクが含まれていた。
(i)クローズドトラックフラットファイングラインドNER
(二)クローズドトラックネストファイングラインドNER及び
(三)ガザでのイスラエル戦争のための開戦NER。
43のチームがこの共有タスクに登録している。
5つのチームがフラットファイングラインド・サブタスクに参加し、2つのチームがネストファイングラインド・サブタスクに取り組み、1つのチームがオープントラックNERサブタスクに参加した。
優勝チームはF-1得点を91%、Nested Fine-Grained Subtasksで92%とした。
オープントラック・サブタスクの唯一のチームはF-1得点73.7%を記録した。
We present WojoodNER-2024, the second Arabic Named Entity Recognition (NER) Shared Task. In WojoodNER-2024, we focus on fine-grained Arabic NER. We provided participants with a new Arabic fine-grained NER dataset called wojoodfine, annotated with subtypes of entities. WojoodNER-2024 encompassed three subtasks: (i) Closed-Track Flat Fine-Grained NER, (ii) Closed-Track Nested Fine-Grained NER, and (iii) an Open-Track NER for the Israeli War on Gaza. A total of 43 unique teams registered for this shared task. Five teams participated in the Flat Fine-Grained Subtask, among which two teams tackled the Nested Fine-Grained Subtask and one team participated in the Open-Track NER Subtask. The winning teams achieved F-1 scores of 91% and 92% in the Flat Fine-Grained and Nested Fine-Grained Subtasks, respectively. The sole team in the Open-Track Subtask achieved an F-1 score of 73.7%. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# Hydra: 一般化マトリックスミキサーによる双方向状態空間モデル
Hydra: Bidirectional State Space Models Through Generalized Matrix Mixers ( http://arxiv.org/abs/2407.09941v1 ) ライセンス: Link先を確認 | Sukjun Hwang, Aakash Lahoti, Tri Dao, Albert Gu, | (参考訳) シークエンスモデルは、交互に配列ミキサーとチャネルミキサー層で構成されるトランスフォーマーをモデルとしたフレームワーク上に構築されている。
本稿では、入力シーケンス上の線形写像として概念化できる配列ミキサーの統一行列ミキサービューについて検討する。
このフレームワークは、トランスフォーマーの自己アテンションや、構造化状態空間モデル(SSM)のような最近の強力な代替品を含む、広く知られたシーケンスモデルを含み、構造化行列クラスの特性を通じて効率性や表現性などの下流特性を理解することができる。
行列ミキサーの柔軟性と性能を高め、トランスフォーマーの強みと、Mambaのような最近のSSMの強みを洞察する行列パラメタライゼーションのキー軸を列アライメントと呼ぶ。
さらに、行列ミキサーフレームワークは、所望の特性を持つ配列ミキサーを開発するための体系的なアプローチを提供し、いくつかの新しいサブクオーラシークエンスモデルを開発することができる。
特に,疑似分離可能な行列ミキサーとしてパラメータ化されたMambaモデル(Hydra)の自然な双方向拡張を提案する。
注目レイヤのドロップイン置換として、Hydraは、GLUEベンチマークでBERTを0.8ポイント、ImageNetでViTを2%上回った。
A wide array of sequence models are built on a framework modeled after Transformers, comprising alternating sequence mixer and channel mixer layers. This paper studies a unifying matrix mixer view of sequence mixers that can be conceptualized as a linear map on the input sequence. This framework encompasses a broad range of well-known sequence models, including the self-attention of Transformers as well as recent strong alternatives such as structured state space models (SSMs), and allows understanding downstream characteristics such as efficiency and expressivity through properties of their structured matrix class. We identify a key axis of matrix parameterizations termed sequence alignment, which increases the flexibility and performance of matrix mixers, providing insights into the strong performance of Transformers and recent SSMs such as Mamba. Furthermore, the matrix mixer framework offers a systematic approach to developing sequence mixers with desired properties, allowing us to develop several new sub-quadratic sequence models. In particular, we propose a natural bidirectional extension of the Mamba model (Hydra), parameterized as a quasiseparable matrix mixer, which demonstrates superior performance over other sequence models including Transformers on non-causal tasks. As a drop-in replacement for attention layers, Hydra outperforms BERT by 0.8 points on the GLUE benchmark and ViT by 2% Top-1 accuracy on ImageNet. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# 量子ゲートの決定論的ベンチマーク
Deterministic Benchmarking of Quantum Gates ( http://arxiv.org/abs/2407.09942v1 ) ライセンス: Link先を確認 | Vinay Tripathi, Daria Kowsari, Kumar Saurav, Haimeng Zhang, Eli M. Levenson-Falk, Daniel A. Lidar, | (参考訳) 本稿では,確率的ベンチマーク(RB)と関連するベンチマーク手法によって見過ごされるコヒーレントおよび非コヒーレントなエラーの相互行為を特定するためのプロトコルである決定論的ベンチマーク(DB)を紹介する。
DBは、単一ビットゲートセットにおける非一貫性とコヒーレントエラーの両方を特徴付ける4つのパラメータのセットを提供する。
さらに、DBは、強い緩和誤差(T_1$)によって誘導されるゲート性能の非対称性を明らかにする。
超伝導トランスモン量子ビットを用いたDBを実験的に実証し, 簡単な解析モデルとマスター方程式シミュレーションを用いてこれらの結果を支援する。
以上の結果から,従来のRBが欠落した致命的な誤りが判明し,これらの誤りを緩和するための戦略が示唆された。
We introduce deterministic benchmarking (DB), a protocol designed to identify the interplay of coherent and incoherent errors overlooked by randomized benchmarking (RB) and related benchmarking methods. DB provides a set of four parameters that characterize both incoherent and coherent errors in the single-qubit gate set. Furthermore, DB reveals asymmetries in gate performance induced by strong relaxation errors ($T_1$). We experimentally demonstrate DB using a superconducting transmon qubit and support these results with a simple analytical model and master equation simulations. Our findings uncover critical errors missed by conventional RB and point to strategies to mitigate these errors. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# PLMを用いたFew-Shot Intent Detectorの最小化
Minimizing PLM-Based Few-Shot Intent Detectors ( http://arxiv.org/abs/2407.09943v1 ) ライセンス: Link先を確認 | Haode Zhang, Xiao-Ming Wu, Albert Y. S. Lam, | (参考訳) 近年の研究では、ラベル付きデータによる事前学習言語モデル~(PLM)に基づく効率的な意図検出の訓練が可能であることが実証されている。
しかし、モバイルデバイスのようなリソース制約のある環境にこれらの検出器を配置することは、そのサイズが大きいため、課題となる。
本研究では, PLM をベースとしたインテント検出装置のサイズを最小化するため, この課題に対処することを目的としている。
具体的には,大規模言語モデル(LLM)をデータ拡張に利用し,知識蒸留に最先端モデル圧縮法を用い,V-Pruneと呼ばれる語彙解析機構を考案する。
これらの手法により,トランスフォーマーとボキャブラリの両方を含むモデルメモリ使用率21の圧縮比を実現し,実世界の4つのベンチマークでほぼ同じ性能を維持した。
Recent research has demonstrated the feasibility of training efficient intent detectors based on pre-trained language model~(PLM) with limited labeled data. However, deploying these detectors in resource-constrained environments such as mobile devices poses challenges due to their large sizes. In this work, we aim to address this issue by exploring techniques to minimize the size of PLM-based intent detectors trained with few-shot data. Specifically, we utilize large language models (LLMs) for data augmentation, employ a cutting-edge model compression method for knowledge distillation, and devise a vocabulary pruning mechanism called V-Prune. Through these approaches, we successfully achieve a compression ratio of 21 in model memory usage, including both Transformer and the vocabulary, while maintaining almost identical performance levels on four real-world benchmarks. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# 低ランク相互接続型アダプティブ層
Low-Rank Interconnected Adaptation Across Layers ( http://arxiv.org/abs/2407.09946v1 ) ライセンス: Link先を確認 | Yibo Zhong, Yao Zhou, | (参考訳) 低ランク適応(LoRA)は、パラメータ効率の良い微調整の最もよく知られた方法の一つであり、バックボーンモデルを凍結し、モデルの各層に並列アダプタモジュールを導入する。
これらのモジュールは、低次元プロジェクタ (LP) と高次元プロジェクタ (HP) の2つの低階トレーニング可能な行列で構成され、モデルウェイトを更新するための変更を近似した製品である。
しかし、LoRAのペアLPとHPは、トランスフォーマーのようなモデルで積み重ねられた層によって抽出された様々な情報を無視して、特定の特徴に重みを学習した。
重みを学習する際、層間の違いを考慮し、それら間の接続を確立することにより、微調整時にこの相互対応を用いて下流タスクの関連情報の捕捉を強化する。
一方、各層の特徴を保存し、特定の割合で様々な層の学習特性を選択的に混合することは、特定のタスクにおいても重要である。
本稿では,層間(Lily)における低ランク相互接続適応を提案する。
具体的には、低次元特徴投影のための層特異的LP(ローカルLP)を保持し、全てのHPをモデルワイドグローバルHPに統一することにより、LoRAにおける層特異的制約を克服する。
グローバルなHPは、レイヤに依存しない複数のHPサブモジュールをサポートし、あるいはMixture of Experts (MoE)にインスパイアされたHPの専門家は、すべてのレイヤの深さにわたって学習特性をキャプチャする。
すべての専門家を混ぜ合わせるために、私たちはMoEにインスパイアされたルータを使用して異なるレイヤの特徴を選択的に適応させ、ユニークな専門家分布を得る。
我々は、Lilyを幅広いダウンストリームタスクで評価し、最先端の成果を達成し、LoRAと様々な競争手法を上回りました。
コードはhttps://github.com/blameitonme1/lilyで入手できる。
Low-rank adaptation (LoRA), as one of the most well-known representative methods of parameter-efficient fine-tuning, freezes the backbone model and introduces parallel adapter modules to each layer of the model. These modules consist of two low-rank trainable matrices: a low-dimension projector (LP) and a high-dimension projector (HP) with their product approximating the change for updating the model weight. However, LoRA's paired LP and HP per layer limit learned weights to specific features, ignoring the varied information extracted by stacked layers in models like Transformers. By considering the differences between layers and establishing connections across them when learning the weights, we enhance the capture of relevant information for downstream tasks using this interconnected adaptation when fine-tuning. Meanwhile, preserving the unique characteristics of each layer and thus selectively mix the learning traits of various layers according to a specific ratio can also be crucial in certain tasks. In this paper, we propose Low-rank Interconnected adaptation across layers (Lily). Specifically, we retain layer-specific LPs (local LPs) for low-dimensional feature projection and unify all HPs into a model-wide global HP, thereby overcoming layer-specific constraints in LoRA. The global HP, layer-independent, supports multiple HP sub-modules, or inspired by Mixture of Experts (MoE), HP experts capturing learning traits across all layer depths. For the ratio to mix all the experts, we use a router inspired by MoE to selectively adapt the features of different layers, thus obtaining a unique expert distribution. We evaluated Lily on a wide range of downstream tasks and achieved state-of-the-art results, outperforming LoRA and a range of competitive methods. Code will be available at https://github.com/blameitonme1/lily. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# 感情認識における脳波信号にニューラルガス特徴を付加したPSOファジィXGBoost分類器
PSO Fuzzy XGBoost Classifier Boosted with Neural Gas Features on EEG Signals in Emotion Recognition ( http://arxiv.org/abs/2407.09950v1 ) ライセンス: Link先を確認 | Seyed Muhammad Hossein Mousavi, | (参考訳) 感情認識は、表情、音声パターン、身体の動き、脳波などの生理的信号など、さまざまなデータソースから人間の感情を識別し分類する技術駆動のプロセスである。
これらの生理学的指標は、データに富んでいるが、その複雑さと変動性のために課題を示し、洗練された特徴の選択と抽出方法を必要とする。
NGNは、教師なし学習アルゴリズムであり、事前に定義されたグリッド構造を持たない入力空間に効果的に適応し、生理的データからの特徴抽出を改善する。
さらに、ファジィ論理の組み込みにより、人間の意思決定を模倣する推論を導入することにより、ファジィデータの処理が可能となる。
PSOとXGBoostの組み合わせは、効率的なハイパーパラメータチューニングと決定プロセス最適化によるモデル性能の最適化を支援する。
本研究では, ニューラルネットワーク(NGN), XGBoost, Particle Swarm Optimization (PSO) とファジィ論理を統合し, 生理的信号を用いた感情認識の促進を図る。
本研究は,PSOとファジィ論理によるXGBoostの改良,NGNの特徴選択における有効性,および標準ベンチマークによるPSOファジィXGBoost分類器の性能比較に関する3つの重要な疑問に対処する。
得られた結果から,我々の手法は感情認識システムの精度を高め,多くの分類器を用いた他の特徴選択技術よりも優れており,理論的進歩と感情認識技術への実践的応用の両方に有意な影響を及ぼす可能性が示唆された。
Emotion recognition is the technology-driven process of identifying and categorizing human emotions from various data sources, such as facial expressions, voice patterns, body motion, and physiological signals, such as EEG. These physiological indicators, though rich in data, present challenges due to their complexity and variability, necessitating sophisticated feature selection and extraction methods. NGN, an unsupervised learning algorithm, effectively adapts to input spaces without predefined grid structures, improving feature extraction from physiological data. Furthermore, the incorporation of fuzzy logic enables the handling of fuzzy data by introducing reasoning that mimics human decision-making. The combination of PSO with XGBoost aids in optimizing model performance through efficient hyperparameter tuning and decision process optimization. This study explores the integration of Neural-Gas Network (NGN), XGBoost, Particle Swarm Optimization (PSO), and fuzzy logic to enhance emotion recognition using physiological signals. Our research addresses three critical questions concerning the improvement of XGBoost with PSO and fuzzy logic, NGN's effectiveness in feature selection, and the performance comparison of the PSO-fuzzy XGBoost classifier with standard benchmarks. Acquired results indicate that our methodologies enhance the accuracy of emotion recognition systems and outperform other feature selection techniques using the majority of classifiers, offering significant implications for both theoretical advancement and practical application in emotion recognition technology. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# LFFR:(単一出力)回帰のためのロジスティック関数
LFFR: Logistic Function For (single-output) Regression ( http://arxiv.org/abs/2407.09955v1 ) ライセンス: Link先を確認 | John Chiang, | (参考訳) 機械学習におけるプライバシ保存レグレッションは、個人のプライバシを保護しながら強力な機械学習技術の使用を可能にすることを目的とした、研究の重要な領域である。
本稿では,完全同型暗号方式で暗号化されたデータを用いて,プライバシ保護型回帰トレーニングを実装した。
まず、一般的な線形回帰アルゴリズムを検証し、線形回帰トレーニングのための(単純化された)固定ヘシアンを提案し、このアルゴリズムは、正規化されていない任意のデータセットに対しても、$[0, 1]$の範囲で適用することができる。
また、この定数 Hessian 行列をリッジ回帰版、すなわち、大きな係数をペナライズする正規化項を含む線形回帰版に一般化する。
しかし、ロジスティック関数を用いて、線形回帰と比較して入力値と出力予測の間のより複雑な関係をモデル化可能な、新しい、効率的なアルゴリズムLFFRを開発することが主な貢献である。
また、Newtonライクな手法を用いてLFFRアルゴリズムをトレーニングするために、定常的に単純化されたHessianを、2つの実世界のデータセット上の新しい固定されたHessian線形回帰トレーニングと比較する。
例えば、[5, +5]$は、暗号文の設定パラメータのリフレッシュに役立ち、正規化パラメータ$\lambda$をクロスバリデーション経由でチューニングするのを避ける。
正規化予測を伴う線形回帰はリッジ回帰の代替となる可能性がある。
Privacy-preserving regression in machine learning is a crucial area of research, aimed at enabling the use of powerful machine learning techniques while protecting individuals' privacy. In this paper, we implement privacy-preserving regression training using data encrypted under a fully homomorphic encryption scheme. We first examine the common linear regression algorithm and propose a (simplified) fixed Hessian for linear regression training, which can be applied for any datasets even not normalized into the range $[0, 1]$. We also generalize this constant Hessian matrix to the ridge regression version, namely linear regression which includes a regularization term to penalize large coefficients. However, our main contribution is to develop a novel and efficient algorithm called LFFR for homomorphic regression using the logistic function, which could model more complex relations between input values and output prediction in comparison with linear regression. We also find a constant simplified Hessian to train our LFFR algorithm using the Newton-like method and compare it against to with our new fixed Hessian linear regression training over two real-world datasets. We suggest normalizing not only the data but also the target predictions even for the original linear regression used in a privacy-preserving manner, which is helpful to remain weights in a small range, say $[-5, +5]$ good for refreshing ciphertext setting parameters, and avoid tuning the regularization parameter $\lambda$ via cross validation. The linear regression with normalized predictions could be a viable alternative to ridge regression. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# 犯罪のパートナー:フェデレート・ラーニングへの攻撃を狙う
Partner in Crime: Boosting Targeted Poisoning Attacks against Federated Learning ( http://arxiv.org/abs/2407.09958v1 ) ライセンス: Link先を確認 | Shihua Sun, Shridatt Sugrim, Angelos Stavrou, Haining Wang, | (参考訳) フェデレートラーニング(FL)は、ソースクラスからターゲットクラスに特に誤分類を引き起こすことを目的とした、標的となる中毒攻撃に対する脆弱性を公開する。
しかし、十分に確立された防御フレームワークを使用することで、これらの攻撃による有害な影響を大幅に軽減することができる。
本稿では,BOTPA (Boost Targeted Poisoning Attacks to FL) の一般向け事前訓練ステージアプローチを提案する。
その設計の根拠は、ソースやターゲットクラス以外のものを含むすべてのデータポイントのモデル更新コントリビューションを活用して、Amplifierセットを構築することです。
種々の標的毒素に対するBoTPAの有効性と適合性を包括的に評価した。
データ中毒攻撃下では,BoTPAは攻撃成功率(RI-ASR)の中央値が15.3%から36.9%の範囲で,攻撃成功率(RI-ASR)の中央値に達することが判明した。
モデル中毒の文脈では、BoTPAは13.3%から94.7%までのRI-ASRを、CrumとMulti-Krumの防衛で2.6%から49.2%、Flamの防衛で2.9%から63.5%に到達している。
Federated Learning (FL) exposes vulnerabilities to targeted poisoning attacks that aim to cause misclassification specifically from the source class to the target class. However, using well-established defense frameworks, the poisoning impact of these attacks can be greatly mitigated. We introduce a generalized pre-training stage approach to Boost Targeted Poisoning Attacks against FL, called BoTPA. Its design rationale is to leverage the model update contributions of all data points, including ones outside of the source and target classes, to construct an Amplifier set, in which we falsify the data labels before the FL training process, as a means to boost attacks. We comprehensively evaluate the effectiveness and compatibility of BoTPA on various targeted poisoning attacks. Under data poisoning attacks, our evaluations reveal that BoTPA can achieve a median Relative Increase in Attack Success Rate (RI-ASR) between 15.3% and 36.9% across all possible source-target class combinations, with varying percentages of malicious clients, compared to its baseline. In the context of model poisoning, BoTPA attains RI-ASRs ranging from 13.3% to 94.7% in the presence of the Krum and Multi-Krum defenses, from 2.6% to 49.2% under the Median defense, and from 2.9% to 63.5% under the Flame defense. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# TrIM: 勾配に基づく次元減少と高次元回帰のための形質転換した反復モンドリアン林
TrIM: Transformed Iterative Mondrian Forests for Gradient-based Dimension Reduction and High-Dimensional Regression ( http://arxiv.org/abs/2407.09964v1 ) ライセンス: Link先を確認 | Ricardo Baptista, Eliza O'Reilly, Yangxinyu Xie, | (参考訳) 勾配に基づく線形次元の削減と高次元回帰のための計算効率の良いアルゴリズムを提案する。
このアルゴリズムはまずモンドリアンの森を計算し、回帰関数の予測勾配外積(EGOP)の推定値から入力の関連する特徴部分空間を推定するためにこの推定器を使用する。
さらに,モンドリアン分割機構で用いられる特徴と重みの集合をEGOP推定値を用いて更新することにより,モンドリアン森林推定量を改善するため,トランスフォーメート・イテレーティブ・モンドリアン森林 (TrIM) と呼ばれる反復的アプローチを導入する。
我々は、EGOP行列とTrIMアルゴリズムの1イテレーションから得られたランダム森林推定器の整合性保証と収束率を求める。
最後に、シミュレーションデータと実データの両方を用いて、関連する特徴部分空間を多種多様な設定で学習するための提案アルゴリズムの有効性を実証する。
We propose a computationally efficient algorithm for gradient-based linear dimension reduction and high-dimensional regression. The algorithm initially computes a Mondrian forest and uses this estimator to identify a relevant feature subspace of the inputs from an estimate of the expected gradient outer product (EGOP) of the regression function. In addition, we introduce an iterative approach known as Transformed Iterative Mondrian (TrIM) forest to improve the Mondrian forest estimator by using the EGOP estimate to update the set of features and weights used by the Mondrian partitioning mechanism. We obtain consistency guarantees and convergence rates for the estimation of the EGOP matrix and the random forest estimator obtained from one iteration of the TrIM algorithm. Lastly, we demonstrate the effectiveness of our proposed algorithm for learning the relevant feature subspace across a variety of settings with both simulated and real data. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# 対話型ビデオ生成のためのオンライン・スケール・トランスフォーメーションの学習
Learning Online Scale Transformation for Talking Head Video Generation ( http://arxiv.org/abs/2407.09965v1 ) ライセンス: Link先を確認 | Fa-Ting Hong, Dan Xu, | (参考訳) ワンショット音声ヘッドビデオ生成は、ソースイメージと駆動ビデオを使用して、ソース人の顔の動きが駆動ビデオの動作を模倣する合成ビデオを作成する。
しかし、音源と駆動画像のスケールの違いは、顔再現の課題である。
既存の方法では、ソース画像と最適に整合するドライビングビデオ内のフレームを見つけようとするが、不正確なアライメントは、最適以下の結果をもたらす。
この目的のために、ソース画像と駆動フレームの検出キーポイントに保持されているスケール差の情報を用いて、ソース画像のスケールを自動調整してソース画像のスケールに適合させることができるスケール変換モジュールを導入する。
さらに, 生成過程において顔のスケール情報を認識し続けるために, スケール変換モジュールから得られたスケール情報を生成過程の各層に組み込んで, 正確なスケールで最終的な結果を生成する。
提案手法は,提案したオンラインスケール変換顔再現ネットワークのコントリビューションにより,アンカーフレームを使わずに2つの画像間の正確な動き伝達を行うことができる。
大規模な実験により,提案手法は原面に応じて自動で駆動面のスケールを調整し,顔のクロスアイデンティティの再現において高精度なスケールで高品質な顔を生成することを示した。
One-shot talking head video generation uses a source image and driving video to create a synthetic video where the source person's facial movements imitate those of the driving video. However, differences in scale between the source and driving images remain a challenge for face reenactment. Existing methods attempt to locate a frame in the driving video that aligns best with the source image, but imprecise alignment can result in suboptimal outcomes. To this end, we introduce a scale transformation module that can automatically adjust the scale of the driving image to fit that of the source image, by using the information of scale difference maintained in the detected keypoints of the source image and the driving frame. Furthermore, to keep perceiving the scale information of faces during the generation process, we incorporate the scale information learned from the scale transformation module into each layer of the generation process to produce a final result with an accurate scale. Our method can perform accurate motion transfer between the two images without any anchor frame, achieved through the contributions of the proposed online scale transformation facial reenactment network. Extensive experiments have demonstrated that our proposed method adjusts the scale of the driving face automatically according to the source face, and generates high-quality faces with an accurate scale in the cross-identity facial reenactment. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# 自動車用リIDのROI最適化
Optimizing ROI Benefits Vehicle ReID in ITS ( http://arxiv.org/abs/2407.09966v1 ) ライセンス: Link先を確認 | Mei Qiu, Lauren Ann Christopher, Lingxi Li, Stanley Chien, Yaobin Chen, | (参考訳) 車両再識別(英: Vehicle re-identification、ReID)とは、監視システムにおいて、異なるカメラや視点で同じ車両と一致するコンピュータビジョンタスクである。
インテリジェントトランスポーテーションシステム(ITS: Intelligent Transportation Systems)では、車載画像が収穫される地域の影響を受けやすい。
本研究では,検出信頼度スコアによって導かれる最適な車両検出領域が,特徴マッチングとReIDタスクを向上できるかどうかを検討する。
複数の関心領域(ROI)と車線対応の車両数を用いて、私たちはYOLOv8を使って検出し、DeepSORTを使ってインディアナハイウェイの12の動画を追跡しました。
追跡された車両画像は、ROIの内外から5コマ間隔で収集された。
ResNet50、ResNeXt50、Vision Transformer、Swin-Transformerといった事前訓練されたモデルを使って特徴を抽出した。
特徴整合性はコサイン類似性,情報エントロピー,クラスタリング分散を通じて評価された。
その結果, ROI内部で採取した画像の特徴は, ROI内部とROI外部の画像を対象とする画像と比較すると, 平均コサイン類似度が高いことがわかった。
最も顕著な違いは、夜間(0.7842内、ROI外、Swin-Transformer外、0.5外)と、カメラ横断シナリオ(0.75内、Vision Transformer外、0.52外)で観察された。
情報エントロピーとクラスタリングの分散は、ROIの特徴がより一貫したものになることをさらに支持します。
これらの結果から,戦略的に選択されたROIは,ITSにおけるトラッキング性能とReID精度を向上させることが示唆された。
Vehicle re-identification (ReID) is a computer vision task that matches the same vehicle across different cameras or viewpoints in a surveillance system. This is crucial for Intelligent Transportation Systems (ITS), where the effectiveness is influenced by the regions from which vehicle images are cropped. This study explores whether optimal vehicle detection regions, guided by detection confidence scores, can enhance feature matching and ReID tasks. Using our framework with multiple Regions of Interest (ROIs) and lane-wise vehicle counts, we employed YOLOv8 for detection and DeepSORT for tracking across twelve Indiana Highway videos, including two pairs of videos from non-overlapping cameras. Tracked vehicle images were cropped from inside and outside the ROIs at five-frame intervals. Features were extracted using pre-trained models: ResNet50, ResNeXt50, Vision Transformer, and Swin-Transformer. Feature consistency was assessed through cosine similarity, information entropy, and clustering variance. Results showed that features from images cropped inside ROIs had higher mean cosine similarity values compared to those involving one image inside and one outside the ROIs. The most significant difference was observed during night conditions (0.7842 inside vs. 0.5 outside the ROI with Swin-Transformer) and in cross-camera scenarios (0.75 inside-inside vs. 0.52 inside-outside the ROI with Vision Transformer). Information entropy and clustering variance further supported that features in ROIs are more consistent. These findings suggest that strategically selected ROIs can enhance tracking performance and ReID accuracy in ITS. | 翻訳日:2024-07-16 20:08:02 公開日:2024-07-13 |
# 造形モデルを用いたフェデレーション学習システムにおける私的医用画像のハーベスティング
Harvesting Private Medical Images in Federated Learning Systems with Crafted Models ( http://arxiv.org/abs/2407.09972v1 ) ライセンス: Link先を確認 | Shanghao Shi, Md Shahedul Haque, Abhijeet Parida, Marius George Linguraru, Y. Thomas Hou, Syed Muhammad Anwar, Wenjing Lou, | (参考訳) フェデレートラーニング(FL)は、一連のクライアントが、ローカルトレーニングサンプルを公開することなく、機械学習モデルを協調的にトレーニングすることを可能にする。
この文脈では、プライバシ保護であると考えられており、それゆえ、医療センターがプライベートデータ上で機械学習モデルをトレーニングするために採用されている。
しかし,本稿では,悪意のあるパラメータサーバが,クライアントがアップロードしたモデル更新から高忠実度患者イメージを復元することのできる,MediLeakという新たな攻撃を提案する。
MediLeakはサーバに対して、オリジナルのモデルアーキテクチャの前に工芸的なモジュールを追加することで、敵モデルを生成することを要求する。
通常のFLトレーニングプロセスでクライアントに公開され、各クライアントは、対応するモデル更新を生成するために、その上でローカルトレーニングを実行する。
そして、FLプロトコルに基づいて、モデル更新をサーバに送信し、提案手法により、工芸モジュールのパラメータ更新からプライベートデータを復元する。
MediLeakの包括的分析を行い、FLシステムをプライバシ推論攻撃から保護するために設計された最先端の暗号化セキュアアグリゲーションプロトコルを破ることに成功したことを示す。
MedMNIST と COVIDx CXR-4 のデータセットに MediLeak を実装した。
その結果、MediLeakは高いリカバリ率と定量的スコアで、ほぼ完全にプライベートイメージを復元できることがわかった。
さらに,回復したデータを用いた疾患分類などの下流タスクも実施し,本研究の結果は,元のトレーニングサンプルと比較すると,有意な性能低下は示さなかった。
Federated learning (FL) allows a set of clients to collaboratively train a machine-learning model without exposing local training samples. In this context, it is considered to be privacy-preserving and hence has been adopted by medical centers to train machine-learning models over private data. However, in this paper, we propose a novel attack named MediLeak that enables a malicious parameter server to recover high-fidelity patient images from the model updates uploaded by the clients. MediLeak requires the server to generate an adversarial model by adding a crafted module in front of the original model architecture. It is published to the clients in the regular FL training process and each client conducts local training on it to generate corresponding model updates. Then, based on the FL protocol, the model updates are sent back to the server and our proposed analytical method recovers private data from the parameter updates of the crafted module. We provide a comprehensive analysis for MediLeak and show that it can successfully break the state-of-the-art cryptographic secure aggregation protocols, designed to protect the FL systems from privacy inference attacks. We implement MediLeak on the MedMNIST and COVIDx CXR-4 datasets. The results show that MediLeak can nearly perfectly recover private images with high recovery rates and quantitative scores. We further perform downstream tasks such as disease classification with the recovered data, where our results show no significant performance degradation compared to using the original training samples. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# PFPs:大規模視覚モデルと言語モデルを用いた様々な電位出力に対するプロンプト誘導型フレキシブルな病理分類
PFPs: Prompt-guided Flexible Pathological Segmentation for Diverse Potential Outcomes Using Large Vision and Language Models ( http://arxiv.org/abs/2407.09979v1 ) ライセンス: Link先を確認 | Can Cui, Ruining Deng, Junlin Guo, Quan Liu, Tianyuan Yao, Haichun Yang, Yuankai Huo, | (参考訳) Vision Foundation Modelは、最近、医療画像分析に注目を集めている。
そのゼロショット学習能力は、AIの展開を加速し、臨床応用の一般化性を高める。
しかし, セグメンテーション画像は, セグメンテーション対象の柔軟性に特に焦点が当てられている。
例えば、WSI(Whole Slide Image)のワンクリックは、セル、機能ユニット、レイヤを意味し、セグメンテーションタスクに複雑なレイヤを追加する。
現在のモデルは、主に潜在的な結果を予測するが、医師の入力に必要な柔軟性は欠如している。
本稿では,従来のタスクトークンと並行して,Large Language Model (LLM) を通じて様々なタスクプロンプトを導入することにより,セグメンテーションモデルの柔軟性を高める可能性を検討する。
コントリビューションは,(1)フレキシブルなマルチクラスセグメンテーションを誘導するために,微調整言語プロンプトを用いた計算効率の高いパイプラインを構築すること,(2)セグメンテーション性能を自由テキストに対する固定プロンプトと比較すること,(3)マルチタスク腎病理セグメンテーションデータセットとそれに対応する各種自由テキストプロンプトを設計すること,(4)腎臓病理データセットに対するアプローチを評価し,推論中の新しいケースにその能力を評価すること,である。
The Vision Foundation Model has recently gained attention in medical image analysis. Its zero-shot learning capabilities accelerate AI deployment and enhance the generalizability of clinical applications. However, segmenting pathological images presents a special focus on the flexibility of segmentation targets. For instance, a single click on a Whole Slide Image (WSI) could signify a cell, a functional unit, or layers, adding layers of complexity to the segmentation tasks. Current models primarily predict potential outcomes but lack the flexibility needed for physician input. In this paper, we explore the potential of enhancing segmentation model flexibility by introducing various task prompts through a Large Language Model (LLM) alongside traditional task tokens. Our contribution is in four-fold: (1) we construct a computational-efficient pipeline that uses finetuned language prompts to guide flexible multi-class segmentation; (2) We compare segmentation performance with fixed prompts against free-text; (3) We design a multi-task kidney pathology segmentation dataset and the corresponding various free-text prompts; and (4) We evaluate our approach on the kidney pathology dataset, assessing its capacity to new cases during inference. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# 言語モデルを用いたA*探索の高速化のためのトレーニングデータ
A Training Data Recipe to Accelerate A* Search with Language Models ( http://arxiv.org/abs/2407.09985v1 ) ライセンス: Link先を確認 | Devaansh Gupta, Boyang Li, | (参考訳) AI計画における最近の研究は、ALMをA*やMCTSのような反復木探索アルゴリズムと組み合わせることを提案している。
しかし、これらの手法を組み合わせることは簡単ではない。LMベースのヒューリスティックは極めて弱く、計算コストが高く、性能が大幅に向上しない。
これらのヒューリスティックを学習する既存の方法は、プランナーの要求を考慮せず、通常多くの計算を必要とする。
そこで本研究では,計算コストを抑えながら,関連するデータポイントを同定し,性能的ヒューリスティックを学習することで,トレーニングデータをダウンサンプルする分布を提案する。
このモデルに到達するために、我々は、A*探索の場合のプランナーの要求を言語モデルから切り離して、このタスクを一般化する。
A*は目標に近いノードに対してより正確な予測を必要とし、LMは効率的な一般化のために同じノードセットを必要とする。
これらの知見により,各ノードのA*探索促進への寄与を定量化し,その後,LMに基づくヒューリスティックス学習のためのトレーニング分布を導出する。
最近の研究の後、我々は2つの古典的計画領域、迷路ナビゲーションとソコバン、ドメイン毎に2つのテスト分割と2つの従来の損失関数について実験を行った。
解を見つけるのに必要な反復回数を最大13倍に減らし,ウォールクロックの高速化を最大5倍にする。
Recent works in AI planning have proposed to combine LLMs with iterative tree-search algorithms like A* and MCTS, where LLMs are typically used to calculate the heuristic, guiding the planner towards the goal. However, combining these techniques is not trivial : LM-based heuristics are quite weak, incurring a high computational cost without a significant performance improvement. Existing methods to learn these heuristics do not consider the requirements of the planner, and typically need a lot of compute. Thus, in this work, we propose a distribution to downsample training data by identifying relevant data points to learn a performant heuristic, while constraining computational costs. To arrive at this model, we disentangle the requirements of the planner, in our case A* search, from that of the language model to generalise on this task. Surprisingly, we find an overlap between their requirements; A* requires more accurate predictions on nodes near the goal, and LMs need the same set of nodes for effective generalisation. With these insights, we can quantify the contribution of each node towards accelerating A* search, and subsequently derive a training distribution for learning LM-based heuristics. Following a recent work, we conduct our experiments on two classical planning domains, maze navigation and sokoban, with two test splits per domain, and two conventional loss functions. We reduce the number of iterations required to find the solutions by upto 13x, with a wall-clock speed-up of upto 5x. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# 重力に対する物体操作の強化学習におけるカリキュラムはハプティック情報よりも流動的である
Curriculum Is More Influential Than Haptic Information During Reinforcement Learning of Object Manipulation Against Gravity ( http://arxiv.org/abs/2407.09986v1 ) ライセンス: Link先を確認 | Pegah Ojaghi, Romina Mir, Ali Marjaninejad, Andrew Erwin, Michael Wehner, Francisco J Valero-Cueva, | (参考訳) 指先で物体を持ち上げて回転させる学習は、自律的な手動操作に必要である。
本研究は,本課題の学習戦略における各種要因の影響について考察する。
具体的には,デクスタラス操作の学習において,カリキュラム学習と触覚フィードバックが果たす役割について検討する。
モデルレス強化学習を用いて、視覚的な入力のない3本指のロボットハンドでボールを持ち上げて重力に対して回転させるための異なるカリキュラムと2つの触覚情報モード(No-tactile vs. 3D-force Sensor)を比較した。
カリキュラムベースの学習率スケジューラを用いた場合,報奨が変化した場合に,報奨の収束を加速する線形遅延学習率を調整することにより,報奨率スケジューラが得られた。
以上の結果から,カリキュラムの選択は異質な操作の異なる特徴の獲得に大きく偏っていることが示唆された。
意外なことに、触覚フィードバックがなくても学習を成功させることができ、巧妙な操作タスクに触覚情報が必要であるという従来の仮定に挑戦することができる。
実験結果の一般化可能性について,異なる重みと大きさの球に対して示し,学習手法の頑健さを裏付ける。
この研究は、選択カリキュラムの重要性を強調し、手動操作を自律的に学習する触覚情報の必要性に関する長年の考えに挑戦する。
Learning to lift and rotate objects with the fingertips is necessary for autonomous in-hand dexterous manipulation. In our study, we explore the impact of various factors on successful learning strategies for this task. Specifically, we investigate the role of curriculum learning and haptic feedback in enabling the learning of dexterous manipulation. Using model-free Reinforcement Learning, we compare different curricula and two haptic information modalities (No-tactile vs. 3D-force sensing) for lifting and rotating a ball against gravity with a three-fingered simulated robotic hand with no visual input. Note that our best results were obtained when we used a novel curriculum-based learning rate scheduler, which adjusts the linearly-decaying learning rate when the reward is changed as it accelerates convergence to higher rewards. Our findings demonstrate that the choice of curriculum greatly biases the acquisition of different features of dexterous manipulation. Surprisingly, successful learning can be achieved even in the absence of tactile feedback, challenging conventional assumptions about the necessity of haptic information for dexterous manipulation tasks. We demonstrate the generalizability of our results to balls of different weights and sizes, underscoring the robustness of our learning approach. This work, therefore, emphasizes the importance of the choice curriculum and challenges long-held notions about the need for tactile information to autonomously learn in-hand dexterous manipulation. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# 包摂による卓越性の解き放つ:エンゲージメント・パフォーマンス・パラドックスのナビゲート
Unleashing Excellence through Inclusion: Navigating the Engagement-Performance Paradox ( http://arxiv.org/abs/2407.09987v1 ) ライセンス: Link先を確認 | Nicole Radziwill, Morgan C. Benton, | (参考訳) 自分が属していないと感じている人(または職場で声が聞こえない)は、一般的に、切り離され、非生産的、悲観的になる。
包括的労働環境は、欠勤や転職を減らしながら、従業員の満足度を高めるためにこれらのギャップを埋めることを目指している。
しかし、常にやるべき仕事があり、時間とリソースの制約の下では、民主的なアプローチは品質を低下させ、受け入れられない遅延をもたらす。
チームは、効果に直接影響を与える包括的プラクティスを取り入れるために、実用的なガイダンスが必要です。
本論文は,作業グループに対処し,包括的でハイパフォーマンスな環境を作成し,維持するために必要な8つの要因を,直接的に(かつ肯定的に)性能に影響を及ぼす包摂性の概念モデルを開発することによって,品質とパフォーマンス管理に関する文献に寄与する。
People who feel that they do not belong (or their voice is not heard at work) commonly become disengaged, unproductive, and pessimistic. Inclusive work environments aspire to close these gaps to increase employee satisfaction while reducing absenteeism and turnover. But there is always a job to be done, and under time and resource constraints, democratic approaches can result in reduced quality and unacceptable delays. Teams need actionable guidance to incorporate inclusive practices that will directly impact effectiveness. This paper contributes to the literature on quality and performance management by developing a conceptual model of inclusion that directly (and positively) impacts performance, and identifies eight factors that workgroups must address to create and maintain inclusive, high performing environments. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# 有向ネットワークを表す多ビット状態の絡み合いと量子コンピューティングによる検出
Entanglement of multi-qubit states representing directed networks and its detection with quantum computing ( http://arxiv.org/abs/2407.09990v1 ) ライセンス: Link先を確認 | Kh. P. Gnatenko, | (参考訳) 我々は、有向重み付きグラフ、あるいは有向ネットワークにマッピングできる量子グラフ状態を考える。
任意のグラフに対応する量子グラフ状態に対して、状態の絡み合いの幾何学的測度を計算する。
我々は、対応するグラフの絡み合いと性質の関係を見出す。
すなわち、グラフ状態におけるキュービットの他のキュービットとの絡み合いの幾何学的測度は、グラフ内の対応する頂点の頂点、外度、および無限度を表す頂点に対して、入射アークの重みと関係している。
非重み付きグラフや無向グラフの場合、絡み合いは対応する頂点の次数に依存する。
量子グラフ状態の絡み合いを定量化する量子プロトコルを構築する。
例えば、チェーンに対応する量子グラフ状態を調べ、その状態の絡み合いをAerSimulator上で計算する。
We consider quantum graph states that can be mapped to directed weighted graphs, also known as directed networks. The geometric measure of entanglement of the states is calculated for the quantum graph states corresponding to arbitrary graphs. We find relationships between the entanglement and the properties of the corresponding graphs. Namely, we obtain that the geometric measure of entanglement of a qubit with other qubits in the graph state is related to the weights of ingoing and outgoing arcs with respect to the vertex representing the qubit, outdegree and indegree of the corresponding vertex in the graph. For unweighted and undirected graphs, the entanglement depends on the degree of the corresponding vertex. Quantum protocol for quantifying of the entanglement of the quantum graph states is constructed. As an example, a quantum graph state corresponding to a chain is examined, and the entanglement of the state is calculated on AerSimulator. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# 化学応用のための量子断熱アルゴリズムの実用化
Practicality of quantum adiabatic algorithm for chemistry applications ( http://arxiv.org/abs/2407.09993v1 ) ライセンス: Link先を確認 | Etienne Granet, Khaldoon Ghanem, Henrik Dreyer, | (参考訳) その単純さと強力な理論的保証にもかかわらず、低エネルギー電子構造状態を作るための変分的アプローチよりも断熱的状態の準備にはかなり関心が寄せられている。
この2つの主な理由は、時間依存の電子構造であるハミルトニアンをトロッタリングするのに必要となる多数のゲートと、州内を加熱する離散化誤差である。
最近提案されたランダム化アルゴリズムは, 加熱せずに正確な断熱的進化を実現し, トロッタライゼーションよりもはるかに少ないゲートでこの問題を克服できることを示す。
本研究では, 4-qubit 分子に対して, 誤差低減を必要とせず, 現実的なゲートノイズの存在下で, 化学的に正確な測定結果が得られる3つの方法を開発した。
これらの結果は、状態準備に対する断熱的なアプローチが、ノイズの時代にも、誤り訂正された量子コンピュータにおいても、量子化学シミュレーションにおいて重要な役割を担っていることを示唆している。
Despite its simplicity and strong theoretical guarantees, adiabatic state preparation has received considerably less interest than variational approaches for the preparation of low-energy electronic structure states. Two major reasons for this are the large number of gates required for Trotterising time-dependent electronic structure Hamiltonians, as well as discretisation errors heating the state. We show that a recently proposed randomized algorithm, which implements exact adiabatic evolution without heating and with far fewer gates than Trotterisation, can overcome this problem. We develop three methods for measuring the energy of the prepared state in an efficient and noise-resilient manner, yielding chemically accurate results on a 4-qubit molecule in the presence of realistic gate noise, without the need for error mitigation. These findings suggest that adiabatic approaches to state preparation could play a key role in quantum chemistry simulations both in the era of noisy as well as error-corrected quantum computers. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# 大規模データ駆動型縮小モデリングのための分散コンピューティング:回転起爆ロケットエンジンへの適用
Distributed computing for physics-based data-driven reduced modeling at scale: Application to a rotating detonation rocket engine ( http://arxiv.org/abs/2407.09994v1 ) ライセンス: Link先を確認 | Ionut-Gabriel Farcas, Rayomand P. Gundevia, Ramakanth Munipalli, Karen E. Willcox, | (参考訳) ハイパフォーマンスコンピューティング(HPC)は、複雑な現実世界のプロセスの詳細なシミュレーションを行う能力に革命をもたらした。
HPCは次世代のロケットエンジンの設計を支援するために回転起爆ロケットエンジン(RDRE)シミュレーションに使用されるが、これらのシミュレーションは強力なスーパーコンピュータでも数百万時間を要するため、設計調査やリスク評価のような工学的なタスクでは実用的ではない。
減階モデル(ROM)は、高忠実度モデルのサロゲートとして機能する計算的に安価だが十分正確な近似を構築することで、この制限に対処する。
本稿では,超大次元のスパースデータセットから学習した予測物理ベースのROMを高速かつスケーラブルに構築する分散アルゴリズムを提案する。
このアルゴリズムは、それらのデータセットの基盤となる力学系を近似する構造化された物理ベースのROMを学習する。
これにより、既存のアプローチの能力を超える規模の問題と複雑さのモデル削減が可能になる。
テキサス・アドバンスト・コンピューティング・センター(Texas Advanced Computing Center)のFroneraスーパーコンピュータ上で,最大2,048ドルのコアを使ってアルゴリズムのスケーラビリティを実証する。
我々は、シミュレーションされた物理時間の1ミリ秒がスーパーコンピュータ上で100万コア時間を必要とする実世界の3次元RDREに焦点を当てる。
当社の分散アルゴリズムでは,2,536ドルのトレーニングデータセットを使用して,Fronteraの2,048ドルのコア上で,予測データ駆動型リダクションモデルの構築をわずか13ドル秒で実現しています。
High-performance computing (HPC) has revolutionized our ability to perform detailed simulations of complex real-world processes. A prominent contemporary example is from aerospace propulsion, where HPC is used for rotating detonation rocket engine (RDRE) simulations in support of the design of next-generation rocket engines; however, these simulations take millions of core hours even on powerful supercomputers, which makes them impractical for engineering tasks like design exploration and risk assessment. Reduced-order models (ROMs) address this limitation by constructing computationally cheap yet sufficiently accurate approximations that serve as surrogates for the high-fidelity model. This paper contributes a new distributed algorithm that achieves fast and scalable construction of predictive physics-based ROMs trained from sparse datasets of extremely large state dimension. The algorithm learns structured physics-based ROMs that approximate the dynamical systems underlying those datasets. This enables model reduction for problems at a scale and complexity that exceeds the capabilities of existing approaches. We demonstrate our algorithm's scalability using up to $2,048$ cores on the Frontera supercomputer at the Texas Advanced Computing Center. We focus on a real-world three-dimensional RDRE for which one millisecond of simulated physical time requires one million core hours on a supercomputer. Using a training dataset of $2,536$ snapshots each of state dimension $76$ million, our distributed algorithm enables the construction of a predictive data-driven reduced model in just $13$ seconds on $2,048$ cores on Frontera. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# MOAT:RowhammerとRow Activation Countersを安全に移行
MOAT: Securely Mitigating Rowhammer with Per-Row Activation Counters ( http://arxiv.org/abs/2407.09995v1 ) ライセンス: Link先を確認 | Moinuddin Qureshi, Salman Qazi, | (参考訳) Rowhammerによるセキュリティ上の脆弱性は、過去10年間で悪化しており、TRRのような既存のDRAMソリューションは、単純なパターンで壊れている。
これに対して、DDR5仕様は、各行にインライン化されたカウンタを持つper-Row Activation Counting (PRAC) と、DRAMが緩和するのにより多くの時間を必要とする場合、メモリコントローラを止めるALERT-Back-Off (ABO) をサポートするように拡張されている。
PRAC+ABOはRowhammer保護の強力な進歩を示しているが、それらは単なるフレームワークであり、実際のセキュリティは実装に依存している。
本稿では,先述のPanopticon(PRAC+ABOの基礎となったPanopticon)が安全でないことを示し,Jailbreakパターンは128の閾値に設定されたPanopticonの攻撃行に対して150のアクティベーションを引き起こす可能性がある。
次に、ETH、行を緩和するための"Eligibility Threshold"、ABOを開始するための"ALERT Threshold"の2つの内部しきい値を用いて、確実に安全な設計であるMOATを提案する。
JEDEC仕様では連続ALERT間のいくつかのアクティベーションが許されているため、攻撃者がそのようなアクティベーションを利用して攻撃列上のATHよりも多くのアクティベーションを発生させる方法も検討している。
ATH=64で設定したMOATはRowhammer閾値99。
最後に、ALERTによるパフォーマンスアタックやサービス拒否についても検討する。
SPECとGAPのワークロードを用いて評価した結果,ATH=64のMOATは平均スローダウン0.28\%,SRAMは7バイトであることがわかった。
The security vulnerabilities due to Rowhammer have worsened over the last decade, with existing in-DRAM solutions, such as TRR, getting broken with simple patterns. In response, the DDR5 specifications have been extended to support Per-Row Activation Counting (PRAC), with counters inlined with each row, and ALERT-Back-Off (ABO) to stop the memory controller if the DRAM needs more time to mitigate. Although PRAC+ABO represents a strong advance in Rowhammer protection, they are just a framework, and the actual security is dependent on the implementation. In this paper, we first show that a prior work, Panopticon (which formed the basis for PRAC+ABO), is insecure, as our Jailbreak pattern can cause 1150 activations on an attack row for Panopticon configured for a threshold of 128. We then propose MOAT, a provably secure design, which uses two internal thresholds: ETH, an "Eligibility Threshold" for mitigating a row, and ATH, an "ALERT Threshold" for initiating an ABO. As JEDEC specifications permit a few activations between consecutive ALERTs, we also study how an attacker can exploit such activations to inflict more activations than ATH on an attack row and thus increase the tolerated Rowhammer threshold. Our analysis shows that MOAT configured with ATH=64 can safely tolerate a Rowhammer threshold of 99. Finally, we also study performance attacks and denial-of-service due to ALERTs. Our evaluations, with SPEC and GAP workloads, show that MOAT with ATH=64 incurs an average slowdown of 0.28\% and 7 bytes of SRAM per bank. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# 量子位相空間を用いた理想フェルミガスと理想ボースガスの改良モデル
Improved models for ideal Fermi gas and ideal Bose gas using quantum phase space ( http://arxiv.org/abs/2407.09998v1 ) ライセンス: Link先を確認 | Rivo Herivola Manjakamanana Ravelonjato, Ravo Tokiniaina Ranaivoson, Raoelina Andriambololona, Roland Raboanary, Naivo Rabesiranana, | (参考訳) 理想フェルミ気体と理想ボース気体の現在のモデルは、しばしば量子論と互換性があると考えられている。
しかし、本研究では、不確実性原理に関連する位相空間の量子的性質を厳格に考慮し、これらのモデルに改善を導入するべきである。
改良されたモデルの構築は、近年導入された量子力学と量子位相空間の位相空間表現の概念の利用に基づいている。
気体粒子とその固有状態のハミルトン作用素が第一に決定され、量子統計力学の使用により理想気体自体の熱力学的性質が導かれる。
ボソンとフェルミオンの両方に対して, 熱力学粒子数, 内部エネルギー, グランドキャノニカルポテンシャル, 圧力などの熱力学的量の明示的な表現と, 改良されたモデルに対応する状態方程式を確立する。
これらの式によって導入された補正は、低温および閉じ込められた体積において特に重要であると期待されている。
特に、量子形状とサイズ効果の存在を強調することを許している。
また、熱力学関数と変数は、モータ量子統計分散に直接関係していることが示されている。
古典的理想気体モデルに対応するよく知られた関係は、高温および大体積の漸近限界として改良されたモデルから得ることができる。
The current models of ideal Fermi gas and ideal Bose gas are often considered as compatible with quantum theory. In this work, however, it is shown that improvements should be introduced into these models to rigorously take into account the quantum nature of phase space which is related to the uncertainty principle. The construction of the improved models which are considered is based on the use of the concepts of phase space representation of quantum mechanics and quantum phase space that were introduced and developed recently. Hamiltonian operator of a gas particle and its eigenstates are firstly determined and the use of quantum statistical mechanics leads to the deduction of the thermodynamics properties of the ideal gas itself. The explicit expressions of thermodynamic quantities such as the thermodynamic particles number, the internal energy, the grand canonical potential and the pressure as well as the state equations, corresponding to the improved models, are established for both bosons and fermions. The corrections introduced by these expressions are expected to be particularly significant at low temperature and for confined volume. They permit in particular to highlight the existence of quantum shape and size effects. It is also shown that the thermodynamics functions and variables are directly related to the momenta quantum statistical variances. Well-known relations corresponding to classical ideal gas model can be retrieved from the improved models as asymptotic limits at high temperature and for large volume. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# 臨床画像の少なさ:高能率マルチラベル皮膚病変分類のための非対称多モード融合法
Pay Less On Clinical Images: Asymmetric Multi-Modal Fusion Method For Efficient Multi-Label Skin Lesion Classification ( http://arxiv.org/abs/2407.09999v1 ) ライセンス: Link先を確認 | Peng Tang, Tobias Lasser, | (参考訳) 既存のマルチモーダルアプローチは主に、高度な融合モジュールによるマルチラベル皮膚病変分類性能の向上に重点を置いており、しばしばパラメータの上昇を無視する。
臨床では臨床像と皮膚内視鏡像の両方が診断に有用であるが,皮膚内視鏡像は多彩な皮膚病変の分類においてより重要な視覚的特徴を示す。
本報告では, 効率的なマルチラベル皮膚病変分類のための新しい非対称多モード融合法を提案する。
我々の融合法は2つの革新的なスキームを取り入れている。
まず,非対称核融合構造の有効性を検証する。
臨床画像には軽量で単純なネットワークと、皮膚内視鏡画像にはより重く複雑なネットワークが使われており、両方のモダリティに2つの同一のネットワークを使用する対称核融合構造と比較して大きなパラメータの節約をもたらす。
第2に、画像モダリティ間の相互作用に相互注意モジュールを用いた従来のアプローチとは対照的に、非対称注意モジュールを提案する。
本モジュールは,臨床画像情報のみを利用して皮膚内視鏡画像の特徴を増強し,臨床画像をパイプライン内の補助情報として考慮する。
7点チェックリストデータセットについて広範な実験を行った。
その結果,提案手法のネットワーク構造とトランスフォーマー構造の両方に対する汎用性を実証し,既存の手法よりも優れていることを示す。
Existing multi-modal approaches primarily focus on enhancing multi-label skin lesion classification performance through advanced fusion modules, often neglecting the associated rise in parameters. In clinical settings, both clinical and dermoscopy images are captured for diagnosis; however, dermoscopy images exhibit more crucial visual features for multi-label skin lesion classification. Motivated by this observation, we introduce a novel asymmetric multi-modal fusion method in this paper for efficient multi-label skin lesion classification. Our fusion method incorporates two innovative schemes. Firstly, we validate the effectiveness of our asymmetric fusion structure. It employs a light and simple network for clinical images and a heavier, more complex one for dermoscopy images, resulting in significant parameter savings compared to the symmetric fusion structure using two identical networks for both modalities. Secondly, in contrast to previous approaches using mutual attention modules for interaction between image modalities, we propose an asymmetric attention module. This module solely leverages clinical image information to enhance dermoscopy image features, considering clinical images as supplementary information in our pipeline. We conduct the extensive experiments on the seven-point checklist dataset. Results demonstrate the generality of our proposed method for both networks and Transformer structures, showcasing its superiority over existing methods We will make our code publicly available. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# 多インスタンス部分ラベル学習における不均衡のキャラクタリゼーションと緩和について
On Characterizing and Mitigating Imbalances in Multi-Instance Partial Label Learning ( http://arxiv.org/abs/2407.10000v1 ) ライセンス: Link先を確認 | Kaifu Wang, Efthymia Tsamoura, Dan Roth, | (参考訳) マルチインスタンス部分ラベル学習(MI-PLL)は、部分ラベル学習、潜在構造学習、ニューロシンボリック学習を含む弱い教師付き学習環境である。
MI-PLL では、教師あり学習とは違い、訓練時の分類器への入力は、例 $\textbf{x}$ のタプルであり、監督信号は、金ラベル $\textbf{x}$ の関数 $\sigma$ によって生成される。
金のラベルはトレーニング中に隠されています。
本稿では,MI-PLLの下で異なるクラス(クラス固有のリスク)のインスタンスを分類する際に発生するエラーの相違を,学習の不均衡を特徴づけ,緩和することに焦点を当てる。
学習の不均衡現象は,長期学習の文脈で広く研究されてきたが,MI-PLLの性質は新たな課題をもたらす。
私たちの貢献は以下の通りです。
理論的観点からは、関数 $\sigma$ に依存するクラス固有のリスク境界を導出することにより、学習の不均衡を特徴づける。
隠れラベルが均一に分散されている場合でも,MI-PLLには学習の不均衡が存在することが示唆された。
実用面では,MI-PLLデータのみを用いて隠れラベルの限界を推定する手法を提案する。
次に,隠れラベルの限界を制約として扱うことにより,トレーニング時とテスト時の不均衡を軽減するアルゴリズムを導入する。
最初のアルゴリズムは、擬似ラベル付けのためのMI-PLLの新しい線形プログラミング定式化に依存している。
2つ目は、ロバストな最適輸送に基づいてモデルのスコアを調整する。
我々は,強力なニューロシンボリックとロングテール学習ベースラインを用いた手法の有効性を実証し,オープン課題についても論じる。
Multi-Instance Partial Label Learning (MI-PLL) is a weakly-supervised learning setting encompassing partial label learning, latent structural learning, and neurosymbolic learning. Differently from supervised learning, in MI-PLL, the inputs to the classifiers at training-time are tuples of instances $\textbf{x}$, while the supervision signal is generated by a function $\sigma$ over the gold labels of $\textbf{x}$. The gold labels are hidden during training. In this paper, we focus on characterizing and mitigating learning imbalances, i.e., differences in the errors occurring when classifying instances of different classes (aka class-specific risks), under MI-PLL. The phenomenon of learning imbalances has been extensively studied in the context of long-tail learning; however, the nature of MI-PLL introduces new challenges. Our contributions are as follows. From a theoretical perspective, we characterize the learning imbalances by deriving class-specific risk bounds that depend upon the function $\sigma$. Our theory reveals that learning imbalances exist in MI-PLL even when the hidden labels are uniformly distributed. On the practical side, we introduce a technique for estimating the marginal of the hidden labels using only MI-PLL data. Then, we introduce algorithms that mitigate imbalances at training- and testing-time, by treating the marginal of the hidden labels as a constraint. The first algorithm relies on a novel linear programming formulation of MI-PLL for pseudo-labeling. The second one adjusts a model's scores based on robust optimal transport. We demonstrate the effectiveness of our techniques using strong neurosymbolic and long-tail learning baselines, discussing also open challenges. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# 有限古典および量子効果代数
Finite Classical and Quantum Effect Algebras ( http://arxiv.org/abs/2407.10001v1 ) ライセンス: Link先を確認 | Stan Gudder, | (参考訳) 本稿では、有限効果代数のみを考える。
古典的および量子的効果代数の概念を定義し、作用代数$E$が古典的であることと、すべての効果を測る可観測性が存在する場合に限り、その効果代数$E$が古典的であることを示す。
次に、エフェクト代数の行列表現を検討し、エフェクト代数が古典的であることを証明し、その行列表現がちょうど一つの行を持つ場合に限る。
次に、エフェクト代数の和テーブルについて議論する。
これらは行列表現ほど簡潔ではないが、効果代数の基本演算である効果和についてより直接的な情報を与える。
その後、エフェクト代数について研究し、古典的エフェクト代数が量子エフェクト代数であることを証明した。
最後に、エフェクト代数の合成を考える。
これにより、エフェクト代数によって記述された相互作用系を研究することができる。
2つの効果代数が古典的であることとそれらの合成が古典的であることを示せる。
我々はスケール効果代数だけが古典的効果代数ではないことを指摘し、この研究における原子の重要性を強調する。
In this article, we only consider finite effect algebras. We define the concepts of classical and quantum effect algebras and show that an effect algebra $E$ is classical if and only if there exists an observable that measures every effect of $E$. We next consider matrix representations of effect algebras and prove an effect algebra is classical if and only if its matrix representation has precisely one row. We then discuss sum table for effect algebras. Although these are not as concise as matrix representations, they give more immediate information about effect sums which are the basic operations of an effect algebra. We subsequently study states on effect algebras and prove that classical effect algebras are quantum effect algebras. Finally, we consider composites of effect algebras. This allows us to study interacting systems described by effect algebras. We show that two effect algebras are classical if and only if their composite is classical. We point out that scale effect algebras are not the only classical effect algebras and stress the importance of atoms in this work. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# 重み付き部分モジュラ被覆問題に対する動的アルゴリズム
A Dynamic Algorithm for Weighted Submodular Cover Problem ( http://arxiv.org/abs/2407.10003v1 ) ライセンス: Link先を確認 | Kiarash Banihashem, Samira Goudarzi, MohammadTaghi Hajiaghayi, Peyman Jabbarzade, Morteza Monemizadeh, | (参考訳) 基底集合の要素を挿入・削除する動的設定における部分モジュラー被覆問題の研究を開始する。
古典的部分モジュラー被覆問題では、単調部分モジュラー函数 $f : 2^{V} \to \mathbb{R}^{\ge 0}$ が与えられ、その目標は、制約$f(S) = f(V)$ のコストを最小化する集合 $S \subseteq V$ を得ることである。
これはコンピュータ科学における古典的な問題であり、集合被覆問題、2セット被覆問題を一般化し、集合問題の中でも支配的な問題である。
我々は、この問題を、セットの$V$の更新が、基底セットの$\mathcal{V}$からの要素の挿入と削除の形で行われる動的な設定で考える。
そこで本研究では, 1-O(\epsilon), O(\epsilon^{-1}))$-bicriteria approximation を1回の更新に1-O(\epsilon), O(\epsilon^{-1}))$-bicriteria approximation というランダム化アルゴリズムを提案する。
We initiate the study of the submodular cover problem in dynamic setting where the elements of the ground set are inserted and deleted. In the classical submodular cover problem, we are given a monotone submodular function $f : 2^{V} \to \mathbb{R}^{\ge 0}$ and the goal is to obtain a set $S \subseteq V$ that minimizes the cost subject to the constraint $f(S) = f(V)$. This is a classical problem in computer science and generalizes the Set Cover problem, 2-Set Cover, and dominating set problem among others. We consider this problem in a dynamic setting where there are updates to our set $V$, in the form of insertions and deletions of elements from a ground set $\mathcal{V}$, and the goal is to maintain an approximately optimal solution with low query complexity per update. For this problem, we propose a randomized algorithm that, in expectation, obtains a $(1-O(\epsilon), O(\epsilon^{-1}))$-bicriteria approximation using polylogarithmic query complexity per update. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# 文脈内線形推定のきめ細かい分析:データ、アーキテクチャ、その他
Fine-grained Analysis of In-context Linear Estimation: Data, Architecture, and Beyond ( http://arxiv.org/abs/2407.10005v1 ) ライセンス: Link先を確認 | Yingcong Li, Ankit Singh Rawat, Samet Oymak, | (参考訳) 近年の研究では、線形注意を持つトランスフォーマーは、勾配降下ステップを通した線形推定器を実装することで、文脈内学習(ICL)が可能であることが示されている。
しかし、タスクベクトルと特徴ベクトルがIIDと仮定され、注意重みが完全にパラメータ化されるようなスタイル化された設定では、最適化ランドスケープに関する既存の結果が適用される。
本研究では,アーキテクチャ,低ランクパラメータ化,相関設計へのコントリビューションを通じて,ICLの最適化と一般化のランドスケープをより強く評価する:(1)1層線形アテンションのランドスケープと状態空間モデルである1層H3について検討する。
適切な相関設計の仮定の下では、どちらも1ステップの事前条件勾配降下を実装している。
ネイティブな畳み込みフィルタのおかげで、H3はサンプル重み付けを実装し、適切な設定で線形アテンションより優れているという利点も示している。
2) 相関設計を研究した結果, ICL サンプルの複雑さが分散アライメントからどのような恩恵を受けるかを明らかにするために, 検索拡張生成(RAG)とタスク機能アライメントのための新たなリスクバウンドが提供される。
(3) 共分散スペクトルを用いた低ランクパラメタライズドアテンション重みの最適リスクを導出する。
これを通じて、タスクの共分散のシフトをキャプチャすることで、LoRAが新しいディストリビューションにどのように適応できるかについても光を当てています。
実験結果から理論的知見が得られた。
全体として、本研究はICLの最適化とリスクランドスケープを実際に意味のある設定で探求し、その力学のより詳細な理解に寄与する。
Recent research has shown that Transformers with linear attention are capable of in-context learning (ICL) by implementing a linear estimator through gradient descent steps. However, the existing results on the optimization landscape apply under stylized settings where task and feature vectors are assumed to be IID and the attention weights are fully parameterized. In this work, we develop a stronger characterization of the optimization and generalization landscape of ICL through contributions on architectures, low-rank parameterization, and correlated designs: (1) We study the landscape of 1-layer linear attention and 1-layer H3, a state-space model. Under a suitable correlated design assumption, we prove that both implement 1-step preconditioned gradient descent. We show that thanks to its native convolution filters, H3 also has the advantage of implementing sample weighting and outperforming linear attention in suitable settings. (2) By studying correlated designs, we provide new risk bounds for retrieval augmented generation (RAG) and task-feature alignment which reveal how ICL sample complexity benefits from distributional alignment. (3) We derive the optimal risk for low-rank parameterized attention weights in terms of covariance spectrum. Through this, we also shed light on how LoRA can adapt to a new distribution by capturing the shift between task covariances. Experimental results corroborate our theoretical findings. Overall, this work explores the optimization and risk landscape of ICL in practically meaningful settings and contributes to a more thorough understanding of its mechanics. | 翻訳日:2024-07-16 19:58:18 公開日:2024-07-13 |
# 変形分類のためのSim-to-Real領域適応
Sim-to-Real Domain Adaptation for Deformation Classification ( http://arxiv.org/abs/2407.10011v1 ) ライセンス: Link先を確認 | Joel Sol, Jamil Fayyad, Shadi Alijani, Homayoun Najjaran, | (参考訳) 変形検出は、材料の構造変化の正確な評価と予測を可能にし、安全と整合性を維持するための時間的かつ効果的な介入を確保するために不可欠である。
コンピュータビジョンによる変形検出の自動化は、効率的なモニタリングには不可欠であるが、変形したオブジェクトと非変形したオブジェクトの両方の包括的なデータセットを作成する上で、多くのシナリオにおいて取得が困難である、重大な課題に直面している。
本稿では,変形オブジェクトをシミュレートする制御された合成データを生成する新しいフレームワークを提案する。
このアプローチは、様々な条件下での物体の変形の現実的なモデリングを可能にする。
本フレームワークは, 動的ドメイン適応を容易にするインテリジェントアダプタネットワークを統合し, 変形したオブジェクトからの実データを必要とすることなく, 分類結果を向上する。
我々は,ドメイン適応と分類タスクの実験を行い,シミュレーションベースラインと比較して,シム・トゥ・リアルな分類結果を改善することを実証した。
Deformation detection is vital for enabling accurate assessment and prediction of structural changes in materials, ensuring timely and effective interventions to maintain safety and integrity. Automating deformation detection through computer vision is crucial for efficient monitoring, but it faces significant challenges in creating a comprehensive dataset of both deformed and non-deformed objects, which can be difficult to obtain in many scenarios. In this paper, we introduce a novel framework for generating controlled synthetic data that simulates deformed objects. This approach allows for the realistic modeling of object deformations under various conditions. Our framework integrates an intelligent adapter network that facilitates sim-to-real domain adaptation, enhancing classification results without requiring real data from deformed objects. We conduct experiments on domain adaptation and classification tasks and demonstrate that our framework improves sim-to-real classification results compared to simulation baseline. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-13 |
# 合成付加音モデルにおける平均因果効果の同定
Identification of Average Causal Effects in Confounded Additive Noise Models ( http://arxiv.org/abs/2407.10014v1 ) ライセンス: Link先を確認 | Muhammad Qasim Elahi, Mahsa Ghasemi, Murat Kocaoglu, | (参考訳) 付加雑音モデル(ANMs)は因果推論において重要な設定法である。
ANMsに関する既存の研究の多くは、因果便益(因果便益)、すなわち、保存されていない共同設立者(unobserved confounders)を前提としている。
本稿では,多変量ガウス分布に従えば,対象変数と処理変数の集合が観測不能な共同設立者の影響を受けやすい,共起型ANMに着目した。
本稿では,治療変数の任意の部分集合の平均因果効果(ACE)を推定するための新しいアプローチを提案し,その全てを評価するのに十分であることを示す。
さらに,ノード数の多元対数に対する介入回数をさらに削減するランダム化アルゴリズムを提案する。
最後に,これらの介入が観測変数間の因果構造を復元するのに十分であることを示す。
このことは、治療間の因果構造が不明な場合でも、統合されたANMsの結果に対する治療のサブセットの因果効果を高い確率で推測するのに十分な多対数介入が成り立つことを証明している。
シミュレーションの結果,本手法は有限サンプル状態におけるすべてのACEを正確に推定できることが示唆された。
また, 半合成データを用いて評価することで, アルゴリズムの実用的意義を実証する。
Additive noise models (ANMs) are an important setting studied in causal inference. Most of the existing works on ANMs assume causal sufficiency, i.e., there are no unobserved confounders. This paper focuses on confounded ANMs, where a set of treatment variables and a target variable are affected by an unobserved confounder that follows a multivariate Gaussian distribution. We introduce a novel approach for estimating the average causal effects (ACEs) of any subset of the treatment variables on the outcome and demonstrate that a small set of interventional distributions is sufficient to estimate all of them. In addition, we propose a randomized algorithm that further reduces the number of required interventions to poly-logarithmic in the number of nodes. Finally, we demonstrate that these interventions are also sufficient to recover the causal structure between the observed variables. This establishes that a poly-logarithmic number of interventions is sufficient to infer the causal effects of any subset of treatments on the outcome in confounded ANMs with high probability, even when the causal structure between treatments is unknown. The simulation results indicate that our method can accurately estimate all ACEs in the finite-sample regime. We also demonstrate the practical significance of our algorithm by evaluating it on semi-synthetic data. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-13 |
# 視覚課題におけるエッジモデルと高精度ベースモデルとの差異の特徴
Characterizing Disparity Between Edge Models and High-Accuracy Base Models for Vision Tasks ( http://arxiv.org/abs/2407.10016v1 ) ライセンス: Link先を確認 | Zhenyu Wang, Shahriar Nirjon, | (参考訳) 幅広い機能を持つエッジデバイスは、さまざまなエッジAIモデルをサポートする。
エッジモデルは、同じタスクの高精度(ベース)モデルとどのように違うのか?
XDELTAは、高精度ベースモデルと計算効率が良いが低精度エッジモデルの違いを説明する、説明可能な新しいAIツールである。
そこで本研究では,エッジネットワークの特徴表現能力をコンパクトな形式で補完するDELTAネットワークという,モデル差分を特徴付ける学習ベースアプローチを提案する。
DELTAを構築するために, DELTAのコンパクト性と十分な特徴表現能力を確保するため, 基本モデルの本質を抽出し, エッジモデルを補完する負相関学習手法を提案する。
我々は、XDELTAのモデル不一致を説明する能力をテストするための総合的な評価を行い、120万以上の画像と24のモデルを使用し、6人の参加者による実世界の展開を評価する。
XDELTAは、幾何学的および概念レベルの分析を通じて、ベースモデルとエッジモデル(アービタリーペアと圧縮ベースモデル)の違いを説明し、現実世界の応用に有効であることを証明している。
Edge devices, with their widely varying capabilities, support a diverse range of edge AI models. This raises the question: how does an edge model differ from a high-accuracy (base) model for the same task? We introduce XDELTA, a novel explainable AI tool that explains differences between a high-accuracy base model and a computationally efficient but lower-accuracy edge model. To achieve this, we propose a learning-based approach to characterize the model difference, named the DELTA network, which complements the feature representation capability of the edge network in a compact form. To construct DELTA, we propose a sparsity optimization framework that extracts the essence of the base model to ensure compactness and sufficient feature representation capability of DELTA, and implement a negative correlation learning approach to ensure it complements the edge model. We conduct a comprehensive evaluation to test XDELTA's ability to explain model discrepancies, using over 1.2 million images and 24 models, and assessing real-world deployments with six participants. XDELTA excels in explaining differences between base and edge models (arbitrary pairs as well as compressed base models) through geometric and concept-level analysis, proving effective in real-world applications. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-13 |
# フェルミオン環境のスペクトル密度変調と普遍マルコフ閉包
Spectral Density Modulation and Universal Markovian Closure of Fermionic Environments ( http://arxiv.org/abs/2407.10017v1 ) ライセンス: Link先を確認 | Davide Ferracin, Andrea Smirne, Susana F. Huelga, Martin B. Plenio, Dario Tamascelli, | (参考訳) チェーン・マッピングとテンソル・ネットワーク技術の組み合わせは、構造化された環境と相互作用するオープン量子系の数値的正確なシミュレーションのための強力なツールを提供する。
しかし、これらの手法は物理シミュレーション時間による二次スケーリングに苦しむため、複数の環境が存在する場合には困難になる。
これは、高い相関関係が知られているフェルミオン環境が考慮されている場合に特に当てはまる。
この研究で最初に、スペクトル密度を熱化学的に調節することで、元のフェルミオン環境を等価だがより単純なものに置き換える方法について説明する。
さらに,本手法により,複数の環境をモデル化するために必要なチェーン数を削減できることを示す。
次に、リンドブラッド型力学を模した減衰フェルミオンモードの小さな集合からなるフェルミオンマルコフ閉包構造を導出し、入浴モードの連続体を模倣する。
特に、マルコフ閉包を用いることで、長時間の力学を必要とする場合のチェーン・マッピングに基づくアルゴリズムの時間複雑性を多項式的に減少させる方法について述べる。
The combination of chain-mapping and tensor-network techniques provides a powerful tool for the numerically exact simulation of open quantum systems interacting with structured environments. However, these methods suffer from a quadratic scaling with the physical simulation time, and therefore they become challenging in the presence of multiple environments. This is particularly true when fermionic environments, well-known to be highly correlated, are considered. In this work we first illustrate how a thermo-chemical modulation of the spectral density allows replacing the original fermionic environments with equivalent, but simpler, ones. Moreover, we show how this procedure reduces the number of chains needed to model multiple environments. We then provide a derivation of the fermionic Markovian closure construction, consisting of a small collection of damped fermionic modes undergoing a Lindblad-type dynamics and mimicking a continuum of bath modes. We describe, in particular, how the use of the Markovian closure allows for a polynomial reduction of the time complexity of chain-mapping based algorithms when long-time dynamics are needed. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-13 |
# 大言語モデル(LLM)を用いた医学テキストからの因果性抽出
Causality extraction from medical text using Large Language Models (LLMs) ( http://arxiv.org/abs/2407.10020v1 ) ライセンス: Link先を確認 | Seethalakshmi Gopalakrishnan, Luciana Garbayo, Wlodek Zadrozny, | (参考訳) 本研究では,医療用テキスト,特に臨床実習ガイドライン(CPG)から因果関係を抽出するために,大規模言語モデルを含む自然言語モデルの可能性を探る。
妊娠期糖尿病診療ガイドラインからの因果性抽出の結果を報告する。
本稿では,BERT (BioBERT, DistilBERT, BERT) の変種と大規模言語モデル (LLM) を用いた実験,すなわち GPT-4 と LLAMA2 について報告する。
実験の結果、BioBERTはLarge Language Modelsを含む他のモデルよりも性能が良く、平均F1スコアは0.72であることがわかった。
GPT-4とLAMA2は同様の性能を示したが、一貫性は低かった。
また, 妊娠糖尿病クリニカル・クリニカル・ガイドラインにおいて, コードと注釈付き因果関係のコーパスを公表した。
This study explores the potential of natural language models, including large language models, to extract causal relations from medical texts, specifically from Clinical Practice Guidelines (CPGs). The outcomes causality extraction from Clinical Practice Guidelines for gestational diabetes are presented, marking a first in the field. We report on a set of experiments using variants of BERT (BioBERT, DistilBERT, and BERT) and using Large Language Models (LLMs), namely GPT-4 and LLAMA2. Our experiments show that BioBERT performed better than other models, including the Large Language Models, with an average F1-score of 0.72. GPT-4 and LLAMA2 results show similar performance but less consistency. We also release the code and an annotated a corpus of causal statements within the Clinical Practice Guidelines for gestational diabetes. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-13 |
# 知識ベースガイド生成による文書レベル臨床エンティティと関係抽出
Document-level Clinical Entity and Relation Extraction via Knowledge Base-Guided Generation ( http://arxiv.org/abs/2407.10021v1 ) ライセンス: Link先を確認 | Kriti Bhattarai, Inez Y. Oh, Zachary B. Abrams, Albert M. Lai, | (参考訳) ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)モデルは、その正確な抽出能力と文脈理解能力から、臨床実体と関係抽出タスクにおいて有望であることが示されている。
本研究では,Unified Medical Language System (UMLS) の知識ベースを活用し,医療概念を正確に識別し,文書レベルでの臨床的実体と関係抽出を改善する。
本フレームワークは、テキストに関連するUMLS概念を選択し、エンティティを抽出する際の言語モデルガイドのプロンプトと組み合わせる。
実験の結果,この初期概念マッピングと,これらの概念をプロンプトに含めることで,UMLSを活用できない汎用言語モデルにおける少数ショット抽出タスクと比較して,抽出結果が改善された。
さらに,本手法は,検索したデータと即時埋め込みを比較して結果を生成するRAG法よりも有効であることを示す。
GPTモデルとUMLSの概念を統合することにより,エンティティと関係の同定が大幅に向上し,ベースラインとRAGモデルを上回る結果が得られた。
UMLSのような知識に基づくアプローチの正確な概念マッピング能力とGPTの文脈理解能力を組み合わせることで、医療などの専門分野におけるこれらのアプローチの可能性を明らかにする。
Generative pre-trained transformer (GPT) models have shown promise in clinical entity and relation extraction tasks because of their precise extraction and contextual understanding capability. In this work, we further leverage the Unified Medical Language System (UMLS) knowledge base to accurately identify medical concepts and improve clinical entity and relation extraction at the document level. Our framework selects UMLS concepts relevant to the text and combines them with prompts to guide language models in extracting entities. Our experiments demonstrate that this initial concept mapping and the inclusion of these mapped concepts in the prompts improves extraction results compared to few-shot extraction tasks on generic language models that do not leverage UMLS. Further, our results show that this approach is more effective than the standard Retrieval Augmented Generation (RAG) technique, where retrieved data is compared with prompt embeddings to generate results. Overall, we find that integrating UMLS concepts with GPT models significantly improves entity and relation identification, outperforming the baseline and RAG models. By combining the precise concept mapping capability of knowledge-based approaches like UMLS with the contextual understanding capability of GPT, our method highlights the potential of these approaches in specialized domains like healthcare. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-13 |
# AtomAgents: 物理を意識したマルチモーダルマルチエージェント人工知能による合金設計と発見
AtomAgents: Alloy design and discovery through physics-aware multi-modal multi-agent artificial intelligence ( http://arxiv.org/abs/2407.10022v1 ) ライセンス: Link先を確認 | Alireza Ghafarollahi, Markus J. Buehler, | (参考訳) 合金の設計は、関連する知識を検索し、高度な計算手法を適用し、実験的な検証を行い、その結果を解析することを含む、総合的なアプローチを必要とするマルチスケールの問題である。
機械学習(ML)は、例えば、構造的特徴と物質的特性を結び付けるディープサロゲートモデルを使用することで、このプロセスの加速に役立つ。
しかし、既存のデータ駆動モデルは、しばしば特定の材料目標をターゲットにしており、ドメイン外の知識を統合するための柔軟性が制限されており、新しい予期せぬ課題に適応できない。
ここでは、複雑な材料設計タスクを解決するために、動的環境内で自律的に協調する複数のAIエージェントの異なる能力を活用することで、これらの制限を克服する。
提案されている物理認識型生成AIプラットフォームであるAtomAgentsは、知識検索、マルチモーダルデータ統合、物理ベースのシミュレーション、数値データや物理シミュレーション結果の画像を含むモダリティ全体にわたる包括的な結果解析を含む、さまざまな分野の専門知識を持つAIエージェント間の動的コラボレーションを、大規模言語モデル(LLM)のインテリジェンスをシナジする。
マルチエージェントシステムの協調的な取り組みにより、複雑な材料設計の問題に対処することが可能となり、純粋な材料よりも優れた特性を持つ金属合金を自律的に設計する例が示されている。
以上の結果から, 合金間におけるキー特性の正確な予測が可能となり, 先進金属合金の開発を推し進めるためには, 固溶合金が重要な役割を担っていることが明らかとなった。
本フレームワークは, 複雑な多目的設計作業の効率化と, バイオメディカル材料工学, 再生可能エネルギー, 環境サステナビリティといった分野への新たな道を開く。
The design of alloys is a multi-scale problem that requires a holistic approach that involves retrieving relevant knowledge, applying advanced computational methods, conducting experimental validations, and analyzing the results, a process that is typically reserved for human experts. Machine learning (ML) can help accelerate this process, for instance, through the use of deep surrogate models that connect structural features to material properties, or vice versa. However, existing data-driven models often target specific material objectives, offering limited flexibility to integrate out-of-domain knowledge and cannot adapt to new, unforeseen challenges. Here, we overcome these limitations by leveraging the distinct capabilities of multiple AI agents that collaborate autonomously within a dynamic environment to solve complex materials design tasks. The proposed physics-aware generative AI platform, AtomAgents, synergizes the intelligence of large language models (LLM) the dynamic collaboration among AI agents with expertise in various domains, including knowledge retrieval, multi-modal data integration, physics-based simulations, and comprehensive results analysis across modalities that includes numerical data and images of physical simulation results. The concerted effort of the multi-agent system allows for addressing complex materials design problems, as demonstrated by examples that include autonomously designing metallic alloys with enhanced properties compared to their pure counterparts. Our results enable accurate prediction of key characteristics across alloys and highlight the crucial role of solid solution alloying to steer the development of advanced metallic alloys. Our framework enhances the efficiency of complex multi-objective design tasks and opens new avenues in fields such as biomedical materials engineering, renewable energy, and environmental sustainability. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-13 |
# スタックオーバーフローの質問で報告された問題の再現性: 課題、影響と評価
Reproducibility of Issues Reported in Stack Overflow Questions: Challenges, Impact & Estimation ( http://arxiv.org/abs/2407.10023v1 ) ライセンス: Link先を確認 | Saikat Mondal, Banani Roy, | (参考訳) ソフトウェア開発者は、コードレベルの問題を解決するために、Stack Overflow (SO)のような技術的Q&Aサイトに質問を提出することが多い。
実際には、プログラミングの問題を説明するための質問付きのサンプルコードスニペットが含まれている。
既存の研究では、ユーザーは質問に答える際に、与えられたコードスニペットを使って報告された問題を再現しようとすることを示唆している。
残念なことに、このようなコードスニペットは、質問が適切で迅速な解決策を受け取るのを防ぐいくつかの未解決の課題のために、問題を常に再現することができなかった。
前回の研究では再現性の問題を調査し、カタログを作成した。
しかし、その実践者がどのようにしてこの挑戦のカタログを知覚したのかは不明である。
実践者の視点は、これらの課題を検証し、深刻さを見積もる上で必然的である。
本研究は,再現性の課題に対する視点を理解するために,まず53人の実践者を調査した。
試みる
(a)これらの課題に同意するかどうかを見極める。
(b)各課題が質問に対する回答に与える影響を判断し、
(c)再現性を促進するためのツールの必要性を特定する。
調査結果からわかるのは―
(a)参加者の約90%が課題に同意している。
(b)「コードの重要な部分の欠落」が最も再現性を悪化させ、
(c)参加者は再現性を促進するための自動ツールサポートの導入を強く推奨する。
次に、コードベースの特徴(例えば、LOC、コンパイル可能性)を抽出し、5つの機械学習(ML)モデルを構築し、問題の再現性を予測する。
早期検出は、ユーザーがコードスニペットとその再現性を改善するのに役立つかもしれない。
我々のモデルは84.5%の精度、83.0%のリコール、82.8%のF1スコア、82.8%の全体的な精度を達成し、非常に有望である。
第三に、MLモデルを体系的に解釈し、再現可能な問題のあるコードスニペットが、再現不可能な問題を持つコードスニペットとどのように異なるかを説明する。
Software developers often submit questions to technical Q&A sites like Stack Overflow (SO) to resolve code-level problems. In practice, they include example code snippets with questions to explain the programming issues. Existing research suggests that users attempt to reproduce the reported issues using given code snippets when answering questions. Unfortunately, such code snippets could not always reproduce the issues due to several unmet challenges that prevent questions from receiving appropriate and prompt solutions. One previous study investigated reproducibility challenges and produced a catalog. However, how the practitioners perceive this challenge catalog is unknown. Practitioners' perspectives are inevitable in validating these challenges and estimating their severity. This study first surveyed 53 practitioners to understand their perspectives on reproducibility challenges. We attempt to (a) see whether they agree with these challenges, (b) determine the impact of each challenge on answering questions, and (c) identify the need for tools to promote reproducibility. Survey results show that - (a) about 90% of the participants agree with the challenges, (b) "missing an important part of code" most severely hurt reproducibility, and (c) participants strongly recommend introducing automated tool support to promote reproducibility. Second, we extract \emph{nine} code-based features (e.g., LOC, compilability) and build five Machine Learning (ML) models to predict issue reproducibility. Early detection might help users improve code snippets and their reproducibility. Our models achieve 84.5% precision, 83.0% recall, 82.8% F1-score, and 82.8% overall accuracy, which are highly promising. Third, we systematically interpret the ML model and explain how code snippets with reproducible issues differ from those with irreproducible issues. | 翻訳日:2024-07-16 19:48:19 公開日:2024-07-13 |
# INSIGHT: 自己回帰変換器を損なうアナログ回路用ユニバーサルニューラルネットワークシミュレータ
INSIGHT: Universal Neural Simulator for Analog Circuits Harnessing Autoregressive Transformers ( http://arxiv.org/abs/2407.07346v2 ) ライセンス: Link先を確認 | Souradip Poddar, Youngmin Oh, Yao Lai, Hanqing Zhu, Bosun Hwang, David Z. Pan, | (参考訳) アナログフロントエンドの設計は、専門的な人間の専門知識とコストのかかる試行錯誤シミュレーションに大きく依存しており、アナログ設計の自動化に関する多くの先行研究を動機付けている。
しかし、広範かつ複雑な設計空間の効率的かつ効果的な探索は、SPICEシミュレーションの時間のかかる性質に制約され続けており、効率的な設計自動化は困難である。
本稿では、アナログフロントエンド設計自動化ループにおいて、GPUを用いた、技術に依存しない、効果的なユニバーサルニューラルネットワークシミュレータであるINSIGHTを紹介する。
INSIGHTは数マイクロ秒の推論時間でアナログ回路の性能を正確に予測する。
特に、その自動回帰機能により、INSIGHTはコストの低いパフォーマンスメトリック情報を活用するために、シミュレーションコストのかかる一時的な仕様を正確に予測することができる。
低コストで高忠実な機能により、INSIGHTはアナログフロントエンド最適化フレームワークにおける標準シミュレータの代替となる。
INSIGHTは任意の最適化フレームワークと互換性があり、洗練されたオフライン学習と適応技術を通じて、サンプル効率のための設計空間の探索を容易にする。
実験の結果,INSIGHT-Mは,100~1000倍のシミュレーションコストと既存のサイズ法よりも大幅に高速化された20個のリアルタイムシミュレーションしか必要としないことがわかった。
Analog front-end design heavily relies on specialized human expertise and costly trial-and-error simulations, which motivated many prior works on analog design automation. However, efficient and effective exploration of the vast and complex design space remains constrained by the time-consuming nature of SPICE simulations, making effective design automation a challenging endeavor. In this paper, we introduce INSIGHT, a GPU-powered, technology-agnostic, effective universal neural simulator in the analog front-end design automation loop. INSIGHT accurately predicts the performance metrics of analog circuits across various technologies with just a few microseconds of inference time. Notably, its autoregressive capabilities enable INSIGHT to accurately predict simulation-costly critical transient specifications leveraging less expensive performance metric information. The low cost and high fidelity feature make INSIGHT a good substitute for standard simulators in analog front-end optimization frameworks. INSIGHT is compatible with any optimization framework, facilitating enhanced design space exploration for sample efficiency through sophisticated offline learning and adaptation techniques. Our experiments demonstrate that INSIGHT-M, a model-based batch reinforcement learning sizing framework with INSIGHT as the accurate surrogate, only requires < 20 real-time simulations with 100-1000x lower simulation costs and significant speedup over existing sizing methods. | 翻訳日:2024-07-16 13:41:05 公開日:2024-07-13 |
# スティリスティックアイコン発生のための微調整安定拡散XL:カプセルサイズの比較
Fine-Tuning Stable Diffusion XL for Stylistic Icon Generation: A Comparison of Caption Size ( http://arxiv.org/abs/2407.08513v2 ) ライセンス: Link先を確認 | Youssef Sultan, Jiangqin Ma, Yu-Ying Liao, | (参考訳) 本稿では,安定拡散XLの様々な微調整方法を示す。これには,商業的な2Dアイコントレーニングセットのスタイルで画像を生成するために,各画像に対する推論ステップとキャプションのカスタマイズが含まれる。
また、特に商業利用環境において「高品質」が何であるかを適切に定義することがいかに重要であるかを示します。
生成型AIモデルは広く受け入れられ、利用され続けているため、さまざまなアプリケーションに対してそれらを最適化し、評価するさまざまな方法が出現する。
具体的には、Stable Diffusion XLやDALL-E 3のようなテキスト・ツー・イメージモデルでは、特定のスタイルに従って高品質なアイコンを効果的に生成するために、異なる評価プラクティスが必要である。
特定のスタイルに基づいて生成される画像の中には、FIDスコアが低いものもあるが、ラスタライズされたアイコンであっても、これが絶対ではないことを示す。
FIDスコアは生成された画像とトレーニングセット全体の類似性を反映するが、CLIPスコアは生成された画像とテキスト記述とのアライメントを測定する。
CLIPスコアはアイコンの品質を損なう結果となるのに対し、FIDスコアはアイコンで最も重要なピクセル差の少数派など、重要な側面を欠いていることを示す。
CLIPモデルの"類似性"に対する理解は、独自のトレーニングデータによって形作られています。
本研究は,高品質な商用アイコンを生成する際に,専門的な評価指標と微調整アプローチの必要性を強調し,プロフェッショナルなデザインコンテキストにおけるテキスト・ツー・イメージ・モデルのより効果的かつ適切な適用につながる可能性があることを示唆する。
In this paper, we show different fine-tuning methods for Stable Diffusion XL; this includes inference steps, and caption customization for each image to align with generating images in the style of a commercial 2D icon training set. We also show how important it is to properly define what "high-quality" really is especially for a commercial-use environment. As generative AI models continue to gain widespread acceptance and usage, there emerge many different ways to optimize and evaluate them for various applications. Specifically text-to-image models, such as Stable Diffusion XL and DALL-E 3 require distinct evaluation practices to effectively generate high-quality icons according to a specific style. Although some images that are generated based on a certain style may have a lower FID score (better), we show how this is not absolute in and of itself even for rasterized icons. While FID scores reflect the similarity of generated images to the overall training set, CLIP scores measure the alignment between generated images and their textual descriptions. We show how FID scores miss significant aspects, such as the minority of pixel differences that matter most in an icon, while CLIP scores result in misjudging the quality of icons. The CLIP model's understanding of "similarity" is shaped by its own training data; which does not account for feature variation in our style of choice. Our findings highlight the need for specialized evaluation metrics and fine-tuning approaches when generating high-quality commercial icons, potentially leading to more effective and tailored applications of text-to-image models in professional design contexts. | 翻訳日:2024-07-16 13:31:11 公開日:2024-07-13 |
# スペクトルスーパートークンを用いたデュアルステージハイパースペクトル画像分類モデル
Dual-stage Hyperspectral Image Classification Model with Spectral Supertoken ( http://arxiv.org/abs/2407.07307v2 ) ライセンス: Link先を確認 | Peifu Liu, Tingfa Xu, Jie Wang, Huan Chen, Huiyan Bai, Jianan Li, | (参考訳) ハイパースペクトル画像分類(Hyperspectral image classification)は、リモートセンシングシーンのハイパースペクトル画像において、各ピクセルに予め定義されたクラスを割り当てるタスクであり、スペクトル的に類似したピクセル間の相関が無視されているため、しばしば課題に直面している。
この監視は、不正確なエッジ定義と、連続した領域における小さなスペクトル変動を管理するのに困難をもたらす可能性がある。
これらの問題に対処するために、スーパーピクセルの概念に触発された新しいDual-stage Spectral Supertoken Classifier (DSTC)を紹介する。
DSTCはスペクトル微分に基づく画素クラスタリングを用いて、類似のスペクトル特性を持つグループ画素をスペクトルスーパートーケンに分類する。
これらのトークンの分類を画像空間に投影することにより、局所的な分類一貫性と正確な境界を維持するピクセルレベルの結果が得られる。
さらに,トークン内の多様性を認識し,クラスプロポーションに基づくソフトラベルを提案する。
このラベルは、その頻度に基づいて異なるカテゴリに重みを適応的に割り当て、データ分散の不均衡を効果的に管理し、分類性能を向上させる。
WHU-OHS、IP、KSC、UPデータセットに関する総合的な実験は、DSTCの堅牢な分類能力とその個々のコンポーネントの有効性を裏付ける。
コードはhttps://github.com/laprf/DSTC.comで公開される。
Hyperspectral image classification, a task that assigns pre-defined classes to each pixel in a hyperspectral image of remote sensing scenes, often faces challenges due to the neglect of correlations between spectrally similar pixels. This oversight can lead to inaccurate edge definitions and difficulties in managing minor spectral variations in contiguous areas. To address these issues, we introduce the novel Dual-stage Spectral Supertoken Classifier (DSTC), inspired by superpixel concepts. DSTC employs spectrum-derivative-based pixel clustering to group pixels with similar spectral characteristics into spectral supertokens. By projecting the classification of these tokens onto the image space, we achieve pixel-level results that maintain regional classification consistency and precise boundary. Moreover, recognizing the diversity within tokens, we propose a class-proportion-based soft label. This label adaptively assigns weights to different categories based on their prevalence, effectively managing data distribution imbalances and enhancing classification performance. Comprehensive experiments on WHU-OHS, IP, KSC, and UP datasets corroborate the robust classification capabilities of DSTC and the effectiveness of its individual components. Code will be publicly available at https://github.com/laprf/DSTC. | 翻訳日:2024-07-16 11:29:58 公開日:2024-07-13 |
# eyeballvul: 野生の脆弱性検出のための将来のセキュリティベンチマーク
eyeballvul: a future-proof benchmark for vulnerability detection in the wild ( http://arxiv.org/abs/2407.08708v2 ) ライセンス: Link先を確認 | Timothee Chauvin, | (参考訳) 最近のLLMの長いコンテキストは、新しいユースケースを可能にした。
このタスクにおけるモデルパフォーマンスを評価するために,オープンソースのリポジトリで公開された脆弱性ストリームから毎週,言語モデルの脆弱性検出機能を大規模にテストするためのベンチマークである eyeballvul を紹介した。
ベンチマークは、異なるリポジトリ内のリビジョンのリストで構成されており、それぞれがそのリビジョンに存在する既知の脆弱性のリストと関連付けられている。
LLMベースのスコアラを使用して、モデルによって返される可能性のある脆弱性のリストと、リビジョン毎に既知の脆弱性のリストを比較する。
2024年7月時点で、Eyeballvulには6000以上のリビジョンと5,000以上のリポジトリに24,000以上の脆弱性があり、55GBほどのサイズである。
Long contexts of recent LLMs have enabled a new use case: asking models to find security vulnerabilities in entire codebases. To evaluate model performance on this task, we introduce eyeballvul: a benchmark designed to test the vulnerability detection capabilities of language models at scale, that is sourced and updated weekly from the stream of published vulnerabilities in open-source repositories. The benchmark consists of a list of revisions in different repositories, each associated with the list of known vulnerabilities present at that revision. An LLM-based scorer is used to compare the list of possible vulnerabilities returned by a model to the list of known vulnerabilities for each revision. As of July 2024, eyeballvul contains 24,000+ vulnerabilities across 6,000+ revisions and 5,000+ repositories, and is around 55GB in size. | 翻訳日:2024-07-16 11:29:58 公開日:2024-07-13 |