このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240813となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# アルツハイマー病進行モデルにおける不確かさの定量化
Uncertainty Quantification in Alzheimer's Disease Progression Modeling ( http://arxiv.org/abs/2408.14478v1 ) ライセンス: Link先を確認 | Wael Mobeirek, Shirley Mao, | (参考訳) アルツハイマー病と診断される患者の増加に伴い、予後モデルは早期疾患の検出に役立つ可能性がある。
しかし、現在のアプローチは不確実性を考慮していないため、信頼性に関する懸念を提起している。
本研究は,モンテカルロ・ドロップアウト,変分推論,マルコフ・チェイン・モンテカルロ,アンサンブル・ラーニングの512症例における4年間の認知的スコア・トラジェクトリを信頼性境界で予測するために行った成績を比較した。
MC Dropout と MCMC は,ノイズの多いトレーニングデータの下で,よく校正され,正確な予測を行うことができることを示す。
With the increasing number of patients diagnosed with Alzheimer's Disease, prognosis models have the potential to aid in early disease detection. However, current approaches raise dependability concerns as they do not account for uncertainty. In this work, we compare the performance of Monte Carlo Dropout, Variational Inference, Markov Chain Monte Carlo, and Ensemble Learning trained on 512 patients to predict 4-year cognitive score trajectories with confidence bounds. We show that MC Dropout and MCMC are able to produce well-calibrated, and accurate predictions under noisy training data. | 翻訳日:2024-09-01 16:52:18 公開日:2024-08-13 |
# 閾値(Q,P)量子蒸留
Threshold (Q, P) Quantum Distillation ( http://arxiv.org/abs/2408.15274v1 ) ライセンス: Link先を確認 | Shashank Gupta, William John Munro, Carlos Cid, | (参考訳) 量子蒸留は「N」不完全コピーに存在する量子相関を、量子相関を共有する全ての「P」パーティを巻き込み、自由な操作で集中させるタスクである。
ここでは、同じ目的を達成できるが、より少ないパーティ 'Q' を使用するしきい値量子蒸留タスクを提案する。
特に、完全量子相関をなくすために、高次元多部GHZまたはW状態を共有する参加者による正確な局所フィルタリング操作を与える。
具体的には、任意のGHZ状態は、蒸留プロトコルの成功確率と蒸留後の忠実度の両方がパーティー数に依存しているため、ネットワーク内の1つのパーティのみを用いて蒸留することができる。
しかしながら、一般のW状態の場合、蒸留には少なくとも「P-1」パーティが必要であり、蒸留と分離性の間に強い関係があることが示されている。
さらに, しきい値エンタングルメント蒸留と量子ステアリング蒸留を接続する。
Quantum distillation is the task of concentrating quantum correlations present in 'N' imperfect copies using free operations by involving all 'P' parties sharing the quantum correlations. We present a threshold quantum distillation task where the same objective is achieved but using fewer parties 'Q'. In particular, we give exact local filtering operations by the participating parties sharing a high-dimension multipartite GHZ or W state to distil the perfect quantum correlation. Specifically, an arbitrary GHZ state can be distilled using just one party in the network, as both the success probability of the distillation protocol and the fidelity after the distillation are independent of the number of parties. However, for a general W-state, at least 'P-1' parties are required for the distillation, indicating a strong relationship between the distillation and the separability of such states. Further, we connect threshold entanglement distillation and quantum steering distillation. | 翻訳日:2024-09-01 16:32:17 公開日:2024-08-13 |
# 出力品質が要求される光画像の自動圧縮ツール
Automated Software Tool for Compressing Optical Images with Required Output Quality ( http://arxiv.org/abs/2408.15275v1 ) ライセンス: Link先を確認 | Sergey Krivenko, Alexander Zemliachenko, Vladimir Lukin, Alexander Zelensky, | (参考訳) 本稿では,グレースケール画像の自動圧縮ツールを提案する。
その構造と施設について述べる。
このツールは、予め設定されたメトリック値を提供することで、利用可能な品質メトリクスのセットから選択されたメトリックに従って、異なるコーダで画像を圧縮することができる。
いくつかの実践的な状況に対するツール応用の例を示す。
The paper presents an automated software tool for lossy compression of grayscale images. Its structure and facilities are described. The tool allows compressing images by different coders according to a chosen metric from an available set of quality metrics with providing a preset metric value. Examples of the tool application to several practical situations are represented. | 翻訳日:2024-09-01 16:32:17 公開日:2024-08-13 |
# グループレベルの感情認識のためのディープラーニングに関する調査
A Survey of Deep Learning for Group-level Emotion Recognition ( http://arxiv.org/abs/2408.15276v1 ) ライセンス: Link先を確認 | Xiaohua Huang, Jinke Xu, Wenming Zheng, Qirong Mao, Abhinav Dhall, | (参考訳) 人工知能(AI)技術の進歩により、集団レベルの感情認識(GER)が人間の行動を分析する重要な領域として登場した。
初期のGER法は主に手作りの機能に依存していた。
しかし、ディープラーニング(DL)技術の普及と、多様なタスクにおける顕著な成功により、ニューラルネットワークはGERへの関心を高めている。
個人の感情とは異なり、集団感情は多様性とダイナミクスを示す。
現在、グループレベルの画像に固有のリッチな情報を効果的に活用し、GER性能を大幅に向上するために、いくつかのDLアプローチが提案されている。
本稿では、GERに適用されたDL手法の総合的なレビューを行い、GERの全ての側面をカバーする分野の新しい分類法を提案する。
調査では、データセット、深いGERパイプライン、過去10年間の最先端メソッドのパフォーマンス比較について概説している。
さらに、各側面の基本的なアプローチと高度な開発について要約し、議論する。
さらに、我々は、優れた課題を特定し、堅牢なGERシステムの設計のための潜在的な道を提案する。
我々の知識を最大限に活用するために、サーベイは、将来のGER研究における重要な参考となる深層GER手法の総合的なレビューとして、最初のものである。
With the advancement of artificial intelligence (AI) technology, group-level emotion recognition (GER) has emerged as an important area in analyzing human behavior. Early GER methods are primarily relied on handcrafted features. However, with the proliferation of Deep Learning (DL) techniques and their remarkable success in diverse tasks, neural networks have garnered increasing interest in GER. Unlike individual's emotion, group emotions exhibit diversity and dynamics. Presently, several DL approaches have been proposed to effectively leverage the rich information inherent in group-level image and enhance GER performance significantly. In this survey, we present a comprehensive review of DL techniques applied to GER, proposing a new taxonomy for the field cover all aspects of GER based on DL. The survey overviews datasets, the deep GER pipeline, and performance comparisons of the state-of-the-art methods past decade. Moreover, it summarizes and discuss the fundamental approaches and advanced developments for each aspect. Furthermore, we identify outstanding challenges and suggest potential avenues for the design of robust GER systems. To the best of our knowledge, thus survey represents the first comprehensive review of deep GER methods, serving as a pivotal references for future GER research endeavors. | 翻訳日:2024-09-01 16:32:17 公開日:2024-08-13 |
# 不均衡データレジームにおけるフェデレーション顔認識のためのメタラーニング
Meta-Learning for Federated Face Recognition in Imbalanced Data Regimes ( http://arxiv.org/abs/2408.16003v1 ) ライセンス: Link先を確認 | Arwin Gansekoele, Emiel Hess, Sandjai Bhulai, | (参考訳) 顔画像データを取り巻くプライバシーの懸念が高まる中、ユーザーのプライバシーを保証する新しい技術が要求される。
このようなユーザプライバシの向上を主張する顔認識技術のひとつに、フェデレート・ラーニング(FL)のサブフィールドであるフェデレーション・顔認識(FRR)がある。
しかし、FFRはデータの不均一性のために多くのクラスを扱う必要があるため、課題に直面している。
この問題を解決するために、パーソナライズされたFLの分野で解を求める。
この研究は、CelebAデータセットに基づいた3つの新しいデータパーティションを導入し、それぞれが異なる形式のデータヘテロジニティを持つ。
また、FFR設定でHessian-Free Model Agnostic Meta-Learning (HF-MAML)を提案する。
HF-MAMLは3つのCelebAデータ分割における現行のFFRモデルよりも高いスコアを示す。
特に、検証スコアは不均一なデータ分割において最も改善される。
効果的なグローバルモデルの開発とパーソナライゼーションのバランスをとるために、損失関数に対して埋め込み正規化項を導入する。
この用語はHF-MAMLと組み合わせることで,グローバルモデル検証性能が向上することが示されている。
最後に,HF-MAMLとその埋め込み正規化拡張により,クライアント評価スコアに対する標準偏差を低減し,公平性を向上できることを示す。
The growing privacy concerns surrounding face image data demand new techniques that can guarantee user privacy. One such face recognition technique that claims to achieve better user privacy is Federated Face Recognition (FRR), a subfield of Federated Learning (FL). However, FFR faces challenges due to the heterogeneity of the data, given the large number of classes that need to be handled. To overcome this problem, solutions are sought in the field of personalized FL. This work introduces three new data partitions based on the CelebA dataset, each with a different form of data heterogeneity. It also proposes Hessian-Free Model Agnostic Meta-Learning (HF-MAML) in an FFR setting. We show that HF-MAML scores higher in verification tests than current FFR models on three different CelebA data partitions. In particular, the verification scores improve the most in heterogeneous data partitions. To balance personalization with the development of an effective global model, an embedding regularization term is introduced for the loss function. This term can be combined with HF-MAML and is shown to increase global model verification performance. Lastly, this work performs a fairness analysis, showing that HF-MAML and its embedding regularization extension can improve fairness by reducing the standard deviation over the client evaluation scores. | 翻訳日:2024-09-01 16:32:17 公開日:2024-08-13 |
# 多世界逆レンダリング
Many-Worlds Inverse Rendering ( http://arxiv.org/abs/2408.16005v1 ) ライセンス: Link先を確認 | Ziyi Zhang, Nicolas Roussel, Wenzel Jakob, | (参考訳) 物理的にベースとした逆レンダラーの表面を最適化する場合、不連続な可視性の変化は依然として大きなボトルネックとなる。
これまでの多くの研究で、可視性シルエットをより効率的にサンプリングするための洗練されたアルゴリズムとデータ構造が提案されている。
我々の研究は別の解決策を提示している: 仮面を局所的に微分するのではなく、表面の体積摂動を区別する。
これは、入力データセットの矛盾する説明(世界)の相互作用しない重ね合わせをモデル化するためである。
それぞれの世界は光学的に他の世界から孤立しており、指数的ランダムメディアに基づく従来の手法との違いを区別する新たな輸送法則が導かれる。
モンテカルロアルゴリズムは従来の手法よりもシンプルで効率的である。
本稿では,本手法が反復数とイテレーション毎のコストの両面において,迅速な収束を促進することを実証する。
Discontinuous visibility changes remain a major bottleneck when optimizing surfaces within a physically-based inverse renderer. Many previous works have proposed sophisticated algorithms and data structures to sample visibility silhouettes more efficiently. Our work presents another solution: instead of differentiating a tentative surface locally, we differentiate a volumetric perturbation of a surface. We refer this as a many-worlds representation because it models a non-interacting superposition of conflicting explanations (worlds) of the input dataset. Each world is optically isolated from others, leading to a new transport law that distinguishes our method from prior work based on exponential random media. The resulting Monte Carlo algorithm is simpler and more efficient than prior methods. We demonstrate that our method promotes rapid convergence, both in terms of the total iteration count and the cost per iteration. | 翻訳日:2024-09-01 16:32:17 公開日:2024-08-13 |
# ロボティクスにおける行動学習応用の実態と展望
A Survey of Behavior Learning Applications in Robotics -- State of the Art and Perspectives ( http://arxiv.org/abs/1906.01868v2 ) ライセンス: Link先を確認 | Alexander Fabisch, Christoph Petzoldt, Marc Otto, Frank Kirchner, | (参考訳) 近年、多くの領域における機械学習の成功は圧倒的なものとなり、ロボット工学における行動学習の能力に対する誤った期待につながっている。
本研究では,ロボット行動における機械学習の現状を分析する。
実際のロボットで学んだり使ったりした行動について、より広範囲に概説する。
私たちの焦点は、キネマティックまたは感覚的に複雑なロボットです。
これには、ヒューマノイドロボットや、足のついたロボットやロボットアームなど、ヒューマノイドロボットの一部が含まれる。
提示された行動は様々なカテゴリーで分類し、何が学べるか、何が学べるかという結論を引き出す。
さらに、現在課題となっているが将来的には機械学習によって解決される可能性がある問題を概観し、古典的なロボット工学や他の人工知能からのアプローチが、機械学習と統合されて完全な自律システムを形成するべきだと論じる。
Recent success of machine learning in many domains has been overwhelming, which often leads to false expectations regarding the capabilities of behavior learning in robotics. In this survey, we analyze the current state of machine learning for robotic behaviors. We will give a broad overview of behaviors that have been learned and used on real robots. Our focus is on kinematically or sensorially complex robots. That includes humanoid robots or parts of humanoid robots, for example, legged robots or robotic arms. We will classify presented behaviors according to various categories and we will draw conclusions about what can be learned and what should be learned. Furthermore, we will give an outlook on problems that are challenging today but might be solved by machine learning in the future and argue that classical robotics and other approaches from artificial intelligence should be integrated more with machine learning to form complete, autonomous systems. | 翻訳日:2024-08-25 14:35:18 公開日:2024-08-13 |
# 医用インテントのコントラスト学習 : シークエンシャル・プレプション・レコメンデーション
Contrastive Learning on Medical Intents for Sequential Prescription Recommendation ( http://arxiv.org/abs/2408.10259v1 ) ライセンス: Link先を確認 | Arya Hadizadeh Moghaddam, Mohsen Nayebi Kerdabadi, Mei Liu, Zijun Yao, | (参考訳) エレクトロニック・ヘルス・レコーズ(EHR)に適用されたシーケンシャル・モデリングの進歩は処方薬推薦システムに大きな影響を与えた。
薬物推奨に関する最近の文献は有望な業績を示しているが、連続訪問における医療基準のレベルにおいて、共存する時間的関係の多様性を発見する研究は、いまだに研究されていない。
この研究の目的は2つの視点から動機付けることができる。
まず、シーケンシャルな訪問を横断する複雑な関係を解消できる洗練されたシーケンシャルなモデルを開発する必要がある。
第2に、薬物推奨において異なる医学的意図を包括的に考慮するために、同一患者に対して複数の多様な健康プロファイルを確立することが重要である。
この目的を達成するために,コントラスト・インテント(ARCI)と呼ばれるマルチレベルのトランスフォーマー・ベースの手法を導入する。
具体的には,患者の専門的医学的意図をトランスフォーマーヘッドと結びつけて,異なる健康状態に関連する異なる時間的経路を抽出する,コントラスト学習のための新しい意図認識手法を提案する。
評価基準と分類基準の両方を用いて,2つの実世界のデータセットを処方勧告タスクとして実験した。
以上の結果から、ARCIは最先端の処方薬推奨方法よりも優れており、医療従事者に対して解釈可能な洞察を提供することができることが示された。
Recent advancements in sequential modeling applied to Electronic Health Records (EHR) have greatly influenced prescription recommender systems. While the recent literature on drug recommendation has shown promising performance, the study of discovering a diversity of coexisting temporal relationships at the level of medical codes over consecutive visits remains less explored. The goal of this study can be motivated from two perspectives. First, there is a need to develop a sophisticated sequential model capable of disentangling the complex relationships across sequential visits. Second, it is crucial to establish multiple and diverse health profiles for the same patient to ensure a comprehensive consideration of different medical intents in drug recommendation. To achieve this goal, we introduce Attentive Recommendation with Contrasted Intents (ARCI), a multi-level transformer-based method designed to capture the different but coexisting temporal paths across a shared sequence of visits. Specifically, we propose a novel intent-aware method with contrastive learning, that links specialized medical intents of the patients to the transformer heads for extracting distinct temporal paths associated with different health profiles. We conducted experiments on two real-world datasets for the prescription recommendation task using both ranking and classification metrics. Our results demonstrate that ARCI has outperformed the state-of-the-art prescription recommendation methods and is capable of providing interpretable insights for healthcare practitioners. | 翻訳日:2024-08-25 14:11:11 公開日:2024-08-13 |
# MGH Radiology Llama: A Llama 370B Model for Radiology
MGH Radiology Llama: A Llama 3 70B Model for Radiology ( http://arxiv.org/abs/2408.11848v1 ) ライセンス: Link先を確認 | Yucheng Shi, Peng Shu, Zhengliang Liu, Zihao Wu, Quanzheng Li, Xiang Li, | (参考訳) 近年、放射線学の分野は、診断精度の向上、ワークフローの効率化、患者のケア改善に人工知能(AI)の力を活用している。
大規模言語モデル(LLM)は特に有望なツールとして現れており、報告生成、臨床決定支援、患者とのコミュニケーションにおいて、放射線技師を支援する大きな可能性を秘めている。
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。
Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。
マサチューセッツ総合病院から独自で包括的なデータセットを入手し、様々な画像モダリティにわたる650万件以上の非特定医療報告を収集し、このモデルは、対応する結果から、正確で臨床的に関係のある放射線学の印象を生成する上で、大幅な改善を示す。
従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
In recent years, the field of radiology has increasingly harnessed the power of artificial intelligence (AI) to enhance diagnostic accuracy, streamline workflows, and improve patient care. Large language models (LLMs) have emerged as particularly promising tools, offering significant potential in assisting radiologists with report generation, clinical decision support, and patient communication. This paper presents an advanced radiology-focused large language model: MGH Radiology Llama. It is developed using the Llama 3 70B model, building upon previous domain-specific models like Radiology-GPT and Radiology-Llama2. Leveraging a unique and comprehensive dataset from Massachusetts General Hospital, comprising over 6.5 million de-identified medical reports across various imaging modalities, the model demonstrates significant improvements in generating accurate and clinically relevant radiology impressions given the corresponding findings. Our evaluation, incorporating both traditional metrics and a GPT-4-based assessment, highlights the enhanced performance of this work over general-purpose LLMs. | 翻訳日:2024-08-25 13:51:32 公開日:2024-08-13 |
# Style-Talker:高速音声対話生成のためのスタイルベース音声合成モデルとスタイルベース音声合成モデル
Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation ( http://arxiv.org/abs/2408.11849v1 ) ライセンス: Link先を確認 | Yinghao Aaron Li, Xilin Jiang, Jordan Darefsky, Ge Zhu, Nima Mesgarani, | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、テキストベースのチャットボットの開発を著しく推進し、一貫性と文脈に関連のある対話を行う能力を示している。
しかし、これらの進歩をエンド・ツー・エンドの会話ボットに拡張することは、主に膨大なデータセットと計算資源を必要とするため、非常に難しい課題である。
従来のパイプラインにおける自動音声認識(ASR)、LLM(Lite-to-Speech)、TTS(Text-to-Speech)モデルは、入力音声と書き起こされたテキストと出力音声との直接の相互作用が欠けているため、非自然な韻律に悩まされている。
これらのシステムは、リアルタイムアプリケーションのためのASRプロセスからの固有のレイテンシによって制限される。
本稿では、高速音声対話生成のためのスタイルベースTSモデルとともに、LLMを微調整する革新的なフレームワークであるStyle-Talkerを紹介する。
Style-Talkerは、ユーザ入力オーディオを受信し、書き起こされたチャット履歴と音声スタイルを使用して、応答のための話し方とテキストの両方を生成する。
その後、TSモデルは音声を合成し、ユーザーが再生する。
応答音声が再生されている間、入力音声はASR処理を行い、その書き起こしと話し方を取り出し、続く対話ターンのコンテキストとして機能する。
このパイプラインは、入力音声から豊富なパラ言語情報を統合しながら、従来のASR-LLM-TTSシステムを高速化する。
実験結果から,従来型のカスケードと音声から音声へのベースラインでは,対話の自然さとコヒーレンスの両方において50%以上高速であるのに対し,Style-Talkerの方が有意に優れていた。
The rapid advancement of large language models (LLMs) has significantly propelled the development of text-based chatbots, demonstrating their capability to engage in coherent and contextually relevant dialogues. However, extending these advancements to enable end-to-end speech-to-speech conversation bots remains a formidable challenge, primarily due to the extensive dataset and computational resources required. The conventional approach of cascading automatic speech recognition (ASR), LLM, and text-to-speech (TTS) models in a pipeline, while effective, suffers from unnatural prosody because it lacks direct interactions between the input audio and its transcribed text and the output audio. These systems are also limited by their inherent latency from the ASR process for real-time applications. This paper introduces Style-Talker, an innovative framework that fine-tunes an audio LLM alongside a style-based TTS model for fast spoken dialog generation. Style-Talker takes user input audio and uses transcribed chat history and speech styles to generate both the speaking style and text for the response. Subsequently, the TTS model synthesizes the speech, which is then played back to the user. While the response speech is being played, the input speech undergoes ASR processing to extract the transcription and speaking style, serving as the context for the ensuing dialogue turn. This novel pipeline accelerates the traditional cascade ASR-LLM-TTS systems while integrating rich paralinguistic information from input speech. Our experimental results show that Style-Talker significantly outperforms the conventional cascade and speech-to-speech baselines in terms of both dialogue naturalness and coherence while being more than 50% faster. | 翻訳日:2024-08-25 13:51:32 公開日:2024-08-13 |
# アダプティブドラフト長を用いた並列投機デコード
Parallel Speculative Decoding with Adaptive Draft Length ( http://arxiv.org/abs/2408.11850v1 ) ライセンス: Link先を確認 | Tianyu Liu, Yun Li, Qitan Lv, Kai Liu, Jianchen Zhu, Winston Hu, | (参考訳) 投機的復号(SD)では、まず複数の \textit{draft} トークンを提供するために追加のドラフトモデルを使用し、次に元のターゲットモデルがこれらのトークンを並列に検証する。
しかし、既存のSDメソッドは、相互待ちの問題、すなわち、ドラフトモデルが \textit{guessing} トークンであるときにターゲットモデルが立ち往生する、という問題に悩まされる。
この問題は、ドラフトモデルとターゲットモデルの非同期実行によって直接発生し、投機的復号における固定されたドラフト長により悪化する。
これらの課題に対処するために、概念的に単純で柔軟な、投機的復号化を促進するための一般的なフレームワーク、すなわち \textbf{P}arallel sp\textbf{E}culative decoding with \textbf{A}daptive d\textbf{R}aft \textbf{L}ength (PEARL)を提案する。
具体的には、ドラフトフェーズ中に事前に最初のドラフトトークンを検証するために \textit{pre-verify} と、検証フェーズ中により多くのドラフトトークンを生成するために \textit{post-verify} を提案する。
PEARLは2つの戦略を適用してドラフトフェーズと検証フェーズを並列化し、異なるシナリオに対して適応的なドラフト長を達成し、相互待ち問題を効果的に軽減する。
さらに、理論上、PEARL の平均許容トークンが既存の \textit{draft-then-verify} よりも大きいことを証明している。
各種テキスト生成ベンチマークの実験では、自動回帰復号法とバニラ投機復号法と比較して、より優れたスピードアップ性能を実現した。
Speculative decoding (SD), where an extra draft model is employed to provide multiple \textit{draft} tokens first and then the original target model verifies these tokens in parallel, has shown great power for LLM inference acceleration. However, existing SD methods suffer from the mutual waiting problem, i.e., the target model gets stuck when the draft model is \textit{guessing} tokens, and vice versa. This problem is directly incurred by the asynchronous execution of the draft model and the target model, and is exacerbated due to the fixed draft length in speculative decoding. To address these challenges, we propose a conceptually simple, flexible, and general framework to boost speculative decoding, namely \textbf{P}arallel sp\textbf{E}culative decoding with \textbf{A}daptive d\textbf{R}aft \textbf{L}ength (PEARL). Specifically, PEARL proposes \textit{pre-verify} to verify the first draft token in advance during the drafting phase, and \textit{post-verify} to generate more draft tokens during the verification phase. PEARL parallels the drafting phase and the verification phase via applying the two strategies, and achieves adaptive draft length for different scenarios, which effectively alleviates the mutual waiting problem. Moreover, we theoretically demonstrate that the mean accepted tokens of PEARL is more than existing \textit{draft-then-verify} works. Experiments on various text generation benchmarks demonstrate the effectiveness of our \name, leading to a superior speedup performance up to \textbf{3.79$\times$} and \textbf{1.52$\times$}, compared to auto-regressive decoding and vanilla speculative decoding, respectively. | 翻訳日:2024-08-25 13:51:32 公開日:2024-08-13 |
# アイテムレベルのカウンセレーション強化型マルチビューラーニングによるバンドル勧告
Bundle Recommendation with Item-level Causation-enhanced Multi-view Learning ( http://arxiv.org/abs/2408.08906v1 ) ライセンス: Link先を確認 | Huy-Son Nguyen, Tuan-Nghia Bui, Long-Hai Nguyen, Hoang Manh-Hung, Cam-Van Thi Nguyen, Hoang-Quynh Le, Duc-Trong Le, | (参考訳) バンドルレコメンデーションは、相互接続されたアイテムのセットを提案することによって、ビジネス利益性とユーザ利便性を高めることを目的としている。
現実のシナリオでは、非対称なアイテムアフィリエイトの影響を活用することが、効果的なバンドルモデリングとユーザの好みを理解する上で重要である。
そこで我々は,項目レベルの因果関係を強化した多視点学習を用いた新しいバンドルレコメンデーション手法 BunCa を提案する。
BunCaは2つのビューを通じて、ユーザとバンドルを包括的に表現する: Coherent View、アイテム間の因果関係にMulti-Prospect Causation Networkを活用するCohesive View、ユーザとバンドル間の情報伝達にLightGCNを使用するCohesive View。
両方のビューからユーザ好みとバンドル構築をモデリングすることで、Cohesive Viewを通じて直接ユーザとバンドルのインタラクションにおいて厳密な結合が保証され、Coherent Viewを通じて明示的なインテントをキャプチャします。
同時に、具体的および離散的コントラスト学習の統合は、多視点表現の一貫性と自己識別を最適化する。
BunCaによる3つのベンチマークデータセットによる大規模な実験は、この新しい研究の有効性を実証し、我々の仮説を検証する。
Bundle recommendation aims to enhance business profitability and user convenience by suggesting a set of interconnected items. In real-world scenarios, leveraging the impact of asymmetric item affiliations is crucial for effective bundle modeling and understanding user preferences. To address this, we present BunCa, a novel bundle recommendation approach employing item-level causation-enhanced multi-view learning. BunCa provides comprehensive representations of users and bundles through two views: the Coherent View, leveraging the Multi-Prospect Causation Network for causation-sensitive relations among items, and the Cohesive View, employing LightGCN for information propagation among users and bundles. Modeling user preferences and bundle construction combined from both views ensures rigorous cohesion in direct user-bundle interactions through the Cohesive View and captures explicit intents through the Coherent View. Simultaneously, the integration of concrete and discrete contrastive learning optimizes the consistency and self-discrimination of multi-view representations. Extensive experiments with BunCa on three benchmark datasets demonstrate the effectiveness of this novel research and validate our hypothesis. | 翻訳日:2024-08-20 23:35:59 公開日:2024-08-13 |
# ギリシャの酒場でパーティーに何を着るべきか : ファッションドメインにおける会話エージェントの評価
What should I wear to a party in a Greek taverna? Evaluation for Conversational Agents in the Fashion Domain ( http://arxiv.org/abs/2408.08907v1 ) ライセンス: Link先を確認 | Antonis Maronikolakis, Ana Peleteiro Ramallo, Weiwei Cheng, Thomas Kober, | (参考訳) 大規模言語モデル(LLM)は、オンラインファッション小売の領域に革命をもたらし、顧客の体験を高め、ファッションの発見をオンラインで行う。
LLMを利用した会話エージェントは、顧客と直接対話することで新たな発見方法を導入し、顧客自身の方法で表現し、ニーズを洗練し、好みや意図に関連するファッションやショッピングのアドバイスを得ることを可能にする。
特定の製品を見つけるなど、eコマースにおける多くのタスクにおいて、会話エージェントは顧客とのインタラクションを異なるバックエンドシステムへの特定の呼び出しに変換する必要がある。
したがって、LLMが他のサービスを呼び出すことに関連するタスクを実行する能力を評価することは不可欠である。
しかしながら、これらの評価は、関連性があり高品質なデータセットが欠如しているため、一般的には複雑であり、ビジネスニーズとシームレスに一致しない。
この目的のために,大規模なeコマースファッションプラットフォームにおいて,顧客とファッションアシスタントとの4k会話の多言語評価データセットを作成し,顧客とバックエンドエンジン間のアシスタントとして機能するLLMの能力を測定した。
さまざまなモデルを評価し、私たちのデータセットがビジネスニーズにどのようにスケールするかを示し、ツールの反復的な開発を促進する。
Large language models (LLMs) are poised to revolutionize the domain of online fashion retail, enhancing customer experience and discovery of fashion online. LLM-powered conversational agents introduce a new way of discovery by directly interacting with customers, enabling them to express in their own ways, refine their needs, obtain fashion and shopping advice that is relevant to their taste and intent. For many tasks in e-commerce, such as finding a specific product, conversational agents need to convert their interactions with a customer to a specific call to different backend systems, e.g., a search system to showcase a relevant set of products. Therefore, evaluating the capabilities of LLMs to perform those tasks related to calling other services is vital. However, those evaluations are generally complex, due to the lack of relevant and high quality datasets, and do not align seamlessly with business needs, amongst others. To this end, we created a multilingual evaluation dataset of 4k conversations between customers and a fashion assistant in a large e-commerce fashion platform to measure the capabilities of LLMs to serve as an assistant between customers and a backend engine. We evaluate a range of models, showcasing how our dataset scales to business needs and facilitates iterative development of tools. | 翻訳日:2024-08-20 23:35:59 公開日:2024-08-13 |
# フェデレーション学習に基づく適応微分プライバシー手法
An Adaptive Differential Privacy Method Based on Federated Learning ( http://arxiv.org/abs/2408.08909v1 ) ライセンス: Link先を確認 | Zhiqiang Wang, Xinyue Yu, Qianli Huang, Yongguang Gong, | (参考訳) 差分プライバシーは、連合学習におけるプライバシー保護の問題を解決する方法の1つである。
各ラウンドで同じプライバシー予算を設定すると、トレーニングの精度が低下する。
既存のプライバシー予算調整の方法は、影響要因を少なくし、境界を無視する傾向があり、不合理なプライバシー予算をもたらす。
そこで本稿では,フェデレート学習に基づく適応型微分プライバシー手法を提案する。
本手法は, 精度, 損失, 訓練ラウンド, データセット数, クライアント数に応じて調整係数とスコアリング関数を設定する。
そしてプライバシーの予算はそれに基づいて調整される。
そして、スケーリング係数とノイズに応じてローカルモデル更新を処理する。
最終的に、サーバは、ノイズ付きローカルモデル更新を集約し、ノイズ付きグローバルモデルを分散する。
パラメータの範囲とメソッドのプライバシを分析する。
実験的な評価により、プライバシー予算を約16%削減できるが、精度はほぼ同じである。
Differential privacy is one of the methods to solve the problem of privacy protection in federated learning. Setting the same privacy budget for each round will result in reduced accuracy in training. The existing methods of the adjustment of privacy budget consider fewer influencing factors and tend to ignore the boundaries, resulting in unreasonable privacy budgets. Therefore, we proposed an adaptive differential privacy method based on federated learning. The method sets the adjustment coefficient and scoring function according to accuracy, loss, training rounds, and the number of datasets and clients. And the privacy budget is adjusted based on them. Then the local model update is processed according to the scaling factor and the noise. Fi-nally, the server aggregates the noised local model update and distributes the noised global model. The range of parameters and the privacy of the method are analyzed. Through the experimental evaluation, it can reduce the privacy budget by about 16%, while the accuracy remains roughly the same. | 翻訳日:2024-08-20 23:35:59 公開日:2024-08-13 |
# なぜ専門家は、断続性にもかかわらず再生可能エネルギーとして太陽と風を好むのか?
Why Do Experts Favor Solar and Wind as Renewable Energies Despite their Intermittency? ( http://arxiv.org/abs/2408.08910v1 ) ライセンス: Link先を確認 | Steven P. Reinhardt, | (参考訳) 人類が再生可能エネルギー生成への移行を加速するにつれ、再生可能エネルギーの専門家ではない人々は、エネルギー技術とエネルギー市場について学んでいる。
いくつかの質問に対する答えは、専門家には明らかですが、専門家でない人には明らかです。
そのような疑問の1つは、なぜ太陽と風力発電が断続的であるときに将来のエネルギーの大部分を供給するのかである。
ここでは、実用規模へのスケーラビリティのベースラインのハードルと、世界規模で利用可能な基盤となるリソースが満たされると、太陽と風の予測コストは競合する技術よりも2~4倍低くなります。
市場は断続性を克服できると考えている。
As humanity accelerates its shift to renewable energy generation, people who are not experts in renewable energy are learning about energy technologies and the energy market, which are complex. The answers to some questions will be obvious to expert practitioners but not to non-experts. One such question is Why solar and wind generation are expected to supply the bulk of future energy when they are intermittent. We learn here that once the baseline hurdles of scalability to utility scale and the underlying resources being widely available globally are satisfied, the forecasted cost of solar and wind is 2-4X lower than competing technologies, even those that are not as scalable and available. The market views intermittency as surmountable. | 翻訳日:2024-08-20 23:35:59 公開日:2024-08-13 |
# 量子奇性に関するプライマー
Primer on quantum weirdness ( http://arxiv.org/abs/2408.08329v1 ) ライセンス: Link先を確認 | R. D. Hazeltine, | (参考訳) 崩壊に関する現代の議論の中心となる重要なアイデアと数学的ツールを紹介します。
ヒルベルト空間における状態のSchr\"{o}dinger進化、ボルン確率則、ディラック形式主義などの基本的な量子力学の知識を仮定し、プロジェクター、密度作用素、ベルの不等式、絡み合い、リンドブラッド方程式などの概念を解明する。
言い換えれば、この研究は、その言葉の最も単純な意味での「emph{primer}」であり、主要な疑問に目を向けることなく、巨大で成長する研究機関をよりアクセスしやすくすることを目的としている。
We introduce the key ideas and mathematical tools central to modern discussions of collapse. We assume knowledge of basic quantum mechanics -- the Schr\"{o}dinger evolution of states in Hilbert space, the Born probability rule, the Dirac formalism, and so on -- while explicating such ideas as projectors, density operators, Bell inequalities, entanglement and the Lindblad equation. In other words this work is a \emph{primer} in the simplest sense of that word: without taking a stand on the major questions, it is intended to make an enormous and growing body of research more accessible. | 翻訳日:2024-08-19 17:39:31 公開日:2024-08-13 |
# InGaAs/InP単光子検出器の最近の進歩
Recent advances in InGaAs/InP single-photon detectors ( http://arxiv.org/abs/2408.06921v1 ) ライセンス: Link先を確認 | Chao Yu, Qi Xu, Jun Zhang, | (参考訳) 単一光子検出器(SPD)は、非常に弱い光検出を必要とするアプリケーションで広く使われている。
近赤外域では,InGaAs/InP単光子アバランシェダイオード(SPAD)をベースとしたSPDが,小型化,低コスト化,操作容易化などにより,実用化の候補となっている。
量子通信とライダーのエスカレート要求により、InGaAs/InP SPDの性能は継続的に向上した。
本稿では,過去10年間のInGaAs/InP SPDの進歩を概観するとともに,SPADの構造と機構の解明や,ゲートモードとフリーランモードのSPDの読み出し技術について概説する。
また、今後の展望もまとめられている。
Single-photon detectors (SPDs) are widely used in applications requiring extremely weak light detection. In the near-infrared region, SPDs based on InGaAs/InP single-photon avalanche diodes (SPADs) are the primary candidates for practical applications because of their small size, low cost and ease of operation. Driven by the escalating demands for quantum communication and lidar, the performance of InGaAs/InP SPDs has been continuously enhanced. This paper provides a comprehensive review of advances in InGaAs/InP SPDs over the past 10 years, including the investigation into SPAD structures and mechanisms, as well as emerging readout techniques for both gated and free-running mode SPDs. In addition, future prospects are also summarised. | 翻訳日:2024-08-16 15:59:30 公開日:2024-08-13 |
# 強化学習入門-基本概念と実践的応用
An Introduction to Reinforcement Learning: Fundamental Concepts and Practical Applications ( http://arxiv.org/abs/2408.07712v1 ) ライセンス: Link先を確認 | Majid Ghasemi, Amir Hossein Moosavi, Ibrahim Sorkhoh, Anjali Agrawal, Fadi Alzhouri, Dariush Ebrahimi, | (参考訳) 強化学習(Reinforcement Learning, RL)は、人工知能(AI)の一分野であり、累積報酬を最大化するために環境と対話して意思決定を行うための訓練エージェントに焦点を当てている。
本稿では,その中核となる概念,方法論,最近の傾向,学習資源について概説する。
本稿では、状態、行動、ポリシー、報酬信号などのRLの重要な構成要素を詳細に説明し、読者が基礎的な理解を構築できるようにする。
また、モデルフリーおよびモデルベース手法を含む様々なRLアルゴリズムの例を示す。
さらに、RLアルゴリズムを導入し、書籍、コース、オンラインコミュニティなどの学習と実践のためのリソースを提供する。
本稿では,リアルタイム手法の習得と実装のための構造的かつ明確な経路を提供することにより,初心者の包括的かつ簡易な導入をデミステレーションする。
Reinforcement Learning (RL) is a branch of Artificial Intelligence (AI) which focuses on training agents to make decisions by interacting with their environment to maximize cumulative rewards. An overview of RL is provided in this paper, which discusses its core concepts, methodologies, recent trends, and resources for learning. We provide a detailed explanation of key components of RL such as states, actions, policies, and reward signals so that the reader can build a foundational understanding. The paper also provides examples of various RL algorithms, including model-free and model-based methods. In addition, RL algorithms are introduced and resources for learning and implementing them are provided, such as books, courses, and online communities. This paper demystifies a comprehensive yet simple introduction for beginners by offering a structured and clear pathway for acquiring and implementing real-time techniques. | 翻訳日:2024-08-16 15:59:30 公開日:2024-08-13 |
# 非凸制約問題を大域的に最適化するための反射勾配ランジュバンダイナミクスの収束誤差解析
Convergence Error Analysis of Reflected Gradient Langevin Dynamics for Globally Optimizing Non-Convex Constrained Problems ( http://arxiv.org/abs/2203.10215v3 ) ライセンス: Link先を確認 | Kanji Sato, Akiko Takeda, Reiichiro Kawai, Taiji Suzuki, | (参考訳) グラディエントランゲヴィン力学と様々な変種は、大域的最適解への収束によって、最初は制約のない凸フレームワークにおいて、最近は凸制約のない凸問題においてさえも関心を惹きつけている。
本研究では,非凸領域上の非凸問題に拡張し,リフレクション勾配ランゲヴィンダイナミクスに基づく大域的最適化アルゴリズムを構築し,収束率を導出する。
ポアソン方程式の確率的表現とノイマン境界条件を併用して境界での反射を効果的に利用することにより、有望な収束率、特に凸制約された非凸問題に対する既存のものよりも高速な収束率を示す。
Gradient Langevin dynamics and a variety of its variants have attracted increasing attention owing to their convergence towards the global optimal solution, initially in the unconstrained convex framework while recently even in convex constrained non-convex problems. In the present work, we extend those frameworks to non-convex problems on a non-convex feasible region with a global optimization algorithm built upon reflected gradient Langevin dynamics and derive its convergence rates. By effectively making use of its reflection at the boundary in combination with the probabilistic representation for the Poisson equation with the Neumann boundary condition, we present promising convergence rates, particularly faster than the existing one for convex constrained non-convex problems. | 翻訳日:2024-08-15 19:02:51 公開日:2024-08-13 |
# 拡散写像粒子系による生成モデリング
Diffusion map particle systems for generative modeling ( http://arxiv.org/abs/2304.00200v3 ) ライセンス: Link先を確認 | Fengyi Li, Youssef Marzouk, | (参考訳) 拡散写像とラプラシアン調整ワッサーシュタイン勾配勾配(LAWGD)に基づく新しい拡散写像粒子系(DMPS)を提案する。
拡散写像は、サンプルから対応するランゲヴィン拡散過程の生成元を近似するために使われ、したがって基礎となるデータ生成多様体を学ぶために用いられる。
一方、LAWGDはカーネルの選択に適したターゲット分布から効率的にサンプリングすることが可能であり、ここでは拡散写像を用いて計算されたジェネレータのスペクトル近似を用いて構成する。
本手法では、オフライントレーニングや最小限のチューニングは必要とせず、適度な次元のデータセットにおいて、他の手法よりも優れている。
We propose a novel diffusion map particle system (DMPS) for generative modeling, based on diffusion maps and Laplacian-adjusted Wasserstein gradient descent (LAWGD). Diffusion maps are used to approximate the generator of the corresponding Langevin diffusion process from samples, and hence to learn the underlying data-generating manifold. On the other hand, LAWGD enables efficient sampling from the target distribution given a suitable choice of kernel, which we construct here via a spectral approximation of the generator, computed with diffusion maps. Our method requires no offline training and minimal tuning, and can outperform other approaches on data sets of moderate dimension. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-13 |
# CS-TRD:クロスセクションツリーリング検出方法
CS-TRD: a Cross Sections Tree Ring Detection method ( http://arxiv.org/abs/2305.10809v2 ) ライセンス: Link先を確認 | Henry Marichal, Diego Passarella, Gregory Randall, | (参考訳) 本研究は,木の成長環に対応するエッジを検出し,処理し,接続する全木断面(CS-TRD)のツリーリング検出法について述べる。
この手法は、Canny Devernayエッジ検出器(シグマ)のパラメータ、サイズ要因、光の数、および穴の位置に依存する。
最初の5つはデフォルトで固定されます。
ピット位置を手動でマークしたり、自動的なピット検出アルゴリズムを使用することができる。
ピットローカライゼーションに加えて、CS-TRDは完全に自動化されており、UruDendroデータセット(Pinus taeda)の89%、Kennelデータセット(Abeies alba)の97%のFスコアを特別なハードウェア要件なしで達成している。
This work describes a Tree Ring Detection method for complete Cross-Sections of Trees (CS-TRD) that detects, processes and connects edges corresponding to the tree's growth rings. The method depends on the parameters for the Canny Devernay edge detector (sigma), a resize factor, the number of rays, and the pith location. The first five are fixed by default. The pith location can be marked manually or using an automatic pith detection algorithm. Besides the pith localization, CS-TRD is fully automated and achieves an F-Score of 89% in the UruDendro dataset (of Pinus taeda) and 97% in the Kennel dataset (of Abies alba) without specialized hardware requirements. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-13 |
# 内部配位子拡散を用いたマクロ環状ペプチドの高精度かつ効率的な構造アンサンブル生成
Accurate and Efficient Structural Ensemble Generation of Macrocyclic Peptides using Internal Coordinate Diffusion ( http://arxiv.org/abs/2305.19800v2 ) ライセンス: Link先を確認 | Colin A. Grambow, Hayley Weir, Nathaniel L. Diamant, Gabriele Scalia, Tommaso Biancalani, Kangway V. Chuang, | (参考訳) マクロ環状ペプチドは、新しい治療モダリティであるが、多彩な3Dアンサンブルを正確にサンプリングするための計算手法は、構造的多様性と幾何学的制約のため、依然として困難である。
本稿では,その2次元表現から大環状ペプチドの3次元コンフォメーションアンサンブルを生成する冗長な内部座標表現を用いた拡散型トランスフォーマーモデルであるRINGERを紹介する。
RINGERは、環状ペプチドの重要な構造的不変性を尊重しながら、高速なバックボーンとサイドチェーンサンプリングを提供する。
メタダイナミックスにより生成される環状ペプチドのゴールド標準コンフォメータアンサンブルに対する広範なベンチマークと解析により,RINGERが計算コストのごく一部で高品質かつ多様なジオメトリを生成できることを実証した。
本研究は,循環型ジオメトリーのサンプリングの改善とペプチドの幾何学的学習法の開発のための基礎となる。
Macrocyclic peptides are an emerging therapeutic modality, yet computational approaches for accurately sampling their diverse 3D ensembles remain challenging due to their conformational diversity and geometric constraints. Here, we introduce RINGER, a diffusion-based transformer model using a redundant internal coordinate representation that generates three-dimensional conformational ensembles of macrocyclic peptides from their 2D representations. RINGER provides fast backbone and side-chain sampling while respecting key structural invariances of cyclic peptides. Through extensive benchmarking and analysis against gold-standard conformer ensembles of cyclic peptides generated with metadynamics, we demonstrate how RINGER generates both high-quality and diverse geometries at a fraction of the computational cost. Our work lays the foundation for improved sampling of cyclic geometries and the development of geometric learning methods for peptides. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-13 |
# 言語モデルにおけるソシオドモグラフィーバイアス : 調査と前向きパス
Sociodemographic Bias in Language Models: A Survey and Forward Path ( http://arxiv.org/abs/2306.08158v5 ) ライセンス: Link先を確認 | Vipul Gupta, Pranav Narayanan Venkit, Shomir Wilson, Rebecca J. Passonneau, | (参考訳) 言語モデル(LM)におけるソシオデモグラフィーバイアスは、現実世界の環境に配置した場合に害を与える可能性がある。
本稿では,過去10年間のLMにおける社会デマトグラフィーバイアスの研究を包括的に調査し,様々な目的(バイアスの種類,定量化バイアス,偏見化テクニック)について調査する。
後者の2つの質問の進化を追跡し、現在のトレンドとその制限、そして新しいテクニックを特定します。
今後の研究を、より効果的で信頼性の高いソリューションへと導くとともに、著者がこの広い視野で作業を行うのを助けるために、オープンな質問のチェックリストで締めくくります。
Sociodemographic bias in language models (LMs) has the potential for harm when deployed in real-world settings. This paper presents a comprehensive survey of the past decade of research on sociodemographic bias in LMs, organized into a typology that facilitates examining the different aims: types of bias, quantifying bias, and debiasing techniques. We track the evolution of the latter two questions, then identify current trends and their limitations, as well as emerging techniques. To guide future research towards more effective and reliable solutions, and to help authors situate their work within this broad landscape, we conclude with a checklist of open questions. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-13 |
# 機械学習回帰におけるトレーニングセット充填距離の最小化について
On minimizing the training set fill distance in machine learning regression ( http://arxiv.org/abs/2307.10988v3 ) ライセンス: Link先を確認 | Paolo Climaco, Jochen Garcke, | (参考訳) 回帰タスクでは、予測機械学習モデルのトレーニングに大規模なデータセットを利用することが多い。
しかし、大きなデータセットを使うことは、計算上の制限や高いデータラベリングコストのために実現できないかもしれない。
したがって、効率を保ちながらモデル性能を最大化するためには、乱れのないデータポイントの大きなプールから小さなトレーニングセットを選択することが適当である。
本研究では,Farthest Point Smpling (FPS) について検討する。FPSとは,選択した集合の充填距離を最小化することを目的としたデータ選択手法である。
我々は,最大予測誤差の上限を,学習セットの充足距離に線形に依存する非競合データ点の位置に条件付けることによって導出した。
実験的な検証のために、3つのデータセット上で2つの回帰モデルを用いて実験を行う。
実験により, 補間距離を最小化し, 導出境界を最小化することにより, 各種回帰モデルの最大予測誤差を著しく低減し, 代替サンプリング手法を大きなマージンで上回ることを示す。
さらに、FPSを用いてトレーニングセットを選択することで、ガウスカーネル回帰アプローチの特定の場合のモデルの安定性を向上させることができることを示す。
For regression tasks one often leverages large datasets for training predictive machine learning models. However, using large datasets may not be feasible due to computational limitations or high data labelling costs. Therefore, suitably selecting small training sets from large pools of unlabelled data points is essential to maximize model performance while maintaining efficiency. In this work, we study Farthest Point Sampling (FPS), a data selection approach that aims to minimize the fill distance of the selected set. We derive an upper bound for the maximum expected prediction error, conditional to the location of the unlabelled data points, that linearly depends on the training set fill distance. For empirical validation, we perform experiments using two regression models on three datasets. We empirically show that selecting a training set by aiming to minimize the fill distance, thereby minimizing our derived bound, significantly reduces the maximum prediction error of various regression models, outperforming alternative sampling approaches by a large margin. Furthermore, we show that selecting training sets with the FPS can also increase model stability for the specific case of Gaussian kernel regression approaches. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-13 |
# GeoDTR+:幾何学的絡み合いによる一般的なクロスビューなジオローカライゼーションを目指して
GeoDTR+: Toward generic cross-view geolocalization via geometric disentanglement ( http://arxiv.org/abs/2308.09624v2 ) ライセンス: Link先を確認 | Xiaohan Zhang, Xingyu Li, Waqas Sultani, Chen Chen, Safwan Wshah, | (参考訳) Cross-View Geo-Localization (CVGL) は、データベース内のジオタグ付き空中画像とマッチングすることで、地上画像の位置を推定する。
近年のCVGLベンチマークは顕著な進歩を遂げている。
しかし、既存の手法は、完全に異なる領域からトレーニングデータとテストデータをキャプチャするクロスエリア評価において、依然としてパフォーマンスの低下に悩まされている。
視覚的特徴の幾何学的レイアウトを抽出する能力の欠如と,低レベルの細部への過度な適合が原因と考えられる。
我々の予備的な作業は、入力特徴から幾何学的レイアウトをキャプチャするGeometric Layout Extractor (GLE)を導入した。
しかし、以前のGLEは入力機能の情報を十分に活用していない。
本研究では,視覚的特徴間の相関をモデル化する拡張GLEモジュールを用いたGeoDTR+を提案する。
予備研究からLS技術を完全に探求するため,モデルトレーニングを容易にするためにコントラストハードサンプル生成(CHSG)を提案する。
大規模実験の結果,GeoDTR+ は CVUSA,CVACT,VIGOR の領域横断評価を,既存の SOTA と同等の性能を維持しつつ,大きなマージン (16.44 %$,22.71 %$,13.66 %$) で達成した。
また,GeoDTR+の詳細な解析を行った。
私たちのコードはhttps://gitlab.com/vail-uvm/geodtr plusで利用可能です。
Cross-View Geo-Localization (CVGL) estimates the location of a ground image by matching it to a geo-tagged aerial image in a database. Recent works achieve outstanding progress on CVGL benchmarks. However, existing methods still suffer from poor performance in cross-area evaluation, in which the training and testing data are captured from completely distinct areas. We attribute this deficiency to the lack of ability to extract the geometric layout of visual features and models' overfitting to low-level details. Our preliminary work introduced a Geometric Layout Extractor (GLE) to capture the geometric layout from input features. However, the previous GLE does not fully exploit information in the input feature. In this work, we propose GeoDTR+ with an enhanced GLE module that better models the correlations among visual features. To fully explore the LS techniques from our preliminary work, we further propose Contrastive Hard Samples Generation (CHSG) to facilitate model training. Extensive experiments show that GeoDTR+ achieves state-of-the-art (SOTA) results in cross-area evaluation on CVUSA, CVACT, and VIGOR by a large margin ($16.44\%$, $22.71\%$, and $13.66\%$ without polar transformation) while keeping the same-area performance comparable to existing SOTA. Moreover, we provide detailed analyses of GeoDTR+. Our code will be available at https://gitlab.com/vail-uvm/geodtr plus. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-13 |
# 個人化帯域推定のためのオンライン学習のオフライン化
Offline to Online Learning for Personalized Bandwidth Estimation ( http://arxiv.org/abs/2309.13481v2 ) ライセンス: Link先を確認 | Aashish Gottipati, Sami Khairy, Gabriel Mittag, Vishak Gopal, Ross Cutler, | (参考訳) 本研究では,専門家のパーソナライズによるリアルタイム通信システムにおける帯域幅推定(BWE)の問題に取り組む。
専門的なヒューリスティックな手法が広く採用されているが、ドメインの専門知識と注意深く調整されたヒューリスティックなパラメータを調整するために必要な手作業のために、各ユーザー環境に対してこれらの手法を調整することは困難である。
です。
本稿では,BWE に対するデータ駆動型ソリューションである Merlin を提案する。
次に、抽出したポリシーをエンドユーザーネットワーク条件に微調整して、ユーザ体験の質(QoE)を改善する。
実世界のビデオ会議コールでは、Merlinは、客観的なQoEメトリクスに関して統計的に有意な動きをしない専門家のポリシーと一致します。
さらに,Merlinの制御ポリシをパーソナライズすることは,少数のオンラインデータ駆動パラメータ更新によって可能であることを示す。
In this work, we tackle the problem of bandwidth estimation (BWE) for real-time communication systems through expert personalization. While expert heuristic-based methods have been widely adopted, tailoring these methods for each and every end user environment is cumbersome due to the level of domain expertise and manual effort required to adjust the carefully tuned heuristic parameters. Thus. we propose Merlin, a data-driven solution to BWE that harnesses expert demonstrations from prior heuristic-based methods to extract an expert BWE policy. The extracted policy can then be finetuned to end user network conditions to improve user quality of experience (QoE). In real-world videoconferencing calls, Merlin matches our expert's policy with no statistically significant movements in terms of objective QoE metrics. Additionally, we show that personalizing Merlin's control policy is possible through a small number of online data-driven parameter updates. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-13 |
# 失った中年者: 位置非依存型分解訓練による長期質問応答の習得
Never Lost in the Middle: Mastering Long-Context Question Answering with Position-Agnostic Decompositional Training ( http://arxiv.org/abs/2311.09198v2 ) ライセンス: Link先を確認 | Junqing He, Kunhao Pan, Xiaoqun Dong, Zhuoyang Song, Yibo Liu, Qianguo Sun, Yuxin Liang, Hao Wang, Enming Zhang, Jiaxing Zhang, | (参考訳) 大きな言語モデル(LLM)は、以前よりも長いテキスト入力機能を備えているが、彼らは長いコンテキストで正しい情報を求めるのに苦労している。
中間のロスト」問題は、正しい情報が中央にある場合の精度の劇的な低下に言及して、ほとんどのLCMに挑戦する。
この課題を克服するために,ASM QA (Atentionening Multi-doc QA) と呼ばれる特別に設計されたタスクを通じて,LLMの長期的コンテキストにおける情報探索と反射能力を向上させることを提案する。
これらのタスクの後、我々のモデルはより正確に所望の情報に焦点を合わせることに長けている。
実験の結果、マルチドックQAやその他のベンチマークは、最先端モデルよりも13.7%、シャッフル設定では21.5%向上した。
我々のモデルであるZiya-Readerをリリースし、コミュニティにおける関連する研究を促進する。
While large language models (LLMs) are equipped with longer text input capabilities than before, they are struggling to seek correct information in long contexts. The "lost in the middle" problem challenges most LLMs, referring to the dramatic decline in accuracy when correct information is located in the middle. To overcome this crucial issue, this paper proposes to enhance the information searching and reflection ability of LLMs in long contexts via specially designed tasks called Attention Strengthening Multi-doc QA (ASM QA). Following these tasks, our model excels in focusing more precisely on the desired information. Experimental results show substantial improvement in Multi-doc QA and other benchmarks, superior to state-of-the-art models by 13.7% absolute gain in shuffled settings, by 21.5% in passage retrieval task. We release our model, Ziya-Reader to promote related research in the community. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-13 |
# 心血管MRIにおけるボリューム・ツー・メッシュ再構成のためのマルチビューハイブリッドグラフ畳み込みネットワーク
Multi-view Hybrid Graph Convolutional Network for Volume-to-mesh Reconstruction in Cardiovascular MRI ( http://arxiv.org/abs/2311.13706v2 ) ライセンス: Link先を確認 | Nicolás Gaggion, Benjamin A. Matheson, Yan Xia, Rodrigo Bonazzola, Nishant Ravikumar, Zeike A. Taylor, Diego H. Milone, Alejandro F. Frangi, Enzo Ferrante, | (参考訳) 心臓形態と機能を調べる重要なツールとして、心臓血管MRIが登場している。
この取り組みの本質は、CMR画像から派生した解剖学的3次元表面と体積メッシュであり、計算解剖学研究、バイオマーカー発見、シリコン内シミュレーションを促進する。
しかし、アクティブ形状モデルやマルチアトラスセグメンテーションのような従来の表面メッシュ生成手法は、シミュレーション可能な3Dメッシュを生成するために複雑な処理パイプラインを必要とする。
これに対し、HybridVNetは、標準的な畳み込みニューラルネットワークをグラフ畳み込みとシームレスに統合する、直接画像合成のための新しいアーキテクチャである。
さらに精度を高めるために,長軸CMRと短軸CMRの両方を処理するマルチビューハイブリッドVNetアーキテクチャを提案する。
我々のモデルは、従来の畳み込みネットワークと変分グラフ生成モデル、深い監督とメッシュ固有の正規化を組み合わせたものです。
イギリスバイオバンクによる包括的データセットの実験では、CMR画像から高忠実度とシミュレーション可能なメッシュを効率的に生成することにより、HybridVNetが心臓画像と計算心臓学を大幅に進歩させる可能性を確認している。
Cardiovascular magnetic resonance imaging is emerging as a crucial tool to examine cardiac morphology and function. Essential to this endeavour are anatomical 3D surface and volumetric meshes derived from CMR images, which facilitate computational anatomy studies, biomarker discovery, and in-silico simulations. However, conventional surface mesh generation methods, such as active shape models and multi-atlas segmentation, are highly time-consuming and require complex processing pipelines to generate simulation-ready 3D meshes. In response, we introduce HybridVNet, a novel architecture for direct image-to-mesh extraction seamlessly integrating standard convolutional neural networks with graph convolutions, which we prove can efficiently handle surface and volumetric meshes by encoding them as graph structures. To further enhance accuracy, we propose a multiview HybridVNet architecture which processes both long axis and short axis CMR, showing that it can increase the performance of cardiac MR mesh generation. Our model combines traditional convolutional networks with variational graph generative models, deep supervision and mesh-specific regularisation. Experiments on a comprehensive dataset from the UK Biobank confirm the potential of HybridVNet to significantly advance cardiac imaging and computational cardiology by efficiently generating high-fidelity and simulation ready meshes from CMR images. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-13 |
# 通信遅延のない非同期確率近似の安定性に関する一考察
A Note on Stability in Asynchronous Stochastic Approximation without Communication Delays ( http://arxiv.org/abs/2312.15091v2 ) ライセンス: Link先を確認 | Huizhen Yu, Yi Wan, Richard S. Sutton, | (参考訳) 本稿では,通信遅延のない非同期確率近似アルゴリズムについて検討する。
我々の主な貢献は、より一般的な雑音条件を調節することによってボルカーとメインの手法を拡張するこれらのアルゴリズムの安定性証明である。
また、この安定性結果から収束結果を導出し、それらの重要な平均回帰強化学習問題への応用について議論する。
In this paper, we study asynchronous stochastic approximation algorithms without communication delays. Our main contribution is a stability proof for these algorithms that extends a method of Borkar and Meyn by accommodating more general noise conditions. We also derive convergence results from this stability result and discuss their application in important average-reward reinforcement learning problems. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-13 |
# MiTTenS: 性転換を評価するデータセット
MiTTenS: A Dataset for Evaluating Gender Mistranslation ( http://arxiv.org/abs/2401.06935v2 ) ライセンス: Link先を確認 | Kevin Robinson, Sneha Kudugunta, Romina Stella, Sunipa Dev, Jasmijn Bastings, | (参考訳) 翻訳可能な基礎モデルを含む翻訳システムは、性別の誤訳をもたらすエラーを発生させる可能性があり、そのようなエラーは特に有害である。
英語の翻訳や翻訳を行う際の潜在的な害の程度を測定するために,従来のデジタルリソースで表現されていないものを含む,さまざまな言語ファミリーやスクリプトから26の言語をカバーしたデータセットMiTTenSを導入する。
データセットは、既知の障害パターン、より長く合成されたパス、複数のドメインから生成された自然なパスを対象とする手作りのパスで構成されている。
ニューラルネットワーク翻訳システムと基礎モデルの両方を評価することで,データセットの有用性を実証し,高資源言語においても,すべてのシステムが性別の誤訳や潜在的危害を示すことを示す。
Translation systems, including foundation models capable of translation, can produce errors that result in gender mistranslation, and such errors can be especially harmful. To measure the extent of such potential harms when translating into and out of English, we introduce a dataset, MiTTenS, covering 26 languages from a variety of language families and scripts, including several traditionally under-represented in digital resources. The dataset is constructed with handcrafted passages that target known failure patterns, longer synthetically generated passages, and natural passages sourced from multiple domains. We demonstrate the usefulness of the dataset by evaluating both neural machine translation systems and foundation models, and show that all systems exhibit gender mistranslation and potential harm, even in high resource languages. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-13 |
# DFML: 分散化した相互学習
DFML: Decentralized Federated Mutual Learning ( http://arxiv.org/abs/2402.01863v2 ) ライセンス: Link先を確認 | Yasser H. Khalil, Amir H. Estiri, Mahdi Beitollahi, Nader Asadi, Sobhan Hemati, Xu Li, Guojun Zhang, Xi Chen, | (参考訳) 現実のデバイスの世界では、フェデレートラーニング(FL)における集中型サーバは、通信ボトルネックや単一障害点に対する感受性などの課題を提示している。
さらに、現代のデバイスは本質的にモデルとデータの異質性を示す。
既存の作業には、アーキテクチャ上の制約や公開データの可用性を仮定することなく、そのような不均一性を調節できる分散FL(DFL)フレームワークが欠けている。
これらの問題に対処するために、サーバーレスで、非制限的不均一モデルをサポートし、公開データへの依存を避ける分散フェデレーション相互学習(DFML)フレームワークを提案する。
DFMLは相互学習を通じてモデルとデータの均一性を効果的に処理し、クライアント間の知識を蒸留し、監督信号と蒸留信号の量を周期的に変化させる。
DFMLの収束速度と大域的精度の両面での一貫した有効性を示し, 各種条件下での有意なベースラインよりも優れていた。
例えば、CIFAR-100データセットと50のクライアントで、DFMLは、それぞれ独立分散(IID)と非IIDデータシフトの下で、グローバル精度の+17.20%と+19.95%を大きく向上させる。
In the realm of real-world devices, centralized servers in Federated Learning (FL) present challenges including communication bottlenecks and susceptibility to a single point of failure. Additionally, contemporary devices inherently exhibit model and data heterogeneity. Existing work lacks a Decentralized FL (DFL) framework capable of accommodating such heterogeneity without imposing architectural restrictions or assuming the availability of public data. To address these issues, we propose a Decentralized Federated Mutual Learning (DFML) framework that is serverless, supports nonrestrictive heterogeneous models, and avoids reliance on public data. DFML effectively handles model and data heterogeneity through mutual learning, which distills knowledge between clients, and cyclically varying the amount of supervision and distillation signals. Extensive experimental results demonstrate consistent effectiveness of DFML in both convergence speed and global accuracy, outperforming prevalent baselines under various conditions. For example, with the CIFAR-100 dataset and 50 clients, DFML achieves a substantial increase of +17.20% and +19.95% in global accuracy under Independent and Identically Distributed (IID) and non-IID data shifts, respectively. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-13 |
# 近接電子面上の加速分子動力学のための多体波動関数の補間
Interpolating many-body wave functions for accelerated molecular dynamics on the near-exact electronic surface ( http://arxiv.org/abs/2402.11097v2 ) ライセンス: Link先を確認 | Yannic Rath, George H. Booth, | (参考訳) 強相関分子系と機械学習加速分子動力学の計算プローブの開発は数多く行われているが、原子が移動する時間スケールで正確な非局所電子構造をシミュレートする能力には大きなギャップが残っている。
我々は、これらの基礎となる電子状態の指数的複雑さを回避しつつ、原子配置の空間を通じて相関多電子状態に対する実用的な補間スキームでこれらの分野を橋渡しするアプローチを開発する。
トレーニングセットとして正確な相関波動関数の数が少なかったため、平均場計算スケーリングを保ちながら、有効な多体波動関数の伝播と変動エネルギーの推測を伴って、後続のダイナミクスに対して、近似ポテンシャルエネルギー面への証明可能な収束を示す。
これは、確立された機械学習アプローチにおけるポテンシャルエネルギー表面の直接補間に対する、非常に異なるパラダイムである。
分子動力学を体系的に解き、熱力学量を数百万の補間波動関数の高スループットで収束させ、数個の数値的な量子化学計算からその精度を明示的に検証する現代の電子構造手法と組み合わせる。
また、平均場表面における従来の機械学習電位やダイナミクスとの比較も強調する。
While there have been many developments in computational probes of both strongly-correlated molecular systems and machine-learning accelerated molecular dynamics, there remains a significant gap in capabilities in simulating accurate non-local electronic structure over timescales on which atoms move. We develop an approach to bridge these fields with a practical interpolation scheme for the correlated many-electron state through the space of atomic configurations, whilst avoiding the exponential complexity of these underlying electronic states. With a small number of accurate correlated wave functions as a training set, we demonstrate provable convergence to near-exact potential energy surfaces for subsequent dynamics with propagation of a valid many-body wave function and inference of its variational energy whilst retaining a mean-field computational scaling. This represents a profoundly different paradigm to the direct interpolation of potential energy surfaces in established machine-learning approaches. We combine this with modern electronic structure approaches to systematically resolve molecular dynamics trajectories and converge thermodynamic quantities with a high-throughput of several million interpolated wave functions with explicit validation of their accuracy from only a few numerically exact quantum chemical calculations. We also highlight the comparison to traditional machine-learned potentials or dynamics on mean-field surfaces. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-13 |
# Garment3DGen: 3Dガーメントスティル化とテクスチャ生成
Garment3DGen: 3D Garment Stylization and Texture Generation ( http://arxiv.org/abs/2403.18816v2 ) ライセンス: Link先を確認 | Nikolaos Sarafianos, Tuur Stuyck, Xiaoyu Xiang, Yilei Li, Jovan Popovic, Rakesh Ranjan, | (参考訳) 本稿では,単一の入力画像が与えられたベースメッシュから3次元衣服資産を合成する新しい手法であるGarment3DGenを紹介する。
提案手法では,テキストプロンプトなど,実画像と合成画像の両方に基づいて3次元テクスチャ化された衣服を作成できる。
生成された資産は人体に直接描画し、シミュレーションすることができる。
画像から3Dへの拡散手法の最近の進歩を生かして, 3次元の衣服測地を創出する。
しかし、これらのジオメトリは下流のタスクでは直接利用できないため、擬似地下構造として利用し、ベーステンプレートメッシュを変形させて生成された3Dターゲットに適合させるメッシュ変形最適化手順を構築することを提案する。
慎重に設計された損失により、ベースメッシュは望ましい目標に向かって自由に変形するが、メッシュの品質とトポロジはシミュレートできる。
最後に,グローバルかつ局所的に一貫した高忠実度テクスチャマップを生成し,入力ガイダンスを忠実にキャプチャし,生成した3Dアセットをレンダリングする。
Garment3DGenを使用すると、アーティストの介入なしにシミュレーション可能な3D衣服を選択できる。
本稿では,様々な資産における定量的および定性的な比較を多数提示し,Garment3DGenがスケッチからシミュレートされた衣服やVRの衣服とのインタラクションに至るまで,主要なアプリケーションをアンロックできることを実証する。
コードは公開されている。
We introduce Garment3DGen a new method to synthesize 3D garment assets from a base mesh given a single input image as guidance. Our proposed approach allows users to generate 3D textured clothes based on both real and synthetic images, such as those generated by text prompts. The generated assets can be directly draped and simulated on human bodies. We leverage the recent progress of image-to-3D diffusion methods to generate 3D garment geometries. However, since these geometries cannot be utilized directly for downstream tasks, we propose to use them as pseudo ground-truth and set up a mesh deformation optimization procedure that deforms a base template mesh to match the generated 3D target. Carefully designed losses allow the base mesh to freely deform towards the desired target, yet preserve mesh quality and topology such that they can be simulated. Finally, we generate high-fidelity texture maps that are globally and locally consistent and faithfully capture the input guidance, allowing us to render the generated 3D assets. With Garment3DGen users can generate the simulation-ready 3D garment of their choice without the need of artist intervention. We present a plethora of quantitative and qualitative comparisons on various assets and demonstrate that Garment3DGen unlocks key applications ranging from sketch-to-simulated garments or interacting with the garments in VR. Code is publicly available. | 翻訳日:2024-08-15 17:56:45 公開日:2024-08-13 |
# マルチホップ質問応答のための言語モデルにおける検索強化知識編集
Retrieval-enhanced Knowledge Editing in Language Models for Multi-Hop Question Answering ( http://arxiv.org/abs/2403.19631v2 ) ライセンス: Link先を確認 | Yucheng Shi, Qiaoyu Tan, Xuansheng Wu, Shaochen Zhong, Kaixiong Zhou, Ninghao Liu, | (参考訳) 大規模言語モデル(LLM)は、質問に答えるタスクの習熟度を示すが、しばしばリアルタイム知識の統合に苦慮し、おそらく時代遅れまたは不正確な応答をもたらす。
マルチホップ問題を扱う場合には,複数の知識部分の更新と統合がLSMに要求されるため,この問題はさらに難しくなる。
この問題に対処するために,マルチホップ質問応答のためのRetrieval-Augmented Model Editing (RAE) フレームワークを提案する。
RAEはまず編集された事実を検索し、その後コンテキスト内学習を通じて言語モデルを洗練する。
具体的には, 相互情報の最大化に基づく検索手法では, LLMの推論能力を活用し, 従来の類似性に基づく検索が見逃す可能性のある連鎖事実を同定する。
さらに,検索した事実から余分な情報を排除し,その編集精度を高め,幻覚を緩和するプルーニング戦略も備えている。
我々の枠組みは, その事実検索の有効性に関する理論的正当性によって支えられている。
最後に、様々な LLM の総合的な評価は、RAE が更新された知識で正確な回答を提供する能力を検証する。
私たちのコードは、https://github.com/sycny/RAE.comで利用可能です。
Large Language Models (LLMs) have shown proficiency in question-answering tasks but often struggle to integrate real-time knowledge, leading to potentially outdated or inaccurate responses. This problem becomes even more challenging when dealing with multi-hop questions, since they require LLMs to update and integrate multiple knowledge pieces relevant to the questions. To tackle the problem, we propose the Retrieval-Augmented model Editing (RAE) framework for multi-hop question answering. RAE first retrieves edited facts and then refines the language model through in-context learning. Specifically, our retrieval approach, based on mutual information maximization, leverages the reasoning abilities of LLMs to identify chain facts that traditional similarity-based searches might miss. In addition, our framework includes a pruning strategy to eliminate redundant information from the retrieved facts, which enhances the editing accuracy and mitigates the hallucination problem. Our framework is supported by theoretical justification for its fact retrieval efficacy. Finally, comprehensive evaluation across various LLMs validates RAE's ability in providing accurate answers with updated knowledge. Our code is available at: https://github.com/sycny/RAE. | 翻訳日:2024-08-15 17:56:45 公開日:2024-08-13 |
# 羅生門分割を用いた因子データのロバストな不均一性推定
Robustly estimating heterogeneity in factorial data using Rashomon Partitions ( http://arxiv.org/abs/2404.02141v3 ) ライセンス: Link先を確認 | Aparajithan Venkateswaran, Anirudh Sankar, Arun G. Chandrasekhar, Tyler H. McCormick, | (参考訳) 多くの統計分析では、観測データとランダム化制御試験の両方において、関心の結果は観測可能な共変量の組み合わせとどのように異なるのか?
様々な薬物の組み合わせが健康にどのような影響を及ぼすのか、テクノロジーの採用はインセンティブや人口統計にどのように依存するのか?
私たちのゴールは、この因子空間を、(プール内ではなく)プール間で結果が異なる共変量の組み合わせの「プール」に分割することです。
既存のアプローチ
一 共変量体又は共変量体間の関連を前提とした一の「最適」分割の探索
(ii) 可能なパーティションの集合全体のサンプル。
これらのアプローチは、特に共変量空間の相関構造において、多くの方法で共変量空間を分割することは、政策や科学に全く異なる意味を持つにもかかわらず統計的に区別できないという現実を無視している。
我々は、羅生門分割セット(RPS)と呼ばれる別の視点を開発する。
RPSの各項目は木のような幾何学を用いて共変量の空間を分割する。
RPSは、たとえ実質的に異なる説明を提供するとしても、最大 A 後方分割の近傍で後続値を持つすべての分割を包含し、前者は共変量間の関係について仮定しない。
これは$\ell_0$ pre で、minimax が最適であることを示す。
RPS が与えられたとき、特徴効果ベクトルの任意の測定可能な関数の後部、つまり RPS に含まれる条件を計算します。
また, 後方に対する近似誤差を特徴付けるとともに, RPSの大きさに限界を与える。
シミュレーションは、このフレームワークが従来の正規化手法と比較して堅牢な結論を導くことを実証している。
提案手法は,チャリタブルギフトの価格効果,染色体構造(テロメア長),マイクロファイナンスの導入の3つの経験的設定に適用した。
Many statistical analyses, in both observational data and randomized control trials, ask: how does the outcome of interest vary with combinations of observable covariates? How do various drug combinations affect health outcomes, or how does technology adoption depend on incentives and demographics? Our goal is to partition this factorial space into "pools" of covariate combinations where the outcome differs across the pools (but not within a pool). Existing approaches (i) search for a single "optimal" partition under assumptions about the association between covariates or (ii) sample from the entire set of possible partitions. Both these approaches ignore the reality that, especially with correlation structure in covariates, many ways to partition the covariate space may be statistically indistinguishable, despite very different implications for policy or science. We develop an alternative perspective, called Rashomon Partition Sets (RPSs). Each item in the RPS partitions the space of covariates using a tree-like geometry. RPSs incorporate all partitions that have posterior values near the maximum a posteriori partition, even if they offer substantively different explanations, and do so using a prior that makes no assumptions about associations between covariates. This prior is the $\ell_0$ prior, which we show is minimax optimal. Given the RPS we calculate the posterior of any measurable function of the feature effects vector on outcomes, conditional on being in the RPS. We also characterize approximation error relative to the entire posterior and provide bounds on the size of the RPS. Simulations demonstrate this framework allows for robust conclusions relative to conventional regularization techniques. We apply our method to three empirical settings: price effects on charitable giving, chromosomal structure (telomere length), and the introduction of microfinance. | 翻訳日:2024-08-15 17:56:45 公開日:2024-08-13 |
# ニューラルネットワークによるLLMの学習
Training LLMs over Neurally Compressed Text ( http://arxiv.org/abs/2404.03626v2 ) ライセンス: Link先を確認 | Brian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant, | (参考訳) 本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
標準的なサブワードトークンはテキストを小さな要因で圧縮するが、ニューラルテキスト圧縮機は圧縮率をはるかに高いものにすることができる。
もしLLMをニューラルネットワークで圧縮したテキストで直接訓練できたら、トレーニングとサービス効率の利点と、長いテキストスパンの扱いがより簡単になる。
この目標の主な障害は、強い圧縮が学習に適さない不透明な出力を生成する傾向があることである。
特に、Arithmetic Codingを介して「圧縮」されたテキストは、LLMによって容易には学習できない。
そこで本研究では,テキストを同じビット長のブロックに分割する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法を用いて, 大規模化により向上するニューラル圧縮テキスト上での効果的な学習を実演し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインを広いマージンで上回った。
提案手法は,同じパラメータ数で訓練されたモデルに対するサブワードトークン化器よりも難易度が高いが,短いシーケンス長の利点がある。
短いシーケンス長では、自動回帰生成ステップが少なくなり、レイテンシが削減される。
最後に,学習性に寄与する特性を広範囲に解析し,高圧縮トークン化器の性能向上のための具体的な提案を行う。
In this paper, we explore the idea of training large language models (LLMs) over highly compressed text. While standard subword tokenizers compress text by a small factor, neural text compressors can achieve much higher rates of compression. If it were possible to train LLMs directly over neurally compressed text, this would confer advantages in training and serving efficiency, as well as easier handling of long text spans. The main obstacle to this goal is that strong compression tends to produce opaque outputs that are not well-suited for learning. In particular, we find that text na\"ively compressed via Arithmetic Coding is not readily learnable by LLMs. To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length. Using this method, we demonstrate effective learning over neurally compressed text that improves with scale, and outperforms byte-level baselines by a wide margin on perplexity and inference speed benchmarks. While our method delivers worse perplexity than subword tokenizers for models trained with the same parameter count, it has the benefit of shorter sequence lengths. Shorter sequence lengths require fewer autoregressive generation steps, and reduce latency. Finally, we provide extensive analysis of the properties that contribute to learnability, and offer concrete suggestions for how to further improve the performance of high-compression tokenizers. | 翻訳日:2024-08-15 17:56:45 公開日:2024-08-13 |
# ラストライブラリにおける外部関数境界の未定義挙動に関する研究
A Study of Undefined Behavior Across Foreign Function Boundaries in Rust Libraries ( http://arxiv.org/abs/2404.11671v4 ) ライセンス: Link先を確認 | Ian McCormack, Joshua Sunshine, Jonathan Aldrich, | (参考訳) 開発者はセキュアでパフォーマンスの高いアプリケーションを記述するために、Rust言語の静的安全性保証を頼りにしている。
しかしながら、Rustは、Rustのエイリアスモデルと矛盾するデザインパターンを許容する、他の言語との相互運用に頻繁に使用される。
Miriはこれらのモデルに対してアプリケーションを検証できる唯一の動的解析ツールだが、外部機能をサポートしていない。
そこで我々は,この文脈でMiriの動的解析が有用かどうかを判断するために,外部関数を呼び出すRustライブラリの大規模評価を行った。
MiriとLLVMインタプリタを使って外部関数を呼び出すアプリケーションを共同で実行しました。
その中には、観測期間中に平均1万回以上ダウンロードされたライブラリからの3つのバグと、Rustプロジェクトによってメンテナンスされたライブラリからの1つが含まれている。
しかしRustの最新のTree Borrowsエイリアスモデルは、以前のStacked Borrowsモデルよりもはるかに寛容だった。
Rustコミュニティは、開発者がこれらのエラーを検出できるように、複数言語アプリケーション用の新しいプロダクション対応ツールに投資する必要がある。
Developers rely on the Rust programming language's static safety guarantees to write secure and performant applications. However, Rust is frequently used to interoperate with other languages which allow design patterns that conflict with Rust's aliasing models. Miri is the only dynamic analysis tool capable of validating applications against these models, but it does not support foreign functions, indicating that there may be a critical correctness gap at the heart of the Rust ecosystem. We conducted a large-scale evaluation of Rust libraries that call foreign functions to determine whether Miri's dynamic analyses remain useful in this context. We used Miri and an LLVM interpreter to jointly execute applications that call foreign functions, where we found 48 instances of undefined or undesired behavior. These include three bugs from libraries that had over 10,000 daily downloads on average during our observation period and one from a library maintained by the Rust Project. Many of the errors we found involved incompatible aliasing patterns, but Rust's latest Tree Borrows aliasing model was significantly more permissive than the earlier Stacked Borrows model. The Rust community must invest in new, production-ready tooling for multi-language applications to ensure that developers can detect these errors. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-13 |
# 頭皮脳波における発作検出のための機械学習アルゴリズムの臨床翻訳 : 系統的検討
Clinical translation of machine learning algorithms for seizure detection in scalp electroencephalography: systematic review ( http://arxiv.org/abs/2404.15332v2 ) ライセンス: Link先を確認 | Nina Moutonnet, Steven White, Benjamin P Campbell, Saeid Sanei, Toshihisa Tanaka, Hong Ji, Danilo Mandic, Gregory Scott, | (参考訳) 発作検出のための機械学習アルゴリズムはかなりの診断可能性を示しており、最近の報告では100%に達する。
しかし、臨床翻訳の成功要件を完全に解決したアルゴリズムはごくわずかである。
これは例えば、トレーニングデータの特性がアルゴリズムの一般性を制限する可能性があるため、アルゴリズムの性能は脳波(EEG)取得ハードウェアがどのハードウェアで使用されたかによって異なり、実行時の処理コストはリアルタイムの臨床的ユースケースでは禁止される可能性がある。
これらの問題に批判的な方法で対処するために,我々は,一般性,ランタイムコスト,説明可能性,臨床関連パフォーマンス指標などの基準によって評価された臨床翻訳性に着目して,発作検出のための機械学習アルゴリズムを体系的にレビューした。
非スペシャリストにとって、モデルの開発と評価の文脈化に必要なドメイン固有の知識が提供される。
このような機械学習アルゴリズムの潜在的な実世界の有効性に対する批判的な評価が、臨床翻訳を加速させ、現在の発作検出文献のギャップを識別するのに役立つことを願っている。
Machine learning algorithms for seizure detection have shown considerable diagnostic potential, with recent reported accuracies reaching 100%. Yet, only few published algorithms have fully addressed the requirements for successful clinical translation. This is, for example, because the properties of training data may limit the generalisability of algorithms, algorithm performance may vary depending on which electroencephalogram (EEG) acquisition hardware was used, or run-time processing costs may be prohibitive to real-time clinical use cases. To address these issues in a critical manner, we systematically review machine learning algorithms for seizure detection with a focus on clinical translatability, assessed by criteria including generalisability, run-time costs, explainability, and clinically-relevant performance metrics. For non-specialists, the domain-specific knowledge necessary to contextualise model development and evaluation is provided. It is our hope that such critical evaluation of machine learning algorithms with respect to their potential real-world effectiveness can help accelerate clinical translation and identify gaps in the current seizure detection literature. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-13 |
# 持続的改善を伴うエージェントによるアルゴリズムによる意思決定
Algorithmic Decision-Making under Agents with Persistent Improvement ( http://arxiv.org/abs/2405.01807v2 ) ライセンス: Link先を確認 | Tian Xie, Xuwei Tan, Xueru Zhang, | (参考訳) 本稿では,人間の戦略的行動下でのアルゴリズムによる意思決定について検討する。そこでは,意思決定者がアルゴリズムを用いて人的エージェントについての意思決定を行う。
エージェントが彼らの努力からすぐに恩恵を受けると仮定する以前の作業とは異なり、これらの取り組みの影響が持続的であり、エージェントは徐々に改善することで努力の恩恵を受ける現実的なシナリオを考察する。
まず、永続的な改善を特徴付ける動的モデルを開発し、この構成に基づいてエージェントと意思決定者間の相互作用をモデル化する。
我々は、均衡戦略を解析的に特徴付け、エージェントが改善のインセンティブを持つ条件を特定する。
このダイナミクスを用いて、エージェントの集団内で最大の改善をインセンティブ付けるための最適なポリシーを、意思決定者がいかに設計できるかを研究する。
また、設定にモデルを拡張します。
1) エージェントは,不正直であり,かつ,アルゴリズムを好意的かつ誤った判断に駆り立てることができる。
2) 誠実な努力は忘れられ、継続的な改善を保証するには不十分です。
拡張モデルにより、エージェントは不正直な行動よりも正直な努力を優先し、忘れやすい努力の効果を優先する条件をさらに検討する。
This paper studies algorithmic decision-making under human's strategic behavior, where a decision maker uses an algorithm to make decisions about human agents, and the latter with information about the algorithm may exert effort strategically and improve to receive favorable decisions. Unlike prior works that assume agents benefit from their efforts immediately, we consider realistic scenarios where the impacts of these efforts are persistent and agents benefit from efforts by making improvements gradually. We first develop a dynamic model to characterize persistent improvements and based on this construct a Stackelberg game to model the interplay between agents and the decision-maker. We analytically characterize the equilibrium strategies and identify conditions under which agents have incentives to improve. With the dynamics, we then study how the decision-maker can design an optimal policy to incentivize the largest improvements inside the agent population. We also extend the model to settings where 1) agents may be dishonest and game the algorithm into making favorable but erroneous decisions; 2) honest efforts are forgettable and not sufficient to guarantee persistent improvements. With the extended models, we further examine conditions under which agents prefer honest efforts over dishonest behavior and the impacts of forgettable efforts. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-13 |
# 非線形福祉を意識した戦略的学習
Non-linear Welfare-Aware Strategic Learning ( http://arxiv.org/abs/2405.01810v2 ) ライセンス: Link先を確認 | Tian Xie, Xueru Zhang, | (参考訳) 本稿では,人間エージェントに関する決定をMLモデルを用いて行う戦略的個人行動の存在下でのアルゴリズム的意思決定について検討する。
既存の戦略学習の結果は、線形ラベリング機能を持つエージェントが(ノイズの多い)線形決定ポリシーに最もよく反応する線形設定に主に焦点が当てられている。
代わりに、この研究は、エージェントが政策の「ローカル情報」のみで決定ポリシーに反応する一般の非線形設定に焦点を当てている。
さらに、意思決定者福祉(モデル予測精度)、社会福祉(戦略行動によるエージェント改善)、エージェント福祉(MLがエージェントを過小評価する程度)の最大化を同時に検討する。
まず,先行研究におけるエージェントベスト応答モデルを非線形設定に一般化し,福祉目的との整合性を明らかにする。
非線形環境下では達成が困難な制約条件下でのみ,3つの福祉が同時に最適に達成可能であることを示す。
理論的な結果は、既存の作品が政党の一部の福祉を最大化するだけで、必然的に他者の福祉を減少させることを示唆している。
そこで我々は,非線形環境における各当事者の福祉バランスの必要性を主張し,一般的な戦略学習に適した既約最適化アルゴリズムを提案する。
合成および実データによる実験により提案アルゴリズムの有効性が検証された。
This paper studies algorithmic decision-making in the presence of strategic individual behaviors, where an ML model is used to make decisions about human agents and the latter can adapt their behavior strategically to improve their future data. Existing results on strategic learning have largely focused on the linear setting where agents with linear labeling functions best respond to a (noisy) linear decision policy. Instead, this work focuses on general non-linear settings where agents respond to the decision policy with only "local information" of the policy. Moreover, we simultaneously consider the objectives of maximizing decision-maker welfare (model prediction accuracy), social welfare (agent improvement caused by strategic behaviors), and agent welfare (the extent that ML underestimates the agents). We first generalize the agent best response model in previous works to the non-linear setting, then reveal the compatibility of welfare objectives. We show the three welfare can attain the optimum simultaneously only under restrictive conditions which are challenging to achieve in non-linear settings. The theoretical results imply that existing works solely maximizing the welfare of a subset of parties inevitably diminish the welfare of the others. We thus claim the necessity of balancing the welfare of each party in non-linear settings and propose an irreducible optimization algorithm suitable for general strategic learning. Experiments on synthetic and real data validate the proposed algorithm. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-13 |
# 実時間地上遅延計画修正のための深層強化学習と飛行遅延割り当て対応
Deep Reinforcement Learning for Real-Time Ground Delay Program Revision and Corresponding Flight Delay Assignments ( http://arxiv.org/abs/2405.08298v2 ) ライセンス: Link先を確認 | Ke Liu, Fan Hu, Hui Lin, Xi Cheng, Jianan Chen, Jilin Song, Siyuan Feng, Gaofeng Su, Chen Zhu, | (参考訳) 本稿では,航空交通管理 (ATM) で広く使われている交通管理イニシアチブである地上遅延プログラム (GDP) の最適化について検討する。
気象変動, 飛行要求変動, 空港到着率など, 国家空域における固有の不確実性を管理するために強化学習(RL)を用いて, 行動クローン(BC)と保守的Qラーニング(CQL)という2つのRLモデルを開発した。
これらのモデルは、地上および空中遅延と終端領域の混雑を統合した洗練された報酬関数を利用することで、GDP効率を向上させるように設計されている。
実運用データと予測された不確実性を組み込んで,現実的な意思決定シナリオを促進する,模擬単一空港環境SAGDP_ENVを構築した。
2019年のニューアーク・リバティ国際空港(EWR)のデータを利用して、私たちのモデルは空港の計画レートを事前に設定することを目的としています。
徹底的なモデリングとシミュレーションにもかかわらず、初期の結果は、モデルが効果的に学習するのに苦労したことを示している。
本稿では,実際の運用データに対して発生する課題を論じ,モデルの性能を評価し,ATMにおけるRLアプリケーションの改良に向けた今後の方向性を概説する。
This paper explores the optimization of Ground Delay Programs (GDP), a prevalent Traffic Management Initiative used in Air Traffic Management (ATM) to reconcile capacity and demand discrepancies at airports. Employing Reinforcement Learning (RL) to manage the inherent uncertainties in the national airspace system-such as weather variability, fluctuating flight demands, and airport arrival rates-we developed two RL models: Behavioral Cloning (BC) and Conservative Q-Learning (CQL). These models are designed to enhance GDP efficiency by utilizing a sophisticated reward function that integrates ground and airborne delays and terminal area congestion. We constructed a simulated single-airport environment, SAGDP_ENV, which incorporates real operational data along with predicted uncertainties to facilitate realistic decision-making scenarios. Utilizing the whole year 2019 data from Newark Liberty International Airport (EWR), our models aimed to preemptively set airport program rates. Despite thorough modeling and simulation, initial outcomes indicated that the models struggled to learn effectively, attributed potentially to oversimplified environmental assumptions. This paper discusses the challenges encountered, evaluates the models' performance against actual operational data, and outlines future directions to refine RL applications in ATM. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-13 |
# 組合せ推論問題における階層探索の課題
What Matters in Hierarchical Search for Combinatorial Reasoning Problems? ( http://arxiv.org/abs/2406.03361v2 ) ライセンス: Link先を確認 | Michał Zawalski, Gracjan Góral, Michał Tyrolski, Emilia Wiśnios, Franciszek Budrowski, Łukasz Kuciński, Piotr Miłoś, | (参考訳) 組合せ推論問題、特に悪名高いNPハードタスクに効果的に対処することは、AI研究にとって重要な課題である。
近年の取り組みでは,階層的な高次探索戦略を取り入れたサブゴアル手法による計画の強化が試みられている。
有望ではあるが、従来の低レベルのプランナに対する彼らのパフォーマンスは一貫性がなく、アプリケーションコンテキストに関する疑問を提起している。
本研究では,組み合わせ推論のためのサブゴール計画法を詳細に検討する。
難解な値関数、複雑なアクション空間、環境におけるデッドエンドの存在、あるいは多様な専門家から収集されたデータなど、ハイレベル検索の利点を活用する上で重要な属性を同定する。
本稿では,手法間の有意義な比較を達成し,最先端のアルゴリズムを再評価するための一貫した評価手法を提案する。
Efficiently tackling combinatorial reasoning problems, particularly the notorious NP-hard tasks, remains a significant challenge for AI research. Recent efforts have sought to enhance planning by incorporating hierarchical high-level search strategies, known as subgoal methods. While promising, their performance against traditional low-level planners is inconsistent, raising questions about their application contexts. In this study, we conduct an in-depth exploration of subgoal-planning methods for combinatorial reasoning. We identify the attributes pivotal for leveraging the advantages of high-level search: hard-to-learn value functions, complex action spaces, presence of dead ends in the environment, or using data collected from diverse experts. We propose a consistent evaluation methodology to achieve meaningful comparisons between methods and reevaluate the state-of-the-art algorithms. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-13 |
# 伝送線路のホログラフィー:連続MERAとAdS/CFTの考察
Holography of Transmission Lines: Insights of Continuous MERA and AdS/CFT ( http://arxiv.org/abs/2407.04171v2 ) ライセンス: Link先を確認 | So Katagiri, | (参考訳) 本研究では、量子コンピューティングと量子情報において重要な役割を果たす伝送線路の量子論のホログラフィック表現について検討する。
AdS空間における連続MERA(cMERA)の枠組みの中で、YurkeとDenkerの量子回路ネットワーク理論を利用して、伝送線路の量子化と相互作用を分析する。
この計量は、0限界のAdS空間である量子回路のインダクタンスによって説明される。
これらの結果は、量子回路における複雑な現象の扱いと制御に関する新たな洞察を与え、量子コンピューティングと量子通信の理解を深める可能性がある。
This study examines the holographic representation of the quantum theory of transmission lines, which play a crucial role in quantum computing and quantum information. Utilizing Yurke and Denker's quantum circuit network theory within the framework of continuous MERA (cMERA) in AdS space, we analyze the quantization and interactions of transmission lines. The metric is revealed to be described by the inductance of the quantum circuit, which is AdS-space in its 0-limit. These results provide new insights into handling and controlling complex phenomena in quantum circuits, potentially advancing the understanding of quantum computing and quantum communication. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-13 |
# UICrit: UICritiqueデータセットによる自動設計評価の強化
UICrit: Enhancing Automated Design Evaluation with a UICritique Dataset ( http://arxiv.org/abs/2407.08850v3 ) ライセンス: Link先を確認 | Peitong Duan, Chin-yi Chen, Gang Li, Bjoern Hartmann, Yang Li, | (参考訳) 例えば、異なるUI設計を比較する場合や、自動ヒューリスティック評価を行う場合などである。
LLMベースのUI評価は、特に、様々なUIタイプや評価タスクに対する一般化可能性の約束を持っている。
しかし、現在のLCMベースの技術は人間の評価装置の性能とはまだ一致しない。
対象とするUIフィードバックデータセットを収集し,このデータセットを用いて汎用LLMの性能を向上させることにより,自動評価を改善することができると仮定する。
7人の経験豊富なデザイナーから収集した、983のモバイルUIに対する3,059のデザイン批判と品質評価のターゲットデータセットを提示する。
データセットの特徴を特徴付けるために,詳細な分析を行った。
次に,LLM生成UIフィードバックにおける55%のパフォーマンス向上を実現するために,このデータセットを適用した。
また、生成UI技術に対する報酬モデルのトレーニングや、UI評価を自動化するツールに依存しないマルチモーダルLCMの微調整など、このデータセットの今後の応用についても論じる。
Automated UI evaluation can be beneficial for the design process; for example, to compare different UI designs, or conduct automated heuristic evaluation. LLM-based UI evaluation, in particular, holds the promise of generalizability to a wide variety of UI types and evaluation tasks. However, current LLM-based techniques do not yet match the performance of human evaluators. We hypothesize that automatic evaluation can be improved by collecting a targeted UI feedback dataset and then using this dataset to enhance the performance of general-purpose LLMs. We present a targeted dataset of 3,059 design critiques and quality ratings for 983 mobile UIs, collected from seven experienced designers. We carried out an in-depth analysis to characterize the dataset's features. We then applied this dataset to achieve a 55% performance gain in LLM-generated UI feedback via various few-shot and visual prompting techniques. We also discuss future applications of this dataset, including training a reward model for generative UI techniques, and fine-tuning a tool-agnostic multi-modal LLM that automates UI evaluation. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-13 |
# 確率論的安全批判システムのための一般化可能な物理インフォームドラーニング
Generalizable Physics-Informed Learning for Stochastic Safety-Critical Systems ( http://arxiv.org/abs/2407.08868v3 ) ライセンス: Link先を確認 | Zhuoyuan Wang, Albert Chern, Yorie Nakahira, | (参考訳) 安全な意思決定には、長期的リスクの正確な見積もりが不可欠であるが、稀なリスクイベントや長期的トラジェクトリからのサンプリングは、違法にコストがかかる可能性がある。
リスク勾配は、学習と制御のための多くの一階法で利用できるが、無限小因子がサンプリングノイズを著しく増幅するので、モンテカルロ法(MC)を用いて勾配推定を得るのは難しい。
このギャップを生かして,十分なリスクイベントを伴わない短期サンプルを用いて,長期的リスク確率とその勾配を評価するための効率的な手法を提案する。
まず、4種類の長期リスク確率が、ある偏微分方程式(PDE)の解であることが導かれる。
そこで本研究では,データと物理情報(前述のPDE)を統合した物理インフォームド学習手法を提案する。
物理情報は、利用可能なデータを超えて情報を伝達し、利用可能なデータを超えて証明可能な一般化を得るのに役立つ。
最後に,提案手法がサンプル効率を向上し,未確認領域を一般化し,システムパラメータの変化に適応できることをシミュレーションで実証した。
Accurate estimate of long-term risk is critical for safe decision-making, but sampling from rare risk events and long-term trajectories can be prohibitively costly. Risk gradient can be used in many first-order techniques for learning and control methods, but gradient estimate is difficult to obtain using Monte Carlo (MC) methods because the infinitesimal divisor may significantly amplify sampling noise. Motivated by this gap, we propose an efficient method to evaluate long-term risk probabilities and their gradients using short-term samples without sufficient risk events. We first derive that four types of long-term risk probability are solutions of certain partial differential equations (PDEs). Then, we propose a physics-informed learning technique that integrates data and physics information (aforementioned PDEs). The physics information helps propagate information beyond available data and obtain provable generalization beyond available data, which in turn enables long-term risk to be estimated using short-term samples of safe events. Finally, we demonstrate in simulation that the proposed technique has improved sample efficiency, generalizes well to unseen regions, and adapts to changing system parameters. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-13 |
# 生成型AIと大規模言語モデルの最近の進歩:現状,課題,展望
Recent Advances in Generative AI and Large Language Models: Current Status, Challenges, and Perspectives ( http://arxiv.org/abs/2407.14962v4 ) ライセンス: Link先を確認 | Desta Haileselassie Hagos, Rick Battle, Danda B. Rawat, | (参考訳) 生成人工知能(AI)とLarge Language Models(LLMs)の出現は、さまざまなドメインに革命をもたらす前例のない機能を導入し、自然言語処理(NLP)の新しい時代を象徴している。
本稿では,これらの最先端技術の現状を概観し,その顕著な進歩と広範囲な応用を実証する。
本稿では,ジェネレーティブAIとLLMの進化途上における技術的基盤,実践的応用,新たな課題に関する総合的な視点の提供に寄与する。
我々は、AIシステムの生成能力とLLMの特定のコンテキストを理解することは、研究者、実践者、政策立案者にとって、これらの技術の責任と倫理的統合を様々な領域に協調的に形成することが不可欠であると考えている。
さらに、主要な研究ギャップを特定し、対処し、AI研究コミュニティにおける将来の研究成果をガイドするための貴重な洞察を提供する。
The emergence of Generative Artificial Intelligence (AI) and Large Language Models (LLMs) has marked a new era of Natural Language Processing (NLP), introducing unprecedented capabilities that are revolutionizing various domains. This paper explores the current state of these cutting-edge technologies, demonstrating their remarkable advancements and wide-ranging applications. Our paper contributes to providing a holistic perspective on the technical foundations, practical applications, and emerging challenges within the evolving landscape of Generative AI and LLMs. We believe that understanding the generative capabilities of AI systems and the specific context of LLMs is crucial for researchers, practitioners, and policymakers to collaboratively shape the responsible and ethical integration of these technologies into various domains. Furthermore, we identify and address main research gaps, providing valuable insights to guide future research endeavors within the AI research community. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-13 |
# 垂直的フェデレーション学習におけるニューラルネットワークのスパイク:パフォーマンストレードオフ
Spiking Neural Networks in Vertical Federated Learning: Performance Trade-offs ( http://arxiv.org/abs/2407.17672v2 ) ライセンス: Link先を確認 | Maryam Abbasihafshejani, Anindya Maiti, Murtuza Jadliwala, | (参考訳) フェデレートされた機械学習は、データのプライバシを維持しながら、複数のクライアントにわたるモデルトレーニングを可能にする。
Vertical Federated Learning (VFL)は、クライアントが同じサンプルの異なる機能セットを持つインスタンスを特に扱う。
フェデレーション学習モデルは効率性と適応性の向上を目的としているため、スパイキングニューラルネットワーク(SNN)のような革新的なニューラルネットワークアーキテクチャを活用して、エッジでの高速かつ正確な処理を可能にしている。
ニューラルネットワーク(ANN)よりも効率的であることが知られているSNNは、これまでVFLへの適用性について分析されていない。
本稿では,SNNモデルを用いた垂直連邦学習環境における利点とトレードオフについて検討する。
モデル分割とモデル分割のない2つの異なるフェデレーション学習アーキテクチャを実装する。
CIFAR-10およびCIFAR-100ベンチマークデータセットとVGG9およびResNET分類モデルのSNN実装を用いて設定を評価する。
比較評価により、SNNモデルの精度はVFLアプリケーションにおける従来のANNの精度に匹敵するが、エネルギー効率は著しく向上することが示された。
Federated machine learning enables model training across multiple clients while maintaining data privacy. Vertical Federated Learning (VFL) specifically deals with instances where the clients have different feature sets of the same samples. As federated learning models aim to improve efficiency and adaptability, innovative neural network architectures like Spiking Neural Networks (SNNs) are being leveraged to enable fast and accurate processing at the edge. SNNs, known for their efficiency over Artificial Neural Networks (ANNs), have not been analyzed for their applicability in VFL, thus far. In this paper, we investigate the benefits and trade-offs of using SNN models in a vertical federated learning setting. We implement two different federated learning architectures -- with model splitting and without model splitting -- that have different privacy and performance implications. We evaluate the setup using CIFAR-10 and CIFAR-100 benchmark datasets along with SNN implementations of VGG9 and ResNET classification models. Comparative evaluations demonstrate that the accuracy of SNN models is comparable to that of traditional ANNs for VFL applications, albeit significantly more energy efficient. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-13 |
# AIによるエネルギーアルゴリズム取引:隠れマルコフモデルとニューラルネットワークの統合
AI-Powered Energy Algorithmic Trading: Integrating Hidden Markov Models with Neural Networks ( http://arxiv.org/abs/2407.19858v4 ) ライセンス: Link先を確認 | Tiago Monteiro, | (参考訳) 定量的ファイナンスにおいては、機械学習手法はアルファ生成に不可欠である。
本研究では,HMM(Hidden Markov Models)とニューラルネットワークを組み合わせた新たなアプローチを提案する。
新型コロナウイルス(2019-2022)の期間、この二重モデルアプローチはシャープ比0.77で83%のリターンを達成した。
リスク管理を強化するために2つのリスクモデルが組み込まれており、揮発性の期間に効率性を示す。
この方法論は、堅牢なフレームワークと実験的な再現性のために選択されたQuantConnectプラットフォーム上で実装された。
将来の価格変動を予測するこのシステムは、適切なアルゴリズム機能を保証するために3年間のウォームアップを含む。
ブローカーの支払いも検討しながら、安定的で予測可能なパフォーマンスを確保するため、高流動で大容量のエネルギー株をターゲットにしている。
デュアルモデルアルファシステムは、ログリターンを使用して、過去のパフォーマンスに基づいて最適な状態を選択する。
状態予測と過去のデータに基づくニューラルネットワーク出力を組み合わせて、トレーディング信号を生成する。
本研究では,トレーディングシステムのアーキテクチャ,データ前処理,トレーニング,パフォーマンスについて検討した。
完全なコードとバックテストデータはQuantConnectの条項で利用可能だ。
In quantitative finance, machine learning methods are essential for alpha generation. This study introduces a new approach that combines Hidden Markov Models (HMM) and neural networks, integrated with Black-Litterman portfolio optimization. During the COVID period (2019-2022), this dual-model approach achieved a 83% return with a Sharpe ratio of 0.77. It incorporates two risk models to enhance risk management, showing efficiency during volatile periods. The methodology was implemented on the QuantConnect platform, which was chosen for its robust framework and experimental reproducibility. The system, which predicts future price movements, includes a three-year warm-up to ensure proper algorithm function. It targets highly liquid, large-cap energy stocks to ensure stable and predictable performance while also considering broker payments. The dual-model alpha system utilizes log returns to select the optimal state based on the historical performance. It combines state predictions with neural network outputs, which are based on historical data, to generate trading signals. This study examined the architecture of the trading system, data pre-processing, training, and performance. The full code and backtesting data are available under the QuantConnect terms. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-13 |
# 高ステークホルダーによる時系列予測--航空貨物産業のフィールドスタディ
Time series forecasting with high stakes: A field study of the air cargo industry ( http://arxiv.org/abs/2407.20192v2 ) ライセンス: Link先を確認 | Abhinav Garg, Naman Shukla, Maarten Wormer, | (参考訳) 航空貨物業界における時系列予測は、揮発性の市場のダイナミクスと、正確な予測が生み出した収益に与える影響により、独特な課題を呈している。
本稿では,航空貨物業界における意思決定における機械学習モデルの開発と実装に焦点をあて,O&Dレベルでの需要予測への包括的アプローチについて検討する。
我々は、統計的および高度なディープラーニングモデルを組み合わせて、6ヶ月の地平線上で貨物需要の信頼できる予測を提供する専門家フレームワークの混合を活用している。
その結果,本手法は,航空貨物業界において,積荷の容量配分と戦略的意思決定に関する実用的な洞察を提供するとともに,業界ベンチマークよりも優れていることが示された。
この研究は航空会社業界に応用されているが、この手法は、揮発性環境における予測に基づく意思決定が不可欠であるあらゆる分野に適用できる。
Time series forecasting in the air cargo industry presents unique challenges due to volatile market dynamics and the significant impact of accurate forecasts on generated revenue. This paper explores a comprehensive approach to demand forecasting at the origin-destination (O\&D) level, focusing on the development and implementation of machine learning models in decision-making for the air cargo industry. We leverage a mixture of experts framework, combining statistical and advanced deep learning models to provide reliable forecasts for cargo demand over a six-month horizon. The results demonstrate that our approach outperforms industry benchmarks, offering actionable insights for cargo capacity allocation and strategic decision-making in the air cargo industry. While this work is applied in the airline industry, the methodology is broadly applicable to any field where forecast-based decision-making in a volatile environment is crucial. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-13 |
# クリャロフの精製複雑性
Krylov complexity of purification ( http://arxiv.org/abs/2408.00826v2 ) ライセンス: Link先を確認 | Rathindra Nath Das, Takato Mori, | (参考訳) 精製は混合状態を純状態に、非単体進化をヒルベルト空間を拡大してユニタリ状態に写す。
我々は, 密度行列の演算子複雑性と精製状態の状態/演算子複雑性を, 時間非依存, 時間依存, 即時浄化という3つの浄化スキームを用いて関連付ける。
混合状態の作用素と状態の複素量とその精製について不等式を提案し, 単一量子ビット, 2量子ヴェルナー状態, 無限次元対角混合状態を用いて実証した。
熱状態に進化する真空の複雑さは、リンドラー粒子の平均個数に等しいことがわかった。
最後に、熱場二重状態が0から有限の温度に進化するのに対して、我々はそのことを示している。
1) 状態複雑性は、量子速度限界を思い起こさせるロイド境界に従い、そして
2) クリロフ状態/演算複雑性はホログラフィック体積複雑性とは対照的に部分加法的である。
Purification maps a mixed state to a pure state and a non-unitary evolution into a unitary one by enlarging the Hilbert space. We link the operator complexity of the density matrix to the state/operator complexity of purified states using three purification schemes: time-independent, time-dependent, and instantaneous purification. We propose inequalities among the operator and state complexities of mixed states and their purifications, demonstrated with a single qubit, two-qubit Werner states, and infinite-dimensional diagonal mixed states. We find that the complexity of a vacuum evolving into a thermal state equals the average number of Rindler particles created between left and right Rindler wedges. Finally, for the thermofield double state evolving from zero to finite temperature, we show that 1) the state complexity follows the Lloyd bound, reminiscent of the quantum speed limit, and 2) the Krylov state/operator complexities are subadditive in contrast to the holographic volume complexity. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-13 |
# Kan-RCBEVDepth:自律運転のための物体検出のための多モード融合アルゴリズム
KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving ( http://arxiv.org/abs/2408.02088v2 ) ライセンス: Link先を確認 | Zhihao Lai, Chuanhao Liu, Shihui Sheng, Zhiqiang Zhang, | (参考訳) 自動運転車における正確な3D物体検出は、閉塞性、様々な物体スケール、複雑な都市環境のために、非常に困難である。
本稿では,カメラ,LiDAR,ミリ波レーダからのマルチモーダルセンサデータを融合させて3次元物体検出の先駆的手法であるCBEV-KANアルゴリズムを提案する。
我々の革新的なBird's Eye View(BEV)ベースのアプローチは、Transformerアーキテクチャを利用して、多様なデータソースをシームレスに統合し、空間的関係処理を改善し、計算プロセスを最適化することにより、検出精度と効率を大幅に向上させる。
RCBEV-KANモデルは,平均距離AP(0.389 vs. 0.316, 23%改善),NDスコア(0.484 vs. 0.415, 17%改善),評価時間(71.28s, 8%高速化)など,ほとんどの検出カテゴリで優れた性能を示した。
これらの結果は、CBEV-KANがより正確で、信頼性が高く、効率的であることを示し、動的かつ挑戦的な自動運転環境に理想的であることを示唆している。
Accurate 3D object detection in autonomous driving is critical yet challenging due to occlusions, varying object scales, and complex urban environments. This paper introduces the RCBEV-KAN algorithm, a pioneering method designed to enhance 3D object detection by fusing multimodal sensor data from cameras, LiDAR, and millimeter-wave radar. Our innovative Bird's Eye View (BEV)-based approach, utilizing a Transformer architecture, significantly boosts detection precision and efficiency by seamlessly integrating diverse data sources, improving spatial relationship handling, and optimizing computational processes. Experimental results show that the RCBEV-KAN model demonstrates superior performance across most detection categories, achieving higher Mean Distance AP (0.389 vs. 0.316, a 23% improvement), better ND Score (0.484 vs. 0.415, a 17% improvement), and faster Evaluation Time (71.28s, 8% faster). These results indicate that RCBEV-KAN is more accurate, reliable, and efficient, making it ideal for dynamic and challenging autonomous driving environments. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-13 |
# 大規模モデルストラテジック思考と小型モデル効率:大規模言語モデルにおける心の伝達理論
Large Model Strategic Thinking, Small Model Efficiency: Transferring Theory of Mind in Large Language Models ( http://arxiv.org/abs/2408.05241v2 ) ライセンス: Link先を確認 | Nunzio Lore, Alireza Sepehr Ilami, Babak Heydari, | (参考訳) より大きな、より新しい大規模言語モデルの性能は、戦略的思考理論(ToM)タスクの改善を続けており、これらの最先端モデルの需要は必然的に増加する。
しかし、彼らのデプロイメントは処理能力と時間の両方においてコストがかかる。
本稿では,小型でシミュレーション可能なエージェントを微調整により作成できる可能性について検討する。
そこで本稿では,社会的文脈と社会的ジレンマを組み合わせた20のシナリオを取り入れた大規模事前学習モデルを提案する。
我々の焦点は、人間同士の相互作用が起こるのと同じ領域であり、心の理論(またはそのセマンス)と社会的ダイナミクスの理解の両方を必要とする、コンテキスト内ゲーム理論による意思決定である。
細調整されたより小さな言語モデルは、より大きな親戚のそれに近い性能を示し、それらの改善はトレーニング例で提供されるもの以上の領域や文脈に及んでいることがわかった。
全ゲームの平均では、微調整により、より小さなモデルでは、より大きなモデルの動作と整合性が改善され、100パーセントは完全な整合性を示している。
これは、私たちのパイプラインが、より小さなモデルに何らかの形の心の理論を伝達する効率的な方法であり、プロセス内で改善され、安価にデプロイ可能なアルゴリズムを作成することを示唆している。
その単純さとそれに伴う欠点と限界にもかかわらず、我々の発見は、戦略的および社会的意思決定のための専門モデルの追求と訓練の足掛かりとなっている。
As the performance of larger, newer Large Language Models continues to improve for strategic Theory of Mind (ToM) tasks, the demand for these state of the art models increases commensurately. However, their deployment is costly both in terms of processing power and time. In this paper, we investigate the feasibility of creating smaller, simulation-ready agents by way of fine-tuning. To do this, we present a large pre-trained model with 20 unique scenarios that combine a social context with a social dilemma, recording its answers, and using them for Q\&A fine-tuning on a smaller model of the same family. Our focus is on in-context game-theoretic decision-making, the same domain within which human interaction occurs and that requires both a theory of mind (or a semblance thereof) and an understanding of social dynamics. We find that the fine-tuned smaller language model exhibited significant performance closer to that of its larger relative, and that their improvements extended in areas and contexts beyond the ones provided in the training examples. On average for all games, through fine-tuning, the smaller model showed a \%46 improvement in aligning with the behavior of the larger model, with \%100 representing complete alignment. This suggests that our pipeline represents an efficient method to transmit some form of theory of mind to smaller models, creating improved and cheaply deployable algorithms in the process. Despite their simplicity and their associated shortcomings and limitations, our findings represent a stepping stone in the pursuit and training of specialized models for strategic and social decision making. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-13 |
# モデルベースと物理インフォームド深層学習ニューラルネットワーク構造
Model Based and Physics Informed Deep Learning Neural Network Structures ( http://arxiv.org/abs/2408.07104v1 ) ライセンス: Link先を確認 | Ali Mohammad-Djafari, Ning Chu, Li Wang, Caifang Cai, Liang Yu, | (参考訳) ニューラルネットワーク(NN)は多くの分野で利用されており、大きな成功を収めている。
NNの構造(モデル)が与えられると、トレーニングステップの間、適切な基準と最適化アルゴリズム(Training)を用いてモデルのパラメータを決定する。
次に、トレーニングされたモデルを予測または推論ステップ(テスト)に使用することができる。
最適化基準や最適化アルゴリズムに関しても多くのハイパーパラメータが存在するため、最終的な使用前に検証ステップが必要である。
大きな難題の1つは、NNの構造の選択である。
棚に多くの「棚」ネットワークがあるとしても、与えられたデータ、信号、画像処理のために新しい適切なネットワークを選択したり提案したりすることは、まだ未解決の問題である。
本研究では,モデルに基づく信号と画像処理と逆問題手法を用いてこの問題を考察する。
メソッドを5つのクラスに分類します。
一 分析解を明示すること。
二 変換領域分解
三 オペレータ分解
四 最適化アルゴリズムの展開、及び
五 物理学インフォームドNN法(PINN)
各カテゴリの例は少ない。
Neural Networks (NN) has been used in many areas with great success. When a NN's structure (Model) is given, during the training steps, the parameters of the model are determined using an appropriate criterion and an optimization algorithm (Training). Then, the trained model can be used for the prediction or inference step (Testing). As there are also many hyperparameters, related to the optimization criteria and optimization algorithms, a validation step is necessary before its final use. One of the great difficulties is the choice of the NN's structure. Even if there are many "on the shelf" networks, selecting or proposing a new appropriate network for a given data, signal or image processing, is still an open problem. In this work, we consider this problem using model based signal and image processing and inverse problems methods. We classify the methods in five classes, based on: i) Explicit analytical solutions, ii) Transform domain decomposition, iii) Operator Decomposition, iv) Optimization algorithms unfolding, and v) Physics Informed NN methods (PINN). Few examples in each category are explained. | 翻訳日:2024-08-15 15:07:25 公開日:2024-08-13 |
# 「まだ勉強しなくてはいけない」- LLM 生成コードのセキュリティについて
"You still have to study" -- On the Security of LLM generated code ( http://arxiv.org/abs/2408.07106v1 ) ライセンス: Link先を確認 | Stefan Goetz, Andreas Schaad, | (参考訳) 日常的な(教室)プログラミングタスクにおいても,AIアシスタントの利用が増加しているのを目撃する。
しかし、プログラマがいわゆる "prompt" に基づいて生成したコードは、常に受け入れられたセキュリティ基準を満たしているとは限らない。
一方、これはトレーニングデータにベストプラクティスの例が欠けているためかもしれない。
一方、プログラマの実際の品質は、生成されたコードに弱点があるかどうかに影響を与えているように見える。
本稿では、生成されたコードのセキュリティに関して、4つの主要なLCMを分析します。
我々は、PythonとJavascript言語のケーススタディに基づいて、MITRE CWEカタログをセキュリティ定義の指針として使用しています。
その結果、異なるプロンプト技術を用いることで、訓練されたセキュリティエンジニアによって安全でないと見なされる65%のコードを生成するLCMが存在することがわかった。
一方、分析済みのLLMのほとんどすべてが最終的に100%近いセキュアなコードを生成し、熟練したエンジニアの手作業によるガイダンスを増大させます。
We witness an increasing usage of AI-assistants even for routine (classroom) programming tasks. However, the code generated on basis of a so called "prompt" by the programmer does not always meet accepted security standards. On the one hand, this may be due to lack of best-practice examples in the training data. On the other hand, the actual quality of the programmers prompt appears to influence whether generated code contains weaknesses or not. In this paper we analyse 4 major LLMs with respect to the security of generated code. We do this on basis of a case study for the Python and Javascript language, using the MITRE CWE catalogue as the guiding security definition. Our results show that using different prompting techniques, some LLMs initially generate 65% code which is deemed insecure by a trained security engineer. On the other hand almost all analysed LLMs will eventually generate code being close to 100% secure with increasing manual guidance of a skilled engineer. | 翻訳日:2024-08-15 15:07:25 公開日:2024-08-13 |
# 事前学習型高次基礎モデルのためのV情報の最大化
Maximizing V-information for Pre-training Superior Foundation Models ( http://arxiv.org/abs/2408.07107v1 ) ライセンス: Link先を確認 | Wenxuan Yang, Weimin Tan, Hanyu Zhang, Bo Yan, | (参考訳) 大規模データセットの事前トレーニング基盤モデルは、例外的なパフォーマンスを示す。
しかし、最近の研究では、事前学習データの増加がモデル性能の向上につながるかどうかという従来の考え方に疑問が呈されている。
この問題に対処するため,データ効率のよい学習手法が導入された。
しかし、この領域の現在の手法では、サンプル選択の明確な標準が欠落している。
実験の結果, V情報の最大化により, サンプル選択を最適化問題とみなすことができ, より少ないサンプルであっても, モデル性能を効果的に向上させることができることがわかった。
本稿では,V-information を最大化する最適なデータ効率学習法 (OptiDEL) を提案する。
OptiDEL法は、データ量を大幅に減らしながら、完全なデータセットでトレーニングされたモデルの性能を達成または超過するためのハードサンプルを生成する。
我々はOptiDEL法と最先端のアプローチを比較し、OptiDELはさまざまなデータセットで既存のアプローチを一貫して上回り、トレーニング済みデータの5%しかトレーニングされていない基礎モデルは、フルデータセットでトレーニングされたデータのパフォーマンスを上回ります。
Pre-training foundation models on large-scale datasets demonstrates exceptional performance. However, recent research questions this traditional notion, exploring whether an increase in pre-training data always leads to enhanced model performance. To address this issue, data-effective learning approaches have been introduced. However, current methods in this area lack a clear standard for sample selection. Our experiments reveal that by maximizing V-information, sample selection can be framed as an optimization problem, enabling effective improvement in model performance even with fewer samples. Under this guidance, we develop an optimal data-effective learning method (OptiDEL) to maximize V-information. The OptiDEL method generates hard samples to achieve or even exceed the performance of models trained on the full dataset while using substantially less data. We compare the OptiDEL method with state-of-the-art approaches finding that OptiDEL consistently outperforms existing approaches across different datasets, with foundation models trained on only 5% of the pre-training data surpassing the performance of those trained on the full dataset. | 翻訳日:2024-08-15 15:07:25 公開日:2024-08-13 |
# 深部モデルに基づく高能率光音響画像再構成
Efficient Deep Model-Based Optoacoustic Image Reconstruction ( http://arxiv.org/abs/2408.07109v1 ) ライセンス: Link先を確認 | Christoph Dehner, Guillaume Zahnd, | (参考訳) マルチスペクトル光音響トモグラフィーの臨床応用は、リアルタイムに利用できる画像品質の改善と、スキャナー費用の削減を必要とする。
ディープラーニングアプローチは、最近、高品質な光音響画像のリアルタイム復元を解き明かした。
しかし、現在使われているディープニューラルネットワークアーキテクチャでは、十分なフレームレートで画像を推測するために強力なグラフィックス処理ユニットが必要であるため、価格タグが大幅に増加する。
本稿では,比較的軽量な17MパラメータのネットワークアーキテクチャであるEfficientDeepMBを提案する。
EfficientDeepMBは、モバイルデバイスを操作するように設計されたネットワークアーキテクチャであるEfficientNet上に構築されている。
本研究では,生体内光音響スキャンの大規模・多種多様なデータセットを用いて,再建速度と精度の観点から,効率的なDeepMBの性能を示す。
中規模のNVIDIA RTX A2000 AdaにデプロイされたEfficientDeepMBは、ライブイメージフィードバック(59Hz)が可能な速度で画像を再構成する一方、DeepMBはリアルタイム推論しきい値(14Hz)を達成できない。
EfficientDeepMBとDeepMBの復元精度の定量的差は限界である(データ残差は0.1560対0.1487、絶対誤差は0.642対0.745)。
この2つの再構成法で推定される画像の間には,定性的差は認められない。
Clinical adoption of multispectral optoacoustic tomography necessitates improvements of the image quality available in real-time, as well as a reduction in the scanner financial cost. Deep learning approaches have recently unlocked the reconstruction of high-quality optoacoustic images in real-time. However, currently used deep neural network architectures require powerful graphics processing units to infer images at sufficiently high frame-rates, consequently greatly increasing the price tag. Herein we propose EfficientDeepMB, a relatively lightweight (17M parameters) network architecture achieving high frame-rates on medium-sized graphics cards with no noticeable downgrade in image quality. EfficientDeepMB is built upon DeepMB, a previously established deep learning framework to reconstruct high-quality images in real-time, and upon EfficientNet, a network architectures designed to operate of mobile devices. We demonstrate the performance of EfficientDeepMB in terms of reconstruction speed and accuracy using a large and diverse dataset of in vivo optoacoustic scans. EfficientDeepMB is about three to five times faster than DeepMB: deployed on a medium-sized NVIDIA RTX A2000 Ada, EfficientDeepMB reconstructs images at speeds enabling live image feedback (59Hz) while DeepMB fails to meets the real-time inference threshold (14Hz). The quantitative difference between the reconstruction accuracy of EfficientDeepMB and DeepMB is marginal (data residual norms of 0.1560 vs. 0.1487, mean absolute error of 0.642 vs. 0.745). There are no perceptible qualitative differences between images inferred with the two reconstruction methods. | 翻訳日:2024-08-15 15:07:25 公開日:2024-08-13 |
# 頸動脈の流れ場推定のための物理インフォームドグラフニューラルネットワーク
Physics-informed graph neural networks for flow field estimation in carotid arteries ( http://arxiv.org/abs/2408.07110v1 ) ライセンス: Link先を確認 | Julian Suk, Dieuwertje Alblas, Barbara A. Hutten, Albert Wiegman, Christoph Brune, Pim van Ooij, Jelmer M. Wolterink, | (参考訳) 循環動態量は動脈硬化などの循環器疾患にとって貴重なバイオメディカルリスク因子である。
非侵襲的な生体内測定は、MRI(4D Flow magnetic resonance imaging)など、広くは利用できないいくつかのモダリティを用いてのみ行うことができる。
本研究では,機械学習を利用した血行動態場推定のための代理モデルを作成する。
私たちは、基礎となる対称性と物理に関する事前情報を含むグラフニューラルネットワークをトレーニングし、トレーニングに必要なデータ量を制限する。
これにより、計算流体力学(CFD)によって得られた大きなシリコン内データセットの代わりに、適度の大きさの4次元フローMRIデータセットを使用してモデルをトレーニングすることができる。
我々は、人気のあるPointNet++アーキテクチャとグループステアブルレイヤを組み合わせることで、効率的で同変のニューラルネットワークを作成する。
物理インフォームドプリエントを組み込むため、関連する微分作用素に対する効率的な離散化スキームを導出する。
頸動脈において広範な実験を行い,頸動脈内の低圧血行動態場を正確に推定できることが示唆された。
さらに, トレーニングデータと異なる画像モダリティを用いて得られた3次元血管モデルに対して, 幾何量と血行量との学習的関係がどう伝達されるかを示す。
このことは、物理インフォームドグラフニューラルネットワークを4次元フローMRIデータを用いてトレーニングすることで、見えない頸動脈領域の血流を推定できることを示している。
Hemodynamic quantities are valuable biomedical risk factors for cardiovascular pathology such as atherosclerosis. Non-invasive, in-vivo measurement of these quantities can only be performed using a select number of modalities that are not widely available, such as 4D flow magnetic resonance imaging (MRI). In this work, we create a surrogate model for hemodynamic flow field estimation, powered by machine learning. We train graph neural networks that include priors about the underlying symmetries and physics, limiting the amount of data required for training. This allows us to train the model using moderately-sized, in-vivo 4D flow MRI datasets, instead of large in-silico datasets obtained by computational fluid dynamics (CFD), as is the current standard. We create an efficient, equivariant neural network by combining the popular PointNet++ architecture with group-steerable layers. To incorporate the physics-informed priors, we derive an efficient discretisation scheme for the involved differential operators. We perform extensive experiments in carotid arteries and show that our model can accurately estimate low-noise hemodynamic flow fields in the carotid artery. Moreover, we show how the learned relation between geometry and hemodynamic quantities transfers to 3D vascular models obtained using a different imaging modality than the training data. This shows that physics-informed graph neural networks can be trained using 4D flow MRI data to estimate blood flow in unseen carotid artery geometries. | 翻訳日:2024-08-15 15:07:25 公開日:2024-08-13 |
# $ν=1/2$フラクショナルチャーン絶縁体と有限モーメント超固体の間に生じるベスタジアルギャップレスボソン密度波
Vestigial Gapless Boson Density Wave Emerging between $ν= 1/2$ Fractional Chern Insulator and Finite-Momentum Supersolid ( http://arxiv.org/abs/2408.07111v1 ) ライセンス: Link先を確認 | Hongyu Lu, Han-Qing Wu, Bin-Bin Chen, Zi Yang Meng, | (参考訳) ロートントリガード電荷密度波(CDW)は、分数量子ホール(FQH)と分数チャーン絶縁体(FCI)システムで広く研究されており、FCIから超流動(SF)への連続的な遷移の場の理論的および数値的実現も存在する。
しかし、FCIと超固体(SS)の遷移の理論と数値的な探索はいまだに欠如している。
本研究では, FCI状態の存在と直接FCI-SS遷移の可能性を明らかにするため, $\nu$ = 1/2ハードコアボソンを用いた位相的フラットバンド格子モデルについて検討する。
FCIは堅牢だが、直接的なFCI-SS移行は欠落しており、さらに興味深いシナリオがある。
チェッカーボード格子の場合,SFのない中間ギャップレスCDW状態がFCIとSSの間に挟まれている。
この新しい状態は、FCIのロトン不安定性によって引き起こされ、CDW位が十分に強いときに間絡した有限運動量 SF の揺らぎを連続的に引き起こし、最終的には従来の有限運動量 SS 状態に遷移する。
中間の隙間のないCDW状態は、SS状態からの恩恵であり、増大する量子揺らぎはラーキン・オヴチニコフ型SF秩序のみを解き、その(二次的な)積であるCDW秩序は生き残る。
ハニカム格子上では、SSの証拠は見つからないが、FCI-ソリッドI-ソリッドII遷移の興味深い配列は、どちらの固体も圧縮不能である。
さらに、以前のシングルトン凝縮とは対照的に、このFCI-ソリッドI-ソリッドII遷移はFCIにおけるマルチトンモードの軟化によって引き起こされる。
CDW順序の絡み合った波動ベクトルを考えると、Solid IはSolid IIの前兆である。
我々の研究は、FCIの量子相転移だけでなく、ボソニック系の中間秩序や隙間のない状態にも新たな地平線を与え、将来の研究を刺激する。
The roton-triggered charge-density-wave (CDW)is widely studied in fractional quantum Hall (FQH) and fractional Chern insulator (FCI) systems, and there also exist field theoretical and numerical realizations of continuous transition from FCI to superfluid (SF). However, the theory and numerical explorations of the transition between FCI and supersolid (SS) are still lacking. In this work, we study the topological flat-band lattice models with $\nu$ = 1/2 hard-core bosons, where the previous studies have discovered the existence of FCI states and possible direct FCI-SS transitions. While the FCI is robust, we find the direct FCI-SS transition is absent, and there exist more intriguing scenarios. In the case of checkerboard lattice, we find an intermediate gapless CDW state without SF, sandwiched between FCI and SS. This novel state is triggered by the roton instability in FCI and it further continuously brings about the intertwined finite-momentum SF fluctuation when the CDW order is strong enough, eventually transiting into an unconventional finite-momentum SS state. The intermediate gapless CDW state is a vestige from the SS state, since the increasing quantum fluctuation melts only the Larkin-Ovchinnikov-type SF order in SS but its (secondary) product -- the CDW order -- survives. On honeycomb lattice, we find no evidence of SS, but discover an interesting sequence of FCI-Solid I-Solid II transitions, with both solids incompressible. Moreover, in contrast to previous single-roton condensation, this sequence of FCI-Solid I-Solid II transitions is triggered by the softening of multi-roton modes in FCI. Considering the intertwined wave vectors of the CDW orders, Solid I is a vestige of Solid II. Our work provides new horizon not only for the quantum phase transitions in FCI but also for the intertwined orders and gapless states in bosonic systems, which will inspire future studies. | 翻訳日:2024-08-15 15:07:25 公開日:2024-08-13 |
# 音楽感情のための理論に基づく説明可能なディープラーニングアーキテクチャ
A Theory-Based Explainable Deep Learning Architecture for Music Emotion ( http://arxiv.org/abs/2408.07113v1 ) ライセンス: Link先を確認 | Hortense Fong, Vineet Kumar, K. Sudhir, | (参考訳) 本稿では、音楽に対する時間変化の感情応答を予測するための理論に基づく、説明可能な深層学習畳み込みニューラルネットワーク(CNN)分類器を開発する。
我々は、音響物理から周波数調和構造を利用する新しいCNNフィルタを設計し、音楽的特徴の知覚に影響を及ぼす。
我々の理論に基づくモデルは、より同義的であるが、非理論的な深層学習モデルに匹敵する予測性能を提供する一方で、手作りの特徴を用いたモデルよりも優れた性能を発揮する。
我々のモデルは手作りの機能で補うことができるが、性能改善は限界がある。
重要なことは、CNNフィルタ上に置かれるハーモニクスに基づく構造は、感情が子音と密接に関連しているため、モデルが感情の反応(価と覚醒)を予測する方法について、より良い説明性を提供する。
最後に,デジタル広告を応用したモデルの有用性について述べる。
YouTubeのミッドロール広告に触発されて、実験室で、ビデオ内の異なる時間に広告を異質に挿入する実験を行った。
感情的に類似した状況に置かれた広告は、広告エンゲージメントを増大させる(低いスキップ率、ブランドリコール率)。
我々の理論に基づく説明可能なモデルによって予測される感情的類似度指標に基づく広告挿入は、無理論モデルに対して同等またはより良いエンゲージメントを生み出す。
This paper paper develops a theory-based, explainable deep learning convolutional neural network (CNN) classifier to predict the time-varying emotional response to music. We design novel CNN filters that leverage the frequency harmonics structure from acoustic physics known to impact the perception of musical features. Our theory-based model is more parsimonious, but provides comparable predictive performance to atheoretical deep learning models, while performing better than models using handcrafted features. Our model can be complemented with handcrafted features, but the performance improvement is marginal. Importantly, the harmonics-based structure placed on the CNN filters provides better explainability for how the model predicts emotional response (valence and arousal), because emotion is closely related to consonance--a perceptual feature defined by the alignment of harmonics. Finally, we illustrate the utility of our model with an application involving digital advertising. Motivated by YouTube mid-roll ads, we conduct a lab experiment in which we exogenously insert ads at different times within videos. We find that ads placed in emotionally similar contexts increase ad engagement (lower skip rates, higher brand recall rates). Ad insertion based on emotional similarity metrics predicted by our theory-based, explainable model produces comparable or better engagement relative to atheoretical models. | 翻訳日:2024-08-15 15:07:25 公開日:2024-08-13 |
# 教師なし・監督型ハイパースペクトル異常検出法の検討
Investigation of unsupervised and supervised hyperspectral anomaly detection ( http://arxiv.org/abs/2408.07114v1 ) ライセンス: Link先を確認 | Mazharul Hossain, Aaron Robinson, Lan Wang, Chrysanthe Preza, | (参考訳) ハイパースペクトルセンシングは、異常を検出し、シーン内の物質を区別するための貴重なツールである。
ハイパースペクトル異常検出(HS-AD)は、キャプチャされたシーンを特徴付け、それらを異常クラスとバックグラウンドクラスに分離する。
RSTA(Reconnaissance, surveillance, and target acquisition)ミッションのような農業、環境、軍事用途に欠かせない。
我々は以前,ハイパースペクトルアンミキシングと3つの教師なしHS-ADアルゴリズムの等価な投票アンサンブルを設計した。
我々は後に、教師付き分類器を用いて投票アンサンブルの重みを決定するとともに、教師付き分類器をモデルスタックに組み込んだ異種無教師型HS-ADアルゴリズムのハイブリッドを作成し、検出精度を向上した。
しかし、教師付き分類法は、通常、以前に見られたものとはかなり異なる新しいパターンや未知のパターンを検出するのに失敗する。
本研究では,一般的なハイパースペクトルデータを用いて,本手法および他の教師なし手法の評価を行い,新たな知見を得た。
Hyperspectral sensing is a valuable tool for detecting anomalies and distinguishing between materials in a scene. Hyperspectral anomaly detection (HS-AD) helps characterize the captured scenes and separates them into anomaly and background classes. It is vital in agriculture, environment, and military applications such as RSTA (reconnaissance, surveillance, and target acquisition) missions. We previously designed an equal voting ensemble of hyperspectral unmixing and three unsupervised HS-AD algorithms. We later utilized a supervised classifier to determine the weights of a voting ensemble, creating a hybrid of heterogeneous unsupervised HS-AD algorithms with a supervised classifier in a model stacking, which improved detection accuracy. However, supervised classification methods usually fail to detect novel or unknown patterns that substantially deviate from those seen previously. In this work, we evaluate our technique and other supervised and unsupervised methods using general hyperspectral data to provide new insights. | 翻訳日:2024-08-15 15:07:25 公開日:2024-08-13 |
# 局所的情報完全測定による最適量子状態トモグラフィ
Optimal quantum state tomography with local informationally complete measurements ( http://arxiv.org/abs/2408.07115v1 ) ライセンス: Link先を確認 | Casey Jameson, Zhen Qin, Alireza Goldar, Michael B. Wakin, Zhihui Zhu, Zhexuan Gong, | (参考訳) 量子状態トモグラフィ(QST)は、短期量子デバイスのベンチマークと検証のための金の標準である。
汎用量子多体状態のQSTは指数関数的に大量の資源を必要とするが、ほとんどの物理量子状態は構造化されており、しばしばより少ない数のパラメータで表され、効率的なQSTを可能にする。
顕著な例として、行列積状態 (MPS) や行列積密度演算子 (MPDO) がある。
本稿では,QSTの効率向上に必要となるキュービット数における数個の状態複製多項式を用いて,一般MPS/MPDO状態が有界誤差で復元できるかどうかを検討する。
この問題を実際に興味深いものにするために、ターゲット状態に直接量子ビットの局所的な測定のみを仮定する。
局所対称情報完全正作用素値測定(SIC-POVM)を用いて、典型的な短距離交絡状態、ランダムMPS/MPDO状態、一次元ハミルトニアンの熱状態を含む様々な多体量子状態に対する上記の質問に対する正の答えを提供する。
さらに、一般化されたGHZ状態の族のようなある種の長距離絡み合った状態に対して肯定的なノー解を提供するが、実際の値の波動関数を持つことが知られているターゲット状態を除いては。
我々は,機械学習支援最大推定(MLE)アルゴリズムを用いて,サンプルの複雑さを厳密に束縛したクレーマー・ラオ境界の効率的な計算と,数値最適化結果とのほぼ完全一致で回答する。
この合意はまた、現在の量子ハードウェア上で実用的な実装が可能であり、ほとんどの1次元物理状態に対して非常に効率的なローカルSIC-POVMを用いた最適なQSTプロトコルをもたらす。
Quantum state tomography (QST) remains the gold standard for benchmarking and verification of near-term quantum devices. While QST for a generic quantum many-body state requires an exponentially large amount of resources, most physical quantum states are structured and can often be represented by a much smaller number of parameters, making efficient QST potentially possible. A prominent example is a matrix product state (MPS) or a matrix product density operator (MPDO), which is believed to represent most physical states generated by one-dimensional (1D) quantum devices. We study whether a general MPS/MPDO state can be recovered with bounded errors using only a number of state copies polynomial in the number of qubits, which is necessary for efficient QST. To make this question practically interesting, we assume only local measurements of qubits directly on the target state. By using a local symmetric informationally complete positive operator-valued measurement (SIC-POVM), we provide a positive answer to the above question for a variety of common many-body quantum states, including typical short-range entangled states, random MPS/MPDO states, and thermal states of one-dimensional Hamiltonians. In addition, we also provide an affirmative no answer for certain long-range entangled states such as a family of generalized GHZ states, but with the exception of target states that are known to have real-valued wavefunctions. Our answers are supported by a near-perfect agreement between an efficient calculation of the Cramer-Rao bound that rigorously bounds the sample complexity and numerical optimization results using a machine learning assisted maximal likelihood estimation (MLE) algorithm. This agreement also leads to an optimal QST protocol using local SIC-POVM that can be practically implemented on current quantum hardware and is highly efficient for most 1D physical states. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# ジェネレーティブフォトモンタージュ
Generative Photomontage ( http://arxiv.org/abs/2408.07116v1 ) ライセンス: Link先を確認 | Sean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu, | (参考訳) テキスト・ツー・イメージ・モデルは画像作成の強力なツールである。
しかし、生成プロセスはダイスロールに似ているため、ユーザが望むものをすべてキャプチャする単一のイメージを実現するのが難しくなる。
本稿では、生成した画像の様々な部分から合成して、基本的に生成フォトモンタージュを形成することにより、所望の画像を作成するためのフレームワークを提案する。
ControlNetが同じ入力条件と異なるシードを用いて生成した画像のスタックが与えられた場合、ユーザはブラシストロークインタフェースを使用して生成された結果から所望の部分を選択できる。
ユーザのブラシストロークを取り込み、拡散特徴空間におけるグラフベースの最適化を用いて生成した画像を分割し、新しい特徴空間ブレンディング法によりセグメント化された領域を合成する新しい手法を提案する。
提案手法は,ユーザの選択した地域を忠実に保存し,調和して構成する。
当社のフレキシブルなフレームワークは、新しい外観の組み合わせの生成、不正な形状やアーティファクトの修正、迅速なアライメントの改善など、多くのアプリケーションで使用することができることを実証しています。
提案手法は既存の画像ブレンディング手法や様々なベースラインよりも優れていることを示す。
Text-to-image models are powerful tools for image creation. However, the generation process is akin to a dice roll and makes it difficult to achieve a single image that captures everything a user wants. In this paper, we propose a framework for creating the desired image by compositing it from various parts of generated images, in essence forming a Generative Photomontage. Given a stack of images generated by ControlNet using the same input condition and different seeds, we let users select desired parts from the generated results using a brush stroke interface. We introduce a novel technique that takes in the user's brush strokes, segments the generated images using a graph-based optimization in diffusion feature space, and then composites the segmented regions via a new feature-space blending method. Our method faithfully preserves the user-selected regions while compositing them harmoniously. We demonstrate that our flexible framework can be used for many applications, including generating new appearance combinations, fixing incorrect shapes and artifacts, and improving prompt alignment. We show compelling results for each application and demonstrate that our method outperforms existing image blending methods and various baselines. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# DODAG-Xプロトコルを用いた高能率マルチパーティエンタングルメント分布
Efficient Multiparty Entanglement Distribution with DODAG-X Protocol ( http://arxiv.org/abs/2408.07118v1 ) ライセンス: Link先を確認 | Roberto Negrin, Nicolas Dirnegger, William Munizzi, Jugal Talukdar, Prineha Narang, | (参考訳) 本研究では,量子ネットワークにおけるマルチパーティントエンタングルメント分布のためのDODAG-Xプロトコルを提案する。
Destination Oriented Directed Acyclic Graphs (DODAG) のパワーを活用し,資源消費を最適化し,動的ネットワークや損失ネットワークにおけるノイズに対するロバスト性を高める。
DODAG内のXプロトコールのバリエーションを実装し、グラフ検証とパスフィニングの計算を最小化し、他の絡み合いルーティング方式と比較して計算オーバーヘッドを大幅に削減する。
さらに,格子格子と小世界トポロジのベンチマークにより,既存のプロトコルと比較して測定精度が大幅に低下していることが明らかとなった。
我々は,任意のネットワークにおいて最大3次元の絡み合いを発生させるDODAG-Xの成功を実証し,一般的な$n$の絡み合いへのスケーリングの可能性について述べる。
DODAG-Xプロトコルは、絡み合いルーティングのためのスケーラブルで効率的なソリューションを提供し、信頼性の高い量子通信とネットワークアプリケーションのための現在の技術を進めています。
In this work we introduce the DODAG-X protocol for multipartite entanglement distribution in quantum networks. Leveraging the power of Destination Oriented Directed Acyclic Graphs (DODAGs), our protocol optimizes resource consumption and enhances robustness to noise in dynamic and lossy networks. Implementing a variation on the X-protocol within the DODAG, we minimize graph verification and path-finding calculations, significantly reducing computational overhead when compared to other entanglement routing schemes. Additionally, our benchmarks on grid lattice and small-world topologies reveal substantial measurement reduction compared to existing protocols. We demonstrate the success of DODAG-X for generating maximal three-party entanglement in arbitrary networks, and describe the potential for scaling to generic $n$-party entanglement. The DODAG-X protocol provides a scalable and efficient solution for entanglement routing, advancing current techniques for reliable quantum communication and network applications. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# 多体非エルミート系における断熱のスローアプローチ:波多野・ネルソンモデル
Slow approach to adiabaticity in many-body non-Hermitian systems: the Hatano-Nelson Model ( http://arxiv.org/abs/2408.07122v1 ) ライセンス: Link先を確認 | Léonce Dupays, Adolfo del Campo, Balázs Dóra, | (参考訳) 相互作用するハタノ・ネルソンモデルにおいて、虚ベクトルポテンシャルの有限時間ランプを探索することにより、非エルミート量子多体系の近似断熱力学を探索する。
ボゾン化と正確な対角化を用いて、余剰エネルギー、Loschmidtエコー、密度不均衡を解析した。
即時ハミルトニアンは常に同じ実スペクトルを持つにもかかわらず、エネルギーは複素値となる。
断熱限界は減衰振動によって非常に緩やかに接近する。
崩壊のスケールは$\tau^{-1}$で、ランプ期間は$\tau$で、振動周期は$2L/v$、フェルミ速度は$v$、システム長さは$L$である。
しかし、補助的な制御を必要とせず、この期間と相反するランプ時間に対して、断熱のショートカットが見つかる。
我々の研究は、断熱と非エルミート多体物理学の複雑な相互作用を強調している。
We explore the near adiabatic dynamics in a non-Hermitian quantum many-body system by investigating a finite-time ramp of the imaginary vector potential in the interacting Hatano-Nelson model. The excess energy, the Loschmidt echo, and the density imbalance are analyzed using bosonization and exact diagonalization. The energy becomes complex valued, despite the instantaneous Hamiltonian having the same real spectrum throughout. The adiabatic limit is approached very slowly through damped oscillations. The decay scales with $\tau^{-1}$ with $\tau$ the ramp duration, while the oscillation period is $2L/v$ with $v$ the Fermi velocity and $L$ the system length. Yet, without the need for auxiliary controls, a shortcut to adiabaticity is found for ramp times commensurate with the period. Our work highlights the intricate interplay of adiabaticity and non-Hermitian many-body physics. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# 定常状態における創発的ゲージ場と"Choi-Spin Liquids"
Emergent Gauge Fields and the "Choi-Spin Liquids" in Steady States ( http://arxiv.org/abs/2408.07125v1 ) ライセンス: Link先を確認 | Kaixiang Su, Yimu Bao, Cenke Xu, | (参考訳) 我々は、リンドブラディアンのクラスの進化の定常状態が、二重ヒルベルト空間の「グッツウィラー射影」波動関数、すなわちチェイ・ジャミルコフスキー同型を通じて密度行列の表現に写像できることを示した。
グッツウィラー射影は系に創発的力学ゲージ場を導入することが期待されるので、ギャップのない自由フェルミオン純量子状態から始めると、二重ヒルベルト空間におけるリンドブラディアン進化の定常状態は、代数的なスピン液体のアナログであり、これは「ホイスピン液体」と呼ばれる。
チョイスピン液体は、選択後の強い測定によって製造することもできる。
スピン液体の研究の理解に基づいて,Choi-spin液体の予測を行うことができ,これらの予測をテストするための実験的プロトコルを設計する。
また、チャーン絶縁体から始めると、リンドブラディアン進化の定常状態が自然に「強弱」なU(1)対称性の破れを持つと予想され、これはヒルベルト空間の超伝導体に対応する。
We demonstrate that the steady states of the evolution of a class of Lindbladians can be mapped to the "Gutzwiller projected" wave functions in the doubled Hilbert space, i.e. the representation of the density matrix through the Choi-Jamiolkowski isomorphism. A Gutzwiller projection is expected to introduce emergent dynamical gauge fields to the system, hence if one starts with a gapless free fermion pure quantum state, the steady state of the Lindbladian evolution in the doubled Hilbert space is an analog of an algebraic spin liquid, which is dubbed the "Choi-spin liquid". The Choi-spin liquid can also be produced through strong measurement without post-selection. Predictions of the Choi-spin liquids can be made based on the understanding from the studies on spin liquids, and we will design the experimental protocol to test these predictions. We also demonstrate that if one starts with a Chern insulator, the steady state of the Lindbladian evolution is expected to have a spontaneous "strong-to-weak" U(1) symmetry breaking, which corresponds to a superconductor in the doubled Hilbert space. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# 2量子ゲートのトポロジカル量子コンパイル
Topological quantum compilation of two-qubit gates ( http://arxiv.org/abs/2408.07132v1 ) ライセンス: Link先を確認 | Phillip C. Burke, Christos Aravanis, Johannes Aspman, Jakub Mareček, Jiří Vala, | (参考訳) フィボナッチ系における2ビット演算のトポロジカル量子コンパイルについて検討する。
我々の第一のゴールは、ほぼ漏れのない、制御NOT(CNOT)ゲートと同等のゲートを単一ビット操作で生成することである。
これらのゲートは、局所同値類[CNOT]に属する。
さらに、二ビット演算の局所同値類は、フィボナッチアーロンをブレイディングすることによって自然に生成されるかを検討する。
生成したクラスのほとんどは、2ビットゲートのワイルチャンバー表現の端近くに位置し、特に恒等式[1] と [CNOT] の局所同値類と、二重制御NOT [DCNOT] と [SWAP] の間にある。
さらに、フィボナッチブレイディングゲートセットの9要素のみのシーケンスを用いて、SWAPゲートの局所的等価性を数値的に正確に実装することを発見した。
We investigate the topological quantum compilation of two-qubit operations within a system of Fibonacci anyons. Our primary goal is to generate gates that are approximately leakage-free and equivalent to the controlled-NOT (CNOT) gate up to single-qubit operations. These gates belong to the local equivalence class [CNOT]. Additionally, we explore which local equivalence classes of two-qubit operations can be naturally generated by braiding Fibonacci anyons. We discovered that most of the generated classes are located near the edges of the Weyl chamber representation of two-qubit gates, specifically between the local equivalence classes of the identity [1] and [CNOT], and between those of the double-controlled-NOT [DCNOT] and [SWAP]. Furthermore, we found a numerically exact implementation of a local equivalent of the SWAP gate using a sequence of only nine elements from the Fibonacci braiding gate set. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# ウクライナ侵攻時のテレグラムにおける反クレムリンデジタル距離の適応的戦略
The Adaptive Strategies of Anti-Kremlin Digital Dissent in Telegram during the Russian Invasion of Ukraine ( http://arxiv.org/abs/2408.07135v1 ) ライセンス: Link先を確認 | Apaar Bawa, Ugur Kursuncu, Dilshod Achilov, Valerie L. Shalin, | (参考訳) 2022年2月にロシアがウクライナに侵攻すると、テレグラムはクレムリンが支援するプロパガンダの普及に欠かせないソーシャルメディアのプラットフォームとなった。
長年にわたり、反クレムリンのロシアの反対チャネルは、国家が支援するプロパガンダに対する反対の声として顕著に現れてきた。
本研究では,テレグラムにおける反クレムリン内容の力学を,物語理論における破滅の概念に触発されて,侵略の7段階にわたって検討する。
新興トピックに関するデータ駆動の計算分析により、ロシア経済、戦闘更新、国際政治、ロシア国内問題などが明らかになった。
侵略の段階による統計的コントラストの共通セットを用いて、トピックの頻度の経時的分析により、文書化されたオフラインイベントや視聴者反応との関連性を調べることができ、視聴者の関心を維持できる適応的違反指向のコミュニケーション戦略が提案された。
クレムリンの制御を脅かすこれらの出来事に対する視聴者の承認は、テレグラムが野党のオンラインプレーフィールドをレベル付けしていることを示唆している。
During Russia's invasion of Ukraine in February 2022, Telegram became an essential social media platform for Kremlin-sponsored propaganda dissemination. Over time, Anti-Kremlin Russian opposition channels have also emerged as a prominent voice of dissent against the state-sponsored propaganda. This study examines the dynamics of Anti-Kremlin content on Telegram over seven phases of the invasion, inspired by the concept of breach in narrative theory. A data-driven, computational analysis of emerging topics revealed the Russian economy, combat updates, international politics, and Russian domestic affairs, among others. Using a common set of statistical contrasts by phases of the invasion, a longitudinal analysis of topic prevalence allowed us to examine associations with documented offline events and viewer reactions, suggesting an adaptive breach-oriented communications strategy that maintained viewer interest. Viewer approval of those events that threaten Kremlin control suggests that Telegram levels the online playing field for the opposition, surprising given the Kremlin's suppression of free speech offline. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# ELLA: 解釈,正確,インフォームな法的アドバイスにLLMを活用
ELLA: Empowering LLMs for Interpretable, Accurate and Informative Legal Advice ( http://arxiv.org/abs/2408.07137v1 ) ライセンス: Link先を確認 | Yutong Hu, Kangcheng Luo, Yansong Feng, | (参考訳) 法的な大規模言語モデル(LLMs)と法的な記事検索コンポーネントが組み合わさった法的なコンサルテーションにおける顕著なパフォーマンスにもかかわらず、アドバイスが正しくない場合や、根拠のない場合もまだある。
これらの問題を緩和するために、我々は {\bf L}LMs を解釈し、正確かつ情報的な {\bf L}egal {\bf A}dvice のためのツールである {\bf ELLA} を提案する。
ELLA は,法的項目と LLM の応答との相関関係を,類似性を計算することによって視覚的に提示し,ユーザに対して直感的な応答の法的基盤を提供する。
さらに、ユーザのクエリに基づいて、ELAは関連する法的項目を検索し、ユーザに表示する。
ユーザは LLM の法的項目をインタラクティブに選択して,より正確なレスポンスを生成できる。
ELLAはまた、ユーザ参照に関する関連する訴訟を検索する。
ユーザの調査から,回答に対する法的根拠を示すことで,ユーザの理解を深めることができた。
LLMの応答の精度は、ユーザがLSMの法的項目を選択する際にも改善される。
関連する訴訟を提供することは、個人が包括的な情報を得るのに役立つ。
Despite remarkable performance in legal consultation exhibited by legal Large Language Models(LLMs) combined with legal article retrieval components, there are still cases when the advice given is incorrect or baseless. To alleviate these problems, we propose {\bf ELLA}, a tool for {\bf E}mpowering {\bf L}LMs for interpretable, accurate, and informative {\bf L}egal {\bf A}dvice. ELLA visually presents the correlation between legal articles and LLM's response by calculating their similarities, providing users with an intuitive legal basis for the responses. Besides, based on the users' queries, ELLA retrieves relevant legal articles and displays them to users. Users can interactively select legal articles for LLM to generate more accurate responses. ELLA also retrieves relevant legal cases for user reference. Our user study shows that presenting the legal basis for the response helps users understand better. The accuracy of LLM's responses also improves when users intervene in selecting legal articles for LLM. Providing relevant legal cases also aids individuals in obtaining comprehensive information. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# 言語モデルとしての言語モデル
Language Models as Models of Language ( http://arxiv.org/abs/2408.07144v1 ) ライセンス: Link先を確認 | Raphaël Millière, | (参考訳) この章は、理論言語学への現代言語モデルの潜在的貢献について批判的に考察する。
工学的目標に焦点が当てられているにもかかわらず、これらのモデルが単なるデータ露出から洗練された言語知識を得る能力は、言語理論との関係を慎重に再評価する。
言語モデルが階層的な構文構造を学習し、発達可能なデータ量で訓練しても、様々な言語現象に敏感であることを示す経験的証拠の蓄積を概観する。
このようなモデルと言語理論との関連性を否定するために,能力・性能の区別が提唱されているが,この評価は早すぎるのではないかと思う。
学習条件を慎重に制御し、因果介入手法を用いることで、言語モデルを用いた実験は、言語習得と能力に関する仮説を制約する可能性がある。
私は、理論言語学者と計算研究者の緊密な協力は、特に言語的ナチビズムに関する議論の進展において、貴重な洞察をもたらすことができると結論づける。
This chapter critically examines the potential contributions of modern language models to theoretical linguistics. Despite their focus on engineering goals, these models' ability to acquire sophisticated linguistic knowledge from mere exposure to data warrants a careful reassessment of their relevance to linguistic theory. I review a growing body of empirical evidence suggesting that language models can learn hierarchical syntactic structure and exhibit sensitivity to various linguistic phenomena, even when trained on developmentally plausible amounts of data. While the competence/performance distinction has been invoked to dismiss the relevance of such models to linguistic theory, I argue that this assessment may be premature. By carefully controlling learning conditions and making use of causal intervention methods, experiments with language models can potentially constrain hypotheses about language acquisition and competence. I conclude that closer collaboration between theoretical linguists and computational researchers could yield valuable insights, particularly in advancing debates about linguistic nativism. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# 多様な職場における安全コンプライアンスの解釈ときめ細かな検出のための視覚言語モデル
Vision Language Model for Interpretable and Fine-grained Detection of Safety Compliance in Diverse Workplaces ( http://arxiv.org/abs/2408.07146v1 ) ライセンス: Link先を確認 | Zhiling Chen, Hanning Chen, Mohsen Imani, Ruimin Chen, Farhad Imani, | (参考訳) 個人用防護装置(PPE)非準拠による職場事故は、重大な安全上の懸念を生じさせ、法的責任、金銭的罰則、評判の被害をもたらす。
オブジェクト検出モデルは、安全項目を特定してこの問題に対処する能力を示しているが、YOLO、Faster R-CNN、SSDといった既存のモデルのほとんどは、様々な職場シナリオでPPEの詳細な属性を検証することに制限されている。
視覚言語モデル(VLM)は、視覚情報とテキスト情報の相乗効果を活用し、PPE認識における従来の物体検出限界に対する有望な解決策を提供することにより、検出タスクの牽引力を高めている。
それでもVLMは、職場環境の複雑さと多様性のために、PPEの属性を一貫して検証する上で、コンテキスト固有の言語と視覚的手がかりを同時に解釈する必要がある、という課題に直面している。
Clip2Safetyは、シーン認識、視覚的プロンプト、安全項目の検出、きめ細かい検証の4つの主要モジュールからなる、多様な職場安全コンプライアンスのための解釈可能な検出フレームワークである。
シーン認識は、必要な安全装置を決定するための現在のシナリオを特定する。
視覚的プロンプトは、検出プロセスに必要な特定の視覚的プロンプトを定式化する。
安全項目検出は、所定のシナリオに応じて、所要の安全装備が装着されているか否かを判定する。
最後に、被着用安全装置が微粒化属性要件を満たしているかどうかを微粒化評価する。
6つの異なるシナリオで実世界のケーススタディを行います。
その結果, Clip2Safetyは, 最先端の質問応答に基づくVLMよりも精度が向上するだけでなく, 推測時間も200倍高速であることがわかった。
Workplace accidents due to personal protective equipment (PPE) non-compliance raise serious safety concerns and lead to legal liabilities, financial penalties, and reputational damage. While object detection models have shown the capability to address this issue by identifying safety items, most existing models, such as YOLO, Faster R-CNN, and SSD, are limited in verifying the fine-grained attributes of PPE across diverse workplace scenarios. Vision language models (VLMs) are gaining traction for detection tasks by leveraging the synergy between visual and textual information, offering a promising solution to traditional object detection limitations in PPE recognition. Nonetheless, VLMs face challenges in consistently verifying PPE attributes due to the complexity and variability of workplace environments, requiring them to interpret context-specific language and visual cues simultaneously. We introduce Clip2Safety, an interpretable detection framework for diverse workplace safety compliance, which comprises four main modules: scene recognition, the visual prompt, safety items detection, and fine-grained verification. The scene recognition identifies the current scenario to determine the necessary safety gear. The visual prompt formulates the specific visual prompts needed for the detection process. The safety items detection identifies whether the required safety gear is being worn according to the specified scenario. Lastly, the fine-grained verification assesses whether the worn safety equipment meets the fine-grained attribute requirements. We conduct real-world case studies across six different scenarios. The results show that Clip2Safety not only demonstrates an accuracy improvement over state-of-the-art question-answering based VLMs but also achieves inference times two hundred times faster. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# スリート・オブ・ハンドによる世界制御
Controlling the World by Sleight of Hand ( http://arxiv.org/abs/2408.07147v1 ) ライセンス: Link先を確認 | Sruthi Sudhakar, Ruoshi Liu, Basile Van Hoorick, Carl Vondrick, Richard Zemel, | (参考訳) 人間は自然に物体の相互作用とダイナミクスのメンタルモデルを構築し、特定のアクションをとれば周囲がどのように変化するかを想像することができる。
現在の生成モデルは、無条件で、あるいはテキストで、画像を生成し、編集する際の印象的な結果を示しているが、現在の手法では、アクションに条件付けされたオブジェクト操作を行う能力は提供されていない。
そこで本研究では,物体と対話する人間の手のラベルなしビデオから,行動条件生成モデルを学ぶことを提案する。
インターネット上の膨大な量のデータが効率的なスケーリングを可能にし、高いパフォーマンスのアクション条件モデルを可能にする。
画像と、所望のハンドインタラクションの形状/位置が与えられた場合、CosHandは、インタラクションが発生した後の未来のイメージを合成する。
実験により、結果のモデルは、特に、目に見えない環境下での物体の翻訳、伸縮、および浮動小数点相互作用に対する強い一般化により、手-物体相互作用の効果をうまく予測できることが示された。
さらに、CosHandは、相互作用/環境における力の不確実性をモデル化して、複数の可能な効果を予測するために、何度もサンプリングすることができる。
最後に、ロボットハンドのような非人間の手を含む様々な実施形態に一般化し、生成ビデオモデルがロボット工学の強力なモデルになり得ることを示唆する。
Humans naturally build mental models of object interactions and dynamics, allowing them to imagine how their surroundings will change if they take a certain action. While generative models today have shown impressive results on generating/editing images unconditionally or conditioned on text, current methods do not provide the ability to perform object manipulation conditioned on actions, an important tool for world modeling and action planning. Therefore, we propose to learn an action-conditional generative models by learning from unlabeled videos of human hands interacting with objects. The vast quantity of such data on the internet allows for efficient scaling which can enable high-performing action-conditional models. Given an image, and the shape/location of a desired hand interaction, CosHand, synthesizes an image of a future after the interaction has occurred. Experiments show that the resulting model can predict the effects of hand-object interactions well, with strong generalization particularly to translation, stretching, and squeezing interactions of unseen objects in unseen environments. Further, CosHand can be sampled many times to predict multiple possible effects, modeling the uncertainty of forces in the interaction/environment. Finally, method generalizes to different embodiments, including non-human hands, i.e. robot hands, suggesting that generative video models can be powerful models for robotics. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# スパイキングニューロモーフィックシステムのエネルギー効率を高めるための複合学習戦略の可能性
The Potential of Combined Learning Strategies to Enhance Energy Efficiency of Spiking Neuromorphic Systems ( http://arxiv.org/abs/2408.07150v1 ) ライセンス: Link先を確認 | Ali Shiri Sichani, Sai Kankatala, | (参考訳) ニューロモルフィックコンピューティングシステムにおけるエネルギー効率の高い設計を保証するには、アルゴリズムのアプローチと組み合わされたアーキテクチャが必要である。
この原稿は、畳み込みスパイキングニューラルネットワーク(CSNN)のための新しい複合学習アプローチを通じて、脳にインスパイアされた知覚コンピュータマシンの強化に焦点を当てている。
CSNNは、人間の脳にインスパイアされたエネルギー効率の良いスパイクニューロン処理を提供する、バックプロパゲーションのような従来のパワー集約的で複雑な機械学習手法に代わる、有望な代替手段を提供する。
提案手法は,Pair-based Spike Timing-Dependent Plasticity (PSTDP) と電力法依存のSpike-timing-dependent plasticity (STDP) を統合して,シナプス効果の調整を行う。
精度を維持しながら学習パラメータを減少させることで、これらのシステムはエネルギーを消費し、領域オーバーヘッドを低減し、ハードウェアの実装により適している。
この研究は、エネルギー効率のよいコンピューティングハードウェアのための一般的なフレームワークを提供するため、CSNNに焦点を当てたニューロモルフィックデザインアーキテクチャを掘り下げた。
CSNNアーキテクチャは、知覚コンピューティングシステムにおいて、トレーニング可能なパラメータが許容できる精度をどの程度低く維持できるかを評価するために評価され、ニューロモルフィックアーキテクチャの候補として位置づけられる。
提案したアーキテクチャの成果と方法論を検証した以前の研究との比較。
Ensuring energy-efficient design in neuromorphic computing systems necessitates a tailored architecture combined with algorithmic approaches. This manuscript focuses on enhancing brain-inspired perceptual computing machines through a novel combined learning approach for Convolutional Spiking Neural Networks (CSNNs). CSNNs present a promising alternative to traditional power-intensive and complex machine learning methods like backpropagation, offering energy-efficient spiking neuron processing inspired by the human brain. The proposed combined learning method integrates Pair-based Spike Timing-Dependent Plasticity (PSTDP) and power law-dependent Spike-timing-dependent plasticity (STDP) to adjust synaptic efficacies, enabling the utilization of stochastic elements like memristive devices to enhance energy efficiency and improve perceptual computing accuracy. By reducing learning parameters while maintaining accuracy, these systems consume less energy and have reduced area overhead, making them more suitable for hardware implementation. The research delves into neuromorphic design architectures, focusing on CSNNs to provide a general framework for energy-efficient computing hardware. Various CSNN architectures are evaluated to assess how less trainable parameters can maintain acceptable accuracy in perceptual computing systems, positioning them as viable candidates for neuromorphic architecture. Comparisons with previous work validate the achievements and methodology of the proposed architecture. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# Alpha-Trimming: ランダム林に適応した樹木伐採
Alpha-Trimming: Locally Adaptive Tree Pruning for Random Forests ( http://arxiv.org/abs/2408.07151v1 ) ライセンス: Link先を確認 | Nikola Surjanovic, Andrew Henrey, Thomas M. Loughin, | (参考訳) 本研究では,無作為林における個々の回帰木の大きさを適応的に制御することで,樹木が完全に栽培されるべきという従来の知恵とは対照的に,予測性能を向上させることを実証する。
信号-雑音比の低い地域では、より攻撃的な刈り出しを行うランダム森林内での刈り込みに有効なアプローチとして、高速刈り込みアルゴリズム、アルファトリミングが提案されている。
情報基準ペナルティの重み付けをチューニングパラメータとして調整することにより,全体の刈り取り量を制御し,標準ランダム林をアルファトリミングしたランダム林の特別事例とした。
アルファトリミングの顕著な特徴は、そのチューニングパラメータが、一度木が完全に成長した後に、ランダムな森で木を適合させることなく調整できることである。
46のサンプルデータセットのベンチマークスイートでは、平均2乗予測誤差はプルーニングアルゴリズムを用いて大幅に低下することが多く、デフォルトパラメータ設定で完全に生えているランダムな森林に比べて大幅に増大することはない。
We demonstrate that adaptively controlling the size of individual regression trees in a random forest can improve predictive performance, contrary to the conventional wisdom that trees should be fully grown. A fast pruning algorithm, alpha-trimming, is proposed as an effective approach to pruning trees within a random forest, where more aggressive pruning is performed in regions with a low signal-to-noise ratio. The amount of overall pruning is controlled by adjusting the weight on an information criterion penalty as a tuning parameter, with the standard random forest being a special case of our alpha-trimmed random forest. A remarkable feature of alpha-trimming is that its tuning parameter can be adjusted without refitting the trees in the random forest once the trees have been fully grown once. In a benchmark suite of 46 example data sets, mean squared prediction error is often substantially lowered by using our pruning algorithm and is never substantially increased compared to a random forest with fully-grown trees at default parameter settings. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# FedMADE: 動的集約法を用いたIoTネットワークの侵入検出のためのロバストなフェデレーション学習
FedMADE: Robust Federated Learning for Intrusion Detection in IoT Networks Using a Dynamic Aggregation Method ( http://arxiv.org/abs/2408.07152v1 ) ライセンス: Link先を確認 | Shihua Sun, Pragya Sharma, Kenechukwu Nwodo, Angelos Stavrou, Haining Wang, | (参考訳) 複数のセクターでIoT(Internet of Things)デバイスが急速に普及し、ネットワークセキュリティの深刻な懸念が高まっている。
これにより、サイバー攻撃分類のための機械学習(ML)ベースの侵入検知システム(IDS)の研究が進行中である。
従来のMLモデルは、トラフィック分析のためにIoTデバイスから集中型サーバへのデータ転送を必要とし、プライバシー上の深刻な懸念を生じさせる。
この問題に対処するために、研究者は、データをローカライズしながらIoTデバイス間でモデルをトレーニングするフェデレートラーニング(FL)ベースのIDSを研究した。
しかし、デバイス固有の脆弱性と攻撃ベクトルの複雑さから生まれたデータの異質性は、FLモデルの有効性に重大な課題をもたらす。
現在の研究は、FLフレームワーク内で様々なMLモデルを適用することに焦点を当てているが、デバイス間の攻撃クラス不均衡の問題に効果的に対処できず、マイノリティアタックの分類精度を著しく低下させる。
この課題を克服するため、FedMADEは、トラフィックパターンによってデバイスをクラスタリングし、全体的なパフォーマンスへの貢献に基づいてローカルモデルを集約する、新しい動的集約手法である。
我々は,非IIDデータ用に設計された他のFLアルゴリズムに対してFedMADEを評価し,マイノリティ攻撃分類精度を最大71.07%向上させた。
さらに、FedMADEは攻撃に対して堅牢であり、IoTデバイスの計算負荷を増大させることなく、各通信ラウンドでFedAvgと比較して4.7%(5.03秒)の遅延オーバーヘッドしか発生しないことを示す。
The rapid proliferation of Internet of Things (IoT) devices across multiple sectors has escalated serious network security concerns. This has prompted ongoing research in Machine Learning (ML)-based Intrusion Detection Systems (IDSs) for cyber-attack classification. Traditional ML models require data transmission from IoT devices to a centralized server for traffic analysis, raising severe privacy concerns. To address this issue, researchers have studied Federated Learning (FL)-based IDSs that train models across IoT devices while keeping their data localized. However, the heterogeneity of data, stemming from distinct vulnerabilities of devices and complexity of attack vectors, poses a significant challenge to the effectiveness of FL models. While current research focuses on adapting various ML models within the FL framework, they fail to effectively address the issue of attack class imbalance among devices, which significantly degrades the classification accuracy of minority attacks. To overcome this challenge, we introduce FedMADE, a novel dynamic aggregation method, which clusters devices by their traffic patterns and aggregates local models based on their contributions towards overall performance. We evaluate FedMADE against other FL algorithms designed for non-IID data and observe up to 71.07% improvement in minority attack classification accuracy. We further show that FedMADE is robust to poisoning attacks and incurs only a 4.7% (5.03 seconds) latency overhead in each communication round compared to FedAvg, without increasing the computational load of IoT devices. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# 自己折り畳み型自己複製
Self-folding Self-replication ( http://arxiv.org/abs/2408.07154v1 ) ライセンス: Link先を確認 | Ralph P. Lano, | (参考訳) タンパク質の折りたたみに着想を得て,単純な構造ブロックの1次元鎖から3次元構造と機械を構築することを検討した。
このアプローチは、導入した自己複製メカニズムを再現するだけでなく、プロセスを大幅に単純化します。
我々は, 自己複製機を含むより先進的な第三次構造と第四次構造と同様に, {\alpha} ヘリスや \b{eta} シートのような二次構造の形成を容易にする新しい折りたたみブロックを導入した。
回転自由度の導入は、様々なブロックを減らし、最も重要なことに、マシン全体のサイズを5倍に削減する。
さらに,約40ブロックからなる高能率自己複製機構であるユニバーサル・コリヤ・コンストラクタを提案する。
論文は進化的考察にも対処し、より洗練された自己複製システムへの進化的はしごのいくつかのステップを概説している。
最後に、この研究は3次元構造を構築する際に自然が1次元鎖を好むことの明確な根拠を提供する。
Inspired by protein folding, we explored the construction of three-dimensional structures and machines from one-dimensional chains of simple building blocks. This approach not only allows us to recreate the self-replication mechanism introduced earlier, but also significantly simplifies the process. We introduced a new set of folding blocks that facilitate the formation of secondary structures such as {\alpha}-helices and \b{eta}-sheets, as well as more advanced tertiary and quaternary structures, including self-replicating machines. The introduction of rotational degrees of freedom leads to a reduced variety of blocks and, most importantly, reduces the overall size of the machines by a factor of five. In addition, we present a universal copier-constructor, a highly efficient self-replicating mechanism composed of approximately 40 blocks, including the restictions posed on it. The paper also addresses evolutionary considerations, outlining several steps on the evolutionary ladder towards more sophisticated self-replicating systems. Finally, this study offers a clear rationale for nature's preference for one-dimensional chains in constructing three-dimensional structures. | 翻訳日:2024-08-15 14:55:43 公開日:2024-08-13 |
# 新しいチロシンキナーゼ阻害剤の生成と生物活性予測のための遺伝的アルゴリズムと深層学習の統合
Integration of Genetic Algorithms and Deep Learning for the Generation and Bioactivity Prediction of Novel Tyrosine Kinase Inhibitors ( http://arxiv.org/abs/2408.07155v1 ) ライセンス: Link先を確認 | Ricardo Romero, | (参考訳) 人工知能とバイオインフォマティクスの交差は、特に機械学習モデルの適用を通じて、薬物発見の大幅な進歩を可能にした。
本研究では,遺伝子アルゴリズムと深層学習モデルを用いて,新規チロシンキナーゼ阻害剤の生成と生物活性の予測という,薬物発見の2つの重要な側面に対処するアプローチを提案する。
生成モデルは遺伝的アルゴリズムを利用して、最適化されたADMET(吸収、分布、代謝、排他、毒性)と薬物類似性特性を持つ新しい小さな分子を創出する。
同時に、様々な細胞プロセスやがん進行に関与する主要な酵素ファミリーであるチロシンキナーゼに対するこれらの生成分子の生物活性を予測するために、ディープラーニングモデルが用いられる。
これらの先進的な計算手法を統合することにより、チロシンキナーゼ阻害薬の生成と同定を加速する強力な枠組みが示され、より効率的かつ効果的な創薬プロセスに寄与する。
The intersection of artificial intelligence and bioinformatics has enabled significant advancements in drug discovery, particularly through the application of machine learning models. In this study, we present a combined approach using genetic algorithms and deep learning models to address two critical aspects of drug discovery: the generation of novel tyrosine kinase inhibitors and the prediction of their bioactivity. The generative model leverages genetic algorithms to create new small molecules with optimized ADMET (absorption, distribution, metabolism, excretion, and toxicity) and drug-likeness properties. Concurrently, a deep learning model is employed to predict the bioactivity of these generated molecules against tyrosine kinases, a key enzyme family involved in various cellular processes and cancer progression. By integrating these advanced computational methods, we demonstrate a powerful framework for accelerating the generation and identification of potential tyrosine kinase inhibitors, contributing to more efficient and effective early-stage drug discovery processes. | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# 階層形状マッチングによるフレキシブル3次元レーン検出 階層形状マッチングによるフレキシブル3次元レーン検出
Flexible 3D Lane Detection by Hierarchical Shape MatchingFlexible 3D Lane Detection by Hierarchical Shape Matching ( http://arxiv.org/abs/2408.07163v1 ) ライセンス: Link先を確認 | Zhihao Guan, Ruixin Liu, Zejian Yuan, Ao Liu, Kun Tang, Tong Zhou, Erlong Li, Chao Zheng, Shuqi Mei, | (参考訳) HDマップ構築の基本的な技術である3次元車線検出は、様々な視覚条件、複雑な型、厳密な精度要求のため、まだ未解決の課題である。
本稿では,点雲から3次元レーン線を正確に予測するために,エンドツーエンドのフレキシブルかつ階層的なレーン検出器を提案する。
具体的には,異なるレベルのレーン形状のフレキシブルな表現を予測し,グローバルなインスタンスセマンティクスを同時に収集し,局所的なエラーを回避する階層ネットワークを設計する。
大域的な視野では、複雑なシーンに対してより堅牢な予測を行うのに役立つパラメトリック曲線 w.r.t 適応軸を回帰し、局所的な視野では、大域的な予測曲線に沿ってサンプリングされた動的アンカーセルのそれぞれにレーンセグメントの構造を検出する。
さらに、対応するグローバルおよびローカル形状整合損失とアンカーセル生成戦略を設計する。
2つのデータセットの実験により、我々は現在のトップメソッドを高精度な基準で圧倒し、完全なアブレーション研究もメソッドのそれぞれの部分を検証した。
私たちのコードはhttps://github.com/Doo-do/FHLD.comでリリースされます。
As one of the basic while vital technologies for HD map construction, 3D lane detection is still an open problem due to varying visual conditions, complex typologies, and strict demands for precision. In this paper, an end-to-end flexible and hierarchical lane detector is proposed to precisely predict 3D lane lines from point clouds. Specifically, we design a hierarchical network predicting flexible representations of lane shapes at different levels, simultaneously collecting global instance semantics and avoiding local errors. In the global scope, we propose to regress parametric curves w.r.t adaptive axes that help to make more robust predictions towards complex scenes, while in the local vision the structure of lane segment is detected in each of the dynamic anchor cells sampled along the global predicted curves. Moreover, corresponding global and local shape matching losses and anchor cell generation strategies are designed. Experiments on two datasets show that we overwhelm current top methods under high precision standards, and full ablation studies also verify each part of our method. Our codes will be released at https://github.com/Doo-do/FHLD. | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# POD-TANNによる地力学における材料・マクロ要素のマルチスケールモデリング
A POD-TANN approach for the multiscale modeling of materials and macroelement derivation in geomechanics ( http://arxiv.org/abs/2408.07165v1 ) ライセンス: Link先を確認 | Giovanni Piunno, Ioannis Stefanou, Cristina Jommi, | (参考訳) 本稿では,多角形分解(POD)と熱力学に基づくニューラルネットワーク(TANN)を組み合わせることで,複雑な非弾性系のマクロ的挙動を捉える手法を提案する。
この手法はPODを利用して、微視的状態情報からマクロな内部状態変数(ISV)を抽出し、TANNフレームワーク内のエネルギーポテンシャルネットワークをトレーニングするために使用されるマクロな状態記述を強化する。
TANNによって提供される熱力学的一貫性は、PODの階層的な性質と相まって、複雑で非線形な物質挙動と信頼できるマクロ力学系の応答の正確なモデリングを可能にする。
このアプローチの有効性は、複雑化の応用を通じて検証され、様々な物質的挙動やミクロ構造的トポロジーを扱う能力を示す。
これらの応用には、連続非弾性代表単位細胞(RUC)の均質化や、水平荷重を受ける粘土層にモノパイルを含む地球工学系のマクロ要素の導出が含まれる。
提案手法は, 応力-ひずみ応答の再現において高い精度を達成するだけでなく, 計算コストを大幅に削減し, 複素非弾性系のマルチスケールモデリング, 複雑な地盤力学問題に対するマクロ要素の効率的な導出を行うための実用的なツールであることを示す。
This paper introduces a novel approach that combines Proper Orthogonal Decomposition (POD) with Thermodynamics-based Artificial Neural Networks (TANN) to capture the macroscopic behavior of complex inelastic systems and derive macroelements in geomechanics. The methodology leverages POD to extract macroscopic Internal State Variables (ISVs) from microscopic state information, thereby enriching the macroscopic state description used to train an energy potential network within the TANN framework. The thermodynamic consistency provided by TANN, combined with the hierarchical nature of POD, allows for accurate modeling of complex, non-linear material behavior and reliable macroscopic geomechanical systems responses. The effectiveness of this approach is validated through applications of increasing complexity, demonstrating its capability to handle various material behaviors and microstructural topologies. These applications include the homogenization of continuous inelastic representative unit cells (RUCs) and the derivation of a macroelement for a geotechnical system involving a monopile in a clay layer subjected to horizontal loading. The results indicate that the proposed POD-TANN methodology not only achieves high accuracy in reproducing stress-strain responses, but also significantly reduces computational costs, making it a practical tool for the multiscale modeling of heterogeneous inelastic systems, and the efficient derivation of macroelements for complex geomechanical problems. | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# BVI-UGC: ユーザ生成コンテンツ変換のためのビデオ品質データベース
BVI-UGC: A Video Quality Database for User-Generated Content Transcoding ( http://arxiv.org/abs/2408.07171v1 ) ライセンス: Link先を確認 | Zihao Qi, Chen Feng, Fan Zhang, Xiaozhong Xu, Shan Liu, David Bull, | (参考訳) 近年、ユーザ生成コンテンツ(UGC)は、ストリーミングネットワークで消費される主要なビデオタイプの一つとなっている。
多くの研究が主観的テストと客観的モデリングを通じて視覚的品質を評価することに重点を置いている。
ほとんどの場合、客観的アセスメントは、対応する参照コンテンツが利用できないと仮定されるノン参照シナリオに基づいている。
しかしながら、フルレファレンスビデオ品質評価は、特にビデオトランスコーディングプロセスに関連するデリバリパイプラインにおけるUGCにとっても重要である。
この文脈では、ユーザ生成コンテンツ変換のための新しいUGCビデオ品質データベースであるBVI-UGCを紹介し、60(非プライスティン)参照ビデオと1,080のテストシーケンスを含む。
本研究では,UGCプラットフォームにアップロードされた典型的コンテンツである非プリスチン参照シーケンス(広範囲の圧縮歪みを伴う)の作成をシミュレートした。
総合的なクラウドソーシングによる主観的研究が行われ、3500人以上の被験者が参加した。
この収集した主観的データに基づいて、10の完全参照と11の非参照品質メトリクスのパフォーマンスをベンチマークした。
その結果,2つのシナリオ(参照の有無に関わらず)において,UGCの知覚的品質を予測する上で,これらの指標の低性能(SROCC値が0.6以下)が示された。
In recent years, user-generated content (UGC) has become one of the major video types consumed via streaming networks. Numerous research contributions have focused on assessing its visual quality through subjective tests and objective modeling. In most cases, objective assessments are based on a no-reference scenario, where the corresponding reference content is assumed not to be available. However, full-reference video quality assessment is also important for UGC in the delivery pipeline, particularly associated with the video transcoding process. In this context, we present a new UGC video quality database, BVI-UGC, for user-generated content transcoding, which contains 60 (non-pristine) reference videos and 1,080 test sequences. In this work, we simulated the creation of non-pristine reference sequences (with a wide range of compression distortions), typical of content uploaded to UGC platforms for transcoding. A comprehensive crowdsourced subjective study was then conducted involving more than 3,500 human participants. Based on this collected subjective data, we benchmarked the performance of 10 full-reference and 11 no-reference quality metrics. Our results demonstrate the poor performance (SROCC values are lower than 0.6) of these metrics in predicting the perceptual quality of UGC in two different scenarios (with or without a reference). | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# 競争的知識伝達を用いた費用最適化のためのサロゲート支援探索
Surrogate-Assisted Search with Competitive Knowledge Transfer for Expensive Optimization ( http://arxiv.org/abs/2408.07176v1 ) ライセンス: Link先を確認 | Xiaoming Xue, Yao Hu, Liang Feng, Kai Zhang, Linqi Song, Kay Chen Tan, | (参考訳) 重大最適化問題 (EOP) は, 様々な応用に応用されているため, 何十年にもわたって研究の関心が高まりつつある。
このような問題を解決するために開発された多くの高度なサロゲート支援進化アルゴリズム(SAEA)にもかかわらず、これらのアルゴリズムの多くは、これまで解決されたタスクから知識を伝達し、常にゼロから検索を開始する能力に欠けており、悪名高いコールドスタート問題に悩まされている。
トランスファーラーニングをSAEAに統合するいくつかの予備的な研究は、望ましくない知識を過小評価しがちな欠陥類似性の定量化、SAEAにおける最先端技術と整合しないトランスファーメソッドのサロゲート依存性など、いくつかの問題に直面している。
本論文では,様々なSAEAを向上するために,プラグアンドプレイの知識伝達手法を提案する。
具体的には、ソースタスクからの最適化されたソリューションと、ターゲットサロゲートが獲得した有望なソリューションの両方をタスク解決の知識として扱い、両者が競い合うことによって、高価な評価のために勝者を選択することができ、ターゲットタスクの探索速度が向上する。
さらに、知識競争による収束利得の下位境界を数学的に解析し、シーケンシャルトランスファー最適化の理論的基礎を強化することが期待されている。
一連のベンチマーク問題と石油産業の実用化に関する実験研究により,提案手法の有効性が検証された。
競合する知識伝達のソースコードはhttps://github.com/XmingHsueh/SAS-CKTで公開されている。
Expensive optimization problems (EOPs) have attracted increasing research attention over the decades due to their ubiquity in a variety of practical applications. Despite many sophisticated surrogate-assisted evolutionary algorithms (SAEAs) that have been developed for solving such problems, most of them lack the ability to transfer knowledge from previously-solved tasks and always start their search from scratch, making them troubled by the notorious cold-start issue. A few preliminary studies that integrate transfer learning into SAEAs still face some issues, such as defective similarity quantification that is prone to underestimate promising knowledge, surrogate-dependency that makes the transfer methods not coherent with the state-of-the-art in SAEAs, etc. In light of the above, a plug and play competitive knowledge transfer method is proposed to boost various SAEAs in this paper. Specifically, both the optimized solutions from the source tasks and the promising solutions acquired by the target surrogate are treated as task-solving knowledge, enabling them to compete with each other to elect the winner for expensive evaluation, thus boosting the search speed on the target task. Moreover, the lower bound of the convergence gain brought by the knowledge competition is mathematically analyzed, which is expected to strengthen the theoretical foundation of sequential transfer optimization. Experimental studies conducted on a series of benchmark problems and a practical application from the petroleum industry verify the efficacy of the proposed method. The source code of the competitive knowledge transfer is available at https://github.com/XmingHsueh/SAS-CKT. | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# アンロック効率:遺伝子トランスモデルの適応型マスキング
Unlocking Efficiency: Adaptive Masking for Gene Transformer Models ( http://arxiv.org/abs/2408.07180v1 ) ライセンス: Link先を確認 | Soumyadeep Roy, Shamik Sural, Niloy Ganguly, | (参考訳) Nucleotide Transformer, DNABert, LOGOなどの遺伝子トランスフォーマーモデルを用いて, 完全なヒト参照ゲノム上でのMasked Language Modeling (MLM) トレーニング目標を用いて最適な遺伝子配列表現を学習する。
しかし、典型的なトークン化法は、遺伝子中心の意味論を利用できないk-mersのようなトークンの基本的なスライディングウィンドウを用いる。
これは容易に予測可能なシーケンスを(簡単な)マスキングし、非効率なMLMトレーニングに繋がる可能性がある。
時変訓練戦略は、言語と視覚の両方のタスクにおける事前訓練効率を改善することが知られている。
本研究では,NLPドメインの単語や文に類似したセマンティック・ユニットが適切に定義されていないため,ポイントワイズ相互情報に基づく難易度基準を用いることで,マスク付きトークン予測タスクの難易度を体系的に向上するカリキュラムマスキングに着目する。
提案したCM-GEMS(Curriculum Masking-based Gene Masking Strategy)は、下流の遺伝子配列分類タスクで評価した場合、ベースラインマスキング手法よりも優れた表現学習能力を示す。
本研究は,27のタスクからなるゲノム理解評価ベンチマーク(Genomic Understanding Evaluationベンチマーク)において,複数ショット(5つのデータセット)と全データセット設定の両方で広範囲に評価を行う。
以上の結果から,CM-GEMSは120Kステップでトレーニングした最先端モデル (DNABert-2, Nucleotide transformer, DNABert) よりも優れており,10Kステップと1Kステップで同様の結果が得られた。
また,Curriculum-Learned LOGO (2層DNABertライクなモデル)は,120Kステップの最先端モデルの性能の90%近くを達成できることを示した。
モデルとコードはhttps://github.com/roysoumya/curriculum-GeneMask.comで公開します。
Gene transformer models such as Nucleotide Transformer, DNABert, and LOGO are trained to learn optimal gene sequence representations by using the Masked Language Modeling (MLM) training objective over the complete Human Reference Genome. However, the typical tokenization methods employ a basic sliding window of tokens, such as k-mers, that fail to utilize gene-centric semantics. This could result in the (trivial) masking of easily predictable sequences, leading to inefficient MLM training. Time-variant training strategies are known to improve pretraining efficiency in both language and vision tasks. In this work, we focus on using curriculum masking where we systematically increase the difficulty of masked token prediction task by using a Pointwise Mutual Information-based difficulty criterion, as gene sequences lack well-defined semantic units similar to words or sentences of NLP domain. Our proposed Curriculum Masking-based Gene Masking Strategy (CM-GEMS) demonstrates superior representation learning capabilities compared to baseline masking approaches when evaluated on downstream gene sequence classification tasks. We perform extensive evaluation in both few-shot (five datasets) and full dataset settings (Genomic Understanding Evaluation benchmark consisting of 27 tasks). Our findings reveal that CM-GEMS outperforms state-of-the-art models (DNABert-2, Nucleotide transformer, DNABert) trained at 120K steps, achieving similar results in just 10K and 1K steps. We also demonstrate that Curriculum-Learned LOGO (a 2-layer DNABert-like model) can achieve nearly 90% of the state-of-the-art model performance of 120K steps. We will make the models and codes publicly available at https://github.com/roysoumya/curriculum-GeneMask. | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# VulCatch: CodeT5デコンパイルとkan Advanced Feature extractによるバイナリ脆弱性検出の強化
VulCatch: Enhancing Binary Vulnerability Detection through CodeT5 Decompilation and KAN Advanced Feature Extraction ( http://arxiv.org/abs/2408.07181v1 ) ライセンス: Link先を確認 | Abdulrahman Hamman Adama Chukkol, Senlin Luo, Kashif Sharif, Yunusa Haruna, Muhammad Muhammad Abdullahi, | (参考訳) バイナリプログラムの脆弱性検出はソフトウェアセキュリティにとって重要であるが、既存のディープラーニングアプローチはソースコード解析に依存しており、未知の脆弱性を検出する能力を制限する。
そこで本研究では,バイナリレベルの脆弱性検出フレームワークであるVulCatchを提案する。
VulCatchはSynergy Decompilation Module (SDM)とKolmogorov-Arnold Networks (KAN)を導入し、生のバイナリコードをCodeT5を使って擬似コードに変換する。
KANはさらに機能変換を強化し、複雑な脆弱性の検出を可能にしている。
VulCatchは、Word2vec、Inception Blocks、BiLSTM Attention、Residual接続を使用して、高い検出精度(98.88%)と精度(97.92%)を実現し、偽陽性(1.56%)と偽陰性(2.71%)を7つのCVEデータセットで最小化している。
Binary program vulnerability detection is critical for software security, yet existing deep learning approaches often rely on source code analysis, limiting their ability to detect unknown vulnerabilities. To address this, we propose VulCatch, a binary-level vulnerability detection framework. VulCatch introduces a Synergy Decompilation Module (SDM) and Kolmogorov-Arnold Networks (KAN) to transform raw binary code into pseudocode using CodeT5, preserving high-level semantics for deep analysis with tools like Ghidra and IDA. KAN further enhances feature transformation, enabling the detection of complex vulnerabilities. VulCatch employs word2vec, Inception Blocks, BiLSTM Attention, and Residual connections to achieve high detection accuracy (98.88%) and precision (97.92%), while minimizing false positives (1.56%) and false negatives (2.71%) across seven CVE datasets. | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# 計算シェンカー解析のための新しいデータセット, 表記ソフトウェア, 表現法
A New Dataset, Notation Software, and Representation for Computational Schenkerian Analysis ( http://arxiv.org/abs/2408.07184v1 ) ライセンス: Link先を確認 | Stephen Ni-Hahn, Weihan Xu, Jerry Yin, Rico Zhu, Simon Mak, Yue Jiang, Cynthia Rudin, | (参考訳) シェーンケリア分析(Schenkerian Analysis、SchA)は、音楽分析の独特な表現方法であり、メロディ、ハーモニー、対位法、形態の要素を組み合わせて、音楽作品を支える階層構造を記述する。
しかし、その強力な分析ユーティリティと音楽の理解と生成を改善する可能性にもかかわらず、SchAはコンピュータ音楽コミュニティによって利用されることはめったにない。
これは、コンピュータ可読フォーマットで利用可能な高品質なデータが不完全であるためである。
シェンカーデータのより大きなコーパスにより、音楽構造をより深く理解した機械学習モデルを注入することができ、より「人間的」な結果をもたらす可能性がある。
シェーンケル解析のさらなる研究と、音楽情報学と世代への潜在的利益を促進するために、本論文は3つの主な貢献を提示する。
1) 人やコンピュータで読みやすいフォーマット(>140の抜粋)で最大規模のSchAsの新たな成長データセット。
2)SchAデータの可視化と収集のための新しいソフトウェア
3) ヘテロジニアスエッジグラフデータ構造としての新しいフレキシブルなSchA表現。
Schenkerian Analysis (SchA) is a uniquely expressive method of music analysis, combining elements of melody, harmony, counterpoint, and form to describe the hierarchical structure supporting a work of music. However, despite its powerful analytical utility and potential to improve music understanding and generation, SchA has rarely been utilized by the computer music community. This is in large part due to the paucity of available high-quality data in a computer-readable format. With a larger corpus of Schenkerian data, it may be possible to infuse machine learning models with a deeper understanding of musical structure, thus leading to more "human" results. To encourage further research in Schenkerian analysis and its potential benefits for music informatics and generation, this paper presents three main contributions: 1) a new and growing dataset of SchAs, the largest in human- and computer-readable formats to date (>140 excerpts), 2) a novel software for visualization and collection of SchA data, and 3) a novel, flexible representation of SchA as a heterogeneous-edge graph data structure. | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# BERTのコンセプトカルトグラフィー:「意味の景観」のマッピング
BERT's Conceptual Cartography: Mapping the Landscapes of Meaning ( http://arxiv.org/abs/2408.07190v1 ) ライセンス: Link先を確認 | Nina Haket, Ryan Daniels, | (参考訳) コンセプトエンジニアは言葉をもっと良くしたい。
しかし、言葉の使い方がいかに多様かを過小評価することが多い。
本稿では、概念的エンジニアがプロジェクトを伝えるために使用できる概念的景観(単語の実用性を表す2次元表面)を作成することで、言葉の文脈的ニュアンスを探求する第一歩を踏み出す。
我々は、British National Corpus と BERT の音声成分を用いて文脈的単語埋め込みを作成し、ガウス混合モデル、メトリクスの選択、質的分析を用いて語彙的景観を可視化し、数値的に表現する。
このようなアプローチは、概念工学の文献ではまだ使われておらず、概念工学プロジェクトにおいて潜在的に有用である様々な文脈で異なる単語がどのように現れるかを詳細に検証している。
本研究は,概念工学の本質的な複雑さを浮き彫りにし,各単語がユニークで複雑な景観を示すことを示した。
したがって、概念技術者は、言葉を改善する際に、一大のアプローチを使うことはできない。
Conceptual Engineers want to make words better. However, they often underestimate how varied our usage of words is. In this paper, we take the first steps in exploring the contextual nuances of words by creating conceptual landscapes -- 2D surfaces representing the pragmatic usage of words -- that conceptual engineers can use to inform their projects. We use the spoken component of the British National Corpus and BERT to create contextualised word embeddings, and use Gaussian Mixture Models, a selection of metrics, and qualitative analysis to visualise and numerically represent lexical landscapes. Such an approach has not yet been used in the conceptual engineering literature and provides a detailed examination of how different words manifest in various contexts that is potentially useful to conceptual engineering projects. Our findings highlight the inherent complexity of conceptual engineering, revealing that each word exhibits a unique and intricate landscape. Conceptual Engineers cannot, therefore, use a one-size-fits-all approach when improving words -- a task that may be practically intractable at scale. | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# スペクトル共振による共同グラフ再生と特徴デノーミング
Joint Graph Rewiring and Feature Denoising via Spectral Resonance ( http://arxiv.org/abs/2408.07191v1 ) ライセンス: Link先を確認 | Jonas Linkerhägner, Cheng Shi, Ivan Dokmanić, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造とノードに関連する特徴ベクトルを入力として扱う。
どちらもラベルに関する騒々しい情報を含んでいる。
本稿では,グラフ構造と特徴を協調的に認知するアルゴリズムであるJDR(Joint Denoising and Rewiring)を提案する。
グラフの先頭の固有空間と特徴行列のアライメントを定義し、最大化する。
この計算的難題を解決するために,多くのクラスと異なるレベルのホモフィリーやヘテロフィリーを持つ実世界のグラフデータセットを効率的に処理するヒューリスティックを提案する。
合成データと実世界のグラフデータセットに対するアプローチの有効性を実験的に検証した。
その結果、JDRは、GNNを下流モデルとして、ノード分類タスクにおける既存のリウィリング手法を一貫して上回っていることがわかった。
Graph neural networks (GNNs) take as input the graph structure and the feature vectors associated with the nodes. Both contain noisy information about the labels. Here we propose joint denoising and rewiring (JDR)--an algorithm to jointly denoise the graph structure and features, which can improve the performance of any downstream algorithm. We do this by defining and maximizing the alignment between the leading eigenspaces of graph and feature matrices. To approximately solve this computationally hard problem, we propose a heuristic that efficiently handles real-world graph datasets with many classes and different levels of homophily or heterophily. We experimentally verify the effectiveness of our approach on synthetic data and real-world graph datasets. The results show that JDR consistently outperforms existing rewiring methods on node classification tasks using GNNs as downstream models. | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# Oracle-Guided Meta-Reforcement Learning による超大容量単調PMDPの解法
Solving Truly Massive Budgeted Monotonic POMDPs with Oracle-Guided Meta-Reinforcement Learning ( http://arxiv.org/abs/2408.07192v1 ) ライセンス: Link先を確認 | Manav Vora, Michael N Grussing, Melkior Ornik, | (参考訳) モノトニック部分観察可能なマルコフ決定プロセス(POMDP)では、回復動作が実行されるまでシステム状態が徐々に減少し、シーケンシャルな修復問題を効果的にモデル化することができる。
本稿では,予算制約付き多成分モノトニックPOMDPの解法について考察する。
多数のコンポーネントに対して、現在の方法でのPOMDPの解法は、コンポーネント数の増加とともに状態空間が指数関数的に増加するため、計算的に難解である。
この課題に対処するため、我々は2段階のアプローチを提案する。
予算制約付き多成分単調なPMDPの個々のコンポーネントは共有予算でのみ接続されるため、まずランダム森林モデルを用いて得られる各コンポーネントPOMDPの最適値関数の近似を用いて、これらのコンポーネント間の最適な予算配分を推定する。
その後、独立予算制約単成分POMDPのそれぞれを解くために、オラクル誘導メタ訓練プロキシポリシー最適化(PPO)アルゴリズムを導入する。
このオラクルポリシーは、対応するモノトニックマルコフ決定プロセス(MDP)に値反復を施して得られる。
この2段階の手法は、真に巨大な単調なPOMDPを解くためのスケーラビリティを提供する。
提案手法の有効性を実証するために,保守予算内のエージェントチームによる管理棟の検査・修復を含む現実的な保守シナリオを考察する。
最後に,提案手法のスケーラビリティを示すために,様々な成分の計算複雑性解析を行う。
Monotonic Partially Observable Markov Decision Processes (POMDPs), where the system state progressively decreases until a restorative action is performed, can be used to model sequential repair problems effectively. This paper considers the problem of solving budget-constrained multi-component monotonic POMDPs, where a finite budget limits the maximal number of restorative actions. For a large number of components, solving such a POMDP using current methods is computationally intractable due to the exponential growth in the state space with an increasing number of components. To address this challenge, we propose a two-step approach. Since the individual components of a budget-constrained multi-component monotonic POMDP are only connected via the shared budget, we first approximate the optimal budget allocation among these components using an approximation of each component POMDP's optimal value function which is obtained through a random forest model. Subsequently, we introduce an oracle-guided meta-trained Proximal Policy Optimization (PPO) algorithm to solve each of the independent budget-constrained single-component monotonic POMDPs. The oracle policy is obtained by performing value iteration on the corresponding monotonic Markov Decision Process (MDP). This two-step method provides scalability in solving truly massive multi-component monotonic POMDPs. To demonstrate the efficacy of our approach, we consider a real-world maintenance scenario that involves inspection and repair of an administrative building by a team of agents within a maintenance budget. Finally, we perform a computational complexity analysis for a varying number of components to show the scalability of the proposed approach. | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# 深層学習におけるメタヒューリスティックスによる大規模次元削減とハイブリッド化
Massive Dimensions Reduction and Hybridization with Meta-heuristics in Deep Learning ( http://arxiv.org/abs/2408.07194v1 ) ライセンス: Link先を確認 | Rasa Khosrowshahli, Shahryar Rahnamayan, Beatrice Ombuki-Berman, | (参考訳) ディープラーニングは主に、勾配に基づく最適化を利用してDeep Neural Network(DNN)モデルをトレーニングする。
頑丈で広く使われているが、勾配に基づく最適化アルゴリズムは局所的なミニマで立ち往生する傾向にある。
現代のディープラーニング時代において、最先端のDNNモデルには、重みやバイアスを含む数百万と数十億のパラメータがあり、検索空間における大規模な最適化問題となっている。
膨大な数のパラメータをチューニングすることは、勾配の消滅/拡大と過度な適合を引き起こす難しいタスクである。
大規模で複雑な解空間を探索する実践的な解決策はメタヒューリスティックアルゴリズムである。
DNNは数千と数百万のパラメータを超えるため、微分進化のような堅牢なメタヒューリスティックアルゴリズムでさえ、そのような巨大な次元の探索空間を効率的に探索し収束させることに苦慮し、非常に緩やかな収束と高いメモリ要求をもたらす。
上記の次元の呪いに対処するため,ブロックをブロックに分類することで探索空間の次元を小さくする手法として,ブロックの概念が最近提案されている。
本研究では,HBDE(Histogram-based Blocking Differential Evolution)を提案する。
実験の結果、HBDEはメタヒューリスティックスによるトレーニング/最適化フェーズにおいて、ResNet-18モデルのパラメータを11Mから3Kに削減できることが示された。
Deep learning is mainly based on utilizing gradient-based optimization for training Deep Neural Network (DNN) models. Although robust and widely used, gradient-based optimization algorithms are prone to getting stuck in local minima. In this modern deep learning era, the state-of-the-art DNN models have millions and billions of parameters, including weights and biases, making them huge-scale optimization problems in terms of search space. Tuning a huge number of parameters is a challenging task that causes vanishing/exploding gradients and overfitting; likewise, utilized loss functions do not exactly represent our targeted performance metrics. A practical solution to exploring large and complex solution space is meta-heuristic algorithms. Since DNNs exceed thousands and millions of parameters, even robust meta-heuristic algorithms, such as Differential Evolution, struggle to efficiently explore and converge in such huge-dimensional search spaces, leading to very slow convergence and high memory demand. To tackle the mentioned curse of dimensionality, the concept of blocking was recently proposed as a technique that reduces the search space dimensions by grouping them into blocks. In this study, we aim to introduce Histogram-based Blocking Differential Evolution (HBDE), a novel approach that hybridizes gradient-based and gradient-free algorithms to optimize parameters. Experimental results demonstrated that the HBDE could reduce the parameters in the ResNet-18 model from 11M to 3K during the training/optimizing phase by metaheuristics, namely, the proposed HBDE, which outperforms baseline gradient-based and parent gradient-free DE algorithms evaluated on CIFAR-10 and CIFAR-100 datasets showcasing its effectiveness with reduced computational demands for the very first time. | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# SeLoRA: 医用画像合成のための潜時拡散モデルの自己拡張低ランク適応
SeLoRA: Self-Expanding Low-Rank Adaptation of Latent Diffusion Model for Medical Image Synthesis ( http://arxiv.org/abs/2408.07196v1 ) ライセンス: Link先を確認 | Yuchen Mao, Hongwei Li, Wei Pang, Giorgos Papanastasiou, Guang Yang, Chengjia Wang, | (参考訳) 注釈付きデータの不足による医用画像合成の持続的課題と,マルチモーダル解析のための「ミス・モダリティ」の合成の必要性は,効果的な合成法の強制的発展を示唆している。
近年,医学分野において,Low-Rank Adaptation (LoRA) と潜在拡散モデル (LDMs) の組み合わせが,事前学習した大規模言語モデルを効率的に適応するための有効なアプローチとして浮上している。
しかし、LoRAの直接適用は、全ての線形層にわたって均一なランク付けを仮定し、異なる重み行列の重要性を見越して、準最適結果をもたらす。
LoRAに関する以前の研究は、トレーニング可能なパラメータの削減を優先しており、医療画像合成の複雑な要求に合わせて、この適応プロセスを更に調整する機会がある。
これに対し、SeLoRAは、トレーニング中にレイヤー間で動的にランクを拡大し、重要なレイヤに戦略的にランクを付けることで、モデルが最も重要となる合成品質を高めることができる自己拡張低ランク適応モジュールである。
提案手法は,医療データの微調整を効率的に行うだけでなく,画像品質の向上を最小限のランク付けで実現する。
SeLoRAメソッドのコードはhttps://anonymous.4open.science/r/SeLoRA-980Dで公開されている。
The persistent challenge of medical image synthesis posed by the scarcity of annotated data and the need to synthesize `missing modalities' for multi-modal analysis, underscored the imperative development of effective synthesis methods. Recently, the combination of Low-Rank Adaptation (LoRA) with latent diffusion models (LDMs) has emerged as a viable approach for efficiently adapting pre-trained large language models, in the medical field. However, the direct application of LoRA assumes uniform ranking across all linear layers, overlooking the significance of different weight matrices, and leading to sub-optimal outcomes. Prior works on LoRA prioritize the reduction of trainable parameters, and there exists an opportunity to further tailor this adaptation process to the intricate demands of medical image synthesis. In response, we present SeLoRA, a Self-Expanding Low-Rank Adaptation Module, that dynamically expands its ranking across layers during training, strategically placing additional ranks on crucial layers, to allow the model to elevate synthesis quality where it matters most. The proposed method not only enables LDMs to fine-tune on medical data efficiently but also empowers the model to achieve improved image quality with minimal ranking. The code of our SeLoRA method is publicly available on https://anonymous.4open.science/r/SeLoRA-980D . | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# エージェントQ: 自律型AIエージェントのための高度な推論と学習
Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents ( http://arxiv.org/abs/2408.07199v1 ) ライセンス: Link先を確認 | Pranav Putta, Edmund Mills, Naman Garg, Sumeet Motwani, Chelsea Finn, Divyansh Garg, Rafael Rafailov, | (参考訳) 大規模言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示してきたが、対話環境におけるエージェント的多段階推論への応用は難しい課題である。
静的データセットに対する従来の教師付き事前トレーニングは、Webナビゲーションのような動的設定で複雑な意思決定を行うために必要な自律エージェント機能を実現するために不足している。
しばしば、複雑なエラーと限られた探査データに悩まされ、結果として準最適政策の結果がもたらされる。
これらの課題を克服するために,モンテカルロ木探索(MCTS)と自己批判機構を組み合わせたフレームワークを提案し,直接選好最適化(DPO)アルゴリズムの法外変種を用いてエージェント間相互作用を反復的に微調整する。
提案手法により, LLMエージェントは, 成功した軌道と失敗した軌道の両方から効果的に学習することができ, 複雑な多段階推論タスクにおけるそれらの一般化を改善することができる。
我々は、WebShop環境における我々のアプローチを検証し、オンライン検索機能を備えた場合、行動のクローン化と強化された微調整ベースラインを一貫して上回り、平均的な人的パフォーマンスを上回ります。
実世界の予約シナリオでは、Llama-370Bモデルのゼロショット性能は、1日のデータ収集後に18.6%から81.7%(相対的に340%)、オンライン検索では95.4%に向上する。
これは、自律エージェントの能力の飛躍的な飛躍であり、現実世界の設定においてより洗練された信頼性の高い意思決定の道を開くものだと考えています。
Large Language Models (LLMs) have shown remarkable capabilities in natural language tasks requiring complex reasoning, yet their application in agentic, multi-step reasoning within interactive environments remains a difficult challenge. Traditional supervised pre-training on static datasets falls short in enabling autonomous agent capabilities needed to perform complex decision-making in dynamic settings like web navigation. Previous attempts to bridge this ga-through supervised fine-tuning on curated expert demonstrations-often suffer from compounding errors and limited exploration data, resulting in sub-optimal policy outcomes. To overcome these challenges, we propose a framework that combines guided Monte Carlo Tree Search (MCTS) search with a self-critique mechanism and iterative fine-tuning on agent interactions using an off-policy variant of the Direct Preference Optimization (DPO) algorithm. Our method allows LLM agents to learn effectively from both successful and unsuccessful trajectories, thereby improving their generalization in complex, multi-step reasoning tasks. We validate our approach in the WebShop environment-a simulated e-commerce platform where it consistently outperforms behavior cloning and reinforced fine-tuning baseline, and beats average human performance when equipped with the capability to do online search. In real-world booking scenarios, our methodology boosts Llama-3 70B model's zero-shot performance from 18.6% to 81.7% success rate (a 340% relative increase) after a single day of data collection and further to 95.4% with online search. We believe this represents a substantial leap forward in the capabilities of autonomous agents, paving the way for more sophisticated and reliable decision-making in real-world settings. | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# CVSim-6の物理インフォームド再構成における全不確実性の定量化
Quantification of total uncertainty in the physics-informed reconstruction of CVSim-6 physiology ( http://arxiv.org/abs/2408.07201v1 ) ライセンス: Link先を確認 | Mario De Florio, Zongren Zou, Daniele E. Schiavazzi, George Em Karniadakis, | (参考訳) シミュレーションにより物理現象を予測する際には、基礎となる数値モデルが正確であることを確かめる上で、複数の情報源による総不確実性の定量化が重要である。
データ中のノイズによる既約アレターの不確実性、不十分なデータや不適切なパラメータ化によって引き起こされるてんかんの不確実性、不特定モデル方程式の使用に関するモデル形式の不確実性を含む可能性がある。
物理に基づく正規化は、非自明な方法でアレタリック、エピステミック、モデル-フォームの不確実性とそれらの組み合わせと相互作用し、実際の条件下で動作する物理インフォームドデジタルツインの予測性能を改善するために、この相互作用をよりよく理解する必要がある。
本研究は, 生物学的および生理学的モデルに着目し, MC X-TFCでシミュレートした差分系の状態とパラメータの推定における総不確かさの分解について検討した。
MC X-TFCは、ヒト生理学の文脈で開発された6成分の固形ODEであるCVSim-6モデルに適用される。
本システムは, パラメータ数の増加を推定しながら, 段階的にデータを除去し, 肺の非線形抵抗のモデル式不特定の下で, 全体不確実性を調査することによって解析する。
特に,不一致項の定式化とモデル形式の不確かさの定量化との相互作用に注目し,推理過程において物理がどう役立つかを示す。
この手法は、限られた、スパースでノイズの多いデータであっても、未知の状態とパラメータを推定する際の堅牢性と効率を示す。
また、モデル不特定の場合であっても、推定を改善するために物理とデータを統合する際の柔軟性も優れている。
When predicting physical phenomena through simulation, quantification of the total uncertainty due to multiple sources is as crucial as making sure the underlying numerical model is accurate. Possible sources include irreducible aleatoric uncertainty due to noise in the data, epistemic uncertainty induced by insufficient data or inadequate parameterization, and model-form uncertainty related to the use of misspecified model equations. Physics-based regularization interacts in nontrivial ways with aleatoric, epistemic and model-form uncertainty and their combination, and a better understanding of this interaction is needed to improve the predictive performance of physics-informed digital twins that operate under real conditions. With a specific focus on biological and physiological models, this study investigates the decomposition of total uncertainty in the estimation of states and parameters of a differential system simulated with MC X-TFC, a new physics-informed approach for uncertainty quantification based on random projections and Monte-Carlo sampling. MC X-TFC is applied to a six-compartment stiff ODE system, the CVSim-6 model, developed in the context of human physiology. The system is analyzed by progressively removing data while estimating an increasing number of parameters and by investigating total uncertainty under model-form misspecification of non-linear resistance in the pulmonary compartment. In particular, we focus on the interaction between the formulation of the discrepancy term and quantification of model-form uncertainty, and show how additional physics can help in the estimation process. The method demonstrates robustness and efficiency in estimating unknown states and parameters, even with limited, sparse, and noisy data. It also offers great flexibility in integrating data with physics for improved estimation, even in cases of model misspecification. | 翻訳日:2024-08-15 14:45:31 公開日:2024-08-13 |
# マルチリソースレストレスマッチング帯域に対するディープインデックスポリシーとマルチチャネルスケジューリングへの応用
Deep Index Policy for Multi-Resource Restless Matching Bandit and Its Application in Multi-Channel Scheduling ( http://arxiv.org/abs/2408.07205v1 ) ライセンス: Link先を確認 | Nida Zamir, I-Hong Hou, | (参考訳) マルチチャネル無線通信システムにおけるスケジューリングは、リソースの割り当てを効果的に行う上で非常に困難な課題である。
これらの課題に対処するために、資源制約を尊重しつつ長期割引された全報酬を最大化することを目的として、異種資源システムに対するマルチリソースレスマッチング・バンディット(MR-RMB)モデルについて検討する。
また、マルチチャネル無線以外のアプリケーションにも一般化した。
学習した部分指数に基づいて資源割り当てを最適化するMax-Weight Index Matchingアルゴリズムについて検討する。
我々は、索引学習のためのポリシー勾配定理を導出した。
私たちの主な貢献は、MR-RMBに適したオンライン学習アルゴリズムである、新しいDeep Index Policy(DIP)の導入です。
DIPは、不均一資源の複雑で未知の遷移核を持つレスレスアームに対するポリシー勾配定理を利用して部分指数を学習する。
3つのMR-RMB問題に対してDIPの有効性を評価する。
シミュレーションの結果,DIPが効率よく部分指数を学習できることが示唆された。
Scheduling in multi-channel wireless communication system presents formidable challenges in effectively allocating resources. To address these challenges, we investigate the multi-resource restless matching bandit (MR-RMB) model for heterogeneous resource systems with an objective of maximizing long-term discounted total rewards while respecting resource constraints. We have also generalized to applications beyond multi-channel wireless. We discuss the Max-Weight Index Matching algorithm, which optimizes resource allocation based on learned partial indexes. We have derived the policy gradient theorem for index learning. Our main contribution is the introduction of a new Deep Index Policy (DIP), an online learning algorithm tailored for MR-RMB. DIP learns the partial index by leveraging the policy gradient theorem for restless arms with convoluted and unknown transition kernels of heterogeneous resources. We demonstrate the utility of DIP by evaluating its performance for three different MR-RMB problems. Our simulation results show that DIP indeed learns the partial indexes efficiently. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-13 |
# 大規模言語モデルは推論可能か? 3-SATによる特徴付け
Can Large Language Models Reason? A Characterization via 3-SAT ( http://arxiv.org/abs/2408.07215v1 ) ライセンス: Link先を確認 | Rishi Hazra, Gabriele Venturato, Pedro Zuidberg Dos Martires, Luc De Raedt, | (参考訳) 大言語モデル(LLM)には高度な推論能力があると言われている。
しかし、最近の研究は、LLMがしばしばショートカットを使った真の推論を回避していることを示しているため、いくつかの懐疑論が存在する。
LLMの推論能力を評価する現在の手法は、通常、LLMトレーニングデータに過剰に表現される可能性のあるオープンソースのベンチマークに依存しており、性能を損なう可能性がある。
代わりに、論理的推論と制約満足度タスクの中核にある原始的なNP完全問題である 3-SAT を用いて、推論の計算理論的な視点を提供する。
3SATの相転移を調べることにより, LLMの推論能力を実証的に評価し, 問題固有の硬さとどのように異なるかを示す。
実験により, LLM は 3SAT 問題を解く上で必要となる真の推論を行うことができないことを示す。
Large Language Models (LLMs) are said to possess advanced reasoning abilities. However, some skepticism exists as recent works show how LLMs often bypass true reasoning using shortcuts. Current methods for assessing the reasoning abilities of LLMs typically rely on open-source benchmarks that may be overrepresented in LLM training data, potentially skewing performance. We instead provide a computational theory perspective of reasoning, using 3-SAT -- the prototypical NP-complete problem that lies at the core of logical reasoning and constraint satisfaction tasks. By examining the phase transitions in 3-SAT, we empirically characterize the reasoning abilities of LLMs and show how they vary with the inherent hardness of the problems. Our experimental evidence shows that LLMs cannot perform true reasoning, as is required for solving 3-SAT problems. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-13 |
# 変分自動エンコーダと遅延共生者および後処理変数を用いた因果効果推定
Causal Effect Estimation using identifiable Variational AutoEncoder with Latent Confounders and Post-Treatment Variables ( http://arxiv.org/abs/2408.07219v1 ) ライセンス: Link先を確認 | Yang Xie, Ziqi Xu, Debo Cheng, Jiuyong Li, Lin Liu, Yinghao Zhang, Zaiwen Feng, | (参考訳) 観測データから因果効果を推定することは、特に潜伏した共同創設者の存在下では困難である。
この問題に対処する作業は数多く行われているが、既存の研究のほとんどは、後処理変数がもたらすバイアスを無視している。
本稿では,代用変数であるCPTiVAEから潜在共同設立者および潜在後処理変数の表現を学習し,観測データから不偏因因果効果を推定するための,共用変分自動エンコーダ(VAE)と同定可能な変分自動エンコーダ(iVAE)の新たな手法を提案する。
さらに、潜伏後処理変数の表現の観点から、その識別可能性を証明する。
合成および半合成データセットに関する大規模な実験は、CPTiVAEが潜在共同設立者や後処理変数の存在下で最先端の手法より優れていることを示した。
さらに,CPTiVAEを実世界のデータセットに適用し,その可能性を示す。
Estimating causal effects from observational data is challenging, especially in the presence of latent confounders. Much work has been done on addressing this challenge, but most of the existing research ignores the bias introduced by the post-treatment variables. In this paper, we propose a novel method of joint Variational AutoEncoder (VAE) and identifiable Variational AutoEncoder (iVAE) for learning the representations of latent confounders and latent post-treatment variables from their proxy variables, termed CPTiVAE, to achieve unbiased causal effect estimation from observational data. We further prove the identifiability in terms of the representation of latent post-treatment variables. Extensive experiments on synthetic and semi-synthetic datasets demonstrate that the CPTiVAE outperforms the state-of-the-art methods in the presence of latent confounders and post-treatment variables. We further apply CPTiVAE to a real-world dataset to show its potential application. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-13 |
# Pseudo-Labeling のコンピュータビジョンへの応用
A Review of Pseudo-Labeling for Computer Vision ( http://arxiv.org/abs/2408.07221v1 ) ライセンス: Link先を確認 | Patrick Kage, Jay C. Rothenberger, Pavlos Andreadis, Dimitrios I. Diochnos, | (参考訳) ディープニューラルモデルはコンピュータ科学、特にコンピュータビジョンにおける幅広い問題において最先端のパフォーマンスを達成した。
しかし、ディープニューラルネットワークは、効果的に一般化するためにラベル付きサンプルの大きなデータセットを必要とすることが多く、活発な研究の重要な領域は半教師付き学習である。
この分野での手法の1つに擬似ラベル法がある。これはトレーニング中にラベル付きサンプルとして使用されるラベル付きサンプルにラベルを割り当てるためにモデル出力を使用するアルゴリズムのクラスである。
このようなアサインされたラベルは擬似ラベルと呼ばれ、主に半教師付き学習の分野と関連付けられている。
本研究では,自己監督手法と教師なし手法の両方において,擬似ラベルのより広範な解釈について検討する。
これらの領域間のつながりを描くことで、カリキュラム学習や自己監督型正規化など、ある領域における進歩が他の領域に利益をもたらす可能性があるときの新しい方向を特定する。
Deep neural models have achieved state of the art performance on a wide range of problems in computer science, especially in computer vision. However, deep neural networks often require large datasets of labeled samples to generalize effectively, and an important area of active research is semi-supervised learning, which attempts to instead utilize large quantities of (easily acquired) unlabeled samples. One family of methods in this space is pseudo-labeling, a class of algorithms that use model outputs to assign labels to unlabeled samples which are then used as labeled samples during training. Such assigned labels, called pseudo-labels, are most commonly associated with the field of semi-supervised learning. In this work we explore a broader interpretation of pseudo-labels within both self-supervised and unsupervised methods. By drawing the connection between these areas we identify new directions when advancements in one area would likely benefit others, such as curriculum learning and self-supervised regularization. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-13 |
# Icyをプレイする: ジェネレーティブAI音楽における実践的挑戦、説明可能性、セマンティックギャップ
Play Me Something Icy: Practical Challenges, Explainability and the Semantic Gap in Generative AI Music ( http://arxiv.org/abs/2408.07224v1 ) ライセンス: Link先を確認 | Jesse Allison, Drew Farrar, Treya Nash, Carlos Román, Morgan Weeks, Fiona Xue Ju, | (参考訳) この写真は、説明可能なAIの文脈において、テキスト音声およびテキスト音声生成ツールの性質を批判的に考察することを目的としている。
実験的なミュージシャンや研究者のグループとして、これらのツールの創造的なポテンシャルに熱心であり、創造性、制御性、ユーザビリティ、理解可能性、AIプロセスの説明可能性、そしてその結果の全体的な美的有効性の観点から、それらを理解し、評価しようとしてきました。
私たちが認識した課題の一つは、テキストベースのツールを使って音楽のように抽象的なものを記述することにおける意味的なギャップである。
その他のギャップとしては、説明可能性対ユーザビリティ、ユーザコントロールとインプット対人間の創造的プロセスがある。
この写真の目的は、議論のための質問を提起し、生成的AI音楽ツールで見られるような改善について、いくつかの一般的な提案を行うことである。
This pictorial aims to critically consider the nature of text-to-audio and text-to-music generative tools in the context of explainable AI. As a group of experimental musicians and researchers, we are enthusiastic about the creative potential of these tools and have sought to understand and evaluate them from perspectives of prompt creation, control, usability, understandability, explainability of the AI process, and overall aesthetic effectiveness of the results. One of the challenges we have identified that is not explicitly addressed by these tools is the inherent semantic gap in using text-based tools to describe something as abstract as music. Other gaps include explainability vs. useability, and user control and input vs. the human creative process. The aim of this pictorial is to raise questions for discussion and make a few general suggestions on the kinds of improvements we would like to see in generative AI music tools. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-13 |
# 下流タスクに基づく最適深層学習のためのcRNA-seqを用いたパン・カンサー遺伝子セットの探索
Pan-cancer gene set discovery via scRNA-seq for optimal deep learning based downstream tasks ( http://arxiv.org/abs/2408.07233v1 ) ライセンス: Link先を確認 | Jong Hyun Kim, Jongseong Jang, | (参考訳) 機械学習の転写学データへの応用は、がん研究に大きな進歩をもたらした。
しかし、RNAシークエンシング(RNA-seq)データの高次元性と複雑さは、パン・カンサー研究において大きな課題となっている。
本研究は、単細胞RNAシークエンシング(scRNA-seq)データ由来の遺伝子セットが、パン・カンサー下流タスクにおいてバルクRNA-seqを用いて選択された遺伝子セットよりも優れていると仮定する。
腫瘍生検181例のscRNA-seqデータを13種類の癌で解析した。
高次元重み付き遺伝子共発現ネットワーク解析 (hdWGCNA) を行い, 関連遺伝子群を同定した。
これらの遺伝子セットをTCGAパンキャンサーRNA-seqデータを用いて下流タスクに適用し、マルチレイヤーパーセプトロン(MLP)やグラフニューラルネットワーク(GNN)を含むディープラーニングモデルを用いて評価したOncoKBの6つの参照遺伝子セットとオンコジーンと比較した。
XGBoostを精製したhdWGCNA遺伝子セットは、腫瘍突然変異負担評価、マイクロサテライト不安定性分類、突然変異予測、癌サブタイプ、グレーディングなど、ほとんどのタスクにおいて高いパフォーマンスを示した。
特に、DPM1、BAD、FKBP4などの遺伝子は重要な膵臓バイオマーカーとして出現し、DPM1はタスク全体で一貫して重要な役割を担った。
本研究は,scRNA-seqデータと高度な解析技術を統合することにより,がんゲノム学における特徴選択のための堅牢なアプローチを示し,がん研究における予測精度の向上に期待できる道を提供する。
The application of machine learning to transcriptomics data has led to significant advances in cancer research. However, the high dimensionality and complexity of RNA sequencing (RNA-seq) data pose significant challenges in pan-cancer studies. This study hypothesizes that gene sets derived from single-cell RNA sequencing (scRNA-seq) data will outperform those selected using bulk RNA-seq in pan-cancer downstream tasks. We analyzed scRNA-seq data from 181 tumor biopsies across 13 cancer types. High-dimensional weighted gene co-expression network analysis (hdWGCNA) was performed to identify relevant gene sets, which were further refined using XGBoost for feature selection. These gene sets were applied to downstream tasks using TCGA pan-cancer RNA-seq data and compared to six reference gene sets and oncogenes from OncoKB evaluated with deep learning models, including multilayer perceptrons (MLPs) and graph neural networks (GNNs). The XGBoost-refined hdWGCNA gene set demonstrated higher performance in most tasks, including tumor mutation burden assessment, microsatellite instability classification, mutation prediction, cancer subtyping, and grading. In particular, genes such as DPM1, BAD, and FKBP4 emerged as important pan-cancer biomarkers, with DPM1 consistently significant across tasks. This study presents a robust approach for feature selection in cancer genomics by integrating scRNA-seq data and advanced analysis techniques, offering a promising avenue for improving predictive accuracy in cancer research. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-13 |
# 音声品質フィードバックによる位置補正の方向
Direction of Arrival Correction through Speech Quality Feedback ( http://arxiv.org/abs/2408.07234v1 ) ライセンス: Link先を確認 | Caleb Rascon, | (参考訳) Demucs Denoiserモデルは、位置情報に基づく音声ターゲット選択戦略を伴って、複数の音声ソースシナリオで強い性能を示した。
しかし,DOA推定における誤差に敏感であることが示されている。
本研究では,Adam-based optimization feedback loop の観測変数として拡張出力のリアルタイム推定音声品質を利用するDOA補正手法を提案する。
音声品質推定のばらつきが高いにもかかわらず,提案システムは,音声品質のみをガイドとして,最大15$^o$の誤差をリアルタイムに補正することができる。
提案方式の今後のバージョンについては,収束を高速化し,音声品質推定のばらつきを低減すべく,いくつかの知見が得られた。
Real-time speech enhancement has began to rise in performance, and the Demucs Denoiser model has recently demonstrated strong performance in multiple-speech-source scenarios when accompanied by a location-based speech target selection strategy. However, it has shown to be sensitive to errors in the direction-of-arrival (DOA) estimation. In this work, a DOA correction scheme is proposed that uses the real-time estimated speech quality of its enhanced output as the observed variable in an Adam-based optimization feedback loop to find the correct DOA. In spite of the high variability of the speech quality estimation, the proposed system is able to correct in real-time an error of up to 15$^o$ using only the speech quality as its guide. Several insights are provided for future versions of the proposed system to speed up convergence and further reduce the speech quality estimation variability. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-13 |
# 信念の神経埋め込みは、人間の意思決定における相対的不協和の役割を明らかにする
Neural embedding of beliefs reveals the role of relative dissonance in human decision-making ( http://arxiv.org/abs/2408.07237v1 ) ライセンス: Link先を確認 | Byunghwee Lee, Rachith Aiyappa, Yong-Yeol Ahn, Haewoon Kwak, Jisun An, | (参考訳) 信仰は人間の認知と意思決定の基礎となる。
彼らは個人が自分の人生から意味を導き、行動を作り、社会的つながりを形成するのを導く。
したがって、信仰とその相互関係を包括するモデルは、信仰が行動に与える影響を定量的に研究するために重要である。
その重要性にもかかわらず、人間の信念間の相互作用の研究は、調査や実験に大きく依存しながら、特定の問題に関連する小さな信念に限られることがしばしばある。
本稿では,オンライン討論プラットフォームから大規模ユーザ参加データを活用し,これらの信念を細調整された大言語モデル(LLM)を用いて埋め込み空間にマッピングすることで,数千の信念間のニュアンスな関係を抽出する手法を提案する。
この信念の埋め込み空間は、多様な信念の相互接続性を効果的にカプセル化し、また様々な社会的問題を偏極する。
この信念空間内の位置が、個人の新しい信念を予測することを発見した。
さらに,既存の信念と新しい信念との相対的な距離は,認知的不協和の定量的推定に役立ち,新しい信念を予測できることがわかった。
我々の研究は、現代のLCMが、人間の信念の集合的なオンライン記録と組み合わせることで、人間の信念の形成と意思決定プロセスを支配する基本的な原則に対する洞察を与える方法について強調する。
Beliefs serve as the foundation for human cognition and decision-making. They guide individuals in deriving meaning from their lives, shaping their behaviors, and forming social connections. Therefore, a model that encapsulates beliefs and their interrelationships is crucial for quantitatively studying the influence of beliefs on our actions. Despite its importance, research on the interplay between human beliefs has often been limited to a small set of beliefs pertaining to specific issues, with a heavy reliance on surveys or experiments. Here, we propose a method for extracting nuanced relations between thousands of beliefs by leveraging large-scale user participation data from an online debate platform and mapping these beliefs to an embedding space using a fine-tuned large language model (LLM). This belief embedding space effectively encapsulates the interconnectedness of diverse beliefs as well as polarization across various social issues. We discover that the positions within this belief space predict new beliefs of individuals. Furthermore, we find that the relative distance between one's existing beliefs and new beliefs can serve as a quantitative estimate of cognitive dissonance, allowing us to predict new beliefs. Our study highlights how modern LLMs, when combined with collective online records of human beliefs, can offer insights into the fundamental principles that govern human belief formation and decision-making processes. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-13 |
# より小型のLDMを実現するための高度なLDM--解釈可能な知識蒸留アプローチ
Using Advanced LLMs to Enhance Smaller LLMs: An Interpretable Knowledge Distillation Approach ( http://arxiv.org/abs/2408.07238v1 ) ライセンス: Link先を確認 | Tong Wang, K. Sudhir, Dat Hong, | (参考訳) GPT-4やLlaMa 3のような高度な大規模言語モデル(LLM)は、複雑な人間のような相互作用において優れたパフォーマンスを提供する。
しかし、それらは高価で、スマートフォンのようなエッジデバイスには大きすぎるし、セルフホストが難しいため、セキュリティやプライバシーの懸念がもたらされる。
本稿では,企業が自己ホストできる小型で経済的なLLMの性能を高めるために,新しい解釈可能な知識蒸留手法を提案する。
本研究では,顧客満足度を高めることを目的とした顧客サービスエージェント構築のコンテキストにおいて,目標志向の対話を通じてこの問題を考察する。
従来の知識蒸留とは異なり、「学生」モデルは微調整によって「教師」モデルの反応から直接学習するが、我々の解釈可能な「戦略」指導アプローチでは、様々なシナリオにおいて生徒のパフォーマンスを改善するための戦略を提供する。
この方法は、"シナリオ生成"ステップと"改善のための戦略"ステップを交互に行い、シナリオのカスタマイズされたライブラリと、自動プロンプトのための最適化された戦略を作成する。
この方法は、生徒モデルと教師モデルの両方へのブラックボックスアクセスのみを必要とするため、モデルパラメータを操作することなく使用できる。
当社のカスタマーサービスアプリケーションでは、この手法によりパフォーマンスが向上し、学習した戦略はトレーニングセット以外の他のLCMやシナリオに転送可能である。
この方法の補間性は、人間の監査による潜在的な害に対する保護に役立つ。
Advanced Large language models (LLMs) like GPT-4 or LlaMa 3 provide superior performance in complex human-like interactions. But they are costly, or too large for edge devices such as smartphones and harder to self-host, leading to security and privacy concerns. This paper introduces a novel interpretable knowledge distillation approach to enhance the performance of smaller, more economical LLMs that firms can self-host. We study this problem in the context of building a customer service agent aimed at achieving high customer satisfaction through goal-oriented dialogues. Unlike traditional knowledge distillation, where the "student" model learns directly from the "teacher" model's responses via fine-tuning, our interpretable "strategy" teaching approach involves the teacher providing strategies to improve the student's performance in various scenarios. This method alternates between a "scenario generation" step and a "strategies for improvement" step, creating a customized library of scenarios and optimized strategies for automated prompting. The method requires only black-box access to both student and teacher models; hence it can be used without manipulating model parameters. In our customer service application, the method improves performance, and the learned strategies are transferable to other LLMs and scenarios beyond the training set. The method's interpretabilty helps safeguard against potential harms through human audit. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-13 |
# 前後訳によるより良いアライメント
Better Alignment with Instruction Back-and-Forth Translation ( http://arxiv.org/abs/2408.04614v2 ) ライセンス: Link先を確認 | Thao Nguyen, Jeffrey Li, Sewoong Oh, Ludwig Schmidt, Jason Weston, Luke Zettlemoyer, Xian Li, | (参考訳) 本研究では,大言語モデル(LLM)の整合性を実現するために,世界知識を基盤とした高品質な合成データを構築するための,バック・アンド・フォース変換法を提案する。
ウェブコーパスから文書が与えられた場合、我々はLi et al (2023a) の提案した逆翻訳手法を用いて合成命令を生成してキュレートし、応答を書き直して、初期文書に基づいてその品質をさらに向上させる。
結果として得られた(書き直された命令、書き直された応答)ペアによる微調整は、Humpback、ShareGPT、Open Orca、Alpaca-GPT4、Self-instructといった一般的な命令データセットよりもAlpacaEvalの方が高い利得率が得られる。
また, LLMによる反応の書き直しは直接蒸留よりも優れており, 2つの生成したテキスト分布は埋め込み空間において顕著な差異を示した。
さらに分析したところ, 逆転写命令は他の合成指示源よりも高品質であり, 反応は蒸留法よりも多種多様で複雑であることがわかった。
全体として、バック・アンド・フォース・トランスフォーメーションは、Webで見いだされる情報の多様性と量を活用しながら、効果的なアライメントに必要なレスポンスの品質を確保しながら、両方の世界のベストを兼ね備えていることが分かります。
We propose a new method, instruction back-and-forth translation, to construct high-quality synthetic data grounded in world knowledge for aligning large language models (LLMs). Given documents from a web corpus, we generate and curate synthetic instructions using the backtranslation approach proposed by Li et al.(2023a), and rewrite the responses to improve their quality further based on the initial documents. Fine-tuning with the resulting (backtranslated instruction, rewritten response) pairs yields higher win rates on AlpacaEval than using other common instruction datasets such as Humpback, ShareGPT, Open Orca, Alpaca-GPT4 and Self-instruct. We also demonstrate that rewriting the responses with an LLM outperforms direct distillation, and the two generated text distributions exhibit significant distinction in embedding space. Further analysis shows that our backtranslated instructions are of higher quality than other sources of synthetic instructions, while our responses are more diverse and complex than those obtained from distillation. Overall we find that instruction back-and-forth translation combines the best of both worlds -- making use of the information diversity and quantity found on the web, while ensuring the quality of the responses which is necessary for effective alignment. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-13 |
# ConfusedPilot: Microsoft 365用のCopilotによるエンタープライズ情報統合性と信頼性の妥協
ConfusedPilot: Compromising Enterprise Information Integrity and Confidentiality with Copilot for Microsoft 365 ( http://arxiv.org/abs/2408.04870v2 ) ライセンス: Link先を確認 | Ayush RoyChowdhury, Mulong Luo, Prateek Sahu, Sarbartha Banerjee, Mohit Tiwari, | (参考訳) 検索拡張生成(英: Retrieval augmented generation、RAG)とは、大規模言語モデル(LLM)がデータベースから有用な情報を検索し、応答を生成するプロセスである。
日常業務の企業環境では人気が高まっている。
例えば、Copilot for Microsoft 365は数百万のビジネスを蓄積している。
しかしながら、RAGベースのシステムを採用する際のセキュリティへの影響は明らかでない。
本稿では、Copilotを混乱させ、その応答に完全性と機密性を侵害するRAGシステムのセキュリティ脆弱性のクラスであるConfusedPilotを紹介する。
まず、RAGの修正プロンプトに悪意のあるテキストを埋め込んだ脆弱性を調査し、LSMが生成した応答を破損させる。
第2に、シークレットデータを漏洩する脆弱性を示し、検索時にキャッシュ機構を活用する。
第3に,企業内の誤情報を伝播し,最終的に販売や製造といった業務に影響を及ぼすために,両脆弱性をどのように活用するかを検討する。
また、RAGベースのシステムのアーキテクチャを調べることにより、これらの攻撃の根本原因についても論じる。
本研究は,現在のRAGベースのシステムにおけるセキュリティ脆弱性を強調し,今後のRAGベースのシステムを保護するための設計ガイドラインを提案する。
Retrieval augmented generation (RAG) is a process where a large language model (LLM) retrieves useful information from a database and then generates the responses. It is becoming popular in enterprise settings for daily business operations. For example, Copilot for Microsoft 365 has accumulated millions of businesses. However, the security implications of adopting such RAG-based systems are unclear. In this paper, we introduce ConfusedPilot, a class of security vulnerabilities of RAG systems that confuse Copilot and cause integrity and confidentiality violations in its responses. First, we investigate a vulnerability that embeds malicious text in the modified prompt in RAG, corrupting the responses generated by the LLM. Second, we demonstrate a vulnerability that leaks secret data, which leverages the caching mechanism during retrieval. Third, we investigate how both vulnerabilities can be exploited to propagate misinformation within the enterprise and ultimately impact its operations, such as sales and manufacturing. We also discuss the root cause of these attacks by investigating the architecture of a RAG-based system. This study highlights the security vulnerabilities in today's RAG-based systems and proposes design guidelines to secure future RAG-based systems. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-13 |
# 説明可能なAIのリロード - 大規模言語モデルの時代におけるXAIの現状
Explainable AI Reloaded: Challenging the XAI Status Quo in the Era of Large Language Models ( http://arxiv.org/abs/2408.05345v2 ) ライセンス: Link先を確認 | Upol Ehsan, Mark O. Riedl, | (参考訳) Explainable(XAI)の最初のビジョンが具体化されたとき、最も一般的なフレーミングは、内部の動作を理解するために、AIの(プロバイバルな)"ブラックボックス"を開くことだった。
大規模言語モデル(LLM)の出現により、特にAIの専門家でないエンドユーザにとっては、ブラックボックスをオープンする能力はますます制限されている。
本稿では,LLM時代のブラックボックスの「オープン化」を前提として,XAI期待の変化を論じる。
アルゴリズム中心のXAIビューの認識的盲点を高く評価することで、人間中心の視点が前進の道であると論じる。
我々は,XAI研究をブラックボックスの外側の説明可能性,ブラックボックスの端辺の説明可能性,インフラの縫い目を利用した説明可能性の3つの次元に沿って合成することによって,議論を運用する。
我々は、XAIをドメインとして反射的に通知するテイクアウトで締めくくります。
When the initial vision of Explainable (XAI) was articulated, the most popular framing was to open the (proverbial) "black-box" of AI so that we could understand the inner workings. With the advent of Large Language Models (LLMs), the very ability to open the black-box is increasingly limited especially when it comes to non-AI expert end-users. In this paper, we challenge the assumption of "opening" the black-box in the LLM era and argue for a shift in our XAI expectations. Highlighting the epistemic blind spots of an algorithm-centered XAI view, we argue that a human-centered perspective can be a path forward. We operationalize the argument by synthesizing XAI research along three dimensions: explainability outside the black-box, explainability around the edges of the black box, and explainability that leverages infrastructural seams. We conclude with takeaways that reflexively inform XAI as a domain. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-13 |
# DataNarrative: 可視化とテキストによるデータ駆動ストーリテリングの自動化
DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts ( http://arxiv.org/abs/2408.05346v2 ) ライセンス: Link先を確認 | Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty, | (参考訳) データ駆動型ストーリーテリングは、物語技法と可視化とテキストを組み合わせることで洞察を伝達する強力な方法である。
これらのストーリーには、ハイライトされたバーやチャートの行などの視覚的補助と、洞察を説明するテキストアノテーションが組み込まれている。
しかし、そのような物語を作るには、データと綿密な物語計画の深い理解が必要であり、しばしば人間の介入を必要とする。
LLM(Large Language Models)は様々なNLPタスクに優れていますが、一貫性のある包括的なデータストーリーを生成する能力はまだ未定です。
本研究では,データストーリ生成のための新しいタスクと,さまざまなソースから1,449件のストーリを含むベンチマークを紹介する。
一貫性のあるデータストーリーを作成する上での課題に対処するために,人間のストーリーテリングプロセスを再現する2つのLLMエージェントを用いたマルチエージェントフレームワークを提案する。
我々のエージェント・フレームワークは一般的にモデルベースと人的評価の両方において非エージェント・フレームワークよりも優れていますが、結果はデータ・ストーリー・ジェネレーションにおける独特な課題を明らかにします。
Data-driven storytelling is a powerful method for conveying insights by combining narrative techniques with visualizations and text. These stories integrate visual aids, such as highlighted bars and lines in charts, along with textual annotations explaining insights. However, creating such stories requires a deep understanding of the data and meticulous narrative planning, often necessitating human intervention, which can be time-consuming and mentally taxing. While Large Language Models (LLMs) excel in various NLP tasks, their ability to generate coherent and comprehensive data stories remains underexplored. In this work, we introduce a novel task for data story generation and a benchmark containing 1,449 stories from diverse sources. To address the challenges of crafting coherent data stories, we propose a multiagent framework employing two LLM agents designed to replicate the human storytelling process: one for understanding and describing the data (Reflection), generating the outline, and narration, and another for verification at each intermediary step. While our agentic framework generally outperforms non-agentic counterparts in both model-based and human evaluations, the results also reveal unique challenges in data story generation. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-13 |
# 層比最適化:感度に基づく畳み込み層に基づく基底探索
Layer-Specific Optimization: Sensitivity Based Convolution Layers Basis Search ( http://arxiv.org/abs/2408.06024v2 ) ライセンス: Link先を確認 | Vasiliy Alekseev, Ilya Lukashevich, Ilia Zharikov, Ilya Vasiliev, | (参考訳) ディープニューラルネットワークモデルは複雑なアーキテクチャを持ち、過パラメータ化されている。
パラメータの数はデータセット全体よりも多く、非常にリソースを消費します。
これにより、アプリケーションを複雑化し、異なるデバイスでの使用を制限する。
ネットワークパラメータ数の削減は、モデルのサイズを減らすのに役立つが、同時に、思慮せずに適用することで、ネットワークの品質が低下する可能性がある。
モデルパラメータの数を減らす一つの方法は行列分解であり、行列はより小さい行列の積として表される。
本稿では,畳み込み層の重みに関して行列分解を適用する新しい方法を提案する。
この方法の本質は、すべての畳み込みを訓練するだけでなく、畳み込みのサブセット(基底畳み込み)のみを訓練し、残りを基底の線形結合として表現することである。
ResNetファミリとCIFAR-10データセットによるモデル実験では、ベース畳み込みはモデルのサイズを減らすだけでなく、ネットワークの前方および後方通過を加速する。
この研究のもう1つの貢献は、行列分解を用いて最終モデルの品質を劣化させないネットワーク層のサブセットを選択する高速な方法を提案することである。
Deep neural network models have a complex architecture and are overparameterized. The number of parameters is more than the whole dataset, which is highly resource-consuming. This complicates their application and limits its usage on different devices. Reduction in the number of network parameters helps to reduce the size of the model, but at the same time, thoughtlessly applied, can lead to a deterioration in the quality of the network. One way to reduce the number of model parameters is matrix decomposition, where a matrix is represented as a product of smaller matrices. In this paper, we propose a new way of applying the matrix decomposition with respect to the weights of convolutional layers. The essence of the method is to train not all convolutions, but only the subset of convolutions (basis convolutions), and represent the rest as linear combinations of the basis ones. Experiments on models from the ResNet family and the CIFAR-10 dataset demonstrate that basis convolutions can not only reduce the size of the model but also accelerate the forward and backward passes of the network. Another contribution of this work is that we propose a fast method for selecting a subset of network layers in which the use of matrix decomposition does not degrade the quality of the final model. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-13 |
# 制御フローの検証 - 概念,ソリューション,オープンな課題
Control-Flow Attestation: Concepts, Solutions, and Open Challenges ( http://arxiv.org/abs/2408.06304v2 ) ライセンス: Link先を確認 | Zhanyu Sha, Carlton Shepherd, Amir Rafi, Konstantinos Markantonakis, | (参考訳) 制御フロー検証は、ターゲットのランタイム動作を測定して報告することで、制御フローの完全性とプラットフォーム検証の世界を統一する。
ターゲットの信頼保証は、その実行が認可された制御フローパスに従うかどうかをテストすることによって提供される。
この問題は、サイバー物理システムの信頼性、IoTデバイス、クラウドプラットフォームなど、さまざまな環境で調査されてきた。
近年、かなりの数の提案がなされているが、その領域は断片化されており、異なる敵の振る舞い、検証パラダイム、デプロイメントの課題に対処している。
本稿では、制御フローの検証に関する最初の調査を行い、最先端のスキームにおける中核的な考え方と解決策について考察する。
2016~2024年の間に発行された30以上の論文を調査し、主要な特徴の統合と比較を行い、この分野の今後の研究にいくつかの課題と勧告を提示した。
Control-flow attestation unifies the worlds of control-flow integrity and platform attestation by measuring and reporting a target's run-time behaviour to a verifier. Trust assurances in the target are provided by testing whether its execution follows an authorised control-flow path. The problem has been explored in various settings, such as assessing the trustworthiness of cyber-physical systems, Internet of Things devices, cloud platforms, and many others. Despite a significant number of proposals being made in recent years, the area remains fragmented, addressing different adversarial behaviours, verification paradigms, and deployment challenges. In this paper, we present the first survey of control-flow attestation, examining the core ideas and solutions in state-of-the-art schemes. In total, we survey over 30 papers published between 2016-2024, consolidate and compare their key features, and pose several challenges and recommendations for future research in the area. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-13 |
# ネットワークにおける階層的コミュニティの検出可能性
Detectability of hierarchical communities in networks ( http://arxiv.org/abs/2009.07525v2 ) ライセンス: Link先を確認 | Leto Peel, Michael T. Schaub, | (参考訳) 本研究では,ネットワーク内の分割の植込み階層を復元する問題について検討する。
単一植林分割の検出可能性については、これまで詳細に分析されており、その分割を検出できない相転移を以下に同定している。
ここでは、階層的な設定では、複数の一貫したパーティションの存在が検出を妨げたり妨げたりする、追加のフェーズが存在することを示す。
したがって、非階層的分割に対する検出可能性限界は、典型的には、いくつかの構成的な例で強調するように、完全な階層的構造の検出可能性に関する不十分な情報を提供する。
We study the problem of recovering a planted hierarchy of partitions in a network. The detectability of a single planted partition has previously been analysed in detail and a phase transition has been identified below which the partition cannot be detected. Here we show that, in the hierarchical setting, there exist additional phases in which the presence of multiple consistent partitions can either help or hinder detection. Accordingly, the detectability limit for non-hierarchical partitions typically provides insufficient information about the detectability of the complete hierarchical structure, as we highlight with several constructive examples. | 翻訳日:2024-08-14 23:45:34 公開日:2024-08-13 |
# トランスフォーマーはベイズ推論ができる
Transformers Can Do Bayesian Inference ( http://arxiv.org/abs/2112.10510v7 ) ライセンス: Link先を確認 | Samuel Müller, Noah Hollmann, Sebastian Pineda Arango, Josif Grabocka, Frank Hutter, | (参考訳) 現在、ベイズ手法の深層学習の利点を享受することは困難であり、これは事前知識の明示的な仕様化を可能にし、モデルの不確実性を正確に捉えている。
我々はPFN(Presideed-Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
PFNが機能する唯一の要件は、教師付き学習タスク(または関数)よりも前の分布からサンプリングできることである。
提案手法は,タスク(あるいは関数)を先行から繰り返し描画し,データポイントとそのラベルの集合を抽出し,ラベルの1つをマスクし,他のデータポイントのセット値入力に基づいて確率的予測を行う。
新しい教師付き学習タスクのサンプルを入力として提示し、PFNはベイズ推定を近似することを学び、単一の前方伝播において任意の他のデータポイントに対する確率的予測を行う。
我々はPFNがガウス過程をほぼ完璧に模倣し、難解な問題に対する効率的なベイズ推定を可能にすることを実証した。
我々はガウス過程の回帰、ベイズニューラルネットワーク、小さな表形式のデータセットの分類、PFNの一般性を示す少数ショット画像分類など、非常に多様な領域において強力な結果を得た。
コードとトレーニングされたPFNはhttps://github.com/automl/TransformersCanDoBayesianInferenceでリリースされる。
Currently, it is hard to reap the benefits of deep learning for Bayesian methods, which allow the explicit specification of prior knowledge and accurately capture model uncertainty. We present Prior-Data Fitted Networks (PFNs). PFNs leverage in-context learning in large-scale machine learning techniques to approximate a large set of posteriors. The only requirement for PFNs to work is the ability to sample from a prior distribution over supervised learning tasks (or functions). Our method restates the objective of posterior approximation as a supervised classification problem with a set-valued input: it repeatedly draws a task (or function) from the prior, draws a set of data points and their labels from it, masks one of the labels and learns to make probabilistic predictions for it based on the set-valued input of the rest of the data points. Presented with a set of samples from a new supervised learning task as input, PFNs make probabilistic predictions for arbitrary other data points in a single forward propagation, having learned to approximate Bayesian inference. We demonstrate that PFNs can near-perfectly mimic Gaussian processes and also enable efficient Bayesian inference for intractable problems, with over 200-fold speedups in multiple setups compared to current methods. We obtain strong results in very diverse areas such as Gaussian process regression, Bayesian neural networks, classification for small tabular data sets, and few-shot image classification, demonstrating the generality of PFNs. Code and trained PFNs are released at https://github.com/automl/TransformersCanDoBayesianInference. | 翻訳日:2024-08-14 23:45:34 公開日:2024-08-13 |
# Dot製品カーネルのランダム化機能の改善
Improved Random Features for Dot Product Kernels ( http://arxiv.org/abs/2201.08712v4 ) ライセンス: Link先を確認 | Jonas Wacker, Motonobu Kanagawa, Maurizio Filippone, | (参考訳) 多項式や指数関数(ソフトマックス)カーネルなどのDot製品カーネルは、コンピュータビジョン、自然言語処理、レコメンダシステムといったアプリケーションにおいて重要な入力特徴間の相互作用をモデル化できるため、機械学習において最も広く使われているカーネルの一つである。
我々は、ドット製品カーネルのランダムな特徴近似の効率を改善するために、これらのカーネルを大規模学習に役立てるために、いくつかの新しい貢献をしている。
まず,Radecher や Gaussian のスケッチや TensorSRHT などの多項式カーネルに対して,複素値のランダムな特徴を用いた既存のランダムな特徴近似を一般化する。
複雑な特徴の利用はこれらの近似のばらつきを著しく減少させることができることを実証的に示す。
第2に,様々な乱数特徴量の近似の効率に影響を与える因子を,その分散に対する閉形式表現を導出することにより,理論的解析を行う。
これらの分散公式は、ある近似(例えば、TensorSRHT)が他よりも低い分散(例えば、Rademacherのスケッチ)を達成する条件を解明する。
第三に、これらの分散式を実際に評価できるので、一般のドット製品カーネルのランダムな特徴近似を改善するためのデータ駆動最適化手法を開発し、ガウスカーネルにも適用できる。
これらの貢献によってもたらされた改善と、さまざまなタスクやデータセットに関する広範な実験について説明する。
Dot product kernels, such as polynomial and exponential (softmax) kernels, are among the most widely used kernels in machine learning, as they enable modeling the interactions between input features, which is crucial in applications like computer vision, natural language processing, and recommender systems. We make several novel contributions for improving the efficiency of random feature approximations for dot product kernels, to make these kernels more useful in large scale learning. First, we present a generalization of existing random feature approximations for polynomial kernels, such as Rademacher and Gaussian sketches and TensorSRHT, using complex-valued random features. We show empirically that the use of complex features can significantly reduce the variances of these approximations. Second, we provide a theoretical analysis for understanding the factors affecting the efficiency of various random feature approximations, by deriving closed-form expressions for their variances. These variance formulas elucidate conditions under which certain approximations (e.g., TensorSRHT) achieve lower variances than others (e.g., Rademacher sketches), and conditions under which the use of complex features leads to lower variances than real features. Third, by using these variance formulas, which can be evaluated in practice, we develop a data-driven optimization approach to improve random feature approximations for general dot product kernels, which is also applicable to the Gaussian kernel. We describe the improvements brought by these contributions with extensive experiments on a variety of tasks and datasets. | 翻訳日:2024-08-14 23:45:34 公開日:2024-08-13 |
# 動作からの深い非剛性構造:シーケンスからシーケンスへの変換の観点から
Deep Non-rigid Structure-from-Motion: A Sequence-to-Sequence Translation Perspective ( http://arxiv.org/abs/2204.04730v2 ) ライセンス: Link先を確認 | Hui Deng, Tong Zhang, Yuchao Dai, Jiawei Shi, Yiran Zhong, Hongdong Li, | (参考訳) 個々の2次元フレームから非剛体形状とカメラポーズを直接回帰することは、非剛体構造運動(NRSfM)問題に不適である。
このフレーム・バイ・フレーム3D再構成パイプラインは、NRSfMの本質的な時空間特性、すなわち入力された2Dシーケンスから全体の3Dシーケンスを再構築する。
本稿では,入力された2次元フレームシーケンスを全体として捉え,変形する3次元非剛体形状配列を再構成する,シーケンス・ツー・シーケンス変換の観点から,深部NASfMをモデル化する。
まず,1つのフレームから初期非剛体形状とカメラの動きを推定するために,形状運動予測器を適用した。
そこで我々は,カメラの動きと複雑な非剛体形状をモデル化するためのコンテキストモデリングモジュールを提案する。
深層フレームワーク内でのグローバルな構造制約を強制することの難しさに対処するため,自己表現層を多面的注意と遅延正則化に置き換えて,エンドツーエンドのバッチワイズトレーニングを可能にすることを提案する。
Human3.6M、CMU Mocap、InterHandといったさまざまなデータセットに対する実験結果は、我々のフレームワークの優位性を証明している。
Directly regressing the non-rigid shape and camera pose from the individual 2D frame is ill-suited to the Non-Rigid Structure-from-Motion (NRSfM) problem. This frame-by-frame 3D reconstruction pipeline overlooks the inherent spatial-temporal nature of NRSfM, i.e., reconstructing the whole 3D sequence from the input 2D sequence. In this paper, we propose to model deep NRSfM from a sequence-to-sequence translation perspective, where the input 2D frame sequence is taken as a whole to reconstruct the deforming 3D non-rigid shape sequence. First, we apply a shape-motion predictor to estimate the initial non-rigid shape and camera motion from a single frame. Then we propose a context modeling module to model camera motions and complex non-rigid shapes. To tackle the difficulty in enforcing the global structure constraint within the deep framework, we propose to impose the union-of-subspace structure by replacing the self-expressiveness layer with multi-head attention and delayed regularizers, which enables end-to-end batch-wise training. Experimental results across different datasets such as Human3.6M, CMU Mocap and InterHand prove the superiority of our framework. | 翻訳日:2024-08-14 23:45:34 公開日:2024-08-13 |
# V4d:4d新規ビュー合成のためのボクセル
V4d: voxel for 4d novel view synthesis ( http://arxiv.org/abs/2205.14332v4 ) ライセンス: Link先を確認 | Wanshui Gan, Hongbin Xu, Yi Huang, Shifeng Chen, Naoto Yokoya, | (参考訳) ニューラルレイディアンス場は3次元静的シーンにおける新しいビュー合成タスクにおいて画期的なブレークスルーをもたらした。
しかし、4Dの状況(例えばダイナミックシーン)では、既存の手法の性能はニューラルネットワークの容量によって制限され、通常は多層パーセプトロンネットワーク(MLP)で使用される。
本稿では,3次元ボクセルを用いて,V4Dと略される4次元神経放射場をモデル化する。
1つ目は、定期的に3D空間をモデル化し、標本化された局所的な3D特徴と時間指数を使って、密度場とテクスチャフィールドを小さなMLPでモデル化することである。
第2の方法は、画素レベルの精細化のためのルックアップテーブル(LUT)フォーマットで、ボリュームレンダリングによって生成された擬似表面をガイダンス情報として利用して、2Dピクセルレベルの精細化マッピングを学習する。
提案したLUTsベースの改良モジュールは,計算コストの少ない性能向上を実現し,新しいビュー合成タスクにおいてプラグイン・アンド・プレイモジュールとして機能する。
また、4Dデータに対するより効率的な条件付き位置符号化を提案し、計算負荷を無視して性能向上を実現する。
大規模実験により,提案手法は計算コストの低い最先端性能を実現することを示した。
Neural radiance fields have made a remarkable breakthrough in the novel view synthesis task at the 3D static scene. However, for the 4D circumstance (e.g., dynamic scene), the performance of the existing method is still limited by the capacity of the neural network, typically in a multilayer perceptron network (MLP). In this paper, we utilize 3D Voxel to model the 4D neural radiance field, short as V4D, where the 3D voxel has two formats. The first one is to regularly model the 3D space and then use the sampled local 3D feature with the time index to model the density field and the texture field by a tiny MLP. The second one is in look-up tables (LUTs) format that is for the pixel-level refinement, where the pseudo-surface produced by the volume rendering is utilized as the guidance information to learn a 2D pixel-level refinement mapping. The proposed LUTs-based refinement module achieves the performance gain with little computational cost and could serve as the plug-and-play module in the novel view synthesis task. Moreover, we propose a more effective conditional positional encoding toward the 4D data that achieves performance gain with negligible computational burdens. Extensive experiments demonstrate that the proposed method achieves state-of-the-art performance at a low computational cost. | 翻訳日:2024-08-14 23:45:34 公開日:2024-08-13 |
# パワーサーキングAIは既存のリスクか?
Is Power-Seeking AI an Existential Risk? ( http://arxiv.org/abs/2206.13353v2 ) ライセンス: Link先を確認 | Joseph Carlsmith, | (参考訳) 本報告では、人工知能の実在リスクに関する懸念の核となる論点として、私が見ているものについて考察する。
私は2段階を進めます。
まず、そのような懸念を知らせる背景の絵を並べます。
この写真では、インテリジェント・エージェンシーは非常に強力な力であり、私たちよりもはるかにインテリジェントなエージェントが火で遊んでいる。
第2に、この種のエージェントを作成することが2070年までに実在の災害につながるという、より具体的な6つの前提の議論を定式化し、評価する。
この議論では、(1)関連性のある強力でエージェント的なAIシステムを構築することが可能になり、経済的に実現可能なものとなるだろう、(2)それを行うための強いインセンティブがあるだろう、(3)不整合(および関連性のある強力な)AIシステムを構築するよりも、整合性のある(そして強力な)AIシステムを構築するのがずっと難しいだろう、(4)非整合性のあるシステムの中には、高いインパクトで人間に力を求めるものもあれば、(5)この問題は人類の完全な分散にスケールするだろう、(6)そのような非統合性は実在する災害を構成するだろう。
私は、この議論の前提に粗悪な主観的クレデンスを割り当て、2070年までにこの種の実在する災害が起こるという全体推定を約5%とします。
(2022年5月のアップデート:このレポートを2021年4月に公開して以来、私の予想は上がっていて、現在は10%です。)
This report examines what I see as the core argument for concern about existential risk from misaligned artificial intelligence. I proceed in two stages. First, I lay out a backdrop picture that informs such concern. On this picture, intelligent agency is an extremely powerful force, and creating agents much more intelligent than us is playing with fire -- especially given that if their objectives are problematic, such agents would plausibly have instrumental incentives to seek power over humans. Second, I formulate and evaluate a more specific six-premise argument that creating agents of this kind will lead to existential catastrophe by 2070. On this argument, by 2070: (1) it will become possible and financially feasible to build relevantly powerful and agentic AI systems; (2) there will be strong incentives to do so; (3) it will be much harder to build aligned (and relevantly powerful/agentic) AI systems than to build misaligned (and relevantly powerful/agentic) AI systems that are still superficially attractive to deploy; (4) some such misaligned systems will seek power over humans in high-impact ways; (5) this problem will scale to the full disempowerment of humanity; and (6) such disempowerment will constitute an existential catastrophe. I assign rough subjective credences to the premises in this argument, and I end up with an overall estimate of ~5% that an existential catastrophe of this kind will occur by 2070. (May 2022 update: since making this report public in April 2021, my estimate here has gone up, and is now at >10%.) | 翻訳日:2024-08-14 23:45:34 公開日:2024-08-13 |
# 半古典シュレーディンガー方程式に対するトロッター公式の一様可観測誤差境界
Uniform observable error bounds of Trotter formulae for the semiclassical Schrödinger equation ( http://arxiv.org/abs/2208.07957v2 ) ライセンス: Link先を確認 | Yonah Borns-Weil, Di Fang, | (参考訳) 量子コンピューティングにおける高速フォワード定理として知られており、ハミルトン進化のシミュレーション時間は、最悪の場合、$O(\|H\| t)$でなければならない。
半古典的なSchr\"odinger方程式の文脈において、オブザーバブルのクラスに対する計算コストが最先端境界よりもはるかに低いことを実証した。
半古典的状態(有効プランク定数$h \ll 1$)では、ハミルトニアンの作用素ノルムは$O(h^{-1})$である。
観測可能な進化に使用されるトロッターステップの数は$O(1)$であり、量子スケール上のシュリンガー方程式の可観測性をシミュレートするには古典的なスケールに匹敵するシミュレーション時間しかかからないことを示す。
誤差解析の観点では、加算可観測誤差境界 [Lasser-Lubich 2020] を均一な-$h$可観測誤差境界に改善する。
これは、我々の知る限り、数値法の収束順序を犠牲にすることなく半古典的シュリンガー方程式に対する最初の一様可観測誤差である。
半古典的計算と離散的マイクロローカル解析に基づいて,量子力学シミュレーションにおいて,有効プランク定数の小さいこと,基礎となるダイナミクスの小さいこと,量子力学シミュレーションのスケールを越える際のシャード光など,マルチスケール特性を利用した潜在的な改善を示す。
Known as no fast-forwarding theorem in quantum computing, the simulation time for the Hamiltonian evolution needs to be $O(\|H\| t)$ in the worst case, which essentially states that one can not go across the multiple scales as the simulation time for the Hamiltonian evolution needs to be strictly greater than the physical time. We demonstrated in the context of the semiclassical Schr\"odinger equation that the computational cost for a class of observables can be much lower than the state-of-the-art bounds. In the semiclassical regime (the effective Planck constant $h \ll 1$), the operator norm of the Hamiltonian is $O(h^{-1})$. We show that the number of Trotter steps used for the observable evolution can be $O(1)$, that is, to simulate some observables of the Schr\"odinger equation on a quantum scale only takes the simulation time comparable to the classical scale. In terms of error analysis, we improve the additive observable error bounds [Lasser-Lubich 2020] to uniform-in-$h$ observable error bounds. This is, to our knowledge, the first uniform observable error bound for semiclassical Schr\"odinger equation without sacrificing the convergence order of the numerical method. Based on semiclassical calculus and discrete microlocal analysis, our result showcases the potential improvements taking advantage of multiscale properties, such as the smallness of the effective Planck constant, of the underlying dynamics and sheds light on going across the scale for quantum dynamics simulation. | 翻訳日:2024-08-14 23:38:51 公開日:2024-08-13 |
# 自動化ではなく自律性:人間中心型AIシステム設計の基盤としてのファクトチェッカーの活動とニーズ
Autonomation, not Automation: Activities and Needs of Fact-checkers as a Basis for Designing Human-Centered AI Systems ( http://arxiv.org/abs/2211.12143v2 ) ライセンス: Link先を確認 | Andrea Hrckova, Robert Moro, Ivan Srba, Jakub Simko, Maria Bielikova, | (参考訳) 偽情報の悪影響を効果的に軽減するためには,ファクトチェックを支援する人工知能(AI)システムの開発が必要である。
それでも、ステークホルダーのニーズに焦点が当てられていないため、ファクトチェックプロセス全体を自動化するための受け入れが限定され、懐疑的になる。
本研究では,中央ヨーロッパファクトチェッカーを対象とした半構造化インディーインタビューを行った。
彼らの活動と問題は反復的コンテンツ分析を用いて分析された。
欧州ファクトチェッカーの調査では、20カ国から24の回答、すなわち国際Fact-Checking Network(IFCN)のアクティブな欧州署名者の62.5%を収集した。
我々の貢献には、まだほとんど発見されていない非英語圏における事実確認作業の多様性に関する詳細な調査が含まれる。
それらを先行研究の知識と整合させることで、ファクトチェックプロセスを理解するのに役立つ概念モデルを作成しました。
学際的なコラボレーションのおかげで、AI研究におけるファクトチェックのプロセスを3つの追加段階に拡張します。
さらに、ファクトチェッカーの活動に関する知見をマッピングし、AI研究に必要なタスクについて検討した。
AI研究者と開発者が特定する新たな機会は、この分野におけるAI研究の焦点に影響を及ぼす。
To mitigate the negative effects of false information more effectively, the development of Artificial Intelligence (AI) systems assisting fact-checkers is needed. Nevertheless, the lack of focus on the needs of these stakeholders results in their limited acceptance and skepticism toward automating the whole fact-checking process. In this study, we conducted semi-structured in-depth interviews with Central European fact-checkers. Their activities and problems were analyzed using iterative content analysis. The most significant problems were validated with a survey of European fact-checkers, in which we collected 24 responses from 20 countries, i.e., 62\% of active European signatories of the International Fact-Checking Network (IFCN). Our contributions include an in-depth examination of the variability of fact-checking work in non-English speaking regions, which still remained largely uncovered. By aligning them with the knowledge from prior studies, we created conceptual models that help understand the fact-checking processes. Thanks to the interdisciplinary collaboration, we extend the fact-checking process in AI research by three additional stages. In addition, we mapped our findings on the fact-checkers' activities and needs to the relevant tasks for AI research. The new opportunities identified for AI researchers and developers have implications for the focus of AI research in this domain. | 翻訳日:2024-08-14 23:38:51 公開日:2024-08-13 |
# 最適2倍ロバスト推定のためのニュアンス関数チューニングとサンプル分割
Nuisance Function Tuning and Sample Splitting for Optimal Doubly Robust Estimation ( http://arxiv.org/abs/2212.14857v3 ) ライセンス: Link先を確認 | Sean McGrath, Rajarshi Mukherjee, | (参考訳) 二重頑健な汎函数の推定子は、平均処理効果汎関数に対する確率スコアと条件結果平均のような2つの複素ニュアンス関数を推定することに依存する。
因果推論と条件付き独立性試験の文献にまたがる応用を目撃した二重頑健な非パラメトリック関数に対して、ニュアンス関数を最適収束率で推定する方法の問題点を考察する。
いくつかのプラグイン推定器と1次バイアス補正推定器に対して、ニュアンス関数推定器の異なるチューニングパラメータ選択と、興味の関数を推定する最適な速度でのサンプル分割戦略との相互作用を解説する。
これらの各推定器および各サンプル分割戦略について、興味の関数に対する最適収束率を得るために、低規則性条件下でのニュアンス関数推定器のアンダースムースまたはオーバースムースのいずれかの必要性を示す。
既存の文献と異なり、プラグインと一階偏り補正された推定器は、サンプル分割とニュアンス関数チューニング戦略を慎重に組み合わせることで、ニュアンス関数のすべてのH\"古い滑らか度クラスにまたがる収束の最小値が得られることを示す。
Estimators of doubly robust functionals typically rely on estimating two complex nuisance functions, such as the propensity score and conditional outcome mean for the average treatment effect functional. We consider the problem of how to estimate nuisance functions to obtain optimal rates of convergence for a doubly robust nonparametric functional that has witnessed applications across the causal inference and conditional independence testing literature. For several plug-in estimators and a first-order bias-corrected estimator, we illustrate the interplay between different tuning parameter choices for the nuisance function estimators and sample splitting strategies on the optimal rate of estimating the functional of interest. For each of these estimators and each sample splitting strategy, we show the necessity to either undersmooth or oversmooth the nuisance function estimators under low regularity conditions to obtain optimal rates of convergence for the functional of interest. Unlike the existing literature, we show that plug-in and first-order biased-corrected estimators can achieve minimax rates of convergence across all H\"older smoothness classes of the nuisance functions by careful combinations of sample splitting and nuisance function tuning strategies. | 翻訳日:2024-08-14 23:38:51 公開日:2024-08-13 |
# 大規模ランダムグラフ上のジェネリックアグリゲーションを用いたメッセージパッシンググラフニューラルネットワークの収束性
Convergence of Message Passing Graph Neural Networks with Generic Aggregation On Large Random Graphs ( http://arxiv.org/abs/2304.11140v3 ) ライセンス: Link先を確認 | Matthieu Cordonnier, Nicolas Keriven, Nicolas Tremblay, Samuel Vaiter, | (参考訳) 乱数グラフモデルにおけるメッセージパッシンググラフニューラルネットワークの収束性について,ノード数が無限大になる傾向にあるため,その連続性について検討する。
それまで、この収束は、正規化された手段の形で集約関数を持つアーキテクチャ、あるいはそれと同値に、隣接行列やグラフラプラシアンのような古典作用素の応用でのみ知られていた。
このような結果は、注目ベースのメッセージパッシング、最大畳み込みメッセージパッシング、(次数正規化)畳み込みメッセージパッシング、モーメントベースのアグリゲーションメッセージパッシングなど、古典的に使われているすべてのメッセージパッシンググラフニューラルネットワークを含む、大規模な集約関数に拡張する。
穏やかな仮定の下では、この収束を定量化する確率の高い非漸近境界を与える。
私たちの主な結果はMcDiarmidの不等式に基づいている。
興味深いことに、この結果はアグリゲーションが座標ワイドの最大値である場合に当てはまらない。
我々はこのケースを別々に扱い、異なる収束率を得る。
We study the convergence of message passing graph neural networks on random graph models to their continuous counterpart as the number of nodes tends to infinity. Until now, this convergence was only known for architectures with aggregation functions in the form of normalized means, or, equivalently, of an application of classical operators like the adjacency matrix or the graph Laplacian. We extend such results to a large class of aggregation functions, that encompasses all classically used message passing graph neural networks, such as attention-based message passing, max convolutional message passing, (degree-normalized) convolutional message passing, or moment-based aggregation message passing. Under mild assumptions, we give non-asymptotic bounds with high probability to quantify this convergence. Our main result is based on the McDiarmid inequality. Interestingly, this result does not apply to the case where the aggregation is a coordinate-wise maximum. We treat this case separately and obtain a different convergence rate. | 翻訳日:2024-08-14 23:38:51 公開日:2024-08-13 |
# 隠れサブグループ量子オートエンコーダによる情報圧縮
Information compression via hidden subgroup quantum autoencoders ( http://arxiv.org/abs/2306.08047v3 ) ライセンス: Link先を確認 | Feiyang Liu, Kaiming Bian, Fei Meng, Wen Zhang, Oscar Dahlsten, | (参考訳) 隠れサブグループ量子アルゴリズムを利用する古典的情報圧縮のための量子法を設計する。
隠れサブグループ型の既知対称性を持つデータベースにおけるシーケンスデータについて検討する。
与えられたグループ構造を持つデータは、最もよく知られた古典的アルゴリズムよりも指数関数的に高速な隠れ部分群問題と同じクエリ複雑性で圧縮可能であることを証明した。
さらに、群構造を変動的に見つけ、それを圧縮するために利用する量子アルゴリズムを設計する。
量子オートエンコーダのパラダイムに沿って、エンコーダとデコーダがある。
訓練後、エンコーダは圧縮されたデータ文字列と隠されたサブグループ対称性の記述を出力し、そこからデコーダにより入力データを復元する。
実例では,テストデータの平均2乗値に対して,従来のオートエンコーダよりも優れていた。
量子エージェントによってシステムに割り当てられた自由エネルギーは、古典的なエージェントよりもはるかに高い。
この結果から,量子コンピュータの応用の可能性として,従来の計算手法では効率よく圧縮できないある種のデータを効率よく圧縮することが示唆された。
We design a quantum method for classical information compression that exploits the hidden subgroup quantum algorithm. We consider sequence data in a database with a priori unknown symmetries of the hidden subgroup type. We prove that data with a given group structure can be compressed with the same query complexity as the hidden subgroup problem, which is exponentially faster than the best known classical algorithms. We moreover design a quantum algorithm that variationally finds the group structure and uses it to compress the data. There is an encoder and a decoder, along the paradigm of quantum autoencoders. After the training, the encoder outputs a compressed data string and a description of the hidden subgroup symmetry, from which the input data can be recovered by the decoder. In illustrative examples, our algorithm outperforms the classical autoencoder on the mean squared value of test data. This classical-quantum separation in information compression capability has thermodynamical significance: the free energy assigned by a quantum agent to a system can be much higher than that of a classical agent. Taken together, our results show that a possible application of quantum computers is to efficiently compress certain types of data that cannot be efficiently compressed by current methods using classical computers. | 翻訳日:2024-08-14 23:38:51 公開日:2024-08-13 |
# PAtt-Lite:顔表情認識のための軽量パッチと注意移動ネット
PAtt-Lite: Lightweight Patch and Attention MobileNet for Challenging Facial Expression Recognition ( http://arxiv.org/abs/2306.09626v2 ) ライセンス: Link先を確認 | Jia Le Ngwe, Kian Ming Lim, Chin Poo Lee, Thian Song Ong, | (参考訳) 顔表情認識(英: Facial Expression Recognition, FER)は、人間の表情を認識する機械学習問題である。
既存の作業は近年、パフォーマンスの改善を達成していますが、荒々しく、困難な状況下では、FERは依然として課題です。
本稿では,Platt-Liteと呼ばれるMobileNetV1に基づく軽量パッチ・アテンションネットワークを提案する。
提案手法のバックボーン特徴抽出器として,Truncated ImageNet-pre-trained MobileNetV1を利用する。
切り捨てられたレイヤの代わりに、特に困難な条件下で、MobileNetV1からの表現を強化するために、重要な局所的な顔の特徴を抽出するパッチ抽出ブロックが提案されている。
極めて軽量な特徴抽出器からこれらのパッチされた特徴写像の学習を改善するために注意分類器も提案されている。
評価実験の結果,提案手法の有効性が確認された。
PAtt-LiteはCK+、RAF-DB、FER2013、FERPlus、RAF-DB、FERPlusの挑戦的な条件サブセットで最先端の結果を得た。
Facial Expression Recognition (FER) is a machine learning problem that deals with recognizing human facial expressions. While existing work has achieved performance improvements in recent years, FER in the wild and under challenging conditions remains a challenge. In this paper, a lightweight patch and attention network based on MobileNetV1, referred to as PAtt-Lite, is proposed to improve FER performance under challenging conditions. A truncated ImageNet-pre-trained MobileNetV1 is utilized as the backbone feature extractor of the proposed method. In place of the truncated layers is a patch extraction block that is proposed for extracting significant local facial features to enhance the representation from MobileNetV1, especially under challenging conditions. An attention classifier is also proposed to improve the learning of these patched feature maps from the extremely lightweight feature extractor. The experimental results on public benchmark databases proved the effectiveness of the proposed method. PAtt-Lite achieved state-of-the-art results on CK+, RAF-DB, FER2013, FERPlus, and the challenging conditions subsets for RAF-DB and FERPlus. | 翻訳日:2024-08-14 23:38:51 公開日:2024-08-13 |
# 重み付き部分空間探索変分量子固有解法:アンセッツェの1つの純状態への圧縮と重みの最適化
Refining the weighted subspace-search variational quantum eigensolver: compression of ansätze into a single pure state and optimization of weights ( http://arxiv.org/abs/2306.11844v2 ) ライセンス: Link先を確認 | Cheng-Lin Hong, Luis Colmenarez, Lexin Ding, Carlos L. Benavides-Riveros, Christian Schilling, | (参考訳) 重み付き部分空間探索変分量子固有解法(SSVQE)は、分子量子系の励起状態特性を計算するための顕著なアルゴリズムである。
本研究は,本研究の実践的実現に向けて,その基本的特徴のいくつかを詳述する。
まず、様々な励起状態の初期 ans\atze が、最小数のアンシラ量子ビットを通して単一の純粋な状態に準備され、続いてターゲット部分空間におけるその後の大域的ユニタリ回転の最適化が示される。
アンシラの唯一の目的は、スペクトル重みを持つ状態のアンサンブル $\rho_{\boldsymbol{w}}$ を浄化することなので、それらの測定値がちょうど$\rho_{\boldsymbol{w}}$ を崩壊させるだけであり、確率$w_j$ はその固有状態の 1 つに $|\Psi_j \rangle$ を与える。
そこで我々は,SSVQEを重要サンプリングにより改良したオリジナルのSSVQEと等価であることを示した。
次に、補助重み $\boldsymbol{w}$ の潜在的な影響について数値的な方法で精査し、探索された固有状態と固有エネルギーの精度について述べる。
SSVQEの根底にあるアンサンブル変動原理に関する最近の数学的結果とは対照的な明確な傾向が発見された。
The weighted subspace-search variational quantum eigensolver (SSVQE) is a prominent algorithm for calculating excited-state properties of molecular quantum systems. In this work, we elaborate on some of its fundamental features with the aim of improving its practical realization. First, we demonstrate that the initial ans\"atze for various excited states could be prepared into a single pure state through a minimal number of ancilla qubits, followed by the optimization of a subsequent global unitary rotation in the targeted subspace. Since the ancillas' sole purpose is to purify an underlying ensemble $\rho_{\boldsymbol{w}}$ state with spectral weights $\boldsymbol{w}$, their measurement would just collapse $\rho_{\boldsymbol{w}}$ with probabilities $w_j$ to one of its eigenstates $|\Psi_j \rangle$. We thus observe that our realization of SSVQE is equivalent to the original SSVQE improved by importance sampling. Then, we elaborate by numerical means on the potential influence of the auxiliary weights $\boldsymbol{w}$ on the accuracy of the sought-after eigenstates and eigenenergies. Clear trends are discovered which are contrasted with some recent mathematical results concerning the ensemble variational principle that underlies SSVQE. | 翻訳日:2024-08-14 23:38:51 公開日:2024-08-13 |
# ニューラルネットワークはモデルなし静的仲裁戦略を検出できる
Neural networks can detect model-free static arbitrage strategies ( http://arxiv.org/abs/2306.16422v2 ) ライセンス: Link先を確認 | Ariel Neufeld, Julian Sester, | (参考訳) 本稿では,ニューラルネットワークが市場が一部を認めると,モデルフリーな静的仲裁機会を検出できることを理論的にも数値的にも実証する。
ニューラルネットワークの利用により,取引証券数の多い金融市場に適用でき,対応する取引戦略のほぼ即時実行が保証される。
トラクタビリティ,有効性,堅牢性を実証するために,実際の財務データを用いて実例を示す。
技術的観点からは、単一ニューラルネットワークが半無限の凸プログラムのクラスを大まかに解決できることが証明され、金融市場がそのような機会を認めると、ニューラルネットワークがモデルフリーな静的仲裁戦略を検出できるという理論的な結果を得るための鍵となる結果である。
In this paper we demonstrate both theoretically as well as numerically that neural networks can detect model-free static arbitrage opportunities whenever the market admits some. Due to the use of neural networks, our method can be applied to financial markets with a high number of traded securities and ensures almost immediate execution of the corresponding trading strategies. To demonstrate its tractability, effectiveness, and robustness we provide examples using real financial data. From a technical point of view, we prove that a single neural network can approximately solve a class of convex semi-infinite programs, which is the key result in order to derive our theoretical results that neural networks can detect model-free static arbitrage strategies whenever the financial market admits such opportunities. | 翻訳日:2024-08-14 23:38:51 公開日:2024-08-13 |
# マルチフレーム3次元物体検出に向けた空間時間グラフ強化DETR
Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection ( http://arxiv.org/abs/2307.00347v4 ) ライセンス: Link先を確認 | Yifan Zhang, Zhiyu Zhu, Junhui Hou, Dapeng Wu, | (参考訳) 検出変換器(DETR)はCNNベースのオブジェクト検出システムの設計に革命をもたらし、優れた性能を示している。
しかし、マルチフレーム3Dオブジェクト検出の領域におけるその可能性はほとんど解明されていない。
本稿では,この課題に特化している3つの重要な側面に対処することにより,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを強化する,新しいエンドツーエンドフレームワークであるSTEMDを提案する。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、グラフ内のクエリをノードとして表現し、社会的文脈内でのオブジェクト間の相互作用を効果的にモデル化する空間的時間的グラフアテンションネットワークを導入する。
現在のフレームにおけるエンコーダの出力提案におけるハードケースの欠落を解決するため、前フレームの出力を組み込んでデコーダのクエリ入力を初期化する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
そして、同様のクエリは不十分に抑制され、冗長な予測ボックスに変換される。
この問題に対処するため,提案したIoU正規化項では,改良期間中に類似したクエリを区別することを推奨している。
大規模な実験を通じて,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。
コードはhttps://github.com/Eaphan/STEMD.comで公開されている。
The Detection Transformer (DETR) has revolutionized the design of CNN-based object detection systems, showcasing impressive performance. However, its potential in the domain of multi-frame 3D object detection remains largely unexplored. In this paper, we present STEMD, a novel end-to-end framework that enhances the DETR-like paradigm for multi-frame 3D object detection by addressing three key aspects specifically tailored for this task. First, to model the inter-object spatial interaction and complex temporal dependencies, we introduce the spatial-temporal graph attention network, which represents queries as nodes in a graph and enables effective modeling of object interactions within a social context. To solve the problem of missing hard cases in the proposed output of the encoder in the current frame, we incorporate the output of the previous frame to initialize the query input of the decoder. Finally, it poses a challenge for the network to distinguish between the positive query and other highly similar queries that are not the best match. And similar queries are insufficiently suppressed and turn into redundant prediction boxes. To address this issue, our proposed IoU regularization term encourages similar queries to be distinct during the refinement. Through extensive experiments, we demonstrate the effectiveness of our approach in handling challenging scenarios, while incurring only a minor additional computational overhead. The code is publicly available at https://github.com/Eaphan/STEMD. | 翻訳日:2024-08-14 23:38:51 公開日:2024-08-13 |
# エッジクラウドネットワークのためのニューラル量子最適化
Neural Quantile Optimization for Edge-Cloud Networking ( http://arxiv.org/abs/2307.05170v2 ) ライセンス: Link先を確認 | Bin Du, He Zhang, Xiangle Cheng, Lei Zhang, | (参考訳) 我々は,バースト可能な請求書に基づいて制約を満足し,コストを最小化するエッジクラウドコンピューティングネットワークにおいて,最適なトラフィック割当方式を模索する。
まず、固定されたネットワークトポロジに対して、様々なトラフィック要求を記述するランダムパラメータで整数プログラミング問題の族を定式化する。
そこで,この問題の離散的特徴に起因する難しさを克服するため,Gumbel-softmax再パラメータ化法を一般化し,離散問題の正規化継続として制約のない連続最適化問題を導出する。
最後に,教師なし学習による最適化問題を解決するため,Gumbel-softmaxサンプリングネットワークを導入する。
ネットワーク構造はエッジクラウドコンピューティングのトポロジを反映しており、制約のない連続最適化問題に対するコスト関数の期待を最小化するために訓練されている。
トレーニングされたネットワークは、効率的なトラフィック割り当てスキームサンプリングとして機能し、実現可能性およびコスト関数値のランダム戦略を著しく上回る。
出力割り当て方式の質をテストすることに加えて、時間ステップとユーザ数を増やすことにより、ネットワークの一般化特性を検討する。
また、この解を初期条件として既存の整数最適化解法に供給し、ウォームスタートが短時間の反復過程を加速できることを検証する。
フレームワークは一般にソリッドパフォーマンスを持ち、ランダムニューラルネットワークの分離機能は実用的な実装に適している。
We seek the best traffic allocation scheme for the edge-cloud computing network that satisfies constraints and minimizes the cost based on burstable billing. First, for a fixed network topology, we formulate a family of integer programming problems with random parameters describing the various traffic demands. Then, to overcome the difficulty caused by the discrete feature of the problem, we generalize the Gumbel-softmax reparameterization method to induce an unconstrained continuous optimization problem as a regularized continuation of the discrete problem. Finally, we introduce the Gumbel-softmax sampling network to solve the optimization problems via unsupervised learning. The network structure reflects the edge-cloud computing topology and is trained to minimize the expectation of the cost function for unconstrained continuous optimization problems. The trained network works as an efficient traffic allocation scheme sampler, remarkably outperforming the random strategy in feasibility and cost function value. Besides testing the quality of the output allocation scheme, we examine the generalization property of the network by increasing the time steps and the number of users. We also feed the solution to existing integer optimization solvers as initial conditions and verify the warm-starts can accelerate the short-time iteration process. The framework is general with solid performance, and the decoupled feature of the random neural networks is adequate for practical implementations. | 翻訳日:2024-08-14 23:38:51 公開日:2024-08-13 |
# 情緒的核・共感 : EmotionBench を用いた LLM の評価
Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench ( http://arxiv.org/abs/2308.03656v5 ) ライセンス: Link先を確認 | Jen-tse Huang, Man Ho Lam, Eric John Li, Shujie Ren, Wenxuan Wang, Wenxiang Jiao, Zhaopeng Tu, Michael R. Lyu, | (参考訳) 大規模言語モデル(LLM)の人為的能力の評価は,現代言論においてますます重要になっている。
感情評価理論を心理学から活用し, LLMの共感能力, 感情が特定の状況でどのように変化するかを評価することを提案する。
注意深い総合的な調査の後、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集しました。
状況を36因子に分類し,世界中の1200名以上の被験者を対象に人間による評価を行った。
GPT-4、Mixtral-8x22B、LLaMA-3.1のような最新のイテレーションを特徴とする商用モデルとオープンソースモデルの両方をカバーする。
いくつかのミスアライメントにもかかわらず、LLMは一般的に特定の状況に適切に対応できる。
しかしながら、それらは人間の感情的な行動と一致せず、類似した状況間のつながりを確立できない。
EmotionBenchは、状況のデータセット、人的評価結果、そしてテストフレームワークのコードを含むもので、https://github.com/CUHK-ARISE/EmotionBenchで公開されています。
Evaluating Large Language Models' (LLMs) anthropomorphic capabilities has become increasingly important in contemporary discourse. Utilizing the emotion appraisal theory from psychology, we propose to evaluate the empathy ability of LLMs, \ie, how their feelings change when presented with specific situations. After a careful and comprehensive survey, we collect a dataset containing over 400 situations that have proven effective in eliciting the eight emotions central to our study. Categorizing the situations into 36 factors, we conduct a human evaluation involving more than 1,200 subjects worldwide. With the human evaluation results as references, our evaluation includes seven LLMs, covering both commercial and open-source models, including variations in model sizes, featuring the latest iterations, such as GPT-4, Mixtral-8x22B, and LLaMA-3.1. We find that, despite several misalignments, LLMs can generally respond appropriately to certain situations. Nevertheless, they fall short in alignment with the emotional behaviors of human beings and cannot establish connections between similar situations. Our EmotionBench, including collected dataset of situations, the human evaluation results, and the code of our testing framework, is publicly available at https://github.com/CUHK-ARISE/EmotionBench. | 翻訳日:2024-08-14 23:38:51 公開日:2024-08-13 |
# 捕捉された偏光子凝縮体における占有駆動ゼーマン抑制と逆転
Occupancy-driven Zeeman suppression and inversion in trapped polariton condensates ( http://arxiv.org/abs/2308.05351v2 ) ライセンス: Link先を確認 | Krzysztof Sawicki, Dmitriy Dovzhenko, Yuan Wang, Helgi Sigurðsson, Pavlos G. Lagoudakis, | (参考訳) 複数のIn0.08Ga0.92As量子井戸を有する平面半導体マイクロキャビティにおける光捕捉エキシトン・ポラリトン凝縮体の磁気フォトルミネッセンスの研究を行った。
偏光子閉じ込めに対する超高凝縮コヒーレンス時間と連続制御は、光トラップによる利点の一つである。
これにより、縮合体における磁化誘起 {\mu}eV微細エネルギーシフトを解消し、パラメータ空間内の異常な動的領域を特定できる。
偏光子ゼーマン分裂を観察し, 凝縮密度が臨界値を超えた場合, スピン・マイスナー効果を想起して, 密閉した小さなトラップで全パラメトリックスクリーニングを実演した。
より大きな光トラップでは、ゼーマン分裂の完全な逆転がパワーの関数として観測され、凝縮の重要さと背景貯水池の励起物との相互作用が説明される。
We study the magneto-photoluminescence of an optically trapped exciton-polariton condensate in a planar semiconductor microcavity with multiple In0.08Ga0.92As quantum wells. Extremely high condensate coherence time and continuous control over the polariton confinement are among the advantages provided by optical trapping. This allows us to resolve magnetically induced {\mu}eV fine-energy shifts in the condensate and identify unusual dynamical regions in its parameter space. We observe polariton Zeeman splitting and, in small traps with tight confinement, demonstrate its full parametric screening when the condensate density exceeds a critical value, reminiscent of the spin-Meissner effect. For larger optical traps, we observe a complete inversion in the Zeeman splitting as a function of power, underlining the importance of condensate confinement and interactions with its background reservoir excitons. | 翻訳日:2024-08-14 23:24:38 公開日:2024-08-13 |
# タブラルデータのための解釈可能なグラフニューラルネットワーク
Interpretable Graph Neural Networks for Tabular Data ( http://arxiv.org/abs/2308.08945v3 ) ライセンス: Link先を確認 | Amr Alkhatib, Sofiane Ennadir, Henrik Boström, Michalis Vazirgiannis, | (参考訳) 表形式のデータは、現実世界のアプリケーションで頻繁に発生する。
グラフニューラルネットワーク(GNN)は最近、そのようなデータを効果的に扱うように拡張され、表現学習を通じて特徴的インタラクションをキャプチャできるようになった。
しかし、これらのアプローチは本質的には深層ニューラルネットワークの形でブラックボックスモデルを生成し、ユーザーはモデル予測の背後にあるロジックに従うことを排除している。
我々はIGNNet (Interpretable Graph Neural Network for tabular data) と呼ばれる手法を提案し、この手法は学習アルゴリズムを制約して解釈可能なモデルを生成し、モデルが元の入力特徴から正確に予測がどのように計算されるかを示す。
IGNNetは、XGBoost、Random Forests、TabNetなど、表層データをターゲットにした最先端の機械学習アルゴリズムと同等のパフォーマンスを示している。
同時に、IGNNetから得られた説明は、追加の計算オーバーヘッドを発生させることなく、機能の真のShapley値に一致していることを示す。
Data in tabular format is frequently occurring in real-world applications. Graph Neural Networks (GNNs) have recently been extended to effectively handle such data, allowing feature interactions to be captured through representation learning. However, these approaches essentially produce black-box models, in the form of deep neural networks, precluding users from following the logic behind the model predictions. We propose an approach, called IGNNet (Interpretable Graph Neural Network for tabular data), which constrains the learning algorithm to produce an interpretable model, where the model shows how the predictions are exactly computed from the original input features. A large-scale empirical investigation is presented, showing that IGNNet is performing on par with state-of-the-art machine-learning algorithms that target tabular data, including XGBoost, Random Forests, and TabNet. At the same time, the results show that the explanations obtained from IGNNet are aligned with the true Shapley values of the features without incurring any additional computational overhead. | 翻訳日:2024-08-14 23:24:38 公開日:2024-08-13 |
# 時間的量子参照フレームに関する測定イベント
Measurement events relative to temporal quantum reference frames ( http://arxiv.org/abs/2308.10967v3 ) ライセンス: Link先を確認 | Ladina Hausmann, Alexander Schmidhuber, Esteban Castro-Ruiz, | (参考訳) Page-Wootters形式は、背景に依存し、量子力学的な時間の概念を一般相対性理論の背景依存性と整合させるための提案である。
しかし、この枠組みの物理的意味はいまだに議論されている。
本研究では,Page-Wootters形式に対する2つの一貫したアプローチを比較し,量子時間的参照フレームに対する進化と測定の操作的意味を明らかにする。
いわゆる "twirled observable" アプローチは、ハミルトンの制約に関して不変な作用素として測定を実装している。
代わりに、「純度測定」アプローチは制約自体を変更することによって動的に測定をモデル化する。
どちらの手法も理想時計の極限に一致するが、非理想的、有限リソースクロックの場合に対する純粋測定アプローチの自然な一般化は、根本的に異なる図形をもたらす。
この不一致の物理的起源を論じ、これらのアプローチが運用上異なる状況を記述することを主張する。
さらに,非理想的クロックに対しては,時間的非局所的・非単位的進化を導出し,事象の時間的順序の操作的定義に根本的な制限を与えることを示す。
それでも、その時間が離散的であると仮定すれば、ユニタリティと定時順序を復元することができる。
The Page-Wootters formalism is a proposal for reconciling the background-dependent, quantum-mechanical notion of time with the background-independence of general relativity. However, the physical meaning of this framework remains debated. In this work, we compare two consistent approaches to the Page-Wootters formalism to clarify the operational meaning of evolution and measurements with respect to a quantum temporal reference frame. The so-called "twirled observable" approach implements measurements as operators that are invariant with respect to the Hamiltonian constraint. The "purified measurement" approach instead models measurements dynamically by modifying the constraint itself. While both approaches agree in the limit of ideal clocks, a natural generalization of the purified measurement approach to the case of non-ideal, finite-resource clocks yields a radically different picture. We discuss the physical origin of this discrepancy and argue that the approaches describe operationally distinct situations. Moreover, we show that, for non-ideal clocks, the purified measurement approach yields time non-local, non-unitary evolution and implies a fundamental limitation to the operational definition of the temporal order of events. Nevertheless, unitarity and definite temporal order can be restored if we assume that time is discrete. | 翻訳日:2024-08-14 23:24:38 公開日:2024-08-13 |
# 高次元非線形力学系追跡のためのアンサンブルスコアフィルタ
An Ensemble Score Filter for Tracking High-Dimensional Nonlinear Dynamical Systems ( http://arxiv.org/abs/2309.00983v2 ) ライセンス: Link先を確認 | Feng Bao, Zezhong Zhang, Guannan Zhang, | (参考訳) 本研究では,高次元非線形フィルタ問題を高精度に解くためのアンサンブルスコアフィルタ(EnSF)を提案する。
既存のフィルタ法、例えば粒子フィルタやアンサンブルカルマンフィルタの主な欠点は、高次元および高非線形問題を扱う際の低い精度である。
EnSFは、擬時相領域で定義されたスコアベースの拡散モデルを利用して、フィルタリング密度の進化を特徴付けることで、この課題に対処する。
EnSFは、有限モンテカルロサンプル(粒子フィルタとアンサンブルカルマンフィルタで使用される)の集合に情報を格納する代わりに、再帰的に更新されたフィルタリング密度関数の情報をスコア関数に格納する。
ニューラルネットワークをトレーニングしてスコア関数を近似する既存の拡散モデルとは異なり、最小バッチベースのモンテカルロ推定器を用いて、スコア関数を任意の擬空間的時間的位置で直接近似し、高次元非線形問題を解くのに十分な精度を提供し、ニューラルネットワークのトレーニングに費やした膨大な時間を節約する訓練自由スコア推定法を開発した。
本手法の性能を示すために高次元ロレンツ-96系を用いる。
EnSFは、最先端の局所アンサンブル変換カルマンフィルタ法と比較して、非常に高次元のローレンツ系(最大1000,000次元)を高非線形観察プロセスで確実に効率的に追跡する。
We propose an ensemble score filter (EnSF) for solving high-dimensional nonlinear filtering problems with superior accuracy. A major drawback of existing filtering methods, e.g., particle filters or ensemble Kalman filters, is the low accuracy in handling high-dimensional and highly nonlinear problems. EnSF attacks this challenge by exploiting the score-based diffusion model, defined in a pseudo-temporal domain, to characterizing the evolution of the filtering density. EnSF stores the information of the recursively updated filtering density function in the score function, instead of storing the information in a set of finite Monte Carlo samples (used in particle filters and ensemble Kalman filters). Unlike existing diffusion models that train neural networks to approximate the score function, we develop a training-free score estimation that uses a mini-batch-based Monte Carlo estimator to directly approximate the score function at any pseudo-spatial-temporal location, which provides sufficient accuracy in solving high-dimensional nonlinear problems as well as saves a tremendous amount of time spent on training neural networks. High-dimensional Lorenz-96 systems are used to demonstrate the performance of our method. EnSF provides surprising performance, compared with the state-of-the-art Local Ensemble Transform Kalman Filter method, in reliably and efficiently tracking extremely high-dimensional Lorenz systems (up to 1,000,000 dimensions) with highly nonlinear observation processes. | 翻訳日:2024-08-14 23:24:38 公開日:2024-08-13 |
# ハイブリッド表現と正規強調を用いた細粒度情報を用いた屋内シーンの再構成
Indoor Scene Reconstruction with Fine-Grained Details Using Hybrid Representation and Normal Prior Enhancement ( http://arxiv.org/abs/2309.07640v3 ) ライセンス: Link先を確認 | Sheng Ye, Yubin Hu, Matthieu Lin, Yu-Hui Wen, Wang Zhao, Yong-Jin Liu, Wenping Wang, | (参考訳) 多視点RGB画像からの室内シーンの再構成は、繊細できめ細かな領域とともに平坦な領域とテクスチャのない領域が共存しているため困難である。
近年の手法では、予測された表面正規化によって支援されたニューラルラジアンス場を利用してシーン形状を復元している。
これらの方法は、床と壁面の完全な滑らかな結果を生み出すのに優れている。
しかし、彼らは、不適切な神経表現と不正確な予測された正常な先行のために、高周波構造を持つ複雑な表面を捉えるのに苦労している。
本研究は, 上記の制限に対処して, 高忠実度表面を細かな詳細で再構築することを目的とする。
暗黙の表現能力を向上させるために,低周波領域と高周波領域を別々に表現するハイブリッドアーキテクチャを提案する。
そこで本研究では,従来の画像強調・復号化手法と,予測された表面正規ベクトルの画素単位の不確かさを推定するネットワークを併用した,簡易で効果的な画像強調・復号化手法を提案する。
このような不確実性を特定することは、複雑な地形の正確な再構築を妨げる、信頼できない表面の正常な監督によって、我々のモデルが誤解されるのを防ぐことができる。
評価実験の結果,提案手法は既存手法よりも再現性が高いことがわかった。
さらに,携帯端末が捉えた屋内シナリオを一般化する手法も提案した。
私たちのコードは、https://github.com/yec22/Fine-Grained-Indoor-Reconで公開されています。
The reconstruction of indoor scenes from multi-view RGB images is challenging due to the coexistence of flat and texture-less regions alongside delicate and fine-grained regions. Recent methods leverage neural radiance fields aided by predicted surface normal priors to recover the scene geometry. These methods excel in producing complete and smooth results for floor and wall areas. However, they struggle to capture complex surfaces with high-frequency structures due to the inadequate neural representation and the inaccurately predicted normal priors. This work aims to reconstruct high-fidelity surfaces with fine-grained details by addressing the above limitations. To improve the capacity of the implicit representation, we propose a hybrid architecture to represent low-frequency and high-frequency regions separately. To enhance the normal priors, we introduce a simple yet effective image sharpening and denoising technique, coupled with a network that estimates the pixel-wise uncertainty of the predicted surface normal vectors. Identifying such uncertainty can prevent our model from being misled by unreliable surface normal supervisions that hinder the accurate reconstruction of intricate geometries. Experiments on the benchmark datasets show that our method outperforms existing methods in terms of reconstruction quality. Furthermore, the proposed method also generalizes well to real-world indoor scenarios captured by our hand-held mobile phones. Our code is publicly available at: https://github.com/yec22/Fine-Grained-Indoor-Recon. | 翻訳日:2024-08-14 23:24:38 公開日:2024-08-13 |
# ディジタル量子コンピュータにおけるロバスト大周期離散時間結晶とその符号
A Robust Large-Period Discrete Time Crystal and its Signature in a Digital Quantum Computer ( http://arxiv.org/abs/2309.11560v2 ) ライセンス: Link先を確認 | Tianqi Chen, Ruizhe Shen, Ching Hua Lee, Bo Yang, Raditya Weda Bomantara, | (参考訳) 離散時間結晶(DTCs)は、時間変換対称性を破る物質の非平衡量子状態である。
これまでのところ、周期双曲力学を示す最も単純なDTCのみが実験で明らかに実現されている。
我々は,非自明なDTC(4T$-DTCs)をサポートする直感的なスピン-1/2$システムを開発し,そのディジタルシミュレーションをノイズ量子プロセッサ上で実証する。
注目すべきことに、予測される4T$-DTCの強いサインが見つかり、場合によっては、さまざまな種類の障害によって増幅される。
以上の結果から,時間結晶性形成における障害と量子相互作用の相互作用に光を当てるとともに,物質の非平衡量子状態をシミュレートするための,既存のノイズの多い中間量子デバイスの可能性を示すことができた。
Discrete time crystals (DTCs) are novel out-of-equilibrium quantum states of matter which break time translational symmetry. So far, only the simplest form of DTCs that exhibit period-doubling dynamics has been unambiguously realized in experiments. We develop an intuitive interacting spin-$1/2$ system that supports the more non-trivial period-quadrupling DTCs ($4T$-DTCs) and demonstrate its digital simulation on a noisy quantum processor. Remarkably, we found a strong signature of the predicted $4T$-DTC that is robust against and, in some cases, amplified by different types of disorders. Our findings thus shed light on the interplay between disorder and quantum interactions on the formation of time crystallinity beyond periodic-doubling, as well as demonstrate the potential of existing noisy intermediate-scale quantum devices for simulating exotic non-equilibrium quantum states of matter. | 翻訳日:2024-08-14 23:24:38 公開日:2024-08-13 |
# データ実践者による差別化プライバシツールの利用性評価
Evaluating the Usability of Differential Privacy Tools with Data Practitioners ( http://arxiv.org/abs/2309.13506v3 ) ライセンス: Link先を確認 | Ivoline C. Ngong, Brad Stenger, Joseph P. Near, Yuanyuan Feng, | (参考訳) 差別化プライバシ(DP)は、プライバシを保存するデータ分析において、ゴールドスタンダードとなっているが、現実のデータセットやシステムに実装することは依然として困難である。
近年開発されているDPツールは,DPの実装を容易にすることを目的としているが,これらのDPツールのユーザビリティについて限定的な研究がなされている。
DiffPrivLib、Tumult Analytics、PipelineDP、OpenDPという4つのPythonベースのオープンソースDPツールのユーザビリティを評価した。
この結果から,DPツールの使用は,DP初心者のDPの理解に有効である,アプリケーションプログラミングインタフェース(API)の設計とドキュメントがDP実装の成功に不可欠であること,ユーザ満足度がDPツールによる学習タスクの完成度に相関している,などが示唆された。
DPツールのユーザビリティを向上させるためのエビデンスベースのレコメンデーションを提供する。
Differential privacy (DP) has become the gold standard in privacy-preserving data analytics, but implementing it in real-world datasets and systems remains challenging. Recently developed DP tools aim to make DP implementation easier, but limited research has investigated these DP tools' usability. Through a usability study with 24 US data practitioners with varying prior DP knowledge, we evaluated the usability of four Python-based open-source DP tools: DiffPrivLib, Tumult Analytics, PipelineDP, and OpenDP. Our results suggest that using DP tools in this study may help DP novices better understand DP; that Application Programming Interface (API) design and documentation are vital for successful DP implementation; and that user satisfaction correlates with how well participants completed study tasks with these DP tools. We provide evidence-based recommendations to improve DP tools' usability to broaden DP adoption. | 翻訳日:2024-08-14 23:24:38 公開日:2024-08-13 |
# 閉ループ個別化カリキュラムを用いた連続運転ポリシー最適化
Continual Driving Policy Optimization with Closed-Loop Individualized Curricula ( http://arxiv.org/abs/2309.14209v4 ) ライセンス: Link先を確認 | Haoyi Niu, Yizhou Xu, Xingjian Jiang, Jianming Hu, | (参考訳) 自動運転車(AV)の安全性は、長い尾の自然主義運転分布において稀で安全に重要なシナリオが欠如していることから、長年にわたって主要な関心事となっている。
この課題に対処するため、シナリオベースの自動運転の研究が急増し、リスクの高い運転シナリオを生成し、それらを適用してAVモデルの安全クリティカルなテストを実施することに重点を置いている。
しかしながら、これらの広範囲なシナリオの再利用について、反復的にAVモデルを改善するための限定的な研究がなされている。
さらに、異なる振る舞いを持つ他のAVモデルから収集された巨大なシナリオライブラリを抽出し、現在のAV改善のために転送可能な情報を抽出することは、難易度と難易度を保ち続けている。
そこで我々は,CLIC(Crowd-Loop individualized Curricula)を特徴とする連続運転ポリシー最適化フレームワークを開発し,AV評価,シナリオ選択,AVトレーニングなど,フレキシブルな実装選択のための標準化されたサブモジュールのセットに分解する。
CLICは衝突予測タスクとしてAV評価をフレーム化し、各イテレーションでこれらのシナリオでAV障害が起こる確率を見積もる。
その後、これらの障害確率に基づいて過去のシナリオを再サンプリングすることで、CLICは下流トレーニング用に個別化されたキュキュラを調整し、AVの評価能力と整合させる。
したがって、CLICは、クローズドループ駆動ポリシー最適化のための膨大な事前コンパイルされたシナリオライブラリの利用を最大化するだけでなく、トレーニングをこれらの貧弱な構成シナリオからより困難なケースで個別化することで、AV改善を促進する。
実験結果から,CLICは他のカリキュラムベースのトレーニング戦略を超越し,リスクのあるシナリオの管理が大幅に改善されつつも,単純なケースの処理能力は維持されていることが明らかとなった。
The safety of autonomous vehicles (AV) has been a long-standing top concern, stemming from the absence of rare and safety-critical scenarios in the long-tail naturalistic driving distribution. To tackle this challenge, a surge of research in scenario-based autonomous driving has emerged, with a focus on generating high-risk driving scenarios and applying them to conduct safety-critical testing of AV models. However, limited work has been explored on the reuse of these extensive scenarios to iteratively improve AV models. Moreover, it remains intractable and challenging to filter through gigantic scenario libraries collected from other AV models with distinct behaviors, attempting to extract transferable information for current AV improvement. Therefore, we develop a continual driving policy optimization framework featuring Closed-Loop Individualized Curricula (CLIC), which we factorize into a set of standardized sub-modules for flexible implementation choices: AV Evaluation, Scenario Selection, and AV Training. CLIC frames AV Evaluation as a collision prediction task, where it estimates the chance of AV failures in these scenarios at each iteration. Subsequently, by re-sampling from historical scenarios based on these failure probabilities, CLIC tailors individualized curricula for downstream training, aligning them with the evaluated capability of AV. Accordingly, CLIC not only maximizes the utilization of the vast pre-collected scenario library for closed-loop driving policy optimization but also facilitates AV improvement by individualizing its training with more challenging cases out of those poorly organized scenarios. Experimental results clearly indicate that CLIC surpasses other curriculum-based training strategies, showing substantial improvement in managing risky scenarios, while still maintaining proficiency in handling simpler cases. | 翻訳日:2024-08-14 23:24:38 公開日:2024-08-13 |
# 磁気誘導型シュレーディンガー猫状態:量子空間の影
Magnetically Induced Schrödinger Cat States: The Shadow of a Quantum Space ( http://arxiv.org/abs/2309.16895v2 ) ライセンス: Link先を確認 | Partha Nandi, Nandita Debnath, Subhajit Kala, A. S. Majumdar, | (参考訳) マクロ的に異なる状態の重ね合わせであるシュリンガー猫状態は、今後の量子情報技術にとって潜在的に重要な資源である。
本稿では, 二次元平面上に位置する非相対論的電気双極子系において, 平面に垂直な外部電位と一様強磁場とともに, 絡み合ったSchr\"odinger cat状態を生成する手法を提案する。
さらに,本実験により, モデルパラメータの特定の範囲に対する絡み合いの崩壊と回復の現象を生じさせる可能性が示唆された。
Schr\"odinger cat states, which are superpositions of macroscopically distinct states, are potentially critical resources for upcoming quantum information technologies. In this paper, we introduce a scheme to generate entangled Schr\"odinger cat states in a non-relativistic electric dipole system situated on a two-dimensional plane, along with an external potential and a uniform strong magnetic field perpendicular to the plane. Additionally, our findings demonstrate that this setup can lead to the phenomenon of collapse and revival of entanglement for a specific range of our model parameters | 翻訳日:2024-08-14 23:24:38 公開日:2024-08-13 |
# 潜時空間対称性の発見
Latent Space Symmetry Discovery ( http://arxiv.org/abs/2310.00105v3 ) ライセンス: Link先を確認 | Jianke Yang, Nima Dehmamy, Robin Walters, Rose Yu, | (参考訳) 等変ニューラルネットワークは対称性群の明示的な知識を必要とする。
自動対称性発見法は、この制約を緩和し、データから不変性と等価性を学習することを目的としている。
しかし、既存の対称性発見法は単純な線形対称性に限られており、実世界のデータの複雑さに対処できない。
非線形群作用の対称性を同定できる新しい生成モデルLaLiGAN(Latent LieGAN)を提案する。
データ空間から潜在空間への写像を学び、そこで対称性は線型になり、同時に潜在空間における対称性を発見する。
理論的には、このモデルが群作用に関する条件下で非線形対称性を表現できることが示される。
実験により,本手法が高次元力学系の固有対称性を正確に検出できることが実証された。
LaLiGANはまた、方程式発見や長期予測を含む下流のタスクに有用な構造化された潜在空間をもたらす。
Equivariant neural networks require explicit knowledge of the symmetry group. Automatic symmetry discovery methods aim to relax this constraint and learn invariance and equivariance from data. However, existing symmetry discovery methods are limited to simple linear symmetries and cannot handle the complexity of real-world data. We propose a novel generative model, Latent LieGAN (LaLiGAN), which can discover symmetries of nonlinear group actions. It learns a mapping from the data space to a latent space where the symmetries become linear and simultaneously discovers symmetries in the latent space. Theoretically, we show that our model can express nonlinear symmetries under some conditions about the group action. Experimentally, we demonstrate that our method can accurately discover the intrinsic symmetry in high-dimensional dynamical systems. LaLiGAN also results in a well-structured latent space that is useful for downstream tasks including equation discovery and long-term forecasting. | 翻訳日:2024-08-14 23:24:38 公開日:2024-08-13 |
# 自動コヒーレンス評価のための新しい計算モデリング基盤
A Novel Computational and Modeling Foundation for Automatic Coherence Assessment ( http://arxiv.org/abs/2310.00598v2 ) ライセンス: Link先を確認 | Aviya Maimon, Reut Tsarfaty, | (参考訳) コヒーレンス(Coherence)は、テキスト単位が相互に関連付ける方法を指す、よく書かれたテキストの本質的な性質である。
生成AIの時代において、コヒーレンスアセスメントは多くのNLPタスクに必須である。
しかし、NLP {coherence} では、形式的な定義や評価基準を持たず、大規模な自動的かつ体系的なコヒーレンス評価を可能にする不明確な概念である。
このギャップを埋めるために、この研究では、談話コヒーレントを作るための公式な言語定義である「citet{Reinhart:1980}」を用い、それぞれの計算タスクとしてこれらの条件を形式化する。
私たちはそれを仮定する
(i)これらすべてのタスクで訓練されたモデルがコヒーレンス検出に必要な特徴を学習し、それ
二 すべてのタスクのジョイントモデルは、各タスクで個別に訓練されたモデルの性能を超えます。
人によるコヒーレンス評価のベンチマークでは,500件の短編記事が自動生成され,さらに4万件のリアルタイムテキストが得られた。
ここでは,コヒーレンスの形式的および計算的設定が,コヒーレンスの大規模自動評価の高度な手法の基礎となることを結論する。
Coherence is an essential property of well-written texts, that refers to the way textual units relate to one another. In the era of generative AI, coherence assessment is essential for many NLP tasks; summarization, generation, long-form question-answering, and more. However, in NLP {coherence} is an ill-defined notion, not having a formal definition or evaluation metrics, that would allow for large-scale automatic and systematic coherence assessment. To bridge this gap, in this work we employ the formal linguistic definition of \citet{Reinhart:1980} of what makes a discourse coherent, consisting of three conditions -- {\em cohesion, consistency} and {\em relevance} -- and formalize these conditions as respective computational tasks. We hypothesize that (i) a model trained on all of these tasks will learn the features required for coherence detection, and that (ii) a joint model for all tasks will exceed the performance of models trained on each task individually. On two benchmarks for coherence scoring rated by humans, one containing 500 automatically-generated short stories and another containing 4k real-world texts, our experiments confirm that jointly training on the proposed tasks leads to better performance on each task compared with task-specific models, and to better performance on assessing coherence overall, compared with strong baselines. We conclude that the formal and computational setup of coherence as proposed here provides a solid foundation for advanced methods of large-scale automatic assessment of coherence. | 翻訳日:2024-08-14 23:24:38 公開日:2024-08-13 |
# 文化社会の旅 : テキスト・ツー・イメージ・モデルによる文化的POVの探索と解錠
Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of Text-To-Image Models ( http://arxiv.org/abs/2310.01929v3 ) ライセンス: Link先を確認 | Mor Ventura, Eyal Ben-David, Anna Korhonen, Roi Reichart, | (参考訳) DALL-EやStableDiffusionのようなテキスト・ツー・イメージ(TTI)モデルは、顕著なプロンプトベースの画像生成能力を示している。
多言語エンコーダは、言語が文化の結束であるので、これらのモデルの文化的エージェンシーに大きな影響を与える可能性がある。
本研究では,TTIモデルに埋め込まれた文化的知覚を,文化的次元,文化的領域,文化的概念という3階層の文化を特徴付けることによって探求する。
このオントロジーに基づいて,TTIモデルにおける文化的知識を解き放つためのテンプレートを導き,CLIP空間を用いた内在的評価,ビジュアルクエスト・アンサー(VQA)モデルによる外在的評価,人的評価などの総合的評価手法を提案し,TTI生成画像の文化的内容を評価する。
我々の研究を促進するために、CulText2Iデータセットを導入しました。
我々の実験は、TTIモデルにおける文化的エンコーディングの性質に関するDo、What、What、Howに関する洞察を提供し、これらのモデルのクロスカルチャー応用への道を開いた。
Text-To-Image (TTI) models, such as DALL-E and StableDiffusion, have demonstrated remarkable prompt-based image generation capabilities. Multilingual encoders may have a substantial impact on the cultural agency of these models, as language is a conduit of culture. In this study, we explore the cultural perception embedded in TTI models by characterizing culture across three hierarchical tiers: cultural dimensions, cultural domains, and cultural concepts. Based on this ontology, we derive prompt templates to unlock the cultural knowledge in TTI models, and propose a comprehensive suite of evaluation techniques, including intrinsic evaluations using the CLIP space, extrinsic evaluations with a Visual-Question-Answer (VQA) model and human assessments, to evaluate the cultural content of TTI-generated images. To bolster our research, we introduce the CulText2I dataset, derived from six diverse TTI models and spanning ten languages. Our experiments provide insights regarding Do, What, Which and How research questions about the nature of cultural encoding in TTI models, paving the way for cross-cultural applications of these models. | 翻訳日:2024-08-14 23:24:38 公開日:2024-08-13 |
# 視覚・言語モデルにおける物体の幻覚測定のための負の物体存在評価(NOPE)
Negative Object Presence Evaluation (NOPE) to Measure Object Hallucination in Vision-Language Models ( http://arxiv.org/abs/2310.05338v2 ) ライセンス: Link先を確認 | Holy Lovenia, Wenliang Dai, Samuel Cahyawijaya, Ziwei Ji, Pascale Fung, | (参考訳) 物体幻覚は視覚言語(VL)モデルにおいて重要な課題となり、しばしば存在しない物体との非感覚的あるいは不誠実な反応を生み出す。
しかしながら、VLモデルにおける物体幻覚評価のための一般的な測定方法がないため、この問題を緩和する理解と能力が妨げられている。
本研究では,視覚的質問応答(VQA)を用いて,VLモデルの物体幻覚を評価するための新しいベンチマークであるNOPE(Negative Object Presence Evaluation)を提案する。
本研究では,NOPEの高品質な29.5kの合成負代名詞(NegP)データを生成するために,大規模言語モデルを用いた費用対効果の高いスケーラブルな手法を提案する。
視覚的問題における物体の非存在を識別する10種類の最先端VLモデルの性能を広範囲にわたって検討し、そこでは基底的真理解をNegP(e g , "none")と表現する。
さらに、他の9つのVQAデータセットの視覚的質問に対して、それらの標準性能を評価する。
実験により、全てのモデルがNegP上で10倍未満の精度を達成するため、VLモデルが物体幻覚の脆弱性に免疫しないことを示した。
さらに、語彙的に多様な視覚的質問、広い範囲の質問タイプ、シーン関連オブジェクトが、VLモデルにおける物体幻覚のリスクを負うことを明らかにする。
Object hallucination poses a significant challenge in vision-language (VL) models, often leading to the generation of nonsensical or unfaithful responses with non-existent objects. However, the absence of a general measurement for evaluating object hallucination in VL models has hindered our understanding and ability to mitigate this issue. In this work, we present NOPE (Negative Object Presence Evaluation), a novel benchmark designed to assess object hallucination in VL models through visual question answering (VQA). We propose a cost-effective and scalable approach utilizing large language models to generate 29.5k synthetic negative pronoun (NegP) data of high quality for NOPE. We extensively investigate the performance of 10 state-of-the-art VL models in discerning the non-existence of objects in visual questions, where the ground truth answers are denoted as NegP (e.g., "none"). Additionally, we evaluate their standard performance on visual questions on 9 other VQA datasets. Through our experiments, we demonstrate that no VL model is immune to the vulnerability of object hallucination, as all models achieve accuracy below 10\% on NegP. Furthermore, we uncover that lexically diverse visual questions, question types with large scopes, and scene-relevant objects capitalize the risk of object hallucination in VL models. | 翻訳日:2024-08-14 23:14:44 公開日:2024-08-13 |
# 量子非線形ノイズ相関の熱力学的センシング
Thermodynamic sensing of quantum nonlinear noise correlations ( http://arxiv.org/abs/2310.10081v2 ) ライセンス: Link先を確認 | Nilakantha Meher, Tomáš Opatrný, Gershon Kurizki, | (参考訳) 非線形2モード干渉計とメカニカル発振器を結合した量子ノイズセンシングの概念を考案した。
これらの自律機械は、2モードノイズ場の量子非線形相関を、抽出可能な仕事、別名作業能力、エルゴトロピーの熱力学的変数を介して検出することができる。
磁場は、干渉計内のマルチレベルシステムとの相互作用を通じての熱雑音入力によって形成される。
そのような相互作用は、部分的に未知であるかもしれない2モードの量子非線形ゲージ場の生成に相当する。
干渉計に結合したメカニカル発振器をモニタリングすることにより、出力フィールドモードの1つの作業容量を検知し、フィールドの量子非線形相関を明らかにすることができることを示す。
提案手法は, 出力場がトモグラフィーによって解き放たれる量子マルチポート干渉法に代わるものである。
この方法は、マルチモード量子非線形ゲージ場のシミュレーションと制御を前進させる可能性がある。
We put forth the concept of quantum noise sensing in nonlinear two-mode interferometers coupled to mechanical oscillators. These autonomous machines are capable of sensing quantum nonlinear correlations of two-mode noisy fields via their thermodynamic variable of extractable work, alias work capacity or ergotropy. The fields are formed by thermal noise input via its interaction with multi-level systems inside the interferometer. Such interactions amount to the generation of two-mode quantum nonlinear gauge fields that may be partly unknown. We show that by monitoring a mechanical oscillator coupled to the interferometer, one can sense the work capacity of one of the output field modes and thereby reveal the quantum nonlinear correlations of the field. The proposed quantum sensing method can provide an alternative to quantum multiport interferometry where the output field is unraveled by tomography. This method may advance the simulation and control of multimode quantum nonlinear gauge fields. | 翻訳日:2024-08-14 23:14:44 公開日:2024-08-13 |
# メタ学習による動的環境における重大最適化問題の解法
Solving Expensive Optimization Problems in Dynamic Environments with Meta-learning ( http://arxiv.org/abs/2310.12538v2 ) ライセンス: Link先を確認 | Huan Zhang, Jinliang Ding, Liang Feng, Kay Chen Tan, Ke Li, | (参考訳) 動的環境は、これらの問題の目的関数が時間とともに変化し、最適解を追跡するために卓越した計算資源を必要とするため、高価な最適化問題に対して大きな課題となる。
データ駆動の進化的最適化とベイズ最適化(BO)アプローチは、静的環境において高価な最適化問題を解くことを約束しているが、動的環境においてそのようなアプローチを開発する試みは、ほとんど探索されていない。
本稿では,高コストな動的最適化問題を解決するための,メタラーニングに基づくシンプルな最適化フレームワークを提案する。
このフレームワークはフレキシブルで、データ駆動の進化最適化やBOアプローチのいずれでもプラグイン方式で、市販のサロゲートモデルを継続的に差別化することができる。
特に、このフレームワークは2つのユニークなコンポーネントから構成されている。
1) メタラーニングの要素は, 勾配に基づくメタラーニングアプローチを採用して, 最適化プロセスに沿って, 異なるダイナミクスをまたいだ経験(効果的なモデルパラメータ)を学習する。
2) 学習経験(モデルパラメータ)を,少数のショットサンプルに基づく動的環境の高速適応のための初期パラメータとして用いる適応成分について検討した。
これにより、最適化プロセスは、厳格に制限された計算予算内で、新しい環境における探索を迅速に開始することができる。
実験では, 動的特性の異なるベンチマークテスト問題において, 最先端のアルゴリズムと比較して, 提案手法の有効性を実証した。
Dynamic environments pose great challenges for expensive optimization problems, as the objective functions of these problems change over time and thus require remarkable computational resources to track the optimal solutions. Although data-driven evolutionary optimization and Bayesian optimization (BO) approaches have shown promise in solving expensive optimization problems in static environments, the attempts to develop such approaches in dynamic environments remain rarely unexplored. In this paper, we propose a simple yet effective meta-learning-based optimization framework for solving expensive dynamic optimization problems. This framework is flexible, allowing any off-the-shelf continuously differentiable surrogate model to be used in a plug-in manner, either in data-driven evolutionary optimization or BO approaches. In particular, the framework consists of two unique components: 1) the meta-learning component, in which a gradient-based meta-learning approach is adopted to learn experience (effective model parameters) across different dynamics along the optimization process. 2) the adaptation component, where the learned experience (model parameters) is used as the initial parameters for fast adaptation in the dynamic environment based on few shot samples. By doing so, the optimization process is able to quickly initiate the search in a new environment within a strictly restricted computational budget. Experiments demonstrate the effectiveness of the proposed algorithm framework compared to several state-of-the-art algorithms on common benchmark test problems under different dynamic characteristics. | 翻訳日:2024-08-14 23:14:44 公開日:2024-08-13 |
# 有理グラフニューラルネットワークの論理
The logic of rational graph neural networks ( http://arxiv.org/abs/2310.13139v8 ) ライセンス: Link先を確認 | Sammy Khalife, | (参考訳) グラフニューラルネットワーク(GNN)の表現性は、一階述語論理の適切な断片を通して記述することができる。
ラベル付きグラフ上で解釈された2つの変分片(GC2)の問合せは、グラフ入力サイズで成長しないRectified Linear Unit (ReLU) GNNを用いて表現することができる。
逆に、GNNは、任意のアクティベーション関数の選択に対して、GC2のクエリを最大で表現する。
本稿では,GC2 の深度 3$ のクエリが,合理的なアクティベーション関数を持つ GNN では表現できないことを証明する。
このことは、すべての非多項式活性化関数が、[Grohe, 2021]で定式化されたオープンな質問に答えて、GNNの最大表現性を参照しているわけではないことを示している。
この結果は、[Boull\'e & Al., 2020] による有理フィードフォワードニューラルネットワークの効率的な普遍近似特性とも対照的である。
また、一階述語論理(RGC2)の有理サブフラグメントを示し、すべてのグラフに対して有理GNNがRGC2クエリを均一に表現できることを証明する。
The expressivity of Graph Neural Networks (GNNs) can be described via appropriate fragments of the first order logic. Any query of the two variable fragment of graded modal logic (GC2) interpreted over labeled graphs can be expressed using a Rectified Linear Unit (ReLU) GNN whose size does not grow with graph input sizes [Barcelo & Al., 2020]. Conversely, a GNN expresses at most a query of GC2, for any choice of activation function. In this article, we prove that some GC2 queries of depth $3$ cannot be expressed by GNNs with any rational activation function. This shows that not all non-polynomial activation functions confer GNNs maximal expressivity, answering a open question formulated by [Grohe, 2021]. This result is also in contrast with the efficient universal approximation properties of rational feedforward neural networks investigated by [Boull\'e & Al., 2020]. We also present a rational subfragment of the first order logic (RGC2), and prove that rational GNNs can express RGC2 queries uniformly over all graphs. | 翻訳日:2024-08-14 23:14:44 公開日:2024-08-13 |
# マジックのロバストさを効果的に定量化するハンドブック
Handbook for Efficiently Quantifying Robustness of Magic ( http://arxiv.org/abs/2311.01362v3 ) ライセンス: Link先を確認 | Hiroki Hamaguchi, Kou Hamada, Nobuyuki Yoshioka, | (参考訳) 非安定化器性(英: nonstabilizerness)またはマジック(英: magic)は、普遍的な量子計算を行うために必要な量子資源である。
特に魔法のロバスト性(RoM)は、非クリフォード演算に対する与えられた量子状態の有用性の度合いを特徴づける。
RoMの数学的形式は簡潔な方法で与えられるが、極端に多くの純粋な安定化状態を含むため、実際にRoMを決定することは極めて困難である。
そこで本研究では,RoMの計算に有効な新しいアルゴリズムを提案する。
重要な技術は、純粋な安定化状態間の重なりの計算において顕著な特徴を達成するサブルーチンである。
i) 各安定化器毎の時間複雑性を指数関数的に減少させる。
(ii)空間複雑性は指数関数的に減少する。
このサブルーチンに基づいて、ラップトップ上で最大$n=7$ qubitsの任意の状態に対してRoMを計算するアルゴリズムを提案する。
副生成物として、提案したサブルーチンは安定化器の忠実度を最大$n=8$ qubitsまでシミュレートすることができる。
さらに,解離の置換対称性などの対象量子状態の構造に対する事前知識を利用する新しいアルゴリズムを提案し,魔術状態と部分的に解離した量子状態のコピーに対して,我々の最先端の結果を数値的に示す。
一連のアルゴリズムは、RoMの計算をスケールアップするための包括的「ハンドブック」を構成しており、提案手法が他の量子リソースの計算にも適用可能であることを想定する。
The nonstabilizerness, or magic, is an essential quantum resource to perform universal quantum computation. Robustness of magic (RoM) in particular characterizes the degree of usefulness of a given quantum state for non-Clifford operation. While the mathematical formalism of RoM can be given in a concise manner, it is extremely challenging to determine the RoM in practice, since it involves superexponentially many pure stabilizer states. In this work, we present efficient novel algorithms to compute the RoM. The crucial technique is a subroutine that achieves the remarkable features in calculation of overlaps between pure stabilizer states: (i) the time complexity per each stabilizer is reduced exponentially, (ii) the space complexity is reduced superexponentially. Based on this subroutine, we present algorithms to compute the RoM for arbitrary states up to $n=7$ qubits on a laptop, while brute-force methods require a memory size of 86 TiB. As a byproduct, the proposed subroutine allows us to simulate the stabilizer fidelity up to $n=8$ qubits, for which naive methods require memory size of 86 PiB so that any state-of-the-art classical computer cannot execute the computation. We further propose novel algorithms that utilize the preknowledge on the structure of target quantum state such as the permutation symmetry of disentanglement, and numerically demonstrate our state-of-the-art results for copies of magic states and partially disentangled quantum states. The series of algorithms constitute a comprehensive ``handbook'' to scale up the computation of the RoM, and we envision that the proposed technique applies to the computation of other quantum resource measures as well. | 翻訳日:2024-08-14 23:14:44 公開日:2024-08-13 |
# GraNNDis: 大規模クラスタ上でのディープGNNのための効率的な統一分散トレーニングフレームワーク
GraNNDis: Efficient Unified Distributed Training Framework for Deep GNNs on Large Clusters ( http://arxiv.org/abs/2311.06837v2 ) ライセンス: Link先を確認 | Jaeyong Song, Hongsun Jang, Jaewon Jung, Youngsok Kim, Jinho Lee, | (参考訳) グラフニューラルネットワーク(GNN)は、ディープラーニングにおいて急速に成長している分野の1つである。
トレーニングスループットを向上させるために、多くの分散GNNトレーニングフレームワークが提案されているが、マルチサーバクラスタに適用すると、3つの制限に直面している。
1) サーバ間通信のボトルネックは,マルチサーバクラスタの代表的な特徴である,サーバ間/サーバ間帯域ギャップを考慮しないためである。
2) 冗長メモリの使用と計算は分散フレームワークのスケーラビリティを妨げる。
3)ミニバッチトレーニングにおける事実上の標準であるサンプリング手法は,マルチサーバクラスタで不要なエラーを発生させる。
マルチサーバクラスタの特性を活用することで,これらの制限に対処できることが判明した。
本稿では,マルチサーバクラスタのための高速分散GNNトレーニングフレームワークであるGraNNDisを提案する。
まず、サーバ間の低帯域幅通信を減らすために、本質的な頂点依存性をサーバ単位でプリロードするFlexible Preloadingを提案する。
第2に、高帯域幅のサーバ内通信を利用することで、メモリ効率が良く、冗長なミニバッチトレーニングを可能にするCooperative Batchingを導入する。
第3に,クラスタ対応サンプリング手法であるExpandsion-Aware Smplingを提案する。
サーバ内依存関係のサンプリングは、高速なサーバ内リンクを通じて通信されるため、スピードアップにはあまり寄与しないため、サンプリングされるサーバ境界のみを対象としている。
最後に,この手法をマルチサーバ環境で実現するための計算・通信構造であるOne-Hop Graph Maskingを紹介する。
マルチサーバクラスタ上でGraNNDisを評価し,最先端の分散GNNトレーニングフレームワークの大幅な高速化を実現した。
GraNNDisはhttps://github.com/AIS-SNU/GraNNDis_Artifactでオープンソース公開されている。
Graph neural networks (GNNs) are one of the rapidly growing fields within deep learning. While many distributed GNN training frameworks have been proposed to increase the training throughput, they face three limitations when applied to multi-server clusters. 1) They suffer from an inter-server communication bottleneck because they do not consider the inter-/intra-server bandwidth gap, a representative characteristic of multi-server clusters. 2) Redundant memory usage and computation hinder the scalability of the distributed frameworks. 3) Sampling methods, de facto standard in mini-batch training, incur unnecessary errors in multi-server clusters. We found that these limitations can be addressed by exploiting the characteristics of multi-server clusters. Here, we propose GraNNDis, a fast distributed GNN training framework for multi-server clusters. Firstly, we present Flexible Preloading, which preloads the essential vertex dependencies server-wise to reduce the low-bandwidth inter-server communications. Secondly, we introduce Cooperative Batching, which enables memory-efficient, less redundant mini-batch training by utilizing high-bandwidth intra-server communications. Thirdly, we propose Expansion-aware Sampling, a cluster-aware sampling method, which samples the edges that affect the system speedup. As sampling the intra-server dependencies does not contribute much to the speedup as they are communicated through fast intra-server links, it only targets a server boundary to be sampled. Lastly, we introduce One-Hop Graph Masking, a computation and communication structure to realize the above methods in multi-server environments. We evaluated GraNNDis on multi-server clusters, and it provided significant speedup over the state-of-the-art distributed GNN training frameworks. GraNNDis is open-sourced at https://github.com/AIS-SNU/GraNNDis_Artifact to facilitate its use. | 翻訳日:2024-08-14 23:14:44 公開日:2024-08-13 |
# 銀の弾丸は存在しない:予測的コンビニティブ最適化におけるベンチマーク手法
There is No Silver Bullet: Benchmarking Methods in Predictive Combinatorial Optimization ( http://arxiv.org/abs/2311.07633v3 ) ライセンス: Link先を確認 | Haoyu Geng, Hang Ruan, Runzhong Wang, Yang Li, Yang Wang, Lei Chen, Junchi Yan, | (参考訳) 予測的組合せ最適化(英: Predictive combinatorial optimization、CO)とは、エネルギーコストを意識したスケジューリングや広告予算の割り当てなど、現実の多くのアプリケーションの正確なモデリングである。
このような問題に対処するには、通常予測モデルとCOソルバが関係する。
これら2つのモジュールは,2つの設計原則に従って予測COパイプラインに統合される: ‘予測最適化(PtO)’; 教師付きトレーニングによって予測を学習し,その後予測係数を用いてCOを解く。
しかしながら、モジュールレベルでの設計選択を含む、両方のアプローチのシステマティックなベンチマークや、代表的な実世界のシナリオをカバーする評価データセットが欠落している。
そこで本研究では,既存のPtO/PnOメソッド11を8つの問題に対してベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
現在のアプローチの包括的な分類と典型的なシナリオの統合は、統一されたベンチマークの下で提供される。
したがって,本論文は今後のPnOアプローチ開発のための包括的なベンチマークとして機能し,アプリケーション中心の開発に高速なプロトタイピングを提供する。
Predictive combinatorial optimization, where the parameters of combinatorial optimization (CO) are unknown at the decision-making time, is the precise modeling of many real-world applications, including energy cost-aware scheduling and budget allocation on advertising. Tackling such a problem usually involves a prediction model and a CO solver. These two modules are integrated into the predictive CO pipeline following two design principles: ``Predict-then-Optimize (PtO)'', which learns predictions by supervised training and subsequently solves CO using predicted coefficients, while the other, named ``Predict-and-Optimize (PnO)'', directly optimizes towards the ultimate decision quality and claims to yield better decisions than traditional PtO approaches. However, there lacks a systematic benchmark of both approaches, including the specific design choices at the module level, as well as an evaluation dataset that covers representative real-world scenarios. To this end, we develop a modular framework to benchmark 11 existing PtO/PnO methods on 8 problems, including a new industrial dataset for combinatorial advertising that will be released. Our study shows that PnO approaches are better than PtO on 7 out of 8 benchmarks, but there is no silver bullet found for the specific design choices of PnO. A comprehensive categorization of current approaches and integration of typical scenarios are provided under a unified benchmark. Therefore, this paper could serve as a comprehensive benchmark for future PnO approach development and also offer fast prototyping for application-focused development. | 翻訳日:2024-08-14 23:14:44 公開日:2024-08-13 |
# LePaRD: 先行する判事の大規模データセット
LePaRD: A Large-Scale Dataset of Judges Citing Precedents ( http://arxiv.org/abs/2311.09356v2 ) ライセンス: Link先を確認 | Robert Mahari, Dominik Stammbach, Elliott Ash, Alex `Sandy' Pentland, | (参考訳) 法律パス検索検索データセット LePaRD について述べる。
LePaRD (LePaRD) は、アメリカ合衆国連邦裁判所の判例集である。
このデータセットは、法的手続き予測、挑戦的な実践指向の法的検索と推論タスクの作業を容易にすることを目的としている。
法的な通過予測は、法的議論の文脈から先例的な裁判所の決定から関連する通過を予測しようとする。
我々は,LePaRDにおける様々な検索手法を広く評価し,分類が最善であることを示す。
しかし、法的な先例予測は難しい課題であり、改善の余地は大きいことに留意する。
我々は、LePaRDを公開することで、法的な研究に伴う負担を軽減し、司法アクセスの拡大を約束する法的NLPタスクに他者が関与するよう促すことを願っている。
LePaRDデータセットのサブセットは無償で利用可能で、データセット全体が公開される。
We present the Legal Passage Retrieval Dataset LePaRD. LePaRD is a massive collection of U.S. federal judicial citations to precedent in context. The dataset aims to facilitate work on legal passage prediction, a challenging practice-oriented legal retrieval and reasoning task. Legal passage prediction seeks to predict relevant passages from precedential court decisions given the context of a legal argument. We extensively evaluate various retrieval approaches on LePaRD, and find that classification appears to work best. However, we note that legal precedent prediction is a difficult task, and there remains significant room for improvement. We hope that by publishing LePaRD, we will encourage others to engage with a legal NLP task that promises to help expand access to justice by reducing the burden associated with legal research. A subset of the LePaRD dataset is freely available and the whole dataset will be released upon publication. | 翻訳日:2024-08-14 23:14:44 公開日:2024-08-13 |
# 女性は美しい、男性はリーダーである:機械翻訳と言語モデリングにおけるジェンダーステレオタイプ
Women Are Beautiful, Men Are Leaders: Gender Stereotypes in Machine Translation and Language Modeling ( http://arxiv.org/abs/2311.18711v2 ) ライセンス: Link先を確認 | Matúš Pikuliak, Andrea Hrckova, Stefan Oresko, Marián Šimko, | (参考訳) マスク付きLMと英語-to-X機械翻訳システムにおいて,ジェンダーステレオタイプ推論を計測するための新しいデータセットであるGESTを提案する。
GESTには、9つのスラヴ語と英語で男女16のステレオタイプに対応するサンプルが含まれている(例:女性は美しい、男性はリーダー)。
以上のステレオタイプの定義は、性別の専門家によって知らされた。
我々はGESTを用いて11個のマスク付きLMと4つの機械翻訳システムを評価した。
ほぼすべての評価されたモデルと言語において,かなりの量のステレオタイプ推論が発見された。
We present GEST -- a new dataset for measuring gender-stereotypical reasoning in masked LMs and English-to-X machine translation systems. GEST contains samples that are compatible with 9 Slavic languages and English for 16 gender stereotypes about men and women (e.g., Women are beautiful, Men are leaders). The definition of said stereotypes was informed by gender experts. We used GEST to evaluate 11 masked LMs and 4 machine translation systems. We discovered significant and consistent amounts of stereotypical reasoning in almost all the evaluated models and languages. | 翻訳日:2024-08-14 23:04:59 公開日:2024-08-13 |
# HeadGaS:3Dガウススプレイティングによるリアルタイムアニマタブルヘッドアバター
HeadGaS: Real-Time Animatable Head Avatars via 3D Gaussian Splatting ( http://arxiv.org/abs/2312.02902v2 ) ライセンス: Link先を確認 | Helisa Dhamo, Yinyu Nie, Arthur Moreau, Jifei Song, Richard Shaw, Yiren Zhou, Eduardo Pérez-Pellitero, | (参考訳) 3Dヘッドアニメーションは、ここ数年で大きな品質改善とランタイム改善を経験しており、特に差別化可能なレンダリングとニューラルラディアンスフィールドの進歩によって強化されている。
リアルタイムレンダリングは、現実世界のアプリケーションにとって非常に望ましい目標です。
本稿では,3次元ガウスプレート(3DGS)を用いた3次元頭部再構成とアニメーションのためのモデルであるHeadGaSを提案する。
本稿では,パラメトリックな頭部モデルから低次元パラメータと線形にブレンドして表現依存色と不透明値を求めることができる,学習可能な潜在特徴の基底で明示的な3DGS表現を拡張するハイブリッドモデルを提案する。
我々は,HeadGaSがリアルタイムのフレームレートを実現し,ベースラインを最大2dB超し,レンダリング速度をx10倍に向上させることを示した。
3D head animation has seen major quality and runtime improvements over the last few years, particularly empowered by the advances in differentiable rendering and neural radiance fields. Real-time rendering is a highly desirable goal for real-world applications. We propose HeadGaS, a model that uses 3D Gaussian Splats (3DGS) for 3D head reconstruction and animation. In this paper we introduce a hybrid model that extends the explicit 3DGS representation with a base of learnable latent features, which can be linearly blended with low-dimensional parameters from parametric head models to obtain expression-dependent color and opacity values. We demonstrate that HeadGaS delivers state-of-the-art results in real-time inference frame rates, surpassing baselines by up to 2dB, while accelerating rendering speed by over x10. | 翻訳日:2024-08-14 23:04:59 公開日:2024-08-13 |
# 表面の認識と周期的整合性を考慮した自己監督型3次元シーンフローの規則化
Regularizing Self-supervised 3D Scene Flows with Surface Awareness and Cyclic Consistency ( http://arxiv.org/abs/2312.08879v3 ) ライセンス: Link先を確認 | Patrik Vacek, David Hurych, Karel Zimmermann, Patrick Perez, Tomas Svoboda, | (参考訳) ポイントクラウドからの3Dシーンフローの予測方法を監督せずに学習することは、多くの知覚システムにとって不可欠である。
本稿では,必要な正規化を改善するための新しい学習フレームワークを提案する。
シーン要素がほとんど剛性であるという仮定に基づいて、現在の滑らかさの損失は入力点雲における「厳密なクラスタ」の定義に基づいて構築される。
これらのクラスタの定義は困難であり、予測されるフローの品質に大きな影響を与える。
2つの新たな一貫性損失を導入し、クラスタを拡大し、異なるオブジェクトに分散するのを防ぐ。
特に,空間的近接性に加えて表面配向の類似性も考慮し,前向きの周期的損失と<emph{spatial}の整合性を適用した。
提案した損失はモデルに依存しないため、2つの最も広く使用されているアーキテクチャで示されるように、既存のモデルの性能を大幅に向上させるためにプラグイン・アンド・プレイ方式で使用できる。
また,4つの標準センサティック駆動データセット上でのフレームワークの有効性と一般化能力を示すとともに,3次元シーンフロー推定における最先端性能を実現する。
私たちのコードはhttps://github.com/ctu-vras/sac-flow.comで公開されています。
Learning without supervision how to predict 3D scene flows from point clouds is essential to many perception systems. We propose a novel learning framework for this task which improves the necessary regularization. Relying on the assumption that scene elements are mostly rigid, current smoothness losses are built on the definition of "rigid clusters" in the input point clouds. The definition of these clusters is challenging and has a significant impact on the quality of predicted flows. We introduce two new consistency losses that enlarge clusters while preventing them from spreading over distinct objects. In particular, we enforce \emph{temporal} consistency with a forward-backward cyclic loss and \emph{spatial} consistency by considering surface orientation similarity in addition to spatial proximity. The proposed losses are model-independent and can thus be used in a plug-and-play fashion to significantly improve the performance of existing models, as demonstrated on two most widely used architectures. We also showcase the effectiveness and generalization capability of our framework on four standard sensor-unique driving datasets, achieving state-of-the-art performance in 3D scene flow estimation. Our codes are available on https://github.com/ctu-vras/sac-flow. | 翻訳日:2024-08-14 23:04:59 公開日:2024-08-13 |
# 物理インフォームドニューラルネットワーク重力モデル(III)
The Physics-Informed Neural Network Gravity Model: Generation III ( http://arxiv.org/abs/2312.10257v2 ) ライセンス: Link先を確認 | John Martin, Hanspeter Schaub, | (参考訳) 科学機械学習と物理情報ニューラルネットワーク(PINN)の出現は、複雑な微分方程式を解く能力において高い可能性を示している。
例えば、重力場モデリングの問題を解決するためにPINNを使うこと -- 位置と加速度データから重力ポテンシャルの便利な表現を学ぶこと -- がある。
これらのPINN重力モデル(PINN-GM)は、一般的な代替モデルと比較して、モデルコンパクト性、ノイズに対する頑健性、サンプル効率の利点を実証しているが、さらにこの原稿が目指す他の機械学習重力モデルに対する様々な障害モードが明らかにされている。
具体的には,第3世代物理インフォームドニューラルネットワーク重力モデル (PINN-GM-III) を提案する。
過去の落とし穴を明らかにするために6つの評価指標が提案され、PINN-GM-IIIの堅牢性を示す。
本研究は、不均一密度小惑星上でのPINN-GM-IIIモデリング精度を評価し、その性能を他の解析的および機械学習重力モデルと比較することによって結論付ける。
Scientific machine learning and the advent of the Physics-Informed Neural Network (PINN) have shown high potential in their ability to solve complex differential equations. One example is the use of PINNs to solve the gravity field modeling problem -- learning convenient representations of the gravitational potential from position and acceleration data. These PINN gravity models, or PINN-GMs, have demonstrated advantages in model compactness, robustness to noise, and sample efficiency when compared to popular alternatives; however, further investigation has revealed various failure modes for these and other machine learning gravity models which this manuscript aims to address. Specifically, this paper introduces the third generation Physics-Informed Neural Network Gravity Model (PINN-GM-III) which includes design changes that solve the problems of feature divergence, bias towards low-altitude samples, numerical instability, and extrapolation error. Six evaluation metrics are proposed to expose these past pitfalls and illustrate the PINN-GM-III's robustness to them. This study concludes by evaluating the PINN-GM-III modeling accuracy on a heterogeneous density asteroid, and comparing its performance to other analytic and machine learning gravity models. | 翻訳日:2024-08-14 23:04:59 公開日:2024-08-13 |
# VolumeDiffusion: 効率的なボリュームエンコーダを用いたフレキシブルテキスト・ツー・3D生成
VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder ( http://arxiv.org/abs/2312.11459v3 ) ライセンス: Link先を確認 | Zhicong Tang, Shuyang Gu, Chunyu Wang, Ting Zhang, Jianmin Bao, Dong Chen, Baining Guo, | (参考訳) 本稿では,テキストから3D生成のための3次元ボリュームエンコーダを提案する。
拡散モデルのトレーニングデータをスケールアップするために,マルチビュー画像から特徴量の効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
本研究では,不正確なオブジェクトキャプションと高次元特徴ボリュームの課題をさらに解決する。
提案したモデルは、公開Objaverseデータセットに基づいてトレーニングされ、テキストプロンプトから多様で認識可能なサンプルを生成するという有望な結果を示す。
特に、テキストの手がかりを通じてオブジェクトの部分の特徴をより細かく制御し、1つのオブジェクトに複数の概念をシームレスに組み合わせることで、モデルの創造性を育む。
本研究は, 効率的でフレキシブルでスケーラブルな表現手法を導入することで, 3次元生成の進展に大きく貢献する。
This paper introduces a pioneering 3D volumetric encoder designed for text-to-3D generation. To scale up the training data for the diffusion model, a lightweight network is developed to efficiently acquire feature volumes from multi-view images. The 3D volumes are then trained on a diffusion model for text-to-3D generation using a 3D U-Net. This research further addresses the challenges of inaccurate object captions and high-dimensional feature volumes. The proposed model, trained on the public Objaverse dataset, demonstrates promising outcomes in producing diverse and recognizable samples from text prompts. Notably, it empowers finer control over object part characteristics through textual cues, fostering model creativity by seamlessly combining multiple concepts within a single object. This research significantly contributes to the progress of 3D generation by introducing an efficient, flexible, and scalable representation methodology. | 翻訳日:2024-08-14 23:04:59 公開日:2024-08-13 |
# RealGen: 制御可能なトラフィックシナリオのための検索拡張生成
RealGen: Retrieval Augmented Generation for Controllable Traffic Scenarios ( http://arxiv.org/abs/2312.13303v2 ) ライセンス: Link先を確認 | Wenhao Ding, Yulong Cao, Ding Zhao, Chaowei Xiao, Marco Pavone, | (参考訳) シミュレーションは、現実世界のテストに関連する潜在的なリスクのために、自動運転車(AV)の開発において重要な役割を果たす。
シミュレータの視覚面では大きな進歩があったが、エージェント間の複雑な振る舞いを生成することは、依然として非常に難しい課題である。
シナリオ生成における現実性を保証することが必須であるだけでなく、AVトレーニングと評価のための制御可能な生成を容易にするために、嗜好と条件を取り入れることも不可欠である。
トレーニングデータセットの分布を覚えることに主に依存する従来の手法は、目に見えないシナリオを生成するのに不足することが多い。
大規模言語モデルにおける検索拡張生成の成功に触発されて,交通シナリオ生成のための新しい検索ベースのインコンテキスト学習フレームワークであるRealGenを提案する。
RealGenは、テンプレートやタグ付けされたシナリオから派生した、勾配のない方法で、複数の検索された例の振る舞いを組み合わせることで、新しいシナリオを合成する。
このコンテキスト内学習フレームワークは、シナリオの編集、さまざまな振る舞いの作成、重要なシナリオの生成など、多種多様な生成機能を提供する。
評価によると、RealGenは、制御可能なトラフィックシナリオ生成の分野における新しい方向性を示す、かなりの柔軟性と制御性を提供する。
詳しくはプロジェクトのWebサイトをご覧ください。
Simulation plays a crucial role in the development of autonomous vehicles (AVs) due to the potential risks associated with real-world testing. Although significant progress has been made in the visual aspects of simulators, generating complex behavior among agents remains a formidable challenge. It is not only imperative to ensure realism in the scenarios generated but also essential to incorporate preferences and conditions to facilitate controllable generation for AV training and evaluation. Traditional methods, mainly relying on memorizing the distribution of training datasets, often fall short in generating unseen scenarios. Inspired by the success of retrieval augmented generation in large language models, we present RealGen, a novel retrieval-based in-context learning framework for traffic scenario generation. RealGen synthesizes new scenarios by combining behaviors from multiple retrieved examples in a gradient-free way, which may originate from templates or tagged scenarios. This in-context learning framework endows versatile generative capabilities, including the ability to edit scenarios, compose various behaviors, and produce critical scenarios. Evaluations show that RealGen offers considerable flexibility and controllability, marking a new direction in the field of controllable traffic scenario generation. Check our project website for more information: https://realgen.github.io. | 翻訳日:2024-08-14 23:04:59 公開日:2024-08-13 |
# TraceFL: ニューロンによるフェデレーション学習における解釈可能性の実現
TraceFL: Achieving Interpretability in Federated Learning via Neuron Provenance ( http://arxiv.org/abs/2312.13632v2 ) ライセンス: Link先を確認 | Waris Gill, Ali Anwar, Muhammad Ali Gulzar, | (参考訳) Federated Learningでは、クライアントはローカルデータ上でモデルをトレーニングし、中央サーバにアップデートを送信する。
このコラボレーティブでプライバシ保護のトレーニングには、コストがかかる — FL開発者は、特定のクライアントにグローバルモデル予測を提供する上で、重大な課題に直面しています。
責任あるクライアントのローカライズは重要なステップだ
(a)主に誤予測の責任を負う顧客を除外すること
(b)高品質なモデルに貢献した顧客に対して、今後も参加を奨励する。
既存のML説明可能性アプローチは、単一のモデル、集中型トレーニング用に設計されているため、本質的に適用不可能である。
TraceFLは、個々のクライアントからグローバルモデルへの情報の流れを追跡することで、グローバルモデルの予測に責任を持つクライアントを識別する、きめ細かいニューロンのプロファイランスキャプチャー機構である。
異なる入力に対する推論がグローバルモデルの異なるニューロンセットを活性化するため、TraceFLは与えられた予測でグローバルモデルのニューロンの意義を動的に定量化する。
その後、グローバルモデルにおいて最も重要なニューロンのスライスを選択的に選択し、各クライアントの対応するニューロンにマッピングして、それぞれのクライアントのコントリビューションを決定し、最終的に責任のあるクライアントをローカライズする。
我々は、現実世界の医療画像データセット2つと、GPTなどの先進モデルを含む4つのニューラルネットワークを含む6つのデータセット上でTraceFLを評価した。
TraceFLは、画像とテキストの分類タスクにまたがるFLタスクにおいて、責任あるクライアントのローカライズにおいて99%の精度を達成する。
最先端のMLデバッグアプローチがほとんどドメイン固有(画像分類のみ)である場合、TraceFLは幅広いFLアプリケーションにわたって高精度な自動推論を可能にする最初の技術である。
In Federated Learning, clients train models on local data and send updates to a central server, which aggregates them into a global model using a fusion algorithm. This collaborative yet privacy-preserving training comes at a cost--FL developers face significant challenges in attributing global model predictions to specific clients. Localizing responsible clients is a crucial step towards (a) excluding clients primarily responsible for incorrect predictions and (b) encouraging clients who contributed high-quality models to continue participating in the future. Existing ML explainability approaches are inherently inapplicable as they are designed for single-model, centralized training. We introduce TraceFL, a fine-grained neuron provenance capturing mechanism that identifies clients responsible for the global model's prediction by tracking the flow of information from individual clients to the global model. Since inference on different inputs activates a different set of neurons of the global model, TraceFL dynamically quantifies the significance of the global model's neurons in a given prediction. It then selectively picks a slice of the most crucial neurons in the global model and maps them to the corresponding neurons in every participating client to determine each client's contribution, ultimately localizing the responsible client. We evaluate TraceFL on six datasets, including two real-world medical imaging datasets and four neural networks, including advanced models such as GPT. TraceFL achieves 99% accuracy in localizing the responsible client in FL tasks spanning both image and text classification tasks. At a time when state-of-the-art ML debugging approaches are mostly domain-specific (e.g., image classification only), TraceFL is the first technique to enable highly accurate automated reasoning across a wide range of FL applications. | 翻訳日:2024-08-14 23:04:59 公開日:2024-08-13 |
# 空間課題に対するChatGPT-4, Gemini, Claude-3, Copilotの精度比較
Correctness Comparison of ChatGPT-4, Gemini, Claude-3, and Copilot for Spatial Tasks ( http://arxiv.org/abs/2401.02404v4 ) ライセンス: Link先を確認 | Hartwig H. Hochmair, Levente Juhasz, Takoda Kemp, | (参考訳) 大規模言語モデル(LLM)を含む生成AIは、最近、プログラミング、算術的推論、サンプルデータの生成、時系列予測、トポニム認識、画像分類などの汎用的なタスク解決機能を通じて、地球科学コミュニティにおいて大きな関心を集めている。
空間的タスクに対するLLMの性能評価のほとんどはChatGPTに重点を置いているが、他のチャットボットはあまり注目されていない。
この研究ギャップを狭めるために,ChatGPT-4,Gemini,Claude-3,Copilotという4つのチャットボットに割り当てられた7つのタスクカテゴリの76の空間タスクに対して,ゼロショットの正当性評価を行う。
チャットボットは一般に、空間リテラシー、GIS理論、プログラミングコードと関数の解釈に関連するタスクでうまく機能したが、マッピング、コード記述、空間推論の弱点が明らかになった。
さらに、4つのチャットボット間で結果の正しさに有意な差が認められた。
各チャットボットに割り当てられた繰り返しタスクからの応答は、4つのチャットボットのほとんどのタスクカテゴリに対して80%以上の一致率で応答の一貫性を示した。
Generative AI including large language models (LLMs) has recently gained significant interest in the geo-science community through its versatile task-solving capabilities including programming, arithmetic reasoning, generation of sample data, time-series forecasting, toponym recognition, or image classification. Most existing performance assessments of LLMs for spatial tasks have primarily focused on ChatGPT, whereas other chatbots received less attention. To narrow this research gap, this study conducts a zero-shot correctness evaluation for a set of 76 spatial tasks across seven task categories assigned to four prominent chatbots, i.e., ChatGPT-4, Gemini, Claude-3, and Copilot. The chatbots generally performed well on tasks related to spatial literacy, GIS theory, and interpretation of programming code and functions, but revealed weaknesses in mapping, code writing, and spatial reasoning. Furthermore, there was a significant difference in correctness of results between the four chatbots. Responses from repeated tasks assigned to each chatbot showed a high level of consistency in responses with matching rates of over 80% for most task categories in the four chatbots. | 翻訳日:2024-08-14 23:04:59 公開日:2024-08-13 |
# LLMエージェントのリクルートへの応用:リソームスクリーニングのための新しいフレームワーク
Application of LLM Agents in Recruitment: A Novel Framework for Resume Screening ( http://arxiv.org/abs/2401.08315v2 ) ライセンス: Link先を確認 | Chengguang Gan, Qinghao Zhang, Tatsunori Mori, | (参考訳) 再選審査の自動化は、組織における採用プロセスの重要な側面である。
自動再試行システムは、自然言語処理(NLP)タスクを多用することが多い。
本稿では,Large Language Models (LLM) をベースとしたエージェントフレームワークを提案する。
我々のフレームワークは、大規模なデータセットから各履歴を効率的に要約し、評価する能力において、異なる。
さらに、LCMエージェントを用いて意思決定を行う。
フレームワークを評価するために,実際の履歴書からデータセットを構築し,履歴書のスクリーニングプロセスをシミュレートした。
その後,シミュレーション実験の結果を比較し,詳細な分析を行った。
その結果,自動再試行フレームワークは従来の手作業よりも11倍高速であることがわかった。
さらに, LLM の微調整により, F1 スコアは87.73 % に向上した。
GPT-3.5モデルのベースライン性能を上回った。
最終提案段階におけるLLMエージェントの意思決定効果の分析は、再試行過程の転換におけるLLMエージェントの可能性をさらに強調する。
The automation of resume screening is a crucial aspect of the recruitment process in organizations. Automated resume screening systems often encompass a range of natural language processing (NLP) tasks. This paper introduces a novel Large Language Models (LLMs) based agent framework for resume screening, aimed at enhancing efficiency and time management in recruitment processes. Our framework is distinct in its ability to efficiently summarize and grade each resume from a large dataset. Moreover, it utilizes LLM agents for decision-making. To evaluate our framework, we constructed a dataset from actual resumes and simulated a resume screening process. Subsequently, the outcomes of the simulation experiment were compared and subjected to detailed analysis. The results demonstrate that our automated resume screening framework is 11 times faster than traditional manual methods. Furthermore, by fine-tuning the LLMs, we observed a significant improvement in the F1 score, reaching 87.73\%, during the resume sentence classification phase. In the resume summarization and grading phase, our fine-tuned model surpassed the baseline performance of the GPT-3.5 model. Analysis of the decision-making efficacy of the LLM agents in the final offer stage further underscores the potential of LLM agents in transforming resume screening processes. | 翻訳日:2024-08-14 23:04:59 公開日:2024-08-13 |
# DA-BEV:鳥の視線知覚のための教師なしドメイン適応
DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception ( http://arxiv.org/abs/2401.08687v2 ) ライセンス: Link先を確認 | Kai Jiang, Jiaxing Huang, Weiying Xie, Yunsong Li, Ling Shao, Shijian Lu, | (参考訳) カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
しかし、既存のほとんどの研究は、様々な新しいデータを扱う間、うまくスケールできない教師付き設定の下で行われた。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
本研究では、画像ビュー機能とBEV機能の相補的な性質を活用することで、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラ専用BEVフレームワークであるDA-BEVを設計する。
DA-BEVは、画像ビューとBEVの機能から有用な情報を引き出すために、ドメイン適応フレームワークにクエリというアイデアを導入している。
クエリベースの2つの設計、すなわちクエリベースの逆学習(QAL)とクエリベースの自己学習(QST)で構成される。
DA-BEVは、複数のデータセットや3Dオブジェクト検出や3Dシーンセグメンテーションといったタスクにおいて、優れたドメイン適応型BEV知覚性能を実現する。
Camera-only Bird's Eye View (BEV) has demonstrated great potential in environment perception in a 3D space. However, most existing studies were conducted under a supervised setup which cannot scale well while handling various new data. Unsupervised domain adaptive BEV, which effective learning from various unlabelled target data, is far under-explored. In this work, we design DA-BEV, the first domain adaptive camera-only BEV framework that addresses domain adaptive BEV challenges by exploiting the complementary nature of image-view features and BEV features. DA-BEV introduces the idea of query into the domain adaptation framework to derive useful information from image-view and BEV features. It consists of two query-based designs, namely, query-based adversarial learning (QAL) and query-based self-training (QST), which exploits image-view features or BEV features to regularize the adaptation of the other. Extensive experiments show that DA-BEV achieves superior domain adaptive BEV perception performance consistently across multiple datasets and tasks such as 3D object detection and 3D scene segmentation. | 翻訳日:2024-08-14 23:04:59 公開日:2024-08-13 |
# スパイニーパブリングを用いた古典空間と量子空間のトレードオフ
Trade-offs between classical and quantum space using spooky pebbling ( http://arxiv.org/abs/2401.10579v2 ) ライセンス: Link先を確認 | Arend-Jan Quist, Alfons Laarman, | (参考訳) Pebbleゲームは、空間/時間のトレードオフを研究するために使用されます。
近年,量子コンピュータ上での古典的回路シミュレーションのための古典的空間/量子空間/時間的トレードオフを研究するために,スポーキーな小石ゲームが導入された。
本稿では,一般的な回路に対して,スポーキーな小石ゲームフレームワークを初めて適用する。
この枠組みを用いることで、スパーキー小石ゲームにおける量子空間の上限を証明できる。
また,この不気味な小石ゲームはPSPACE完全であることが証明された。
さらに,ヒューリスティックオプティマイザと組み合わされた満足度解決器をベースとした,スポーキーな小石ゲームのための解法を提案する。
最適古典空間 / 量子空間 / 時間トレードオフを計算し, 経験的評価を行った。
制限されたランタイム内では、古典的な空間を考慮すると量子空間を減らす戦略を見つけることができ、スポーキー小石モデルが量子空間を減らすのに有用であることを示す。
Pebble games are used to study space/time trade-offs. Recently, spooky pebble games were introduced to study classical space / quantum space / time trade-offs for simulation of classical circuits on quantum computers. In this paper, the spooky pebble game framework is applied for the first time to general circuits. Using this framework we prove an upper bound for quantum space in the spooky pebble game. We also prove that solving the spooky pebble game is PSPACE-complete. Moreover, we present a solver for the spooky pebble game based on satisfiability solvers combined with heuristic optimizers. This spooky pebble game solver was empirically evaluated by calculating optimal classical space / quantum space / time trade-offs. Within limited runtime, the solver could find a strategy reducing quantum space when classical space is taken into account, showing that the spooky pebble model is useful to reduce quantum space. | 翻訳日:2024-08-14 23:04:59 公開日:2024-08-13 |
# 説明可能な機械学習におけるSHAPスコアの分布不確かさ
The Distributional Uncertainty of the SHAP score in Explainable Machine Learning ( http://arxiv.org/abs/2401.12731v4 ) ライセンス: Link先を確認 | Santiago Cifuentes, Leopoldo Bertossi, Nina Pardal, Sergio Abriola, Maria Vanina Martinez, Miguel Romero, | (参考訳) 属性スコアは、入力エンティティにおける特徴値が機械学習モデルの出力にどれほど重要であるかを反映する。
最も人気のある属性スコアの1つはSHAPスコアであり、これは連立ゲーム理論で使われる一般的なシェープリー値のインスタンス化である。
このスコアの定義は、実体人口の確率分布に依存する。
正確な分布は一般に不明であるため、主観的に割り振るか、データから推定する必要がある。
本稿では,未知の実体集団分布下でのSHAPスコアの推論の原理的枠組みを提案する。
本フレームワークでは,潜在的な分布を含む不確実性領域を考察し,特徴量のSHAPスコアをこの領域上で定義した関数とする。
我々は,この関数の最大値と最小値を求める基本的な問題について検討し,すべての特徴のSHAPスコアに対して厳密な範囲を決定できることを示した。
特に、これらの問題と他の関連する問題の複雑さを指摘し、NP完全であることを示す。
最後に、実世界のデータセットで実験を行い、我々のフレームワークがより堅牢な機能スコアリングに寄与することを示した。
Attribution scores reflect how important the feature values in an input entity are for the output of a machine learning model. One of the most popular attribution scores is the SHAP score, which is an instantiation of the general Shapley value used in coalition game theory. The definition of this score relies on a probability distribution on the entity population. Since the exact distribution is generally unknown, it needs to be assigned subjectively or be estimated from data, which may lead to misleading feature scores. In this paper, we propose a principled framework for reasoning on SHAP scores under unknown entity population distributions. In our framework, we consider an uncertainty region that contains the potential distributions, and the SHAP score of a feature becomes a function defined over this region. We study the basic problems of finding maxima and minima of this function, which allows us to determine tight ranges for the SHAP scores of all features. In particular, we pinpoint the complexity of these problems, and other related ones, showing them to be NP-complete. Finally, we present experiments on a real-world dataset, showing that our framework may contribute to a more robust feature scoring. | 翻訳日:2024-08-14 23:04:59 公開日:2024-08-13 |
# 非平衡開量子系におけるMpemba効果
Mpemba effects in nonequilibrium open quantum systems ( http://arxiv.org/abs/2401.14259v2 ) ライセンス: Link先を確認 | Xuanhua Wang, Jin Wang, | (参考訳) Mpemba効果はもともと、低温系よりも高温系の高速点火と呼ばれ、後に古典的および量子的観測可能な状態から平衡状態への異常崩壊に一般化された。
ムペンバ効果は主に古典的なシステムや平衡状態への冷却過程において考慮されている。
漸近平衡状態が存在しない非平衡量子系における効果の出現について検討する。
代わりに、システムは2つの異なる浴槽と接触し、周囲の熱浴からの一定のエネルギー注入によって維持される非平衡状態のみが存在する。
まず, 非平衡条件は, MPEが出現するパラメータ構造を劇的に拡大することができることを示す。
第2に, 2サイトフェルミオン系における量子相関の進化において, 異常なMPEと逆MPEが出現し, 非平衡条件がMPEを高速化あるいは遅らせることを示した。
第3に、非平衡誘起量子コヒーレンスが、従来のリンドブラディアン力学が捕捉できないMPPの出現にかなりの貢献をすることを示す。
The Mpemba effect was originally referred to as the faster icing of a higher-temperature system than a lower-temperature system, and was later generalized to anomalous decays of both classical and quantum observables to equilibrium states. Mpemba effect is mostly considered in classical systems and during cooling processes towards equilibrium states. We investigate the emergence of the effect in nonequilibrium quantum systems where the system has no asymptotic equilibrium state to approach. Instead, the system is put in contact with two different baths, and only a nonequilibrium state exists, sustained by constant energy injection from the surrounding thermal baths. Firstly, we show that the nonequilibrium conditions can dramatically enlarge the parameter regimes where the MPE emerges. Secondly, we demonstrate that the anomalous MPEs and inverse MPEs emerge in the evolution of quantum correlations in the two-site fermionic system and that nonequilibrium conditions can expedite or delay the MPEs. Thirdly, we show that the nonequilibrium-induced quantum coherence can have considerable contributions to the emergence of the MPE which the conventional Lindbladian dynamics fails to capture. | 翻訳日:2024-08-14 22:55:00 公開日:2024-08-13 |
# エッジデバイス上での冗長性を考慮した継続的学習
etuner: Redundancy-Aware Efficient Continual Learning on Edge Devices ( http://arxiv.org/abs/2401.16694v4 ) ライセンス: Link先を確認 | Sheng Li, Geng Yuan, Yawen Wu, Yue Dai, Tianyu Wang, Chao Wu, Alex K. Jones, Jingtong Hu, Yanzhi Wang, Xulong Tang, | (参考訳) ロボット支援の高齢者ケアやオブジェクト認識など、多くの新興アプリケーションでは、一般的にディープラーニングニューラルネットワーク(DNN)を採用し、エッジデバイスにDNNモデルをデプロイする必要がある。
これらの応用は自然に必要です
一 ストリーミングの推論要求の処理及び処理
二 デプロイ可能なシナリオの変更に対応するために、デプロイされたモデルを微調整すること。
継続的な学習(CL)はこれらのニーズを満たすために広く採用されている。
CLは、継続的モデルの微調整とオーバータイム推論の両方を処理できる人気のあるディープラーニングパラダイムである。
しかし、不適切なモデル微調整方式は、かなりの冗長性を伴い、かなりの時間とエネルギーを消費する可能性があるため、エッジデバイスにCLを適用することは困難である。
本稿では,推論精度,微調整実行時間,エネルギー効率を最適化する効率的なエッジ連続学習フレームワークであるETunerを提案する。
実験結果から,ETunerは全体の微調整実行時間を64%削減し,エネルギー消費量を56%削減し,即時モデル微調整アプローチよりも平均推定精度を1.75%向上した。
Many emerging applications, such as robot-assisted eldercare and object recognition, generally employ deep learning neural networks (DNNs) and require the deployment of DNN models on edge devices. These applications naturally require i) handling streaming-in inference requests and ii) fine-tuning the deployed models to adapt to possible deployment scenario changes. Continual learning (CL) is widely adopted to satisfy these needs. CL is a popular deep learning paradigm that handles both continuous model fine-tuning and overtime inference requests. However, an inappropriate model fine-tuning scheme could involve significant redundancy and consume considerable time and energy, making it challenging to apply CL on edge devices. In this paper, we propose ETuner, an efficient edge continual learning framework that optimizes inference accuracy, fine-tuning execution time, and energy efficiency through both inter-tuning and intra-tuning optimizations. Experimental results show that, on average, ETuner reduces overall fine-tuning execution time by 64%, energy consumption by 56%, and improves average inference accuracy by 1.75% over the immediate model fine-tuning approach. | 翻訳日:2024-08-14 22:55:00 公開日:2024-08-13 |
# 多変量時系列予測におけるチャネル依存性の再考:先行指標からの学習
Rethinking Channel Dependence for Multivariate Time Series Forecasting: Learning from Leading Indicators ( http://arxiv.org/abs/2401.17548v6 ) ライセンス: Link先を確認 | Lifan Zhao, Yanyan Shen, | (参考訳) 近年,多変量時系列(MTS)予測において,チャネル非依存の手法により最先端の性能が達成されている。
過度に適合するリスクを減らしたにもかかわらず、これらの手法は正確な予測のためにチャネル依存を利用する機会を逃している。
変数間では局所的に定常的な鉛-ラグ関係が存在する,すなわち,短時間で先頭の指標に従うようなラグ型変数が存在する,と我々は主張する。
先行指標は、ラベル付き変数の予測困難を軽減するために使用できる事前情報を提供するので、そのようなチャネル依存の爆発は有益である。
本稿では,まず,各段階における先行指標とその先行ステップを効率よく推定し,次に,先行指標からの先行情報を活用するためのLIFTという新しい手法を提案する。
LIFTは任意の時系列予測メソッドとシームレスに協調できるプラグインとして機能する。
6つの実世界のデータセットに対する大規模な実験により、LIFTは平均予測性能を5.5%改善することを示した。
私たちのコードはhttps://github.com/SJTU-Quant/LIFT.comで公開されています。
Recently, channel-independent methods have achieved state-of-the-art performance in multivariate time series (MTS) forecasting. Despite reducing overfitting risks, these methods miss potential opportunities in utilizing channel dependence for accurate predictions. We argue that there exist locally stationary lead-lag relationships between variates, i.e., some lagged variates may follow the leading indicators within a short time period. Exploiting such channel dependence is beneficial since leading indicators offer advance information that can be used to reduce the forecasting difficulty of the lagged variates. In this paper, we propose a new method named LIFT that first efficiently estimates leading indicators and their leading steps at each time step and then judiciously allows the lagged variates to utilize the advance information from leading indicators. LIFT plays as a plugin that can be seamlessly collaborated with arbitrary time series forecasting methods. Extensive experiments on six real-world datasets demonstrate that LIFT improves the state-of-the-art methods by 5.5% in average forecasting performance. Our code is available at https://github.com/SJTU-Quant/LIFT. | 翻訳日:2024-08-14 22:55:00 公開日:2024-08-13 |
# 電子カルテを用いた予測モデリングの最近の進歩
Recent Advances in Predictive Modeling with Electronic Health Records ( http://arxiv.org/abs/2402.01077v2 ) ライセンス: Link先を確認 | Jiaqi Wang, Junyu Luo, Muchao Ye, Xiaochen Wang, Yuan Zhong, Aofei Chang, Guanjie Huang, Ziyi Yin, Cao Xiao, Jimeng Sun, Fenglong Ma, | (参考訳) 電子健康記録(EHR)システムの開発により、大量のデジタル化された患者データを収集できるようになった。
しかし, 予測モデルにおけるEHRデータの利用は, その特徴からいくつかの課題を提起している。
機械学習技術の進歩により、深層学習は医療を含む様々な応用においてその優位性を示している。
本調査は,EHRデータを用いたディープラーニングに基づく予測モデルの最近の進歩を体系的にレビューする。
具体的には、EHRデータの背景を導入し、予測モデリングタスクの数学的定義を提供することから始める。
次に、複数の観点から予測的深層モデルを分類し、要約する。
さらに、医療における予測モデリングに関連するベンチマークやツールキットも提示する。
最後に,オープンな課題を議論し,今後の研究に期待できる方向性を提案することで,この調査を締めくくる。
The development of electronic health records (EHR) systems has enabled the collection of a vast amount of digitized patient data. However, utilizing EHR data for predictive modeling presents several challenges due to its unique characteristics. With the advancements in machine learning techniques, deep learning has demonstrated its superiority in various applications, including healthcare. This survey systematically reviews recent advances in deep learning-based predictive models using EHR data. Specifically, we begin by introducing the background of EHR data and providing a mathematical definition of the predictive modeling task. We then categorize and summarize predictive deep models from multiple perspectives. Furthermore, we present benchmarks and toolkits relevant to predictive modeling in healthcare. Finally, we conclude this survey by discussing open challenges and suggesting promising directions for future research. | 翻訳日:2024-08-14 22:55:00 公開日:2024-08-13 |
# PoisonedRAG: 大規模言語モデルの検索強化に対する知識破壊攻撃
PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models ( http://arxiv.org/abs/2402.07867v3 ) ライセンス: Link先を確認 | Wei Zou, Runpeng Geng, Binghui Wang, Jinyuan Jia, | (参考訳) 大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。
彼らの成功にもかかわらず、それらはまた、最新の知識と幻覚の欠如のような固有の制限も持っている。
Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。
RAGの鍵となる考え方は、知識データベースから取得した外部知識に基づいて、LCMの回答生成を行うことである。
既存の研究は主にRAGの正確さや効率の改善に重点を置いており、その安全性は明らかにされていない。
私たちはこの仕事のギャップを埋めることを目指しています。
RAGシステムにおける知識データベースは,新たな,実用的な攻撃面を導入している。
この攻撃面に基づいて、攻撃者はRAGシステムの知識データベースにいくつかの悪意のあるテキストを注入し、LSMを誘導して攻撃長ターゲット質問に対する攻撃長ターゲット応答を生成することができる、RAGに対する最初の知識汚職攻撃であるPoisonedRAGを提案する。
我々は、知識汚職攻撃を最適化問題として定式化し、その解決策は悪意のあるテキストの集合である。
RAGシステムにおける攻撃者の背景知識(例えば、ブラックボックスとホワイトボックスの設定)に応じて、最適化問題の解法を2つ提案する。
その結果,PoisonedRAGは,対象質問に対して悪意のある5つのテキストを数百万のテキストを含む知識データベースに注入することで,90%の攻撃成功率を達成することができた。
我々はまた、いくつかの防衛も評価し、新たな防衛の必要性を強調しながら、ポイセドラグを防衛するには不十分であることを示した。
Large language models (LLMs) have achieved remarkable success due to their exceptional generative capabilities. Despite their success, they also have inherent limitations such as a lack of up-to-date knowledge and hallucination. Retrieval-Augmented Generation (RAG) is a state-of-the-art technique to mitigate these limitations. The key idea of RAG is to ground the answer generation of an LLM on external knowledge retrieved from a knowledge database. Existing studies mainly focus on improving the accuracy or efficiency of RAG, leaving its security largely unexplored. We aim to bridge the gap in this work. We find that the knowledge database in a RAG system introduces a new and practical attack surface. Based on this attack surface, we propose PoisonedRAG, the first knowledge corruption attack to RAG, where an attacker could inject a few malicious texts into the knowledge database of a RAG system to induce an LLM to generate an attacker-chosen target answer for an attacker-chosen target question. We formulate knowledge corruption attacks as an optimization problem, whose solution is a set of malicious texts. Depending on the background knowledge (e.g., black-box and white-box settings) of an attacker on a RAG system, we propose two solutions to solve the optimization problem, respectively. Our results show PoisonedRAG could achieve a 90% attack success rate when injecting five malicious texts for each target question into a knowledge database with millions of texts. We also evaluate several defenses and our results show they are insufficient to defend against PoisonedRAG, highlighting the need for new defenses. | 翻訳日:2024-08-14 22:55:00 公開日:2024-08-13 |
# 継続的学習における対人ロバストさの維持
Maintaining Adversarial Robustness in Continuous Learning ( http://arxiv.org/abs/2402.11196v2 ) ライセンス: Link先を確認 | Xiaolei Ru, Xiaowei Cao, Zijia Liu, Jack Murdoch Moore, Xin-Ya Zhang, Xia Zhu, Wenjia Wei, Gang Yan, | (参考訳) 機械学習システムのセキュリティと信頼性には、敵の堅牢性が不可欠である。
しかし、防御アルゴリズムによって強化された敵の堅牢性は、ニューラルネットワークの重みが更新されて新しいタスクが学習されるため、容易に消去される。
この脆弱性に対処するためには、堅牢な連続学習の観点からニューラルネットワークの能力を改善することが不可欠である。
具体的には、重み更新に使用する前に、バックプロパゲーション勾配を重要な部分空間に直交的に投影することにより、従来のデータからのサンプル勾配を効果的に安定化する新しい勾配予測手法を提案する。
この技術は、サンプル勾配平滑化による防御アルゴリズムのクラスと協調することにより、堅牢性を維持することができる。
Split-CIFAR100 や Split-mini ImageNet などの4つのベンチマークによる実験結果から,強い対向攻撃に直面した場合でも連続学習における頑健性の急速な低下を緩和する手法の優位性が示された。
Adversarial robustness is essential for security and reliability of machine learning systems. However, adversarial robustness enhanced by defense algorithms is easily erased as the neural network's weights update to learn new tasks. To address this vulnerability, it is essential to improve the capability of neural networks in terms of robust continual learning. Specially, we propose a novel gradient projection technique that effectively stabilizes sample gradients from previous data by orthogonally projecting back-propagation gradients onto a crucial subspace before using them for weight updates. This technique can maintaining robustness by collaborating with a class of defense algorithms through sample gradient smoothing. The experimental results on four benchmarks including Split-CIFAR100 and Split-miniImageNet, demonstrate that the superiority of the proposed approach in mitigating rapidly degradation of robustness during continual learning even when facing strong adversarial attacks. | 翻訳日:2024-08-14 22:55:00 公開日:2024-08-13 |
# 偽装検出はより深くなるか? 偽装推論のためのデータセット, 評価, ベンチマーク
Can Deception Detection Go Deeper? Dataset, Evaluation, and Benchmark for Deception Reasoning ( http://arxiv.org/abs/2402.11432v3 ) ライセンス: Link先を確認 | Kang Chen, Zheng Lian, Haiyang Sun, Rui Liu, Jiangyan Yi, Bin Liu, Jianhua Tao, | (参考訳) 虚偽検出は、現実のシナリオにおける重要性から注目を集めている。
その主な目的は、ジェスチャー、表情、韻律など、マルチモーダルな手がかりから欺く行動を検出することである。
しかしながら、これらの基盤は通常主観的であり、個人の習慣に関係している。
そこで我々は, 虚偽検出を虚偽推論に拡張し, さらに主観的判断を支持する客観的な証拠を提供する。
具体的には、潜在的な嘘と基本的な事実を提供し、その背景にある事実の矛盾と意図を組み合わせることによって、この文が嘘である可能性がある理由を分析する。
偽造検出と比較すると、このタスクは現実世界のシナリオにもより適用可能である。
例えば、尋問においては、警察は確固たる証拠に基づいて嘘をついているかどうかを判断すべきである。
本稿では,データセットの構築や評価指標の定義など,この課題に対する最初の試みについて述べる。
一方、このタスクは、大規模言語モデルの複雑な推論能力を評価するためのベンチマークとして機能する。
私たちのコードとデータは補足資料で提供されます。
Deception detection has attracted increasing attention due to its importance in real-world scenarios. Its main goal is to detect deceptive behaviors from multimodal clues such as gestures, facial expressions, prosody, etc. However, these bases are usually subjective and related to personal habits. Therefore, we extend deception detection to deception reasoning, further providing objective evidence to support subjective judgment. Specifically, we provide potential lies and basic facts and then analyze why this sentence may be a lie by combining factual inconsistencies and intent behind them. Compared with deception detection, this task is more applicable to real-world scenarios. For example, in interrogation, the police should judge whether a person is lying based on solid evidence. This paper presents our initial attempts at this task, including constructing a dataset and defining evaluation metrics. Meanwhile, this task can serve as a benchmark for evaluating the complex reasoning capability of large language models. Our code and data are provided in the supplementary material. | 翻訳日:2024-08-14 22:55:00 公開日:2024-08-13 |
# NEO-BENCH: ニューロジズムを用いた大規模言語モデルのロバスト性評価
NEO-BENCH: Evaluating Robustness of Large Language Models with Neologisms ( http://arxiv.org/abs/2402.12261v4 ) ライセンス: Link先を確認 | Jonathan Zheng, Alan Ritter, Wei Xu, | (参考訳) 大規模言語モデル(LLM)の性能は、モデルトレーニングに使用されるデータと推論中に見られる新しいテキストの間の時間的ドリフトから低下する。
データドリフトを引き起こす言語変更の未調査の道の1つは、新しい言葉形式であるネオロジズムの出現である。
我々は、いくつかの一般的な収集手法を用いて、近年のイングランドのネオロジズムの多様な資源を創出する。
我々は,新語を含む文と,新語を代替語に置き換えるほぼ同一の文とを比較して,新語を用いた時間的ドリフトの分析を行った。
モデル性能は1つの新語が文中に導入されるとき、機械翻訳においてほぼ半減する。
これらの結果から,様々な自然言語理解タスクとモデルパープレキシティを備えた新語に一般化するLLMの能力を評価するためのベンチマークを構築した。
後続の知識カットオフのモデルでは、より難易度が低くなり、下流のタスクでより良く機能する。
LLMは単語の言語的起源にもとづいて異なる影響を受けており、静的LLMにはネオロジズムが複雑であることを示している。
実験を再現するためのベンチマークとコードをリリースします。
The performance of Large Language Models (LLMs) degrades from the temporal drift between data used for model training and newer text seen during inference. One understudied avenue of language change causing data drift is the emergence of neologisms -- new word forms -- over time. We create a diverse resource of recent English neologisms by using several popular collection methods. We analyze temporal drift using neologisms by comparing sentences containing new words with near-identical sentences that replace neologisms with existing substitute words. Model performance is nearly halved in machine translation when a single neologism is introduced in a sentence. Motivated by these results, we construct a benchmark to evaluate LLMs' ability to generalize to neologisms with various natural language understanding tasks and model perplexity. Models with later knowledge cutoff dates yield lower perplexities and perform better in downstream tasks. LLMs are also affected differently based on the linguistic origins of words, indicating that neologisms are complex for static LLMs to address. We will release our benchmark and code for reproducing our experiments. | 翻訳日:2024-08-14 22:55:00 公開日:2024-08-13 |
# 変圧器の経時変化による因果構造学習
How Transformers Learn Causal Structure with Gradient Descent ( http://arxiv.org/abs/2402.14735v2 ) ライセンス: Link先を確認 | Eshaan Nichani, Alex Damian, Jason D. Lee, | (参考訳) シーケンスモデリングタスクにおけるトランスフォーマーの驚くべき成功は、多くの場合、シーケンスの異なる部分間で情報を転送できる自己アテンションメカニズムに起因している。
自己注意により、トランスフォーマーは因果構造をエンコードすることができ、シーケンスモデリングに特に適している。
しかし、変圧器が勾配に基づく学習アルゴリズムによってそのような因果構造を学習する過程は、いまだに理解されていない。
このプロセスをよりよく理解するために、潜伏因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
簡易な2層変圧器の勾配勾配勾配は,第1の注意層に潜伏した因果グラフを符号化することにより,この問題を解くことができることを示す。
我々の証明の鍵となる洞察は、注目行列の勾配がトークン間の相互情報を符号化していることである。
データ処理の不等式の結果、この勾配の最大のエントリは、潜在因果グラフのエッジに対応する。
特別な場合として、文脈内マルコフ連鎖からシーケンスが生成されると、トランスフォーマーが誘導ヘッドを学ぶことが証明される(Olsson et al , 2022)。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示すことによって、理論的な知見を確認した。
The incredible success of transformers on sequence modeling tasks can be largely attributed to the self-attention mechanism, which allows information to be transferred between different parts of a sequence. Self-attention allows transformers to encode causal structure which makes them particularly suitable for sequence modeling. However, the process by which transformers learn such causal structure via gradient-based training algorithms remains poorly understood. To better understand this process, we introduce an in-context learning task that requires learning latent causal structure. We prove that gradient descent on a simplified two-layer transformer learns to solve this task by encoding the latent causal graph in the first attention layer. The key insight of our proof is that the gradient of the attention matrix encodes the mutual information between tokens. As a consequence of the data processing inequality, the largest entries of this gradient correspond to edges in the latent causal graph. As a special case, when the sequences are generated from in-context Markov chains, we prove that transformers learn an induction head (Olsson et al., 2022). We confirm our theoretical findings by showing that transformers trained on our in-context learning task are able to recover a wide variety of causal structures. | 翻訳日:2024-08-14 22:55:00 公開日:2024-08-13 |
# パラメータが小さい部分微分方程式に対する2次元ニューラルネットワーク
Two-scale Neural Networks for Partial Differential Equations with Small Parameters ( http://arxiv.org/abs/2402.17232v2 ) ライセンス: Link先を確認 | Qiao Zhuang, Chris Ziyi Yao, Zhongqiang Zhang, George Em Karniadakis, | (参考訳) 物理インフォームドニューラルネットワーク(PINN)を用いて,小さなパラメータで偏微分方程式(PDE)を解くための2次元ニューラルネットワーク手法を提案する。
ニューラルネットワークのアーキテクチャに小さなパラメータを直接組み込む。
提案手法は, トラルニケートパラメータの探索にフーリエ特徴を付加したり, 計算量に税を課すことなく, 簡単な方法でPDEを解くことができる。
様々な数値的な例は、小さなパラメータによって引き起こされる解における大きな微分の特徴を捉えるのに妥当な精度を示している。
We propose a two-scale neural network method for solving partial differential equations (PDEs) with small parameters using physics-informed neural networks (PINNs). We directly incorporate the small parameters into the architecture of neural networks. The proposed method enables solving PDEs with small parameters in a simple fashion, without adding Fourier features or other computationally taxing searches of truncation parameters. Various numerical examples demonstrate reasonable accuracy in capturing features of large derivatives in the solutions caused by small parameters. | 翻訳日:2024-08-14 22:55:00 公開日:2024-08-13 |
# PromptKD:ビジョンランゲージモデルのための教師なしプロンプト蒸留
PromptKD: Unsupervised Prompt Distillation for Vision-Language Models ( http://arxiv.org/abs/2403.02781v5 ) ライセンス: Link先を確認 | Zheng Li, Xiang Li, Xinyi Fu, Xin Zhang, Weiqiang Wang, Shuo Chen, Jian Yang, | (参考訳) プロンプト学習は、特定のドメインの下流タスクのためのCLIPのようなビジョン言語モデル(VLM)を強化する上で、貴重なテクニックとして登場した。
既存の研究は主に様々な学習形態のプロンプトを設計することに焦点を当てており、より大きな教師モデルから学ぶための効果的な蒸留器としてのプロンプトの可能性を無視している。
本稿では,大規模教師モデルの知識を,ラベルなしドメイン画像を用いた即時模倣により,軽量ターゲットモデルに伝達することを目的とした,教師なしドメインプロンプト蒸留フレームワークを提案する。
具体的には、我々のフレームワークは2つの異なる段階から構成される。
最初の段階では、ドメイン(フェーショット)ラベルを使用して大規模なCLIP教師モデルを事前訓練する。
事前学習後,教師のテキストエンコーダを通じてのみ,テキスト特徴をクラスベクトルとして事前計算し,保存することにより,CLIPの独特な分離モダリティ特性を活用する。
その後の段階では、記憶されたクラスベクトルを教師と生徒の画像エンコーダ間で共有し、予測ロジットを算出する。
さらに,教師モデルと生徒モデルの両方のロジットをKL発散により整列させ,学習可能なプロンプトを通じて教師に類似した確率分布を生成することを学生イメージエンコーダに促した。
提案した急速蒸留プロセスは,ラベル付きデータへの依存を排除し,ドメイン内の未ラベル画像の膨大な利用を可能にする。
最後に、よく訓練された学生画像エンコーダと事前記憶されたテキスト特徴(クラスベクトル)を推論に利用する。
われわれは,(1)教師なしドメイン特異的な知識蒸留をCLIPに対して実行し,(2)教師と学生間の共有クラスベクトルとしてテキスト特徴の実践的事前記憶機構を確立する。
11個のデータセットに対する大規模な実験により,本手法の有効性が示された。
Prompt learning has emerged as a valuable technique in enhancing vision-language models (VLMs) such as CLIP for downstream tasks in specific domains. Existing work mainly focuses on designing various learning forms of prompts, neglecting the potential of prompts as effective distillers for learning from larger teacher models. In this paper, we introduce an unsupervised domain prompt distillation framework, which aims to transfer the knowledge of a larger teacher model to a lightweight target model through prompt-driven imitation using unlabeled domain images. Specifically, our framework consists of two distinct stages. In the initial stage, we pre-train a large CLIP teacher model using domain (few-shot) labels. After pre-training, we leverage the unique decoupled-modality characteristics of CLIP by pre-computing and storing the text features as class vectors only once through the teacher text encoder. In the subsequent stage, the stored class vectors are shared across teacher and student image encoders for calculating the predicted logits. Further, we align the logits of both the teacher and student models via KL divergence, encouraging the student image encoder to generate similar probability distributions to the teacher through the learnable prompts. The proposed prompt distillation process eliminates the reliance on labeled data, enabling the algorithm to leverage a vast amount of unlabeled images within the domain. Finally, the well-trained student image encoders and pre-stored text features (class vectors) are utilized for inference. To our best knowledge, we are the first to (1) perform unsupervised domain-specific prompt-driven knowledge distillation for CLIP, and (2) establish a practical pre-storing mechanism of text features as shared class vectors between teacher and student. Extensive experiments on 11 datasets demonstrate the effectiveness of our method. | 翻訳日:2024-08-14 22:55:00 公開日:2024-08-13 |
# Refractive COLMAP: Refractive Structure-from-Motion Revisited
Refractive COLMAP: Refractive Structure-from-Motion Revisited ( http://arxiv.org/abs/2403.08640v3 ) ライセンス: Link先を確認 | Mengkun She, Felix Seegräber, David Nakath, Kevin Köser, | (参考訳) 本稿では, 屈折型カメラ装置を用いた水中3次元再構成のための完全屈折型構造移動(RSfM)フレームワークを提案する。
過去10年間の屈折率多視点幾何学の顕著な成果にもかかわらず、そのようなタスクに対する頑健で完全かつ一般公開された解は現時点では入手できず、しばしば実用的応用は、ピンホールカメラモデルの内在的(歪み)パラメータによる屈折率の近似に頼らざるを得ない。
このギャップを埋めるために、我々はSfMプロセス全体を通して、最先端のオープンソースのSfMフレームワークCOLMAPに統合した。
地上の真理を持つ合成生成光実写画像の数値シミュレーションと再構成結果から, 屈折を許容することは, 空気中の再構成に比べて精度や頑健さを損なうことはないことが確認された。
最後に,6000枚近い画像からなるデータセットを用いて,大規模屈折率シナリオに対するアプローチの有効性を示す。
実装は、https://cau-git.rz.uni-kiel.de/inf-ag-koeser/colmap_underwaterでオープンソースとしてリリースされた。
In this paper, we present a complete refractive Structure-from-Motion (RSfM) framework for underwater 3D reconstruction using refractive camera setups (for both, flat- and dome-port underwater housings). Despite notable achievements in refractive multi-view geometry over the past decade, a robust, complete and publicly available solution for such tasks is not available at present, and often practical applications have to resort to approximating refraction effects by the intrinsic (distortion) parameters of a pinhole camera model. To fill this gap, we have integrated refraction considerations throughout the entire SfM process within the state-of-the-art, open-source SfM framework COLMAP. Numerical simulations and reconstruction results on synthetically generated but photo-realistic images with ground truth validate that enabling refraction does not compromise accuracy or robustness as compared to in-air reconstructions. Finally, we demonstrate the capability of our approach for large-scale refractive scenarios using a dataset consisting of nearly 6000 images. The implementation is released as open-source at: https://cau-git.rz.uni-kiel.de/inf-ag-koeser/colmap_underwater. | 翻訳日:2024-08-14 22:45:05 公開日:2024-08-13 |
# 単フラッグシンドロームチェックを併用したSteane符号
Concatenated Steane code with single-flag syndrome checks ( http://arxiv.org/abs/2403.09978v3 ) ライセンス: Link先を確認 | Balint Pato, Theerapat Tansuwannont, Kenneth R. Brown, | (参考訳) 量子コンピュータの短期実装において,エラー抑制率とオーバーヘッドの低いFTECプロトコルが望ましい。
本研究では,[49,1,9]連結Steane符号のための距離保存フラグFTECプロトコルを開発した。
我々は,[Phys. A 104, 042410 (2021)] からウェイトパリティ誤り訂正(WPEC) 法を一般化し,2つのアンシラ量子ビットによるシンドローム抽出を可能にする連結ステアン符号のフラグ回路のゲート順序を求める。
FTECプロトコルは[PRX Quantum 5, 020336 (2024)]で開発されたFTECフラグの最適化ツールを用いて構築され、アイリングノイズのない回路レベルのノイズモデルでシミュレーションされる。
我々のシミュレーションでは、[[49,1,9]の連結されたSteane符号に対して1.64 \times 10^{-3}$の擬似閾値を与え、[[61,1,9]の6.6.6色符号に対して1.43 \times 10^{-3}$の擬似閾値よりも優れている。
これは[61,1,9]コードのパフォーマンスが向上するコードキャパシティモデルとは対照的である。
A fault-tolerant error correction (FTEC) protocol with a high error suppression rate and low overhead is very desirable for the near-term implementation of quantum computers. In this work, we develop a distance-preserving flag FTEC protocol for the [[49,1,9]] concatenated Steane code, which requires only two ancilla qubits per generator and can be implemented on a planar layout. We generalize the weight-parity error correction (WPEC) technique from [Phys. Rev. A 104, 042410 (2021)] and find a gate ordering of flag circuits for the concatenated Steane code which makes syndrome extraction with two ancilla qubits per generator possible. The FTEC protocol is constructed using the optimization tools for flag FTEC developed in [PRX Quantum 5, 020336 (2024)] and is simulated under the circuit-level noise model without idling noise. Our simulations give a pseudothreshold of $1.64 \times 10^{-3}$ for the [[49,1,9]] concatenated Steane code, which is better than a pseudothreshold of $1.43 \times 10^{-3}$ for the [[61,1,9]] 6.6.6 color code simulated under the same settings. This is in contrast to the code capacity model where the [[61,1,9]] code performs better. | 翻訳日:2024-08-14 22:45:05 公開日:2024-08-13 |
# 一次元における非中心相互作用を持つ量子粒子の定常特性に対する暗黒状態の影響
Impact of dark states on the stationary properties of quantum particles with off-centered interactions in one dimension ( http://arxiv.org/abs/2403.10078v2 ) ライセンス: Link先を確認 | G. Bougas, N. L. Harshman, P. Schmelcher, | (参考訳) 一次元に閉じ込められた非相対論的粒子に対する2体接触相互作用の一般化を提案する。
粒子は距離cが離れているときにのみ相互作用する。
相互作用長スケールと振動子長の競合は、エネルギースペクトルから同定される3つのレギュレーションをもたらす。
c が振動子長より小さい場合、粒子は互いに避けるが、逆の場合、束縛が発生する。
発振器長がcに匹敵する中間領域では、排除と束縛の両方が現れる。
これらの領域は全て、相互作用の影響を受けない暗黒状態、すなわちボゾン状態またはフェルミオン状態によって分離される。
We present a generalization of the two-body contact interaction for non-relativistic particles trapped in one dimension. The particles interact only when they are a distance c apart. The competition of the interaction length scale with the oscillator length leads to three regimes identified from the energy spectra. When c is less than the oscillator length, particles avoid each other, whereas in the opposite case bunching occurs. In the intermediate region where the oscillator length is comparable to c, both exclusion and bunching are manifested. All of these regions are separated by dark states, i.e. bosonic or fermionic states which are not affected by the interactions. | 翻訳日:2024-08-14 22:45:05 公開日:2024-08-13 |
# 全MDSおよびインボリュートリーMDS行列の構成
Construction of all MDS and involutory MDS matrices ( http://arxiv.org/abs/2403.10372v2 ) ライセンス: Link先を確認 | Yogesh Kumar, P. R. Mishra, Susanta Samanta, Kishan Chand Gupta, Atul Gaur, | (参考訳) 本稿では, 有限体 $\mathbb{F}_{p^m}$ 上のすべての$n\times n$ MDS と involutory MDS のハイブリッド構成のための2つのアルゴリズムを提案する。
提案アルゴリズムは探索空間を効果的に狭め、$(n-1) \times (n-1)$ MDS 行列を同定し、$n \times n$ MDS および $\mathbb{F}_{p^m}$ 上のインボリュートリー MDS 行列を生成する。
我々の知る限り、既存の文献は$n\times n$ MDS と $\mathbb{F}_{p^m}$ 上の不揮発性 MDS 行列を生成する方法が欠けている。
提案手法では,すべての$n\times n$ MDS および $\mathbb{F}_{p^m}$ 上のインボリュートな MDS 行列を生成するための代表行列形式を導入する。
これらの代表的MDS行列の決定は、$(n-1)$ MDS行列を$\mathbb{F}_{p^m}$で探索することを含む。
我々の貢献は、$\mathbb{F}_{2^m}$ 上の$$3\times 3$ MDS行列の数を正確に$(2^m-1)^5(2^m-2)(2^m-3)(2^{2m}-9\cdot 2^m+21)$ とする証明にまで拡張している。
さらに、$4\times 4$ MDS と involutory MDS matrices over $\mathbb{F}_{2^m}$ for $m=2, 3, 4$ を明示的に表す。
In this paper, we propose two algorithms for a hybrid construction of all $n\times n$ MDS and involutory MDS matrices over a finite field $\mathbb{F}_{p^m}$, respectively. The proposed algorithms effectively narrow down the search space to identify $(n-1) \times (n-1)$ MDS matrices, facilitating the generation of all $n \times n$ MDS and involutory MDS matrices over $\mathbb{F}_{p^m}$. To the best of our knowledge, existing literature lacks methods for generating all $n\times n$ MDS and involutory MDS matrices over $\mathbb{F}_{p^m}$. In our approach, we introduce a representative matrix form for generating all $n\times n$ MDS and involutory MDS matrices over $\mathbb{F}_{p^m}$. The determination of these representative MDS matrices involves searching through all $(n-1)\times (n-1)$ MDS matrices over $\mathbb{F}_{p^m}$. Our contributions extend to proving that the count of all $3\times 3$ MDS matrices over $\mathbb{F}_{2^m}$ is precisely $(2^m-1)^5(2^m-2)(2^m-3)(2^{2m}-9\cdot 2^m+21)$. Furthermore, we explicitly provide the count of all $4\times 4$ MDS and involutory MDS matrices over $\mathbb{F}_{2^m}$ for $m=2, 3, 4$. | 翻訳日:2024-08-14 22:45:05 公開日:2024-08-13 |
# 光深度センサを用いた近接場MIMOレーダの自動空間校正
Automatic Spatial Calibration of Near-Field MIMO Radar With Respect to Optical Depth Sensors ( http://arxiv.org/abs/2403.10981v2 ) ライセンス: Link先を確認 | Vanessa Wirth, Johanna Bräunig, Danti Khouri, Florian Gutsche, Martin Vossiek, Tim Weyrich, Marc Stamminger, | (参考訳) MIMOレーダーへの関心が高まりつつあるにもかかわらず、近接場における相互センサの校正による課題のため、光学深度センサと組み合わせた補完強度の利用は、これまでは遠距離場に限られてきた。
実際、自律産業におけるほとんどの関連するアプローチは、近距離場に不適であることが証明されたコーナーリフレクタを用いたターゲットベースキャリブレーション手法を提案する。
対照的に,光学RGB-DセンサとMIMOレーダの連接校正手法を提案する。
我々のパイプラインは、自動目標検出と位置決めが可能なベスポークキャリブレーションターゲットと、ターゲット登録による2つのセンサ座標系の空間キャリブレーションで構成される。
我々は光学領域から2つの異なる深度センシング技術を用いてアプローチを検証する。
実験により, 種々の目標変位に対する校正の効率と精度, 信号のあいまいさの観点からの局所化の頑健さが示された。
Despite an emerging interest in MIMO radar, the utilization of its complementary strengths in combination with optical depth sensors has so far been limited to far-field applications, due to the challenges that arise from mutual sensor calibration in the near field. In fact, most related approaches in the autonomous industry propose target-based calibration methods using corner reflectors that have proven to be unsuitable for the near field. In contrast, we propose a novel, joint calibration approach for optical RGB-D sensors and MIMO radars that is designed to operate in the radar's near-field range, within decimeters from the sensors. Our pipeline consists of a bespoke calibration target, allowing for automatic target detection and localization, followed by the spatial calibration of the two sensor coordinate systems through target registration. We validate our approach using two different depth sensing technologies from the optical domain. The experiments show the efficiency and accuracy of our calibration for various target displacements, as well as its robustness of our localization in terms of signal ambiguities. | 翻訳日:2024-08-14 22:45:05 公開日:2024-08-13 |
# プレトレーニング言語モデルとプロンプトを用いたFew-shot Learningを用いた低リソース言語の臨床情報抽出
Clinical information extraction for Low-resource languages with Few-shot learning using Pre-trained language models and Prompting ( http://arxiv.org/abs/2403.13369v2 ) ライセンス: Link先を確認 | Phillip Richter-Pechanski, Philipp Wiesenbach, Dominic M. Schwab, Christina Kiriakou, Nicolas Geis, Christoph Dieterich, Anette Frank, | (参考訳) 臨床文献から医療情報を自動抽出することは、必要な臨床専門知識のコスト、モデル予測の限定的な解釈可能性、制限された計算資源、プライバシー規制など、いくつかの課題を提起する。
近年のドメイン適応とプロンプト手法の進歩は、十分に確立された解釈可能性手法に適した軽量マスキング言語モデルを用いて、最小限のトレーニングデータで有望な結果を示した。
われわれはまず,これらの手法を低リソース環境で体系的に評価し,ドイツの医師の手紙を多クラスに分類する手法を提案する。
我々は、Shapley値に支えられた広範なクラスワイド評価を行い、小さなトレーニングデータセットの品質を検証し、モデル予測の解釈可能性を保証する。
軽量でドメイン適応型事前訓練モデルが20ショットでトリガーされ、従来の分類モデルを30.5%精度で上回っていることを実証する。
本研究は,低リソースで作業する臨床情報抽出プロジェクトのプロセス指向ガイドラインとして機能する。
Automatic extraction of medical information from clinical documents poses several challenges: high costs of required clinical expertise, limited interpretability of model predictions, restricted computational resources and privacy regulations. Recent advances in domain-adaptation and prompting methods showed promising results with minimal training data using lightweight masked language models, which are suited for well-established interpretability methods. We are first to present a systematic evaluation of these methods in a low-resource setting, by performing multi-class section classification on German doctor's letters. We conduct extensive class-wise evaluations supported by Shapley values, to validate the quality of our small training data set and to ensure the interpretability of model predictions. We demonstrate that a lightweight, domain-adapted pretrained model, prompted with just 20 shots, outperforms a traditional classification model by 30.5% accuracy. Our results serve as a process-oriented guideline for clinical information extraction projects working with low-resource. | 翻訳日:2024-08-14 22:45:05 公開日:2024-08-13 |
# 簡易拡散シュレーディンガー橋
Simplified Diffusion Schrödinger Bridge ( http://arxiv.org/abs/2403.14623v4 ) ライセンス: Link先を確認 | Zhicong Tang, Tiankai Hang, Shuyang Gu, Dong Chen, Baining Guo, | (参考訳) 本稿では、複雑なデータ生成におけるDSBの限界に対処し、より高速な収束と性能向上を実現するため、Score-based Generative Models (SGMs) との一体化を容易にするDiffusion Schr\"odinger Bridge (DSB) の新たな理論的単純化を提案する。
DSB の初期ソリューションとして SGM を採用することで,本手法は両フレームワークの長所を生かし,より効率的なトレーニングプロセスの確保と SGM の性能向上を実現している。
また、理論的近似にも拘わらず、ネットワークの適合性を実質的に改善するパラメータ化手法を提案する。
本研究は,DSBの簡易化の有効性を実験的に検証し,その大幅な改善を実証した。
この研究の貢献が、先進的な生成モデリングの道を開くと信じている。
This paper introduces a novel theoretical simplification of the Diffusion Schr\"odinger Bridge (DSB) that facilitates its unification with Score-based Generative Models (SGMs), addressing the limitations of DSB in complex data generation and enabling faster convergence and enhanced performance. By employing SGMs as an initial solution for DSB, our approach capitalizes on the strengths of both frameworks, ensuring a more efficient training process and improving the performance of SGM. We also propose a reparameterization technique that, despite theoretical approximations, practically improves the network's fitting capabilities. Our extensive experimental evaluations confirm the effectiveness of the simplified DSB, demonstrating its significant improvements. We believe the contributions of this work pave the way for advanced generative modeling. | 翻訳日:2024-08-14 22:45:05 公開日:2024-08-13 |
# AKBR:グラフ分類のための適応カーネルベース表現の学習
AKBR: Learning Adaptive Kernel-based Representations for Graph Classification ( http://arxiv.org/abs/2403.16130v2 ) ライセンス: Link先を確認 | Feifei Qian, Lixin Cui, Ming Li, Yue Wang, Hangyuan Du, Lixiang Xu, Lu Bai, Philip S. Yu, Edwin R. Hancock, | (参考訳) 本稿では,グラフ分類のための適応カーネルベース表現(AKBR)を学習するための新しいモデルを提案する。
グラフ間の一対の同型部分構造を単に数えるだけで定義される最先端のR-畳み込みグラフカーネルとは異なり、AKBRアプローチは、グラフの適応的なカーネル行列を構築するためのエンドツーエンドの表現学習モデルを定義することを目的としている。
この目的のために、我々は新しい特徴チャネルアテンション機構を活用して、原グラフの異なる部分構造不変量間の相互依存性を捉える。
提案したAKBRモデルは、異なるサブストラクチャの構造的重要性を効果的に識別し、それらの構造的注意によって指定されたより重要なサブストラクチャに関連付けられたペアワイズグラフ間のR-畳み込みカーネルを計算することができる。
得られたカーネル行列の各行は、理論上はサンプルグラフの埋め込みベクトルと見なすことができるので、提案されたAKBRモデルは、結果のカーネル行列をグラフ特徴行列として直接使用し、分類のための分類器(SoftMax層)に入力し、カーネル計算と分類器の間にエンド・ツー・エンドの学習アーキテクチャを提供する。
実験結果から,提案したAKBRモデルは,標準グラフベンチマークにおいて,既存の最先端グラフカーネルやディープラーニング手法よりも優れていることがわかった。
In this paper, we propose a new model to learn Adaptive Kernel-based Representations (AKBR) for graph classification. Unlike state-of-the-art R-convolution graph kernels that are defined by merely counting any pair of isomorphic substructures between graphs and cannot provide an end-to-end learning mechanism for the classifier, the proposed AKBR approach aims to define an end-to-end representation learning model to construct an adaptive kernel matrix for graphs. To this end, we commence by leveraging a novel feature-channel attention mechanism to capture the interdependencies between different substructure invariants of original graphs. The proposed AKBR model can thus effectively identify the structural importance of different substructures, and compute the R-convolution kernel between pairwise graphs associated with the more significant substructures specified by their structural attentions. Since each row of the resulting kernel matrix can be theoretically seen as the embedding vector of a sample graph, the proposed AKBR model is able to directly employ the resulting kernel matrix as the graph feature matrix and input it into the classifier for classification (i.e., the SoftMax layer), naturally providing an end-to-end learning architecture between the kernel computation as well as the classifier. Experimental results show that the proposed AKBR model outperforms existing state-of-the-art graph kernels and deep learning methods on standard graph benchmarks. | 翻訳日:2024-08-14 22:45:05 公開日:2024-08-13 |
# SSHPool: 分離したサブグラフベースの階層型プール
SSHPool: The Separated Subgraph-based Hierarchical Pooling ( http://arxiv.org/abs/2403.16133v2 ) ライセンス: Link先を確認 | Zhuo Xu, Lixin Cui, Ming Li, Yue Wang, Ziyu Lyu, Hangyuan Du, Lu Bai, Philip S. Yu, Edwin R. Hancock, | (参考訳) 本稿では,グラフ分類のための新しい局所グラフプーリング法,すなわち分離部分グラフに基づく階層プール法(SSHPool)を提案する。
サンプルグラフのノードを異なるクラスタに割り当てることで開始する。
局所グラフ畳み込み単位を局所構造として個別に使用し、各部分グラフをさらに粗いノードに圧縮し、元のグラフを粗いグラフに変換する。
これらのサブグラフは異なるクラスタで分離され、構造情報はそれらの間に伝播できないため、局所的な畳み込み操作は、既存のグラフニューラルネットワーク(GNN)のエッジを通過するメッセージによって生じる過度に平滑な問題を回避することができる。
提案手法を階層的に実行することにより,提案したSSHPoolは,豊富な固有構造特性をカプセル化して,元のグラフ構造の階層的大域的特徴を効果的に抽出することができる。
さらに、グラフ分類のためのSSHPoolモジュールに関連するエンドツーエンドのGNNフレームワークを開発する。
実験により,実世界のデータセット上でのモデルの有効性が示された。
In this paper, we develop a novel local graph pooling method, namely the Separated Subgraph-based Hierarchical Pooling (SSHPool), for graph classification. We commence by assigning the nodes of a sample graph into different clusters, resulting in a family of separated subgraphs. We individually employ the local graph convolution units as the local structure to further compress each subgraph into a coarsened node, transforming the original graph into a coarsened graph. Since these subgraphs are separated by different clusters and the structural information cannot be propagated between them, the local convolution operation can significantly avoid the over-smoothing problem caused by message passing through edges in most existing Graph Neural Networks (GNNs). By hierarchically performing the proposed procedures on the resulting coarsened graph, the proposed SSHPool can effectively extract the hierarchical global features of the original graph structure, encapsulating rich intrinsic structural characteristics. Furthermore, we develop an end-to-end GNN framework associated with the SSHPool module for graph classification. Experimental results demonstrate the superior performance of the proposed model on real-world datasets. | 翻訳日:2024-08-14 22:45:05 公開日:2024-08-13 |
# イベントカメラにおける高速・低速適応バイアスによる視覚的位置認識の強化
Enhancing Visual Place Recognition via Fast and Slow Adaptive Biasing in Event Cameras ( http://arxiv.org/abs/2403.16425v2 ) ライセンス: Link先を確認 | Gokul B. Nair, Michael Milford, Tobias Fischer, | (参考訳) イベントカメラは、低レイテンシ、エネルギー効率、高ダイナミックレンジといった有益な特徴のために、ロボット工学でますます人気がある。
それでも、そのダウンストリームタスク性能はバイアスパラメータの最適化に大きく影響されている。
これらのパラメータは、例えば、イベントをトリガーするために必要な光強度の変化を規制します。
本稿では,2つのインタラクション手法を用いて,バイアスパラメータを自動調整するフィードバック制御アルゴリズムを提案する。
1) 連続イベント間の最小間隔を設定する屈折周期の即時、オンザフライ \textit{fast} 適応
2)屈折周期を繰り返し変更しても、イベントレートが指定された境界を超えると、制御部は画素帯域幅とイベントしきい値に適応し、全画素にわたる短いノイズイベントの後に安定化する(\textit{slow} 適応)。
本評価では,入力されたクエリイメージを参照データベースと比較する視覚的位置認識タスクに着目した。
アルゴリズムの適応フィードバック制御の総合的な評価をリアルタイムで行った。
そこで我々は,DAVIS346イベントカメラストリームを含むQCR-Fast-and-Slowデータセットを,100mの室内実験室を走行するScout Miniロボットの366回の走行から収集した。
提案したフィードバックコントローラは,標準バイアス設定や事前フィードバック制御手法と比較して,優れた性能を示す。
また, 偏差調整がタスク性能に及ぼす影響や, 高速・低速適応機構に関する特徴緩和研究について詳述した。
Event cameras are increasingly popular in robotics due to beneficial features such as low latency, energy efficiency, and high dynamic range. Nevertheless, their downstream task performance is greatly influenced by the optimization of bias parameters. These parameters, for instance, regulate the necessary change in light intensity to trigger an event, which in turn depends on factors such as the environment lighting and camera motion. This paper introduces feedback control algorithms that automatically tune the bias parameters through two interacting methods: 1) An immediate, on-the-fly \textit{fast} adaptation of the refractory period, which sets the minimum interval between consecutive events, and 2) if the event rate exceeds the specified bounds even after changing the refractory period repeatedly, the controller adapts the pixel bandwidth and event thresholds, which stabilizes after a short period of noise events across all pixels (\textit{slow} adaptation). Our evaluation focuses on the visual place recognition task, where incoming query images are compared to a given reference database. We conducted comprehensive evaluations of our algorithms' adaptive feedback control in real-time. To do so, we collected the QCR-Fast-and-Slow dataset that contains DAVIS346 event camera streams from 366 repeated traversals of a Scout Mini robot navigating through a 100 meter long indoor lab setting (totaling over 35km distance traveled) in varying brightness conditions with ground truth location information. Our proposed feedback controllers result in superior performance when compared to the standard bias settings and prior feedback control methods. Our findings also detail the impact of bias adjustments on task performance and feature ablation studies on the fast and slow adaptation mechanisms. | 翻訳日:2024-08-14 22:45:05 公開日:2024-08-13 |
# 言語モデルにおける知識帰属を可能にするソース・アウェア・トレーニング
Source-Aware Training Enables Knowledge Attribution in Language Models ( http://arxiv.org/abs/2404.01019v3 ) ライセンス: Link先を確認 | Muhammad Khalifa, David Wadden, Emma Strubell, Honglak Lee, Lu Wang, Iz Beltagy, Hao Peng, | (参考訳) 大規模言語モデル(LLM)は、事前訓練中に膨大な量の知識を学習するが、そのような知識の源泉にはあまり依存しないことが多い。
そこで本研究では,LLMが生成した応答をサポートする事前学習ソースを引用するために必要となる,本質的なソース引用の問題について検討する。
固有のソースの引用は、LLM透過性、解釈可能性、検証可能性を高めることができる。
LLMにそのような能力を与えるために、ソース認識トレーニング(source-aware training)を探求する。
一 独特な原文書識別子と各文書の知識を関連付けるようLLMを訓練し、次に掲げるもの
i) LLM に刺激を受けると、支援事前訓練源を引用するように教える指導訓練段階。
ソースアウェアトレーニングは、既存の事前トレーニング/ファインチューニングフレームワークから借りており、モデルアーキテクチャや実装に最小限の変更を必要とする。
合成データを用いた実験により,従来の事前学習に比べ,モデルの難易度に大きな影響を及ぼすことなく,事前学習データへの忠実な帰属を可能にすることを実証した。
また,本研究は,属性達成における事前学習の重要性も強調した。
コードとデータはここにある。 \url{https://github.com/mukhal/inrinsic-source-citation}
Large language models (LLMs) learn a vast amount of knowledge during pretraining, but they are often oblivious to the source(s) of such knowledge. We investigate the problem of intrinsic source citation, where LLMs are required to cite the pretraining source supporting a generated response. Intrinsic source citation can enhance LLM transparency, interpretability, and verifiability. To give LLMs such ability, we explore source-aware training -- a recipe that involves (i) training the LLM to associate unique source document identifiers with the knowledge in each document, followed by (ii) an instruction-tuning stage to teach the LLM to cite a supporting pretraining source when prompted. Source-aware training borrows from existing pretraining/fine-tuning frameworks and requires minimal changes to the model architecture or implementation. Through experiments on synthetic data, we demonstrate that our training recipe can enable faithful attribution to the pretraining data without a substantial impact on the model's perplexity compared to standard pretraining. Our findings also highlight the importance of pretraining data augmentation in achieving attribution. Code and data available here: \url{https://github.com/mukhal/intrinsic-source-citation} | 翻訳日:2024-08-14 22:35:04 公開日:2024-08-13 |
# 没入型コミュニケーションのためのジェネレーティブAI:6Gによるインターネットの次のフロンティア
Generative AI for Immersive Communication: The Next Frontier in Internet-of-Senses Through 6G ( http://arxiv.org/abs/2404.01713v2 ) ライセンス: Link先を確認 | Nassim Sehad, Lina Bariah, Wassim Hamidouche, Hamed Hellaoui, Riku Jäntti, Mérouane Debbah, | (参考訳) 過去20年にわたって、IoT(Internet-of-Things)は変革的な概念となり、2030年に近づくにつれ、IoS(Internet of Senses)として知られる新しいパラダイムが生まれています。
従来のバーチャルリアリティ(VR)とは異なり、IoSは多感覚体験を提供しようとしている。
本稿では,没入型マルチ感覚メディアを駆動する既存の技術について考察し,その能力と応用の可能性について考察する。
この探索は、従来の没入型メディアストリーミングと、生成人工知能(AI)によって強化されたセマンティックコミュニケーションを利用するユースケースの比較分析を含む。
この分析の焦点は、提案方式の帯域消費を99.93%削減することである。
この比較を通じて、我々は、没入型メディアのための生成AIの実践的応用を基盤にすることを目指している。
同時に、複数のメディアの時間同期、高いスループットの確保、End-to-End(E2E)レイテンシの最小化、帯域幅の低さへのロバスト化など、この分野の大きな課題に対処する。
Over the past two decades, the Internet-of-Things (IoT) has become a transformative concept, and as we approach 2030, a new paradigm known as the Internet of Senses (IoS) is emerging. Unlike conventional Virtual Reality (VR), IoS seeks to provide multi-sensory experiences, acknowledging that in our physical reality, our perception extends far beyond just sight and sound; it encompasses a range of senses. This article explores the existing technologies driving immersive multi-sensory media, delving into their capabilities and potential applications. This exploration includes a comparative analysis between conventional immersive media streaming and a proposed use case that leverages semantic communication empowered by generative Artificial Intelligence (AI). The focal point of this analysis is the substantial reduction in bandwidth consumption by 99.93% in the proposed scheme. Through this comparison, we aim to underscore the practical applications of generative AI for immersive media. Concurrently addressing major challenges in this field, such as temporal synchronization of multiple media, ensuring high throughput, minimizing the End-to-End (E2E) latency, and robustness to low bandwidth while outlining future trajectories. | 翻訳日:2024-08-14 22:35:04 公開日:2024-08-13 |
# 最小限のニューラルスペックを学習する
Learning Minimal Neural Specifications ( http://arxiv.org/abs/2404.04662v3 ) ライセンス: Link先を確認 | Chuqin Geng, Zhaoyue Wang, Haolin Ye, Saifei Liao, Xujie Si, | (参考訳) 形式的検証はシステムの仕様に匹敵するだけでなく、ニューラルネットワークの検証にも当てはまる。
既存の仕様は、参照データポイント周辺の局所的な近傍が正しいか堅牢であると考えられる仕様として、データのパラダイムに従っている。
これらの仕様は、モデルロバスト性を評価するための公正なテストベッドを提供するが、目に見えないテストデータの検証にはあまりに制限的すぎる。
最近の研究は、この目的のためにニューラルアクティベーションパターン(NAP)を使用する、仕様としてのニューラル表現という新しいパラダイムを通じて、非常に有望であることを示している。
しかし、多くの冗長ニューロンを含む最も洗練されたNAPを計算する。
本稿では,ニューラルネットワークが与えられた場合,ネットワークの堅牢性の形式的検証に十分な最小限(一般)のNAP仕様を求める。
最小のNAP仕様を見つけることは、検証可能な境界を広げるだけでなく、どのニューロンがモデルの堅牢性に寄与するかの洞察を与える。
この問題に対処するために、我々はいくつかの正確で近似的なアプローチを提案する。
我々の正確なアプローチは、検証ツールを利用して、決定論的または統計的に最小限のNAP仕様を見つけます。
近似手法は, 検証ツールを呼び出すことなく, 逆例と局所勾配を用いて最小NAPを効率的に推定する。
これにより、ニューロン間の潜在的な因果関係と、既存の検証フレームワークがスケールできないタスクである最先端のニューラルネットワークの堅牢性を調べることができる。
実験結果から,NAP仕様の最小化は,これまで計算された最も洗練されたNAP仕様に比べてはるかに少ないが,検証可能な境界を桁違いに大きく拡張できることが示唆された。
Formal verification is only as good as the specification of a system, which is also true for neural network verification. Existing specifications follow the paradigm of data as specification, where the local neighborhood around a reference data point is considered correct or robust. While these specifications provide a fair testbed for assessing model robustness, they are too restrictive for verifying unseen test data-a challenging task with significant real-world implications. Recent work shows great promise through a new paradigm, neural representation as specification, which uses neural activation patterns (NAPs) for this purpose. However, it computes the most refined NAPs, which include many redundant neurons. In this paper, we study the following problem: Given a neural network, find a minimal (general) NAP specification that is sufficient for formal verification of the network's robustness. Finding the minimal NAP specification not only expands verifiable bounds but also provides insights into which neurons contribute to the model's robustness. To address this problem, we propose several exact and approximate approaches. Our exact approaches leverage the verification tool to find minimal NAP specifications in either a deterministic or statistical manner. Whereas the approximate methods efficiently estimate minimal NAPs using adversarial examples and local gradients, without making calls to the verification tool. This allows us to inspect potential causal links between neurons and the robustness of state-of-the art neural networks, a task for which existing verification frameworks fail to scale. Our experimental results suggest that minimal NAP specifications require much smaller fractions of neurons compared to the most refined NAP specifications computed by previous work, yet they can significantly expand the verifiable boundaries to several orders of magnitude larger. | 翻訳日:2024-08-14 22:35:04 公開日:2024-08-13 |
# StylizedGS:3次元ガウス平滑化のための制御可能なスティル化
StylizedGS: Controllable Stylization for 3D Gaussian Splatting ( http://arxiv.org/abs/2404.05220v2 ) ライセンス: Link先を確認 | Dingxi Zhang, Yu-Jie Yuan, Zhuoxun Chen, Fang-Lue Zhang, Zhenliang He, Shiguang Shan, Lin Gao, | (参考訳) XR技術は急速に進歩し続けており、3D生成と編集がますます重要になっている。
これらのうち、スタイリングは3Dモデルの外観を高める上で重要な役割を担っている。
スタイリゼーションを利用することで、ユーザーは単一の参照スタイル画像を用いて3D編集において一貫した芸術効果を達成でき、ユーザフレンドリーな編集方法となる。
しかし、最近のNeRFベースの3Dスタイリング手法は、ユーザエクスペリエンスに影響を与える効率の問題に遭遇し、その暗黙的な性質は、幾何学的なパターンスタイルを正確に転送する能力を制限している。
さらに、アーティストがスタイリングされたシーンに対してフレキシブルなコントロールを適用する能力は、創造的な探索に寄与する環境を育むのに非常に望ましいと考えられている。
上記の問題に対処するために,3Dガウススプラッティング(3DGS)表現に基づく知覚因子の適応制御が可能な,効率的な3Dニューラルスタイル転送フレームワークであるStylizedGSを紹介した。
本研究では,シーン再構築過程におけるスタイリゼーション効果に影響を与えるフロータを除去するフィルタによる改良手法を提案する。
3DGSの幾何学的パラメータと色パラメータを微調整することで、最も近い隣り合うスタイルの損失をスタイリングするために導入する一方、他の正規化による深度保存の損失は、幾何学的内容の改ざんを防ぐために提案する。
さらに、特別に設計された損失により、StylizedGSは、ユーザがカスタマイズ機能を持つように、スタイリング中に色、スタイリングされたスケール、リージョンを制御することができる。
本手法は,忠実なブラシストロークとフレキシブル制御による幾何整合性を特徴とする高品質なスタイリゼーションを実現する。
各種シーンおよびスタイルにわたる広範囲な実験により,スタイライズ品質と推論速度の両面において,本手法の有効性と有効性を示した。
As XR technology continues to advance rapidly, 3D generation and editing are increasingly crucial. Among these, stylization plays a key role in enhancing the appearance of 3D models. By utilizing stylization, users can achieve consistent artistic effects in 3D editing using a single reference style image, making it a user-friendly editing method. However, recent NeRF-based 3D stylization methods encounter efficiency issues that impact the user experience, and their implicit nature limits their ability to accurately transfer geometric pattern styles. Additionally, the ability for artists to apply flexible control over stylized scenes is considered highly desirable to foster an environment conducive to creative exploration. To address the above issues, we introduce StylizedGS, an efficient 3D neural style transfer framework with adaptable control over perceptual factors based on 3D Gaussian Splatting (3DGS) representation. We propose a filter-based refinement to eliminate floaters that affect the stylization effects in the scene reconstruction process. The nearest neighbor-based style loss is introduced to achieve stylization by fine-tuning the geometry and color parameters of 3DGS, while a depth preservation loss with other regularizations is proposed to prevent the tampering of geometry content. Moreover, facilitated by specially designed losses, StylizedGS enables users to control color, stylized scale, and regions during the stylization to possess customization capabilities. Our method achieves high-quality stylization results characterized by faithful brushstrokes and geometric consistency with flexible controls. Extensive experiments across various scenes and styles demonstrate the effectiveness and efficiency of our method concerning both stylization quality and inference speed. | 翻訳日:2024-08-14 22:35:04 公開日:2024-08-13 |
# 量子ニューラルネットワークの対称性誘導勾配勾配勾配
Symmetry-guided gradient descent for quantum neural networks ( http://arxiv.org/abs/2404.06108v2 ) ライセンス: Link先を確認 | Kaiming Bian, Shitao Zhang, Fei Meng, Wen Zhang, Oscar Dahlsten, | (参考訳) 多くの教師付き学習タスクは、画像分類における翻訳対称性や回転対称性のような固有の対称性を持っている。
これらの対称性は性能を高めるために利用することができる。
対称性の制約を簡潔な数学的形式に定式化する。
コスト関数に制約を適用する2つの方法を設計し、それによって、与えられた対称性を尊重するパラメータ選択を優先してコストランドスケープを形成する。
ニューラルネットワークのアンサッツを対称性を付与するために変更する手法とは異なり、我々の手法は勾配降下の古典的な後処理だけを変化させるが、実装は簡単である。
対称誘導勾配降下法(SGGD)と呼ぶ。
本稿では、ワーナー状態の絡み合い分類におけるSGGDと、2次元特徴空間における二項分類タスクについて説明する。
いずれの場合も、SGGDはトレーニングを加速し、一般化能力を改善し、特にトレーニングデータに偏った場合、消滅する勾配を取り除くことができる。
Many supervised learning tasks have intrinsic symmetries, such as translational and rotational symmetry in image classifications. These symmetries can be exploited to enhance performance. We formulate the symmetry constraints into a concise mathematical form. We design two ways to adopt the constraints into the cost function, thereby shaping the cost landscape in favour of parameter choices which respect the given symmetry. Unlike methods that alter the neural network circuit ansatz to impose symmetry, our method only changes the classical post-processing of gradient descent, which is simpler to implement. We call the method symmetry-guided gradient descent (SGGD). We illustrate SGGD in entanglement classification of Werner states and in a binary classification task in a 2-D feature space. In both cases, the results show that SGGD can accelerate the training, improve the generalization ability, and remove vanishing gradients, especially when the training data is biased. | 翻訳日:2024-08-14 22:35:04 公開日:2024-08-13 |
# LU等価度までの2および3量子状態の密度行列の分類
Classifying Density Matrices of 2 and 3 Qubit States Up To LU Equivalence ( http://arxiv.org/abs/2404.07338v2 ) ライセンス: Link先を確認 | Isaac Dobes, Nathan Jing, | (参考訳) 本稿では,Jing-Yang-Zhao の論文 "Local Unitary Equivalence of Quantum States and Simultaneous Orthogonal Equivalence" の修正版について述べる。
修正された証明はハイパー行列代数フレームワークを利用しており、このフレームワークを通じてこの対応を3$-qubitsに一般化することができる。
最後に、V. Futorney, R. A. Horn, V. V. Sergeichuk の "Specht's Criterion for Systems of Linear Mappings" で最初に証明された) の一般化を適用し、局所ユニタリ同値(英語版)の問題を3$-qubits の局所ユニタリ同値(英語版)で減らし、トレース恒等性(英語版)やいくつかの簡易チェック特性(英語版)をチェックする。
また、上記の論文で定義されているように、これらの結果はすべて、LU同値の概念を準LU同値に緩和すれば、$2 および$3 qudits に拡張することができることに留意する。
In this paper we present a modified version of the proof given Jing-Yang-Zhao's paper titled "Local Unitary Equivalence of Quantum States and Simultaneous Orthogonal Equivalence," which established the correspondance between local unitary equivalence and simultaneous orthogonal equivalence of $2$-qubits. Our modified proof utilizes a hypermatrix algebra framework, and through this framework we are able to generalize this correspondence to $3$-qubits. Finally, we apply a generalization of Specht's criterion (first proved in "Specht's Criterion for Systems of Linear Mappings" by V. Futorney, R. A. Horn, and V. V. Sergeichuk) to reduce the problem of local unitary equivalence of $3$-qubits to checking trace identities and a few other easy-to-check properties. We also note that all of these results can be extended to $2$ and $3$ qudits if we relax the notion of LU equivalence to quasi-LU equivalence, as defined in the aforementioned paper by Jing et. al. | 翻訳日:2024-08-14 22:35:04 公開日:2024-08-13 |
# Let-It-Flow: 3次元フローとオブジェクトクラスタリングの同時最適化
Let-It-Flow: Simultaneous Optimization of 3D Flow and Object Clustering ( http://arxiv.org/abs/2404.08363v3 ) ライセンス: Link先を確認 | Patrik Vacek, David Hurych, Tomáš Svoboda, Karel Zimmermann, | (参考訳) 本研究では,実大規模原点雲列からの自己監督型3次元シーンフロー推定の問題について検討する。
地上真実のシーンフローラベルが存在しない現代的アプローチでは、フローとオブジェクトの剛性に基づく構造的正規化を取り入れることで、点雲の逐次対にわたる最適化フローの低減に重点を置いている。
剛体物体は様々な3次元空間クラスタリング法により推定される。
最先端の手法はニューラル・プリエント構造を用いてシーン全体の動きをキャプチャすることに成功したが、複数の物体の動きを識別する際の課題に直面した。
そこで本研究では, 重なり合うソフトクラスタと非重なり合う固いクラスタ表現を組み合わせたクラスタリング手法を提案する。
フローは、徐々に増大する非重なり合う固いクラスターと、一定の大きさの重なり合う柔らかいクラスターとで、共同で推定される。
提案手法をLiDAR点雲を用いた複数データセット上で評価し,新たな最先端結果に到達した自己教師付きベースラインよりも優れた性能を示す。
本手法は,歩行者やサイクリスト,その他の脆弱な道路利用者を含む,複数の独立移動物体が近接する複雑な動的シーンにおける流れの解消に優れる。
私たちのコードはhttps://github.com/ctu-vras/let-it-flow.comで公開されています。
We study the problem of self-supervised 3D scene flow estimation from real large-scale raw point cloud sequences, which is crucial to various tasks like trajectory prediction or instance segmentation. In the absence of ground truth scene flow labels, contemporary approaches concentrate on deducing optimizing flow across sequential pairs of point clouds by incorporating structure based regularization on flow and object rigidity. The rigid objects are estimated by a variety of 3D spatial clustering methods. While state-of-the-art methods successfully capture overall scene motion using the Neural Prior structure, they encounter challenges in discerning multi-object motions. We identified the structural constraints and the use of large and strict rigid clusters as the main pitfall of the current approaches and we propose a novel clustering approach that allows for combination of overlapping soft clusters as well as non-overlapping rigid clusters representation. Flow is then jointly estimated with progressively growing non-overlapping rigid clusters together with fixed size overlapping soft clusters. We evaluate our method on multiple datasets with LiDAR point clouds, demonstrating the superior performance over the self-supervised baselines reaching new state of the art results. Our method especially excels in resolving flow in complicated dynamic scenes with multiple independently moving objects close to each other which includes pedestrians, cyclists and other vulnerable road users. Our codes are publicly available on https://github.com/ctu-vras/let-it-flow. | 翻訳日:2024-08-14 22:35:04 公開日:2024-08-13 |
# 非線形系の制御指向同定のための能動学習
Active Learning for Control-Oriented Identification of Nonlinear Systems ( http://arxiv.org/abs/2404.09030v2 ) ライセンス: Link先を確認 | Bruce D. Lee, Ingvar Ziemann, George J. Pappas, Nikolai Matni, | (参考訳) モデルに基づく強化学習は未知のシステムを制御する効果的な手法である。
コントロールコミュニティに慣れ親しんだ長年のパイプラインに基づいており、そこでは、データセットを収集するために環境上で実験を行い、結果のデータセットを使用してシステムのモデルを特定し、最終的に識別されたモデルを使用して制御合成を行う。
システムとのインタラクションはコストと時間を要するため、最小限の実験で効果的な制御指向モデルを開発するためには、ターゲット探索が不可欠である。
この課題に触発された最近の研究は、モデルに基づく強化学習における最適探索問題に対する有限サンプルデータ要求とサンプル効率アルゴリズムの研究を始めている。
しかし、既存の理論とアルゴリズムはパラメータに線形なモデルクラスに限られている。
本研究は, 非線形パラメータ依存モデルに焦点をあて, 非線形力学の一般クラスに適した能動学習アルゴリズムの最初の有限サンプル解析を行う。
ある設定では、アルゴリズムの過剰な制御コストは、対数係数まで、最適な速度を達成する。
我々は,非線形システムの制御におけるアクティブな制御指向探索の利点を示すとともに,シミュレーションにおける我々のアプローチを検証する。
Model-based reinforcement learning is an effective approach for controlling an unknown system. It is based on a longstanding pipeline familiar to the control community in which one performs experiments on the environment to collect a dataset, uses the resulting dataset to identify a model of the system, and finally performs control synthesis using the identified model. As interacting with the system may be costly and time consuming, targeted exploration is crucial for developing an effective control-oriented model with minimal experimentation. Motivated by this challenge, recent work has begun to study finite sample data requirements and sample efficient algorithms for the problem of optimal exploration in model-based reinforcement learning. However, existing theory and algorithms are limited to model classes which are linear in the parameters. Our work instead focuses on models with nonlinear parameter dependencies, and presents the first finite sample analysis of an active learning algorithm suitable for a general class of nonlinear dynamics. In certain settings, the excess control cost of our algorithm achieves the optimal rate, up to logarithmic factors. We validate our approach in simulation, showcasing the advantage of active, control-oriented exploration for controlling nonlinear systems. | 翻訳日:2024-08-14 22:35:04 公開日:2024-08-13 |
# kNN-CLIP: Retrievalは、大規模語彙を継続的に拡張するトレーニング不要なセグメンテーションを可能にする
kNN-CLIP: Retrieval Enables Training-Free Segmentation on Continually Expanding Large Vocabularies ( http://arxiv.org/abs/2404.09447v3 ) ライセンス: Link先を確認 | Zhongrui Gui, Shuyang Sun, Runjia Li, Jianhao Yuan, Zhaochong An, Karsten Roth, Ameya Prabhu, Philip Torr, | (参考訳) 連続セグメンテーションは、大規模で継続的な拡大する語彙の正確なセグメンテーションのためのトレーニングデータを用いてオープン語彙セグメンテーションモデルを改善するという課題に、まだ取り組んでいない。
従来型連続訓練は致命的な破滅的な忘れ込みを招き,ゼロショットセグメンテーションベースラインを上回りません。
そこで本研究では,学習自由戦略であるkNN-CLIPを導入し,モデルにセマンティクスと汎視的セグメンテーションのためのデータベースを組み込んだモデルを構築した。
我々は、kNN-CLIPが、再学習や大きなメモリコストを必要とせずに、継続的に成長する語彙に適応できることを実証した。
kNN-CLIPは、オープン語彙のセグメンテーション手法により、データの単一パスで任意のドメイン上で語彙を拡張することができ、コンパクトな埋め込みのみを格納できる。
このアプローチは計算コストとメモリコストを最小化する。
kNN-CLIPは、大語彙セマンティクスとパノプティクスセグメンテーションデータセットにまたがる最先端のパフォーマンスを実現する。
我々は、kNN-CLIPがより効率的で適応可能な連続セグメンテーションを実現し、実世界の大語彙連続セグメンテーション手法の進歩の道を開く上で、重要な一歩となることを願っている。
Continual segmentation has not yet tackled the challenge of improving open-vocabulary segmentation models with training data for accurate segmentation across large, continually expanding vocabularies. We discover that traditional continual training results in severe catastrophic forgetting, failing to outperform a zero-shot segmentation baseline. We introduce a novel training-free strategy, kNN-CLIP, which augments the model with a database of instance embeddings for semantic and panoptic segmentation that achieves zero forgetting. We demonstrate that kNN-CLIP can adapt to continually growing vocabularies without the need for retraining or large memory costs. kNN-CLIP enables open-vocabulary segmentation methods to expand their vocabularies on any domain with a single pass through the data, while only storing compact embeddings. This approach minimizes both compute and memory costs. kNN-CLIP achieves state-of-the-art performance across large-vocabulary semantic and panoptic segmentation datasets. We hope kNN-CLIP represents a significant step forward in enabling more efficient and adaptable continual segmentation, paving the way for advances in real-world large-vocabulary continual segmentation methods. | 翻訳日:2024-08-14 22:35:04 公開日:2024-08-13 |
# HyperMono: ハイパーリレーショナルな知識表現に対するモノトニックなアプローチ
HyperMono: A Monotonicity-aware Approach to Hyper-Relational Knowledge Representation ( http://arxiv.org/abs/2404.09848v2 ) ライセンス: Link先を確認 | Zhiwei Hu, Víctor Gutiérrez-Basulto, Zhiliang Xiang, Ru Li, Jeff Z. Pan, | (参考訳) ハイパーリレーショナル・ナレッジグラフ(HKG)では、各事実は属性値の修飾子に関連する主三重からなり、追加の事実知識が表現される。
ハイパーリレーショナル・ナレッジグラフ補完(HKGC)タスクは、HKG内の有望な欠落リンクを推測することを目的としている。
既存の HKGC のアプローチのほとんどは、高関係グラフ表現体系の単調性から生じる2つの重要な性質を見越しながら、等化器対と主三重項の間の通信を強化することに焦点を当てている。
段階推論は、2段階の推論プロセスを可能にし、主三重項のみから得られる粗粒度推論結果と、等化子を持つ超関係事実から得られる細粒度推論結果の統合を容易にする。
初期段階では、粗粒度の結果は正しい予測のための上限を与え、その後、細粒度ステップで洗練される。
より一般的には、Qualifier Monotonicityは、より多くの等化子対を主三重項にアタッチすることで、解集合を狭めるだけで拡大しないことを意味する。
本稿では,ハイパーリレーショナル知識グラフ補完のためのHyperMonoモデルを提案する。
コーン埋め込みに適合する修飾子単調性HyperMonoを実装する。
3つの異なるシナリオ条件を持つ3つの実世界のデータセットの実験は、SoTAと比較してHyperMonoの強力なパフォーマンスを示している。
In a hyper-relational knowledge graph (HKG), each fact is composed of a main triple associated with attribute-value qualifiers, which express additional factual knowledge. The hyper-relational knowledge graph completion (HKGC) task aims at inferring plausible missing links in a HKG. Most existing approaches to HKGC focus on enhancing the communication between qualifier pairs and main triples, while overlooking two important properties that emerge from the monotonicity of the hyper-relational graphs representation regime. Stage Reasoning allows for a two-step reasoning process, facilitating the integration of coarse-grained inference results derived solely from main triples and fine-grained inference results obtained from hyper-relational facts with qualifiers. In the initial stage, coarse-grained results provide an upper bound for correct predictions, which are subsequently refined in the fine-grained step. More generally, Qualifier Monotonicity implies that by attaching more qualifier pairs to a main triple, we may only narrow down the answer set, but never enlarge it. This paper proposes the HyperMono model for hyper-relational knowledge graph completion, which realizes stage reasoning and qualifier monotonicity. To implement qualifier monotonicity HyperMono resorts to cone embeddings. Experiments on three real-world datasets with three different scenario conditions demonstrate the strong performance of HyperMono when compared to the SoTA. | 翻訳日:2024-08-14 22:35:04 公開日:2024-08-13 |
# FreeDiff:拡散モデルを用いた画像編集のための進行周波数トランケーション
FreeDiff: Progressive Frequency Truncation for Image Editing with Diffusion Models ( http://arxiv.org/abs/2404.11895v2 ) ライセンス: Link先を確認 | Wei Wu, Qingnan Fan, Shuai Qin, Hong Gu, Ruoyu Zhao, Antoni B. Chan, | (参考訳) テキスト・ツー・イメージ・モデルによる高精度な画像編集は、その顕著な生成能力とユーザフレンドリーな性質から、関心を集めている。
しかし、これらの試みは、意図した正確な編集対象領域と、実際的なガイダンスの影響を受けやすい領域との相違という重要な課題に直面している。
編集指導を洗練させるために開発された注意機構を活用する優れた手法にもかかわらず、これらの手法は複雑なネットワークアーキテクチャによる修正を必要とし、特定の編集タスクに限定されている。
そこで本研究では,自然画像のパワー則やノイズスケジュールの減衰により,低周波画像成分を初期処理時に主に回収し,過度に低周波信号を編集する手法を提案する。
この知見を生かして、プログレッシブな$\textbf{Fre}$qu$\textbf{e}$ncy truncationを用いて、ユニバーサルな編集タスクに対する$\textbf{Diff}$usionモデルのガイダンスを洗練させる、新しい微調整自由アプローチを導入する(\textbf{FreeDiff}$)。
本手法は,画像編集における汎用ツールとしての可能性を強調し,様々な編集タスクや多様な画像に対して,最先端の手法で同等の結果を得る。
Precise image editing with text-to-image models has attracted increasing interest due to their remarkable generative capabilities and user-friendly nature. However, such attempts face the pivotal challenge of misalignment between the intended precise editing target regions and the broader area impacted by the guidance in practice. Despite excellent methods leveraging attention mechanisms that have been developed to refine the editing guidance, these approaches necessitate modifications through complex network architecture and are limited to specific editing tasks. In this work, we re-examine the diffusion process and misalignment problem from a frequency perspective, revealing that, due to the power law of natural images and the decaying noise schedule, the denoising network primarily recovers low-frequency image components during the earlier timesteps and thus brings excessive low-frequency signals for editing. Leveraging this insight, we introduce a novel fine-tuning free approach that employs progressive $\textbf{Fre}$qu$\textbf{e}$ncy truncation to refine the guidance of $\textbf{Diff}$usion models for universal editing tasks ($\textbf{FreeDiff}$). Our method achieves comparable results with state-of-the-art methods across a variety of editing tasks and on a diverse set of images, highlighting its potential as a versatile tool in image editing applications. | 翻訳日:2024-08-14 22:35:03 公開日:2024-08-13 |
# DPO:差分強化学習と最適構成探索への応用
DPO: Differential reinforcement learning with application to optimal configuration search ( http://arxiv.org/abs/2404.15617v2 ) ライセンス: Link先を確認 | Chandrajit Bajaj, Minh Nguyen, | (参考訳) 連続状態と行動空間を持つ強化学習(RL)は、この分野で最も難しい問題の一つである。
現在の学習手法の多くは、学習者にとって最適な戦略を導き出すために、値関数のような積分的アイデンティティに焦点を当てている。
そこで本論文では,従来のRL定式化の二重形式について検討し,限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
本手法では,局所移動演算子によって符号化されたポリシーを最適化する,ポイントワイドかつステージワイドな反復手法である差分ポリシー最適化(DPO)を導入する。
我々はDPOの点収束推定を証明し、最良の理論導出に匹敵する後悔を与える。
このようなポイントワイズ推定は、学習されたポリシーが異なるステップで最適な経路に均一に一致することを保証します。
次に、DPOを連続状態と作用空間を持つ実践的RL問題のクラスに適用し、ラグランジアン報酬を用いた最適構成を求める。
DPOは実装が容易で、拡張性があり、いくつかのRL手法に対するベンチマーク実験の競合結果を示す。
Reinforcement learning (RL) with continuous state and action spaces remains one of the most challenging problems within the field. Most current learning methods focus on integral identities such as value functions to derive an optimal strategy for the learning agent. In this paper, we instead study the dual form of the original RL formulation to propose the first differential RL framework that can handle settings with limited training samples and short-length episodes. Our approach introduces Differential Policy Optimization (DPO), a pointwise and stage-wise iteration method that optimizes policies encoded by local-movement operators. We prove a pointwise convergence estimate for DPO and provide a regret bound comparable with the best current theoretical derivation. Such pointwise estimate ensures that the learned policy matches the optimal path uniformly across different steps. We then apply DPO to a class of practical RL problems with continuous state and action spaces, and which search for optimal configurations with Lagrangian rewards. DPO is easy to implement, scalable, and shows competitive results on benchmarking experiments against several popular RL methods. | 翻訳日:2024-08-14 22:35:03 公開日:2024-08-13 |
# ニューラルネットワークによる驚くほど強い性能予測
Surprisingly Strong Performance Prediction with Neural Graph Features ( http://arxiv.org/abs/2404.16551v2 ) ライセンス: Link先を確認 | Gabriela Kadlecová, Jovita Lukasik, Martin Pilát, Petra Vidnerová, Mahmoud Safari, Roman Neruda, Frank Hutter, | (参考訳) パフォーマンス予測は、NAS(Neural Architecture Search)プロセスの重要な部分であり、リソース消費のネットワークトレーニングを回避してNASアルゴリズムの高速化を可能にしている。
多くの性能予測器は、地上の真理性能とよく相関するが、訓練されたネットワークの形でトレーニングデータを必要とする。
近年,ネットワーク性能をトレーニングなしで評価する効率的な手法として,ゼロコストプロキシが提案されている。
しかし、それらはまだよく理解されておらず、ネットワーク特性に偏りを示しており、その性能は限られている。
ゼロコストプロキシの欠点に着想を得て,アーキテクチャグラフの特性を簡易に計算可能なニューラルグラフ特徴 (GRAF) を提案する。
GRAFは高速かつ解釈可能なパフォーマンス予測を提供すると同時に、ゼロコストプロキシやその他の一般的なエンコーディングよりも優れている。
他のゼロコストプロキシと組み合わせて、GRAFはコストのごく一部で既存のパフォーマンス予測器を上回っている。
Performance prediction has been a key part of the neural architecture search (NAS) process, allowing to speed up NAS algorithms by avoiding resource-consuming network training. Although many performance predictors correlate well with ground truth performance, they require training data in the form of trained networks. Recently, zero-cost proxies have been proposed as an efficient method to estimate network performance without any training. However, they are still poorly understood, exhibit biases with network properties, and their performance is limited. Inspired by the drawbacks of zero-cost proxies, we propose neural graph features (GRAF), simple to compute properties of architectural graphs. GRAF offers fast and interpretable performance prediction while outperforming zero-cost proxies and other common encodings. In combination with other zero-cost proxies, GRAF outperforms most existing performance predictors at a fraction of the cost. | 翻訳日:2024-08-14 22:35:03 公開日:2024-08-13 |
# SFMViT:SlowFast、カオスの世界でViTと出会う
SFMViT: SlowFast Meet ViT in Chaotic World ( http://arxiv.org/abs/2404.16609v2 ) ライセンス: Link先を確認 | Jiaying Lin, Jiajun Wen, Mengyuan Liu, Jinfu Liu, Baiqiao Yin, Yue Li, | (参考訳) カオスシーンにおける時空間的行動ローカライゼーションの課題は,高度な映像理解に向けた課題である。
高品質な映像特徴抽出と、検出器予測アンカーの精度の向上により、モデル性能を効果的に向上させることができる。
そこで本研究では,アンカープルーニング戦略を備えた高性能なデュアルストリーム時空間特徴抽出ネットワークSFMViTを提案する。
SFMViTのバックボーンは、ViTの優れたグローバル特徴抽出機能とSlowFastの時空間シーケンスモデリング機能を完全に活用した時空間動作ローカライゼーションの事前知識を備えたViTとSlowFastで構成されている。
次に,画像の各フレームに検出されたアンカーをプーンし,有効アンカーをフィルタする信頼性最大ヒープを導入する。
これらの設計により、SFMViTはカオスワールドデータセットにおいて26.62%のmAPを達成でき、既存のモデルよりはるかに上回っている。
コードはhttps://github.com/jfightyr/SlowFast-Meet-ViT.comで入手できる。
The task of spatiotemporal action localization in chaotic scenes is a challenging task toward advanced video understanding. Paving the way with high-quality video feature extraction and enhancing the precision of detector-predicted anchors can effectively improve model performance. To this end, we propose a high-performance dual-stream spatiotemporal feature extraction network SFMViT with an anchor pruning strategy. The backbone of our SFMViT is composed of ViT and SlowFast with prior knowledge of spatiotemporal action localization, which fully utilizes ViT's excellent global feature extraction capabilities and SlowFast's spatiotemporal sequence modeling capabilities. Secondly, we introduce the confidence maximum heap to prune the anchors detected in each frame of the picture to filter out the effective anchors. These designs enable our SFMViT to achieve a mAP of 26.62% in the Chaotic World dataset, far exceeding existing models. Code is available at https://github.com/jfightyr/SlowFast-Meet-ViT. | 翻訳日:2024-08-14 22:25:12 公開日:2024-08-13 |
# Made to Order: 自己教師型ビデオ注文によるモノトニック時間変化の発見
Made to Order: Discovering monotonic temporal changes via self-supervised video ordering ( http://arxiv.org/abs/2404.16828v3 ) ライセンス: Link先を確認 | Charig Yang, Weidi Xie, Andrew Zisserman, | (参考訳) 我々の目的は、画像列における単調な時間変化を発見し、局所化することである。
これを実現するために、時間とともに単調な変化だけが正しい順序付けを引き起こすので、シャッフル画像列を'time'でオーバシリ信号として振る舞う簡単なプロキシタスクを利用する。
また,任意の長さの画像列を帰属マップで順序付けするトランスフォーマーモデルも導入する。
訓練後、このモデルは周期的および確率的な変化を無視しながら単調な変化を発見し、局所化する。
本研究では、異なるシーンとオブジェクトタイプをカバーする複数の領域におけるモデルの応用を実証し、未知のシーケンスにおけるオブジェクトレベルと環境の変化の両方を発見する。
また、注目に基づく属性マップは、変化領域をセグメント化するための効果的なプロンプトとして機能し、学習された表現が下流アプリケーションに利用できることを示す。
最後に,このモデルが画像順序付けのための標準ベンチマークの最先端化を実現していることを示す。
Our objective is to discover and localize monotonic temporal changes in a sequence of images. To achieve this, we exploit a simple proxy task of ordering a shuffled image sequence, with `time' serving as a supervisory signal, since only changes that are monotonic with time can give rise to the correct ordering. We also introduce a transformer-based model for ordering of image sequences of arbitrary length with built-in attribution maps. After training, the model successfully discovers and localizes monotonic changes while ignoring cyclic and stochastic ones. We demonstrate applications of the model in multiple domains covering different scene and object types, discovering both object-level and environmental changes in unseen sequences. We also demonstrate that the attention-based attribution maps function as effective prompts for segmenting the changing regions, and that the learned representations can be used for downstream applications. Finally, we show that the model achieves the state-of-the-art on standard benchmarks for image ordering. | 翻訳日:2024-08-14 22:25:12 公開日:2024-08-13 |
# CEval: 対実テキスト生成の評価ベンチマーク
CEval: A Benchmark for Evaluating Counterfactual Text Generation ( http://arxiv.org/abs/2404.17475v2 ) ライセンス: Link先を確認 | Van Bach Nguyen, Jörg Schlötterer, Christin Seifert, | (参考訳) 偽造テキスト生成は、テキストを最小限に変更することを目的としており、異なる分類がなされている。
対実テキスト生成のための手法開発における判断の進歩は、関連する作業におけるデータセットとメトリクスの統一的使用によって妨げられる。
本稿では,テキスト生成手法の比較のためのベンチマークであるCEvalを提案する。
CEvalは、ヒューマンアノテーション、標準ベースライン(MICE、GDBA、CREST)、オープンソースの言語モデルであるLAMA-2を含む、反ファクトおよびテキスト品質のメトリクスを統一する。
我々の実験では、偽造テキストを生成するための完璧な方法が見つからなかった。
反ファクトの指標で優れた手法は、しばしば低品質のテキストを生成するが、単純なプロンプトを持つLCMは高品質のテキストを生成するが、反ファクトの基準に苦しむ。
CEvalをオープンソースPythonライブラリとして利用可能にすることで、コミュニティはより多くのメソッドを提供し、今後の作業で一貫した評価を維持することを奨励します。
Counterfactual text generation aims to minimally change a text, such that it is classified differently. Judging advancements in method development for counterfactual text generation is hindered by a non-uniform usage of data sets and metrics in related work. We propose CEval, a benchmark for comparing counterfactual text generation methods. CEval unifies counterfactual and text quality metrics, includes common counterfactual datasets with human annotations, standard baselines (MICE, GDBA, CREST) and the open-source language model LLAMA-2. Our experiments found no perfect method for generating counterfactual text. Methods that excel at counterfactual metrics often produce lower-quality text while LLMs with simple prompts generate high-quality text but struggle with counterfactual criteria. By making CEval available as an open-source Python library, we encourage the community to contribute more methods and maintain consistent evaluation in future work. | 翻訳日:2024-08-14 22:25:12 公開日:2024-08-13 |
# S$^2$Mamba:ハイパースペクトル画像分類のための空間スペクトル状態空間モデル
S$^2$Mamba: A Spatial-spectral State Space Model for Hyperspectral Image Classification ( http://arxiv.org/abs/2404.18213v2 ) ライセンス: Link先を確認 | Guanchun Wang, Xiangrong Zhang, Zelin Peng, Tianyang Zhang, Licheng Jiao, | (参考訳) ハイパースペクトル画像(HSI)を用いた土地被覆解析は、空間分解能の低さと複雑なスペクトル情報のため、未解決の課題である。
近年の研究は、空間スペクトル長範囲依存モデリングのためのトランスフォーマーベースのアーキテクチャの設計に主眼を置いている。
線形複雑性を伴う長距離依存関係のモデリングに効率的である選択的構造化状態空間モデル(Mamba)は,最近,有望な進展を示した。
しかし、多くのスペクトル帯域を扱う必要のある超スペクトル画像処理におけるその可能性はまだ検討されていない。
本稿では,高スペクトル画像分類のための空間スペクトル状態モデルであるS$^2$Mambaを提案する。
S$^2$Mambaでは、異なる次元による2つの選択的構造化状態空間モデルが特徴抽出のために設計され、1つは空間、もう1つはスペクトルに対して設計され、もう1つは空間-スペクトル混合ゲートが最適融合のために設計されている。
具体的には、S$^2$Mambaはまず、Patch Cross Scanningモジュールを通して各ピクセルと隣接するピクセルを相互作用させ、次に双方向スペクトル走査モジュールを通して連続スペクトルバンドからの意味情報を探索することによって空間的文脈関係を捉える。
相似的および複雑なテクスチャシーンにおける2つの属性の異なる専門性を考慮すると、学習可能な行列群による空間-スペクトル混合ゲートを実現し、異なる次元で学習した表現を適応的に組み込むことができる。
HSI分類ベンチマークで行った大規模な実験は、S$^2$Mambaの優位性と可能性を示している。
コードは、https://github.com/PURE-melo/S2Mamba.comで入手できる。
Land cover analysis using hyperspectral images (HSI) remains an open problem due to their low spatial resolution and complex spectral information. Recent studies are primarily dedicated to designing Transformer-based architectures for spatial-spectral long-range dependencies modeling, which is computationally expensive with quadratic complexity. Selective structured state space model (Mamba), which is efficient for modeling long-range dependencies with linear complexity, has recently shown promising progress. However, its potential in hyperspectral image processing that requires handling numerous spectral bands has not yet been explored. In this paper, we innovatively propose S$^2$Mamba, a spatial-spectral state space model for hyperspectral image classification, to excavate spatial-spectral contextual features, resulting in more efficient and accurate land cover analysis. In S$^2$Mamba, two selective structured state space models through different dimensions are designed for feature extraction, one for spatial, and the other for spectral, along with a spatial-spectral mixture gate for optimal fusion. More specifically, S$^2$Mamba first captures spatial contextual relations by interacting each pixel with its adjacent through a Patch Cross Scanning module and then explores semantic information from continuous spectral bands through a Bi-directional Spectral Scanning module. Considering the distinct expertise of the two attributes in homogenous and complicated texture scenes, we realize the Spatial-spectral Mixture Gate by a group of learnable matrices, allowing for the adaptive incorporation of representations learned across different dimensions. Extensive experiments conducted on HSI classification benchmarks demonstrate the superiority and prospect of S$^2$Mamba. The code will be made available at: https://github.com/PURE-melo/S2Mamba. | 翻訳日:2024-08-14 22:25:12 公開日:2024-08-13 |
# 視覚体験データセット:200時間を超える統合眼球運動、オドメトリー、エゴセントリックビデオ
The Visual Experience Dataset: Over 200 Recorded Hours of Integrated Eye Movement, Odometry, and Egocentric Video ( http://arxiv.org/abs/2404.18934v2 ) ライセンス: Link先を確認 | Michelle R. Greene, Benjamin J. Balas, Mark D. Lescroart, Paul R. MacNeilage, Jennifer A. Hart, Kamran Binaee, Peter A. Hausamann, Ronald Mezile, Bharath Shankar, Christian B. Sinnott, Kaylie Capurro, Savannah Halow, Hunter Howe, Mariam Josyula, Annie Li, Abraham Mieses, Amina Mohamed, Ilya Nudnou, Ezra Parkhill, Peter Riley, Brett Schmidt, Matthew W. Shinkle, Wentao Si, Brian Szekely, Joaquin M. Torres, Eliana Weissmann, | (参考訳) 視覚体験データセット(VEDB: Visual Experience Dataset)は、240時間以上のエゴセントリックなビデオと視線と頭部追跡データを組み合わせたもので、人間の観察者が経験した視覚世界に対する前例のない視点を提供する。
データセットは717のセッションで構成され、6歳から49歳の58人の観測者が記録している。
本稿では,データ収集,処理,ラベル付けのプロトコルについて概説する。
VEDBの潜在的な応用としては、視線追跡方法の改善、時空間画像統計の評価、シーンとアクティビティの認識のためのディープニューラルネットワークの精細化などがある。
VEDBは、確立されたオープンサイエンスプラットフォームを通じてアクセス可能であり、拡張とコミュニティコントリビューションの計画を備えた、生きたデータセットになることを意図している。
参加者のプライバシーや潜在的なバイアスの緩和など、倫理的配慮に重点を置いてリリースされている。
現実世界の経験に根ざしたデータセットを提供し、広範なメタデータとコードのサポートを伴って、著者らは研究コミュニティにVEDBの利用とコントリビューションを呼びかけ、自然主義的な設定における視覚的知覚と行動のより豊かな理解を促進する。
We introduce the Visual Experience Dataset (VEDB), a compilation of over 240 hours of egocentric video combined with gaze- and head-tracking data that offers an unprecedented view of the visual world as experienced by human observers. The dataset consists of 717 sessions, recorded by 58 observers ranging from 6-49 years old. This paper outlines the data collection, processing, and labeling protocols undertaken to ensure a representative sample and discusses the potential sources of error or bias within the dataset. The VEDB's potential applications are vast, including improving gaze tracking methodologies, assessing spatiotemporal image statistics, and refining deep neural networks for scene and activity recognition. The VEDB is accessible through established open science platforms and is intended to be a living dataset with plans for expansion and community contributions. It is released with an emphasis on ethical considerations, such as participant privacy and the mitigation of potential biases. By providing a dataset grounded in real-world experiences and accompanied by extensive metadata and supporting code, the authors invite the research community to utilize and contribute to the VEDB, facilitating a richer understanding of visual perception and behavior in naturalistic settings. | 翻訳日:2024-08-14 22:25:12 公開日:2024-08-13 |
# 脳波-MACS : 非信頼アノテーションによる脳内横断性脳疾患診断における手技的注意と信頼層形成
EEG-MACS: Manifold Attention and Confidence Stratification for EEG-based Cross-Center Brain Disease Diagnosis under Unreliable Annotations ( http://arxiv.org/abs/2405.00734v2 ) ライセンス: Link先を確認 | Zhenxi Song, Ruihan Qin, Huixia Ren, Zhen Liang, Yi Guo, Min Zhang, Zhiguo Zhang, | (参考訳) センター間のデータの異質性とアノテーションの不信頼性は、脳信号を用いた疾患のインテリジェントな診断に大きく挑戦する。
注目すべき例として、脳波に基づく神経変性疾患の診断がある。
本研究は,4つの中心から発生した脳波信号に基づいて神経変性疾患の診断を行うために,manifold Attention and Confidence Stratification(MACS)を用いた伝達可能なフレームワークを提案する。
MACSフレームワークの有効性は、これらの特徴に起因しています。
1)Augmentorは、データ空間を豊かにするために、様々な脳波で表される脳の変種を生成します。
2 スイッチナーは、信頼されたサンプルの特徴空間を拡充し、不正にラベル付けされたサンプルの過度な適合を減少させる。
3)エンコーダはリーマン多様体とユークリッド計量を用いて脳波の時空間変動と動的同期を捉える。
4 プロジェクターは、二重頭部を備え、複数の脳の変種にまたがる整合性を監視し、診断精度を確保する。
5 ストラテジエータは、学習過程を通して、信頼度で学習サンプルを適応的に成層する。
6)MACSのフォワードとバックプロパゲーションは,信頼できないアノテーションで学習システムを安定させるために,信頼層化によって制約される。
神経認知障害と運動障害の両方を中心コーパスを用いて対象非依存に実験し,既存のアルゴリズムと比較して優れた性能を示した。
この研究は、中小脳疾患の脳波に基づく診断を改善するだけでなく、MACSの技術を他のデータ分析に拡張するための洞察、データの異質性への対処、マルチメディアおよびマルチモーダルコンテンツ理解におけるアノテーションの信頼性に関する洞察を提供する。
Cross-center data heterogeneity and annotation unreliability significantly challenge the intelligent diagnosis of diseases using brain signals. A notable example is the EEG-based diagnosis of neurodegenerative diseases, which features subtler abnormal neural dynamics typically observed in small-group settings. To advance this area, in this work, we introduce a transferable framework employing Manifold Attention and Confidence Stratification (MACS) to diagnose neurodegenerative disorders based on EEG signals sourced from four centers with unreliable annotations. The MACS framework's effectiveness stems from these features: 1) The Augmentor generates various EEG-represented brain variants to enrich the data space; 2) The Switcher enhances the feature space for trusted samples and reduces overfitting on incorrectly labeled samples; 3) The Encoder uses the Riemannian manifold and Euclidean metrics to capture spatiotemporal variations and dynamic synchronization in EEG; 4) The Projector, equipped with dual heads, monitors consistency across multiple brain variants and ensures diagnostic accuracy; 5) The Stratifier adaptively stratifies learned samples by confidence levels throughout the training process; 6) Forward and backpropagation in MACS are constrained by confidence stratification to stabilize the learning system amid unreliable annotations. Our subject-independent experiments, conducted on both neurocognitive and movement disorders using cross-center corpora, have demonstrated superior performance compared to existing related algorithms. This work not only improves EEG-based diagnostics for cross-center and small-setting brain diseases but also offers insights into extending MACS techniques to other data analyses, tackling data heterogeneity and annotation unreliability in multimedia and multimodal content understanding. | 翻訳日:2024-08-14 22:25:12 公開日:2024-08-13 |
# 多様性駆動型新規特徴合成によるビジョンランゲージモデルの一般化の促進
Enhancing Vision-Language Models Generalization via Diversity-Driven Novel Feature Synthesis ( http://arxiv.org/abs/2405.02586v2 ) ライセンス: Link先を確認 | Siyuan Yan, Cheng Luo, Zhen Yu, Zongyuan Ge, | (参考訳) CLIPのような視覚言語基盤モデルは、印象的なゼロショットの一般化を示しているが、下流のデータセットの微調整は、その一般化能力の過度な適合と損失を引き起こす可能性がある。
新たな関心領域から付加的なデータを集めることは可能だが、注釈付きデータを取得することの難しさから、この手法は実用的ではないことが多い。
そこで本研究では,LDFS(Language-Guided Diverse Feature Synthesis)と呼ばれるプラグイン・アンド・プレイ機能合成手法を提案する。
LDFSの主な貢献は3つある。
1) 新しいドメイン特徴を合成し,多様性を促進するために,テキスト誘導機能拡張損失に基づくインスタンス条件特徴拡張戦略を提案する。
2) 拡張後の特徴量を維持するため,CLIP機能空間内の拡張的特徴コヒーレンスを維持するために,ペアワイズ正規化器を導入する。
3) モーダリティのギャップを減らし, テキスト誘導特徴合成のプロセスを容易にするために, 確率的テキスト特徴強調法を提案する。
拡張実験により、LDFSは、これらのドメインからデータを集めることなく、見えないドメインでCLIPの一般化能力を改善することができる。
コードは公開されます。
Vision-language foundation models like CLIP have shown impressive zero-shot generalization, but finetuning on downstream datasets can cause overfitting and loss of its generalization ability on unseen domains. Although collecting additional data from new domains of interest is possible, this method is often impractical due to the challenges in obtaining annotated data. To address this, we propose a plug-and-play feature synthesis method called LDFS (Language-Guided Diverse Feature Synthesis) to synthesize new domain features and improve existing CLIP fine-tuning strategies. LDFS has three main contributions: 1) To synthesize novel domain features and promote diversity, we propose an instance-conditional feature augmentation strategy based on a text-guided feature augmentation loss. 2) To maintain feature quality after augmenting, we introduce a pairwise regularizer to preserve augmented feature coherence within the CLIP feature space. 3) We propose to use stochastic text feature augmentation to reduce the modality gap and further facilitate the process of text-guided feature synthesis. Extensive experiments show LDFS superiority in improving CLIP generalization ability on unseen domains without collecting data from those domains. The code will be made publicly available. | 翻訳日:2024-08-14 22:25:12 公開日:2024-08-13 |
# トポロジカル量子電池
Topological Quantum Batteries ( http://arxiv.org/abs/2405.03675v3 ) ライセンス: Link先を確認 | Zhi-Guang Lu, Guoqing Tian, Xin-You Lü, Cheng Shang, | (参考訳) 本稿では、2レベルシステムとトポロジカル光導波路を結合する量子電池(QB)の革新的な設計を提案する。
分解剤法を用いてQBの熱力学特性を解析的に検討する。
まず,QBsの保存エネルギーに有界な状態のみが寄与することを示した。
我々は、位相的に非自明な位相において、ほぼ完全なエネルギー移動が起こることを観察した。
さらに、最大貯蔵エネルギーは相境界において特異な挙動を示し、そこでは境界状態の数が遷移する。
第二に、量子電池と量子充電器が単位セル内の同じ基板で結合されると、エルゴトロピーはその位置で消散に免疫となり、暗黒状態とトポロジカルに堅牢な着衣状態によって促進される。
第3に,量子ゼノ効果の出現とともに散逸が増大するにつれて,QBの充電能力は一時的に向上することを示した。
本研究は, 構造型貯水池工学による量子電池の性能向上のための貴重なガイダンスを提供する。
We propose an innovative design for quantum batteries (QBs) that involves coupling two-level systems to a topological photonic waveguide. Employing the resolvent method, we analytically explore the thermodynamic performances of QBs. First, we demonstrate that in the long-time limit, only bound states significantly contribute to the stored energy of QBs. We observe that near-perfect energy transfer can occur in the topologically nontrivial phase. Moreover, the maximum stored energy exhibits singular behavior at the phase boundaries, where the number of bound states undergoes a transition. Second, when a quantum battery and a quantum charger are coupled at the same sublattice within a unit cell, the ergotropy becomes immune to dissipation at that location, facilitated by a dark state and a topologically robust dressed bound state. Third, we show that as dissipation intensifies along with the emergence of the quantum Zeno effect, the charging power of QBs experiences a temporary boost. Our findings offer valuable guidance for improving quantum battery performance through structured reservoir engineering. | 翻訳日:2024-08-14 22:25:12 公開日:2024-08-13 |
# 初期化のない大規模バンドル調整のための可変パワープロジェクション
Power Variable Projection for Initialization-Free Large-Scale Bundle Adjustment ( http://arxiv.org/abs/2405.05079v5 ) ライセンス: Link先を確認 | Simon Weber, Je Hyeong Hong, Daniel Cremers, | (参考訳) Levenberg-Marquardtアルゴリズムのようなほとんどのバンドル調整(BA)解法は、優れた初期化を必要とする。
代わりに、初期化のないBAは、ほとんどチャージされていない領域のままである。
探索されていない可変射影アルゴリズム(VarPro)は初期化なしでも広い収束盆地を示す。
オブジェクト空間誤差の定式化と組み合わせた最近の研究は、小規模初期化自由バンドル調整問題を解く能力を示している。
このような初期化のないBAアプローチをスケーラブルにするために、電力系列に基づく最近の逆展開法を拡張したパワー可変射影(PoVar)を導入する。
重要なことに、パワー級数展開はリーマン多様体の最適化にリンクする。
この射影フレームワークは,初期化を伴わない大規模バンドル調整問題の解決に不可欠である。
実世界のBALデータセットを用いて,我々の解法が最先端の結果を速度と精度で達成できることを実験的に実証した。
我々の知る限り、この研究はBAのスケーラビリティに最初の取り組みであり、初期化が不要な構造運動のための新しい会場を開かなかった。
Most Bundle Adjustment (BA) solvers like the Levenberg-Marquardt algorithm require a good initialization. Instead, initialization-free BA remains a largely uncharted territory. The under-explored Variable Projection algorithm (VarPro) exhibits a wide convergence basin even without initialization. Coupled with object space error formulation, recent works have shown its ability to solve small-scale initialization-free bundle adjustment problem. To make such initialization-free BA approaches scalable, we introduce Power Variable Projection (PoVar), extending a recent inverse expansion method based on power series. Importantly, we link the power series expansion to Riemannian manifold optimization. This projective framework is crucial to solve large-scale bundle adjustment problems without initialization. Using the real-world BAL dataset, we experimentally demonstrate that our solver achieves state-of-the-art results in terms of speed and accuracy. To our knowledge, this work is the first to address the scalability of BA without initialization opening new venues for initialization-free structure-from-motion. | 翻訳日:2024-08-14 22:25:12 公開日:2024-08-13 |
# DynaSeg:特徴類似性と空間連続性を考慮した教師なし画像分割のためのディープダイナミックフュージョン法
DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity ( http://arxiv.org/abs/2405.05477v3 ) ライセンス: Link先を確認 | Boujemaa Guermazi, Naimul Khan, | (参考訳) 本研究は,コンピュータビジョンにおけるイメージセグメンテーションの根本的な課題に取り組み,多様なアプリケーションに欠かせない課題である。
教師付き手法は習熟度を示すが、広範囲のピクセルレベルのアノテーションに依存しているためスケーラビリティは制限される。
広範なハイパーパラメータチューニングに頼ることなく、特徴類似性と空間連続性のバランスをとるという課題を克服する、革新的な教師なしイメージセグメンテーションアプローチであるDynaSegを紹介する。
従来の手法とは異なり、DynaSegはパラメータチューニングを自動化し、画像特性に柔軟に対応し、他のセグメンテーションネットワークと容易に統合できる動的重み付け方式を採用している。
シルエットスコア位相を組み込むことで、ダイナセグは予測されたクラスターの数が1つに収束する過小評価の失敗を防ぐ。
DynaSegはCNNベースで事前訓練されたResNet機能抽出を使用しており、計算効率が良く、他の複雑なモデルよりも簡単である。
実験の結果、COCO-AllデータセットとCOCO-Stuffデータセットに対する現在の教師なしセグメンテーションアプローチよりも12.2%と14.12%のmIOUの改善が達成された。
提案手法の有効性を実証した5つのベンチマークデータセットに対して,定性的かつ定量的な結果を提供する。コードはhttps://github.com/RyersonMultimediaLab/DynaSegで公開されている。
Our work tackles the fundamental challenge of image segmentation in computer vision, which is crucial for diverse applications. While supervised methods demonstrate proficiency, their reliance on extensive pixel-level annotations limits scalability. We introduce DynaSeg, an innovative unsupervised image segmentation approach that overcomes the challenge of balancing feature similarity and spatial continuity without relying on extensive hyperparameter tuning. Unlike traditional methods, DynaSeg employs a dynamic weighting scheme that automates parameter tuning, adapts flexibly to image characteristics, and facilitates easy integration with other segmentation networks. By incorporating a Silhouette Score Phase, DynaSeg prevents undersegmentation failures where the number of predicted clusters might converge to one. DynaSeg uses CNN-based and pre-trained ResNet feature extraction, making it computationally efficient and more straightforward than other complex models. Experimental results showcase state-of-the-art performance, achieving a 12.2% and 14.12% mIOU improvement over current unsupervised segmentation approaches on COCO-All and COCO-Stuff datasets, respectively. We provide qualitative and quantitative results on five benchmark datasets, demonstrating the efficacy of the proposed approach.Code is available at https://github.com/RyersonMultimediaLab/DynaSeg | 翻訳日:2024-08-14 22:25:12 公開日:2024-08-13 |
# 経路積分定式化における効率的な量子シミュレーションアルゴリズム
Efficient Quantum Simulation Algorithms in the Path Integral Formulation ( http://arxiv.org/abs/2405.07042v2 ) ライセンス: Link先を確認 | Serene Shum, Nathan Wiebe, | (参考訳) 従来のスパースハミルトニアン形式よりも、経路積分形式を用いてより自然に表現された問題に対して、量子スピードアップを観測できる経路積分に基づく量子シミュレーションの新しいパラダイムを提供する。
我々は、経路積分定式化のハミルトン版に基づく2つの新しい量子アルゴリズムと、 $\frac{m}{2}\dot{x}^2 - V(x)$ という形のラグランジアンに対して提供する。
このラグランジアンパス積分アルゴリズムは、ラグランジアンパス積分の離散バージョンの新しい厳密な導出に基づいている。
我々の最初のハミルトン経路積分法は、経路を短い時間ステップに分割する。
適切なスパース性仮定の下では効率的であり、シミュレーション時間$t$とエラー$\epsilon$に対して$t^{o(1)}/\epsilon^{o(1)}とスケールするハミルトン項の固有ベクトル間の重複と固有値を与えるオラクルに対して多くのクエリを必要とする。
第2のアプローチは、ほぼ断熱的なシステムに長時間の経路積分を使用し、エネルギー固有値ギャップとシミュレーション時間が十分に長い場合、$O(1/\sqrt{\epsilon})$とスケールするクエリ複雑性を持つ。
最後に、我々のラグランジアンシミュレーションアルゴリズムは、連続極限において$D+1$次元の$\eta$粒子を持つ系に対して、$V(x)$が有界で有限であれば$\widetilde{O}(\eta D t^2/\epsilon)$としてスケールする離散ラグランジアンを計算するオラクルに対して、多数のクエリを必要とすることを示す。
このことは、ラグランジアン力学が量子コンピュータ上で効率的にシミュレートされ、ハミルトニアンが未知の量子場理論が量子コンピュータ上で効率的にシミュレートされる可能性を開くことを示している。
We provide a new paradigm for quantum simulation that is based on path integration that allows quantum speedups to be observed for problems that are more naturally expressed using the path integral formalism rather than the conventional sparse Hamiltonian formalism. We provide two novel quantum algorithms based on Hamiltonian versions of the path integral formulation and another for Lagrangians of the form $\frac{m}{2}\dot{x}^2 - V(x)$. This Lagrangian path integral algorithm is based on a new rigorous derivation of a discrete version of the Lagrangian path integral. Our first Hamiltonian path integral method breaks up the paths into short timesteps. It is efficient under appropriate sparsity assumptions and requires a number of queries to oracles that give the eigenvalues and overlaps between the eigenvectors of the Hamiltonian terms that scales as $t^{o(1)}/\epsilon^{o(1)}$ for simulation time $t$ and error $\epsilon$. The second approach uses long-time path integrals for near-adiabatic systems and has query complexity that scales as $O(1/\sqrt{\epsilon})$ if the energy eigenvalue gaps and simulation time is sufficiently long. Finally, we show that our Lagrangian simulation algorithm requires a number of queries to an oracle that computes the discrete Lagrangian that scales for a system with $\eta$ particles in $D+1$ dimensions, in the continuum limit, as $\widetilde{O}(\eta D t^2/\epsilon)$ if $V(x)$ is bounded and finite and the wave function obeys appropriate position and momentum cutoffs. This shows that Lagrangian dynamics can be efficiently simulated on quantum computers and opens up the possibility for quantum field theories for which the Hamiltonian is unknown to be efficiently simulated on quantum computers. | 翻訳日:2024-08-14 22:25:12 公開日:2024-08-13 |
# PeRFlow:Universal Plug-and-Play AcceleratorとしてのPiecewise Rectified Flow
PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator ( http://arxiv.org/abs/2405.07510v4 ) ライセンス: Link先を確認 | Hanshu Yan, Xingchao Liu, Jiachun Pan, Jun Hao Liew, Qiang Liu, Jiashi Feng, | (参考訳) 拡散モデルを高速化するフローベース手法であるPecewise Rectified Flow(PeRFlow)を提案する。
PeRFlowは、生成フローのサンプリングプロセスを複数の時間ウィンドウに分割し、リフロー操作を通じて各間隔の軌跡を直線化し、断片的な線形フローに近づく。
PeRFlowは数ステップの世代で優れたパフォーマンスを達成する。
さらに、専用のパラメータ化を通じて、PeRFlowモデルは事前訓練された拡散モデルから知識を継承する。
このように、トレーニングは高速に収束し、得られたモデルは、事前訓練された拡散モデルに基づいて様々なワークフローと互換性のある普遍的なプラグアンドプレイアクセラレータとして機能する、有利な転送能力を示す。
トレーニングと推論のためのコードも公開されている。
https://github.com/magic-research/piecewise-rectified-flow
We present Piecewise Rectified Flow (PeRFlow), a flow-based method for accelerating diffusion models. PeRFlow divides the sampling process of generative flows into several time windows and straightens the trajectories in each interval via the reflow operation, thereby approaching piecewise linear flows. PeRFlow achieves superior performance in a few-step generation. Moreover, through dedicated parameterizations, the PeRFlow models inherit knowledge from the pretrained diffusion models. Thus, the training converges fast and the obtained models show advantageous transfer ability, serving as universal plug-and-play accelerators that are compatible with various workflows based on the pre-trained diffusion models. Codes for training and inference are publicly released. https://github.com/magic-research/piecewise-rectified-flow | 翻訳日:2024-08-14 22:25:12 公開日:2024-08-13 |
# 非平坦な仮定に基づく論証と論理プログラミングの対応性について
On the Correspondence of Non-flat Assumption-based Argumentation and Logic Programming with Negation as Failure in the Head ( http://arxiv.org/abs/2405.09415v3 ) ライセンス: Link先を確認 | Anna Rapberger, Markus Ulbricht, Francesca Toni, | (参考訳) 仮定に基づく議論(ABA)と安定モデル意味論における論理プログラム(LP)の関係はよく研究されている。
しかし、この関係を得るには、ABAフレームワークはフラットなものに制限する必要がある。
本稿では,この制限を除去し,非平坦なABAとLPの対応性を示す。
次に、この結果を、もともと双極性ABAと呼ばれる非平坦なABAの断片に対して定義された、いわゆる集合安定ABA意味論に拡張する。
本稿では,LP の集合安定セマンティクスを頭の中の失敗として定義し,集合安定な ABA セマンティクスとの対応を示す。
The relation between (a fragment of) assumption-based argumentation (ABA) and logic programs (LPs) under stable model semantics is well-studied. However, for obtaining this relation, the ABA framework needs to be restricted to being flat, i.e., a fragment where the (defeasible) assumptions can never be entailed, only assumed to be true or false. Here, we remove this restriction and show a correspondence between non-flat ABA and LPs with negation as failure in their head. We then extend this result to so-called set-stable ABA semantics, originally defined for the fragment of non-flat ABA called bipolar ABA. We showcase how to define set-stable semantics for LPs with negation as failure in their head and show the correspondence to set-stable ABA semantics. | 翻訳日:2024-08-14 22:15:08 公開日:2024-08-13 |
# NeRFからガウスプレートへ, そしてバックへ
From NeRFs to Gaussian Splats, and Back ( http://arxiv.org/abs/2405.09717v3 ) ライセンス: Link先を確認 | Siming He, Zach Osman, Pratik Chaudhari, | (参考訳) 限られた数の(典型的には自我中心の)ビューがあるロボティクスアプリケーションでは、ニューラルラディアンスフィールド(NeRF)のようなパラメトリック表現は、ガウススプラッティング(GS)のような非パラメトリックのビューよりも、トレーニングデータと非常に異なるビューに一般化される。
我々はこの2つを前後に変換する手順を開発する。
提案手法は,NRF (PSNR, SSIM, LPIPS) とGS (リアルタイムレンダリング, 表現の修正能力) の双方の利点を生かし, これらの変換の計算コストは, スクラッチからトレーニングするよりも小さかった。
For robotics applications where there is a limited number of (typically ego-centric) views, parametric representations such as neural radiance fields (NeRFs) generalize better than non-parametric ones such as Gaussian splatting (GS) to views that are very different from those in the training data; GS however can render much faster than NeRFs. We develop a procedure to convert back and forth between the two. Our approach achieves the best of both NeRFs (superior PSNR, SSIM, and LPIPS on dissimilar views, and a compact representation) and GS (real-time rendering and ability for easily modifying the representation); the computational cost of these conversions is minor compared to training the two from scratch. | 翻訳日:2024-08-14 22:15:08 公開日:2024-08-13 |
# RoNLIを応用したカルトグラフィーに基づく新しいカリキュラム学習法:ルーマニア初の自然言語推論コーパス
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus ( http://arxiv.org/abs/2405.11877v4 ) ライセンス: Link先を確認 | Eduard Poesina, Cornelia Caragea, Radu Tudor Ionescu, | (参考訳) 自然言語推論(英: Natural Language Inference, NLI)は、自然言語理解の代名詞として研究されている話題である。
対話エージェントの構築やテキスト分類、機械翻訳、その他のNLPタスクの改善には関連性があるものの、我々の知る限り、ルーマニア語のNLIコーパスは公開されていない。
この目的のために, 遠隔監視により得られた58Kの訓練文対と, 正確なラベルを手動で注釈付けした6Kの検証とテスト文対からなるルーマニア初のNLIコーパス(RoNLI)を導入する。
我々は、単語埋め込みに基づく浅いモデルからトランスフォーマーベースのニューラルネットワークまで、遠隔学習に基づく複数の機械学習手法で実験を行い、競争力のあるベースラインを確立する。
さらに、データ地図に基づく新しいカリキュラム学習戦略を採用することにより、最良のモデルを改善する。
ベースラインを再現するデータセットとコードは、https://github.com/Eduard6421/RONLI.orgで公開されています。
Natural language inference (NLI), the task of recognizing the entailment relationship in sentence pairs, is an actively studied topic serving as a proxy for natural language understanding. Despite the relevance of the task in building conversational agents and improving text classification, machine translation and other NLP tasks, to the best of our knowledge, there is no publicly available NLI corpus for the Romanian language. To this end, we introduce the first Romanian NLI corpus (RoNLI) comprising 58K training sentence pairs, which are obtained via distant supervision, and 6K validation and test sentence pairs, which are manually annotated with the correct labels. We conduct experiments with multiple machine learning methods based on distant learning, ranging from shallow models based on word embeddings to transformer-based neural networks, to establish a set of competitive baselines. Furthermore, we improve on the best model by employing a new curriculum learning strategy based on data cartography. Our dataset and code to reproduce the baselines are available at https://github.com/Eduard6421/RONLI. | 翻訳日:2024-08-14 22:15:08 公開日:2024-08-13 |
# FUGNN: グラフニューラルネットワークにおけるフェアネスとユーティリティの調和
FUGNN: Harmonizing Fairness and Utility in Graph Neural Networks ( http://arxiv.org/abs/2405.17034v2 ) ライセンス: Link先を確認 | Renqiang Luo, Huafei Huang, Shuo Yu, Zhuoyang Han, Estrid He, Xiuzhen Zhang, Feng Xia, | (参考訳) フェアネスを意識したグラフニューラルネットワーク(GNN)は、フェアネスの優先順位付けが実用性を損なう可能性があるため、難しいトレードオフに直面していることが多い。
本研究では,スペクトルグラフ理論のレンズによるフェアネスの再検討を行い,スペクトルグラフ学習の枠組み内でのフェアネスと有用性を考察する。
我々は,GNNにおける感度特徴とスペクトルの相関関係を理論的解析を用いて検討し,異なるスペクトル下での畳み込み後の特徴と元の感度特徴との類似性を明らかにする。
本分析により,最大等級固有値に関連付けられた固有ベクトルが方向類似性を示す場合に,類似性の影響の低減が明らかとなった。
これらの理論的知見に基づいて、フェアネスとユーティリティの対立を調和させる新しいスペクトルグラフ学習手法であるFUGNNを提案する。
FUGNNは、スペクトルを切断し、符号化プロセス中に固有ベクトル分布を最適化することにより、アルゴリズムの公正性と有用性を保証する。
公平を意識した固有ベクトル選択は、実用性の犠牲を同時に最小化しつつ、繊細な特徴に対する畳み込みの影響を低減する。
FUGNNはさらにトランスアーキテクチャを通じて固有ベクトルの分布を最適化する。
最適化されたスペクトルをグラフ畳み込みネットワークに組み込むことで、FUGNNはノード表現を効果的に学習する。
6つの実世界のデータセットに対する実験は、ベースライン法よりもFUGNNの方が優れていることを示した。
コードはhttps://github.com/yushuowiki/FUGNNで公開されている。
Fairness-aware Graph Neural Networks (GNNs) often face a challenging trade-off, where prioritizing fairness may require compromising utility. In this work, we re-examine fairness through the lens of spectral graph theory, aiming to reconcile fairness and utility within the framework of spectral graph learning. We explore the correlation between sensitive features and spectrum in GNNs, using theoretical analysis to delineate the similarity between original sensitive features and those after convolution under different spectra. Our analysis reveals a reduction in the impact of similarity when the eigenvectors associated with the largest magnitude eigenvalue exhibit directional similarity. Based on these theoretical insights, we propose FUGNN, a novel spectral graph learning approach that harmonizes the conflict between fairness and utility. FUGNN ensures algorithmic fairness and utility by truncating the spectrum and optimizing eigenvector distribution during the encoding process. The fairness-aware eigenvector selection reduces the impact of convolution on sensitive features while concurrently minimizing the sacrifice of utility. FUGNN further optimizes the distribution of eigenvectors through a transformer architecture. By incorporating the optimized spectrum into the graph convolution network, FUGNN effectively learns node representations. Experiments on six real-world datasets demonstrate the superiority of FUGNN over baseline methods. The codes are available at https://github.com/yushuowiki/FUGNN. | 翻訳日:2024-08-14 22:15:08 公開日:2024-08-13 |
# GarmentCodeData: 縫製パターンを備えた3Dメイド・ツー・メア・ガーメントのデータセット
GarmentCodeData: A Dataset of 3D Made-to-Measure Garments With Sewing Patterns ( http://arxiv.org/abs/2405.17609v2 ) ライセンス: Link先を確認 | Maria Korosteleva, Timur Levent Kesdogan, Fabian Kemper, Stephan Wenninger, Jasmin Koller, Yuhan Zhang, Mario Botsch, Olga Sorkine-Hornung, | (参考訳) 近年、仮想的な適合から生成・再構築まで、衣服の学習に基づく処理への関心が高まり、ドメイン内の高品質な公開データの不足に悩まされている。
我々は,縫製パターンと生成パイプラインを備えた3D合成服の大規模合成データセットを提示することにより,このニーズの解決に寄与する。
GarmentCodeDataには、トップ、シャツ、ドレス、ジャンプスーツ、スカート、パンツなど、さまざまなデザインをカバーする11万5000のデータポイントが含まれており、CAESARに基づくカスタム統計ボディモデルからサンプリングされたさまざまなボディ形状に適合し、3種類の異なる繊維材料を応用している。
このような複雑さのデータセットを作成するために,サンプル体形状を自動計測するアルゴリズム,縫製パターン設計のためのサンプリング戦略,高速XPBDシミュレータに基づくオープンソースの3D衣料ドッピングパイプラインを提案するとともに,衝突分解能とドレープ精度のいくつかのソリューションを提供してスケーラビリティを実現する。
プロジェクトページ:https://igl.ethz.ch/projects/GarmentCodeData/データセット:https://doi.org/10.3929/ethz-b-000673889
Recent research interest in the learning-based processing of garments, from virtual fitting to generation and reconstruction, stumbles on a scarcity of high-quality public data in the domain. We contribute to resolving this need by presenting the first large-scale synthetic dataset of 3D made-to-measure garments with sewing patterns, as well as its generation pipeline. GarmentCodeData contains 115,000 data points that cover a variety of designs in many common garment categories: tops, shirts, dresses, jumpsuits, skirts, pants, etc., fitted to a variety of body shapes sampled from a custom statistical body model based on CAESAR, as well as a standard reference body shape, applying three different textile materials. To enable the creation of datasets of such complexity, we introduce a set of algorithms for automatically taking tailor's measures on sampled body shapes, sampling strategies for sewing pattern design, and propose an automatic, open-source 3D garment draping pipeline based on a fast XPBD simulator, while contributing several solutions for collision resolution and drape correctness to enable scalability. Project Page: https://igl.ethz.ch/projects/GarmentCodeData/ Dataset: https://doi.org/10.3929/ethz-b-000673889 | 翻訳日:2024-08-14 22:15:08 公開日:2024-08-13 |
# WRDScore: 自然言語生成モデル評価のための新しい指標
WRDScore: New Metric for Evaluation of Natural Language Generation Models ( http://arxiv.org/abs/2405.19220v5 ) ライセンス: Link先を確認 | Ravil Mussabayev, | (参考訳) 自然言語生成モデルの評価、特にメソッド名予測は、大きな課題となっている。
堅牢な計量は、意味的および統語的バリエーションの両方を考慮して、メソッド命名の汎用性を考慮する必要がある。
ROUGEのような従来の重複ベースのメトリクスは、これらのニュアンスをキャプチャできない。
既存の埋め込みベースのメトリクスは、しばしば不均衡な精度とリコール、正規化されたスコアの欠如、シーケンスに関する非現実的な仮定に悩まされる。
これらの制約に対処するために、最適な輸送理論を活用し、単純さと有効性のバランスをとる新しい計量であるWRDScoreを構築します。
WRDScoreフレームワークでは、予測シーケンスのトークンが参照シーケンスに含まれる最大度として、トークン単位のトークンとして精度を定義する。
リコールは、参照シーケンスを予測されたものとマッピングする最適な輸送計画の総コストとして計算される。
最後に、WRDScoreは2つの相補的なメトリクスのバランスをとり、精度とリコールの調和平均として計算される。
我々の計量は軽量で、正規化され、精度の高いリコール指向であり、非現実的な仮定を避けつつ、人間の判断とうまく一致している。
人間計算データセットの実験では、WRDScoreが他の利用可能なテキストメトリクスよりも優れていることが確認されている。
Evaluating natural language generation models, particularly for method name prediction, poses significant challenges. A robust metric must account for the versatility of method naming, considering both semantic and syntactic variations. Traditional overlap-based metrics, such as ROUGE, fail to capture these nuances. Existing embedding-based metrics often suffer from imbalanced precision and recall, lack normalized scores, or make unrealistic assumptions about sequences. To address these limitations, we leverage the theory of optimal transport and construct WRDScore, a novel metric that strikes a balance between simplicity and effectiveness. In the WRDScore framework, we define precision as the maximum degree to which the predicted sequence's tokens are included in the reference sequence, token by token. Recall is calculated as the total cost of the optimal transport plan that maps the reference sequence to the predicted one. Finally, WRDScore is computed as the harmonic mean of precision and recall, balancing these two complementary metrics. Our metric is lightweight, normalized, and precision-recall-oriented, avoiding unrealistic assumptions while aligning well with human judgments. Experiments on a human-curated dataset confirm the superiority of WRDScore over other available text metrics. | 翻訳日:2024-08-14 22:15:08 公開日:2024-08-13 |
# Bi-DCSpell:中国製スペルチェック用双方向検出器・コレクタインタラクティブフレームワーク
Bi-DCSpell: A Bi-directional Detector-Corrector Interactive Framework for Chinese Spelling Check ( http://arxiv.org/abs/2406.01879v2 ) ライセンス: Link先を確認 | Haiming Wu, Hanqing Zhang, Richeng Xuan, Dawei Song, | (参考訳) Chinese Spelling Check (CSC) は、中国語の文中の潜在的な誤字を検出し、訂正することを目的としている。
当然、検出と修正のサブタスクが伴い、動的に相互に相互作用する。
このような相互作用は双方向であり、すなわち検出結果は過補正や過補正のリスクを減らすのに役立ち、一方で補正から学んだ知識は誤検出を防ぐのに役立ちます。
現在のCSCアプローチには2つのタイプがある。
それでも、検出と修正の間の双方向の相互作用を見落としている。
本稿では,CSC(Bi-DCSpell)のための双方向検出器・コレクタフレームワークを提案することにより,このギャップを埋めることを目的とする。
特に、Bi-DCSpellは、別途検出および修正エンコーダを含み、次いで、検出と修正の間の双方向の特徴相互作用を容易にし、お互いの表現学習を改善するインタラクティブな学習モジュールである。
広範に使用されているベンチマークデータセットに対して,Bi-DCSpellの堅牢な補正性能を示すとともに,良好な検出能力を有することを示した。
Chinese Spelling Check (CSC) aims to detect and correct potentially misspelled characters in Chinese sentences. Naturally, it involves the detection and correction subtasks, which interact with each other dynamically. Such interactions are bi-directional, i.e., the detection result would help reduce the risk of over-correction and under-correction while the knowledge learnt from correction would help prevent false detection. Current CSC approaches are of two types: correction-only or single-directional detection-to-correction interactive frameworks. Nonetheless, they overlook the bi-directional interactions between detection and correction. This paper aims to fill the gap by proposing a Bi-directional Detector-Corrector framework for CSC (Bi-DCSpell). Notably, Bi-DCSpell contains separate detection and correction encoders, followed by a novel interactive learning module facilitating bi-directional feature interactions between detection and correction to improve each other's representation learning. Extensive experimental results demonstrate a robust correction performance of Bi-DCSpell on widely used benchmarking datasets while possessing a satisfactory detection ability. | 翻訳日:2024-08-14 22:15:08 公開日:2024-08-13 |
# SUBLLM: LLMのためのToken Sequence Subsamplingを用いた新しい効率的なアーキテクチャ
SUBLLM: A Novel Efficient Architecture with Token Sequence Subsampling for LLM ( http://arxiv.org/abs/2406.06571v3 ) ライセンス: Link先を確認 | Quandong Wang, Yuxuan Yuan, Xiaoyu Yang, Ruike Zhang, Kang Zhao, Wei Liu, Jian Luan, Daniel Povey, Bin Wang, | (参考訳) 大規模言語モデル(LLM)は様々な分野で大きな成功を収めてきたが、トレーニングと推論の効率性は依然として大きな課題である。
本稿では,Subsampling-Upsampling-Bypass Large Language Modelの略で,Subsampling, Upsampling, Bypassモジュールを組み込んでコアデコーダのみのフレームワークを拡張する革新的なアーキテクチャであるSUBLLMを提案する。
サブサンプリングモジュールはシーケンスを短縮し、アップサンプリングモジュールはシーケンスの長さを復元し、バイパスモジュールは収束を高める。
LLaMAと比較して、提案されたSUBLLMは、トレーニング速度と推論速度、メモリ使用量の両方で大幅に向上し、競合する数ショットのパフォーマンスを維持している。
トレーニング中、SUBLLMはスピードを26%向上し、GPU毎にメモリを10GB削減する。
推論では、スピードを最大37%向上し、1GPUあたりのメモリを1GB削減する。
トレーニングと推論のスピードは、コンテキストウィンドウが8192に拡張された場合、それぞれ34%と52%向上できる。
私たちのコードはhttps://github.com/XiaoMi/subllm.comから入手可能です。
While Large Language Models (LLMs) have achieved remarkable success in various fields, the efficiency of training and inference remains a major challenge. To address this issue, we propose SUBLLM, short for Subsampling-Upsampling-Bypass Large Language Model, an innovative architecture that extends the core decoder-only framework by incorporating subsampling, upsampling, and bypass modules. The subsampling modules are responsible for shortening the sequence, while the upsampling modules restore the sequence length, and the bypass modules enhance convergence. In comparison to LLaMA, the proposed SUBLLM exhibits significant enhancements in both training and inference speeds as well as memory usage, while maintaining competitive few-shot performance. During training, SUBLLM increases speeds by 26% and cuts memory by 10GB per GPU. In inference, it boosts speeds by up to 37% and reduces memory by 1GB per GPU. The training and inference speeds can be enhanced by 34% and 52% respectively when the context window is expanded to 8192. Our code is available at https://github.com/XiaoMi/subllm. | 翻訳日:2024-08-14 22:15:08 公開日:2024-08-13 |
# 審査員の判断:LLMによるペアワイズ比較評価における位置バイアスの体系的調査
Judging the Judges: A Systematic Investigation of Position Bias in Pairwise Comparative Assessments by LLMs ( http://arxiv.org/abs/2406.07791v3 ) ライセンス: Link先を確認 | Lin Shi, Chiyu Ma, Weicheng Ma, Soroush Vosoughi, | (参考訳) LLM-as-a-Judgeは、様々なタスク、しかし固有のバイアス、特に位置バイアス(特に、プロンプトにおける彼らの位置に基づく回答の体系的な選好)に対する有望な代替手段を提供し、その効果を損なう。
本研究は,反復的整合性,位置整合性,位置整合性などの指標を用いて,位置バイアスを体系的に研究・定量化する枠組みを開発することにより,この問題を考察する。
我々はMTBenchベンチマークとDevBenchベンチマークから22タスクにわたる9つの判断モデルと40近い回答生成モデルを用いて実験を行い、約80,000の評価インスタンスを生成する。
この総合的な評価は、裁判官やタスク間でのバイアスの顕著な変化を明らかにします。
GPT-4は、しばしば位置整合性と公平性に優れるが、よりコスト効率の良いモデルでは、特定のタスクにおいて、整合性、公平性、コストの基本的なトレードオフを強調しながら、比較可能あるいはそれ以上に優れた性能を発揮する。
また, 位置偏差がランダムな変動によるものではないことを確認し, 繰り返しによる判定の整合性を示した。
本研究は,位置バイアスを理解するための新しい概念を導入し,評価のための多次元フレームワークを提供することによって,この分野に大きく貢献する。
これらの洞察は、最適な審査モデルの選択を導き、ベンチマーク設計を強化し、将来の効果的なデバイアスング戦略の研究の基礎を築き、最終的にLLM評価器の信頼性を高めます。
LLM-as-a-Judge offers a promising alternative to human judges across various tasks, yet inherent biases, particularly position bias - a systematic preference for answers based on their position in the prompt - compromise its effectiveness. Our study investigates this issue by developing a framework to systematically study and quantify position bias using metrics such as repetitional consistency, positional consistency, and positional fairness. We conduct experiments with 9 judge models across 22 tasks from the MTBench and DevBench benchmarks and nearly 40 answer-generating models, generating approximately 80,000 evaluation instances. This comprehensive assessment reveals significant variations in bias across judges and tasks. Although GPT-4 often excels in positional consistency and fairness, some more cost-effective models perform comparably or even better in specific tasks, highlighting essential trade-offs between consistency, fairness, and cost. Our results also demonstrate high consistency of judgment across repetitions, confirming that position bias is not due to random variations. This research significantly contributes to the field by introducing new concepts for understanding position bias and providing a multi-dimensional framework for evaluation. These insights guide the selection of optimal judge models, enhance benchmark design, and lay the foundation for future research into effective debiasing strategies, ultimately enhancing the reliability of LLM evaluators. | 翻訳日:2024-08-14 22:15:08 公開日:2024-08-13 |
# MICL:デモにおける複数ラベル語によるインテクスト学習の改善
MICL: Improving In-Context Learning through Multiple-Label Words in Demonstration ( http://arxiv.org/abs/2406.10908v3 ) ライセンス: Link先を確認 | Zhu Zixiao, Feng Zijian, Zhou Hanzhang, Qian Junlang, Mao Kezhi, | (参考訳) In-context Learning (ICL)では、サンプルラベルペアをデモとして使用することで、大規模な言語モデル(LLM)が新しいタスクを実行できる。
しかし、デモのバリエーションは、かなり異なるパフォーマンスをもたらす可能性がある。
現在の研究は、主にサンプルラベルペアを作成する際に、クラス名をラベル語と仮定して、サンプルサンプルを選択することに焦点を当てている。
しかし、ラベルワードの選択はICLのパフォーマンスに不可欠である。
さらに、1つのサンプルラベル対で複数のラベル語を使用する場合、デモで1つのクラス名を使用すると最適な結果が得られず、ICL性能が向上することが観察された。
本稿では,LLMの出力空間分布に基づく実演において,サンプルとラベルの両方を整理する包括的アプローチを提案する。
このアプローチでは、複数のラベル語を1つのサンプルラベル対で使用し、ラベル命令を強化する。
7つの分類データセットによる評価結果から,複数のラベル語を組み込んでラベル情報を提供する実演組織手法により,ICL性能が向上することが示された。
In-context learning (ICL) enables large language models (LLMs) to perform new tasks by using sample-label pairs as demonstrations. However, variations in demonstrations can lead to significantly different performances. Current research mainly focuses on selecting demonstration samples, preassuming the class name to be the label word when creating sample-label pairs. However, the choice of label words is crucial for ICL performance. Besides, we observe that using a single class name in demonstration may not yield optimal results while using multiple label words in one sample-label pair can enhance ICL performance. In this paper, we propose a comprehensive approach that organizes both samples and labels in demonstrations based on LLMs' output space distribution. This approach uses multiple label words in one sample-label pair to enhance label instruction. Evaluation results from seven classification datasets show that this demonstration organization method, which incorporates multiple label words to provide diverse label information, improves ICL performance. | 翻訳日:2024-08-14 22:15:08 公開日:2024-08-13 |
# ステレオマッチングにおける厳密な反復的相違
Rectified Iterative Disparity for Stereo Matching ( http://arxiv.org/abs/2406.10943v3 ) ライセンス: Link先を確認 | Weiqing Xiao, Wei Zhao, | (参考訳) 不確実性と反復に基づく手法はステレオマッチングにおいて大きな成功を収めた。
しかし、既存の不確実性推定手法では、単一の画像と対応する相違を入力とし、推定ネットワークにより高い要求を課す。
本稿では,コストボリュームに基づく不確実性推定(UEC)を提案する。
画像対から得られるコストボリュームの豊富な類似性情報に基づいて,提案したUCCは,計算コストの低い競合性能を実現することができる。
次に,不確実性に基づく不確実性評価,不確実性に基づく不確実性補正(UDR)と不確実性に基づく不確実性更新条件(UDC)の2つの手法を提案する。
これらの2つの方法は、余分なパラメータを加えることなく反復的アプローチの差分更新プロセスを最適化する。
さらに,小量の異方性更新の精度を著しく向上する異方性補正損失を提案する。
提案手法を組み合わせた高性能ステレオアーキテクチャDR Stereoを提案する。
SceneFlow、KITTI、Middlebury 2014、ETH3Dの実験結果は、DR-Stereoが非常に競争力のある異種推定性能を達成していることを示している。
Both uncertainty-assisted and iteration-based methods have achieved great success in stereo matching. However, existing uncertainty estimation methods take a single image and the corresponding disparity as input, which imposes higher demands on the estimation network. In this paper, we propose Cost volume-based disparity Uncertainty Estimation (UEC). Based on the rich similarity information in the cost volume coming from the image pairs, the proposed UEC can achieve competitive performance with low computational cost. Secondly, we propose two methods of uncertainty-assisted disparity estimation, Uncertainty-based Disparity Rectification (UDR) and Uncertainty-based Disparity update Conditioning (UDC). These two methods optimise the disparity update process of the iterative-based approach without adding extra parameters. In addition, we propose Disparity Rectification loss that significantly improves the accuracy of small amount of disparity updates. We present a high-performance stereo architecture, DR Stereo, which is a combination of the proposed methods. Experimental results from SceneFlow, KITTI, Middlebury 2014, and ETH3D show that DR-Stereo achieves very competitive disparity estimation performance. | 翻訳日:2024-08-14 22:15:08 公開日:2024-08-13 |
# ユーザペルソナと潜在的ミスアライメントのメカニズム
Who's asking? User personas and the mechanics of latent misalignment ( http://arxiv.org/abs/2406.12094v2 ) ライセンス: Link先を確認 | Asma Ghandeharioun, Ann Yuan, Marius Guerard, Emily Reif, Michael A. Lepori, Lucas Dixon, | (参考訳) モデル安全性の改善への投資にもかかわらず、安全に配慮したモデルでは、不整合性は相変わらず維持されていることが研究で示されている。
この研究において、我々はこの現象の力学に光を当てた。
まず、モデル世代が安全である場合でも、有害なコンテンツは隠された表現に留まり、以前のレイヤから復号することで抽出できることを示す。
そして,モデルがそのようなコンテンツを拡散するか否かは,相手に対する認識に大きく依存していることを示し,これをユーザペルソナと呼ぶ。
実際、ユーザペルソナの操作は、モデル拒絶を直接制御しようとする試みよりも有害なコンテンツを引き出すのに効果的であることがわかった。
自然言語のプロンプトとアクティベーションステアリングの両方を制御法として検討し、アクティベーションステアリングが安全フィルタをバイパスするのに著しく有効であることを示す。
特定のペルソナがモデルセーフガードを破る理由を調査し、そのモデルが危険なクエリのより慈善的な解釈を形成することを確認した。
最後に, 操舵ベクトルの幾何学のみを考慮すれば, 拒絶に対するペルソナの影響を予測できることを示す。
Despite investments in improving model safety, studies show that misaligned capabilities remain latent in safety-tuned models. In this work, we shed light on the mechanics of this phenomenon. First, we show that even when model generations are safe, harmful content can persist in hidden representations and can be extracted by decoding from earlier layers. Then, we show that whether the model divulges such content depends significantly on its perception of who it is talking to, which we refer to as user persona. In fact, we find manipulating user persona to be even more effective for eliciting harmful content than direct attempts to control model refusal. We study both natural language prompting and activation steering as control methods and show that activation steering is significantly more effective at bypassing safety filters. We investigate why certain personas break model safeguards and find that they enable the model to form more charitable interpretations of otherwise dangerous queries. Finally, we show we can predict a persona's effect on refusal given only the geometry of its steering vector. | 翻訳日:2024-08-14 22:15:08 公開日:2024-08-13 |
# 回路QEDの結合光子数分割方式を用いた二重レールキャビティ量子ビットの中間回路消去チェック
A mid-circuit erasure check on a dual-rail cavity qubit using the joint-photon number-splitting regime of circuit QED ( http://arxiv.org/abs/2406.14621v2 ) ライセンス: Link先を確認 | Stijn J. de Graaf, Sophia H. Xue, Benjamin J. Chapman, James D. Teoh, Takahiro Tsunoda, Patrick Winkel, John W. O. Garmon, Kathleen M. Chang, Luigi Frunzio, Shruti Puri, Robert J. Schoelkopf, | (参考訳) 非線形アンシラへの静的分散結合を用いた線形発振器の量子制御は、回路QEDにおいて様々な実験を行う。
この制御を複数の発振器に拡張し、必要なアンシラへの接続を最小化することで、ハードウェア効率の良いマルチモードの絡み合いと測定を可能にした。
本研究では, 単一モードに静的に結合したアンシラのスペクトルを, 強いパラメトリックビームスプリッタ結合を施すことにより, 2モードの接合光子数に依存することを示す。
2つの超伝導キャビティに符号化されたデュアルレール量子ビットに対して、ハードウェア効率の良い消去チェックを実現するために、この「接合光子数分割」方式は、単一オシレータ技術を2オシレータ制御に拡張する。
単一ビットゲートに既に必要とされているビームスプリッタ結合を利用することで、回路素子間の接続を最小限に抑えることができる。
さらに、パルス形状を選択する柔軟性により、異なるエラーチャネルに対する感受性を制限することができる。
我々はこの手法を用いて、消去率2.92 pm 0.01 %$とPauli エラー率0.31 pm 0.01 %$を発生させながら、消去率9.0 pm 0.5)\times10^{-4}$を欠落した消去率9.0 pm 0.5 でリークエラーを検出する。
Quantum control of a linear oscillator using a static dispersive coupling to a nonlinear ancilla underpins a wide variety of experiments in circuit QED. Extending this control to more than one oscillator while minimizing the required connectivity to the ancilla would enable hardware-efficient multi-mode entanglement and measurements. We show that the spectrum of an ancilla statically coupled to a single mode can be made to depend on the joint photon number in two modes by applying a strong parametric beamsplitter coupling between them. This `joint-photon number-splitting' regime extends single-oscillator techniques to two-oscillator control, which we use to realize a hardware-efficient erasure check for a dual-rail qubit encoded in two superconducting cavities. By leveraging the beamsplitter coupling already required for single-qubit gates, this scheme permits minimal connectivity between circuit elements. Furthermore, the flexibility to choose the pulse shape allows us to limit the susceptibility to different error channels. We use this scheme to detect leakage errors with a missed erasure fraction of $(9.0 \pm 0.5)\times10^{-4}$, while incurring an erasure rate of $2.92 \pm 0.01\%$ and a Pauli error rate of $0.31 \pm 0.01\%$, both of which are dominated by cavity errors. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# InterCLIP-MEP:マルチモーダルサーカスム検出のための対話型CLIPとメモリ拡張予測器
InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection ( http://arxiv.org/abs/2406.16464v4 ) ライセンス: Link先を確認 | Junjie Chen, Hang Yu, Weidong Liu, Subin Huang, Sanmin Liu, | (参考訳) ソーシャルメディアにおけるサルカズムの頻度は、テキストと画像の組み合わせを通して伝えられ、感情分析と意図的マイニングにおいて重要な課題が提示される。
既存のマルチモーダルサルカズム検出法は、画像とテキストの相互作用から生じる複雑なサーカシックな手がかりを効果的に捉えるのに苦労するため、性能を過大評価することが証明されている。
これらの問題に対処するため,マルチモーダルサルカズム検出のための新しいフレームワークであるInterCLIP-MEPを提案する。
具体的には,対話型CLIP (InterCLIP) をバックボーンとして導入し,テキストイメージの表現を抽出し,各エンコーダに直接モダリティ情報を埋め込むことにより,テキストイメージのインタラクションをよりよくキャプチャするための表現を改善する。
さらに、提案したメモリ拡張予測器(MEP)にInterCLIPを適用するための効率的なトレーニング戦略を設計する。
MEPは動的で固定長のデュアルチャネルメモリを使用して、推論中に貴重なテストサンプルの履歴情報を格納する。
その後、このメモリを非パラメトリック分類器として利用して最終的な予測を導き、マルチモーダルサルカズムをより堅牢に認識する。
実験により,InterCLIP-MEPはMMSD2.0ベンチマークの最先端性能を実現し,精度は1.08%,F1スコアは1.51%向上した。
The prevalence of sarcasm in social media, conveyed through text-image combinations, presents significant challenges for sentiment analysis and intention mining. Existing multi-modal sarcasm detection methods have been proven to overestimate performance, as they struggle to effectively capture the intricate sarcastic cues that arise from the interaction between an image and text. To address these issues, we propose InterCLIP-MEP, a novel framework for multi-modal sarcasm detection. Specifically, we introduce an Interactive CLIP (InterCLIP) as the backbone to extract text-image representations, enhancing them by embedding cross-modality information directly within each encoder, thereby improving the representations to capture text-image interactions better. Furthermore, an efficient training strategy is designed to adapt InterCLIP for our proposed Memory-Enhanced Predictor (MEP). MEP uses a dynamic, fixed-length dual-channel memory to store historical knowledge of valuable test samples during inference. It then leverages this memory as a non-parametric classifier to derive the final prediction, offering a more robust recognition of multi-modal sarcasm. Experiments demonstrate that InterCLIP-MEP achieves state-of-the-art performance on the MMSD2.0 benchmark, with an accuracy improvement of 1.08% and an F1 score improvement of 1.51% over the previous best method. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# MLAAN: Multilaminar Leap Augmented Auxiliary Network によるローカル学習のスケールアップ
MLAAN: Scaling Supervised Local Learning with Multilaminar Leap Augmented Auxiliary Network ( http://arxiv.org/abs/2406.16633v3 ) ライセンス: Link先を確認 | Yuming Zhang, Shouxin Zhang, Peizhe Wang, Feiyu Zhu, Dongzhi Guan, Junhao Su, Jiabin Liu, Changpeng Cai, | (参考訳) ディープニューラルネットワーク(DNN)は通常、エンドツーエンド(E2E)のトレーニングパラダイムを採用しており、高いGPUメモリ消費、非効率性、トレーニング中のモデルの並列化の難しさなど、いくつかの課題を提示している。
最近の研究はこれらの問題に対処しようとしており、ある有望なアプローチは局所的な学習である。
この方法は、バックボーンネットワークを勾配分離モジュールに分割し、これらのローカルモジュールをトレーニングするための補助ネットワークを手動で設計することを含む。
既存の手法では、ローカルモジュール間の情報交換を無視することが多く、筋電図上の問題や、E2Eトレーニングと比較してパフォーマンスの差が生じる。
これらの制約に対処するため,Multilaminar Leap Augmented Auxiliary Network (MLAAN)を提案する。
具体的には、MLAAN は Multilaminar Local Modules (MLM) と Leap Augmented Modules (LAM) から構成される。
MLMは、独立およびカスケードされた補助ネットワークを通じて、ローカルおよびグローバル両方の機能をキャプチャし、グローバル機能不足によるパフォーマンス上の問題を緩和する。
しかし、過度に単純化された補助ネットワークは、MLMがグローバル情報をキャプチャする能力を阻害する可能性がある。
そこで我々は,ローカルモジュール間の情報交換を容易にするために,指数移動平均 (EMA) 法を用いた拡張補助ネットワーク LAM をさらに設計する。
MLMとLAMの相乗効果は優れた性能を示した。
CIFAR-10, STL-10, SVHN, ImageNetデータセットを用いた実験により, MLAANは既存のローカル学習フレームワークにシームレスに統合され, 性能を大幅に向上し, エンド・ツー・エンド(E2E)トレーニング手法を超越し,GPUメモリ消費の削減も図っている。
Deep neural networks (DNNs) typically employ an end-to-end (E2E) training paradigm which presents several challenges, including high GPU memory consumption, inefficiency, and difficulties in model parallelization during training. Recent research has sought to address these issues, with one promising approach being local learning. This method involves partitioning the backbone network into gradient-isolated modules and manually designing auxiliary networks to train these local modules. Existing methods often neglect the interaction of information between local modules, leading to myopic issues and a performance gap compared to E2E training. To address these limitations, we propose the Multilaminar Leap Augmented Auxiliary Network (MLAAN). Specifically, MLAAN comprises Multilaminar Local Modules (MLM) and Leap Augmented Modules (LAM). MLM captures both local and global features through independent and cascaded auxiliary networks, alleviating performance issues caused by insufficient global features. However, overly simplistic auxiliary networks can impede MLM's ability to capture global information. To address this, we further design LAM, an enhanced auxiliary network that uses the Exponential Moving Average (EMA) method to facilitate information exchange between local modules, thereby mitigating the shortsightedness resulting from inadequate interaction. The synergy between MLM and LAM has demonstrated excellent performance. Our experiments on the CIFAR-10, STL-10, SVHN, and ImageNet datasets show that MLAAN can be seamlessly integrated into existing local learning frameworks, significantly enhancing their performance and even surpassing end-to-end (E2E) training methods, while also reducing GPU memory consumption. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# 大規模言語モデルのための二重空間知識蒸留
Dual-Space Knowledge Distillation for Large Language Models ( http://arxiv.org/abs/2406.17328v2 ) ライセンス: Link先を確認 | Songming Zhang, Xue Zhang, Zengkui Sun, Yufeng Chen, Jinan Xu, | (参考訳) 知識蒸留(KD)は、より大きな言語モデル(LLM)を圧縮し、その知識をより小さなモデルに伝達する、有望なソリューションとして知られている。
この過程において、ホワイトボックスKD法は通常、2つのモデルの出力分布間の距離を最小化し、より多くの知識を伝達することができる。
しかし、現在のWhite-box KDフレームワークでは、出力分布は2つのモデルの出力空間からなり、それぞれの予測ヘッドを使用する。
我々は,空間差が教師モデルと生徒モデルとの表現と分布の両レベルでの類似度を低くすると主張している。
さらに、この相違により、現在のLLMに共通する異なる語彙を持つモデル間のKDプロセスも妨げられる。
これらの問題に対処するため,KDの2つのモデルの出力空間を統一する二空間知識蒸留(DSKD)フレームワークを提案する。
DSKDに基づいて,2つのモデルの表現を異なる語彙で自動的に整列するクロスモデルアテンション機構をさらに発展させる。
したがって、我々のフレームワークは、現在のフレームワークのようなKD(例えば、KLの発散)の様々な距離関数と互換性があるだけでなく、語彙に関係なく任意の2つのLLM間のKDもサポートしている。
タスクに依存しない命令追従ベンチマークの実験では、DSKDは様々な距離関数を持つ現在のWhite-box KDフレームワークよりも大幅に優れており、異なる語彙を持つLLMの既存のKDメソッドよりも優れていた。
Knowledge distillation (KD) is known as a promising solution to compress large language models (LLMs) via transferring their knowledge to smaller models. During this process, white-box KD methods usually minimize the distance between the output distributions of the two models so that more knowledge can be transferred. However, in the current white-box KD framework, the output distributions are from the respective output spaces of the two models, using their own prediction heads. We argue that the space discrepancy will lead to low similarity between the teacher model and the student model on both representation and distribution levels. Furthermore, this discrepancy also hinders the KD process between models with different vocabularies, which is common for current LLMs. To address these issues, we propose a dual-space knowledge distillation (DSKD) framework that unifies the output spaces of the two models for KD. On the basis of DSKD, we further develop a cross-model attention mechanism, which can automatically align the representations of the two models with different vocabularies. Thus, our framework is not only compatible with various distance functions for KD (e.g., KL divergence) like the current framework, but also supports KD between any two LLMs regardless of their vocabularies. Experiments on task-agnostic instruction-following benchmarks show that DSKD significantly outperforms the current white-box KD framework with various distance functions, and also surpasses existing KD methods for LLMs with different vocabularies. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# 変分推論を用いた最適フィルタの学習
Learning Optimal Filters Using Variational Inference ( http://arxiv.org/abs/2406.18066v2 ) ライセンス: Link先を確認 | Enoch Luk, Eviatar Bach, Ricardo Baptista, Andrew Stuart, | (参考訳) フィルタリング - 部分的に、雑音、観測された力学系の状態の条件分布を推定するタスクは、気象や気候予報など、科学や工学の多くの分野において重要である。
しかし、フィルタ分布は一般に高次元非線形系において得ることができる。
アンサンブルカルマンフィルタ(EnKF)のような実際に用いられるフィルタは非線形系には偏りがあり、多くのチューニングパラメータを持つ。
本稿では,パラメータ化解析マップ(予測分布と観測結果をフィルタリング分布に反映するマップ)を変分推論を用いて学習するフレームワークを提案する。
本手法は線形および非線形力学系をフィルタリングするためのゲイン行列の学習や,EnKFのインフレーションおよび局所化パラメータの学習に利用できることを示す。
今後、このフレームワークを新しいフィルタリングアルゴリズムの学習に適用する予定である。
Filtering - the task of estimating the conditional distribution of states of a dynamical system given partial, noisy, observations - is important in many areas of science and engineering, including weather and climate prediction. However, the filtering distribution is generally intractable to obtain for high-dimensional, nonlinear systems. Filters used in practice, such as the ensemble Kalman filter (EnKF), are biased for nonlinear systems and have numerous tuning parameters. Here, we present a framework for learning a parameterized analysis map - the map that takes a forecast distribution and observations to the filtering distribution - using variational inference. We show that this methodology can be used to learn gain matrices for filtering linear and nonlinear dynamical systems, as well as inflation and localization parameters for an EnKF. Future work will apply this framework to learn new filtering algorithms. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# YZS-model: Graph Convolutional NetworksとTransformer-Attentionに基づく有機医薬品溶解度予測モデル
YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention ( http://arxiv.org/abs/2406.19136v6 ) ライセンス: Link先を確認 | Chenxu Wang, Haowei Ming, Jian He, Yao Lu, Junhong Chen, | (参考訳) 薬物分子溶解性の正確な予測は、治療効果と安全性に不可欠である。
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。
本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合し,予測精度を向上させるディープラーニングフレームワークYZS-Modelを紹介する。
GCNは、原子と結合の関係をモデル化することによって複雑な分子トポロジーを捉えるのに優れている。
トランスフォーマーは自己認識機構を持ち、分子内の長距離依存を効果的に識別し、グローバルな相互作用を捉える。
LSTMはシーケンシャルデータを処理し、長期依存を保ち、時間情報を分子配列に統合する。
この多面的アプローチは各成分の強度を活用し、分子の性質を包括的に理解し予測するモデルをもたらす。
9,943の化合物で訓練され、抗がんデータセットで試験され、YZS-ModelはR^2$ 0.59とRMSE 0.57を達成し、ベンチマークモデル(R^2$ 0.52、RMSE 0.61)を上回った。
独立試験では、RMSEは1.05で、精度は45.9%向上した。
これらのディープラーニング技術の統合により、YZS-Modelは、事前に定義されたパラメータなしで複雑なデータから貴重な特徴を学習し、大きなデータセットを効率的に処理し、様々な分子タイプに適応することができる。
この包括的能力は予測精度とモデル一般化可能性を大幅に向上させる。
溶解度予測の精度は、候補選択を最適化し、コストを削減し、効率を向上することで、薬物開発を高速化することができる。
我々の研究は、深層学習の薬学における変革の可能性、特に溶解度予測と薬物設計の可能性を浮き彫りにしている。
Accurate prediction of drug molecule solubility is crucial for therapeutic effectiveness and safety. Traditional methods often miss complex molecular structures, leading to inaccuracies. We introduce the YZS-Model, a deep learning framework integrating Graph Convolutional Networks (GCN), Transformer architectures, and Long Short-Term Memory (LSTM) networks to enhance prediction precision. GCNs excel at capturing intricate molecular topologies by modeling the relationships between atoms and bonds. Transformers, with their self-attention mechanisms, effectively identify long-range dependencies within molecules, capturing global interactions. LSTMs process sequential data, preserving long-term dependencies and integrating temporal information within molecular sequences. This multifaceted approach leverages the strengths of each component, resulting in a model that comprehensively understands and predicts molecular properties. Trained on 9,943 compounds and tested on an anticancer dataset, the YZS-Model achieved an $R^2$ of 0.59 and an RMSE of 0.57, outperforming benchmark models ($R^2$ of 0.52 and RMSE of 0.61). In an independent test, it demonstrated an RMSE of 1.05, improving accuracy by 45.9%. The integration of these deep learning techniques allows the YZS-Model to learn valuable features from complex data without predefined parameters, handle large datasets efficiently, and adapt to various molecular types. This comprehensive capability significantly improves predictive accuracy and model generalizability. Its precision in solubility predictions can expedite drug development by optimizing candidate selection, reducing costs, and enhancing efficiency. Our research underscores deep learning's transformative potential in pharmaceutical science, particularly for solubility prediction and drug design. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# スケーラブルな同変学習のためのSE(3)-Hyena演算子
SE(3)-Hyena Operator for Scalable Equivariant Learning ( http://arxiv.org/abs/2407.01049v2 ) ライセンス: Link先を確認 | Artem Moskalev, Mangal Prakash, Rui Liao, Tommaso Mansi, | (参考訳) 等分散を維持しながらグローバルな幾何学的文脈をモデル化することは、生物学、化学、視覚など多くの分野における正確な予測に不可欠である。
しかし、これは高次元データを大規模に処理する計算要求のため、難しい。
等価な自己アテンションや距離ベースのメッセージパッシングといった既存のアプローチは、シーケンス長に関して二次的な複雑さに悩まされ、ローカライズされた手法はグローバルな情報を犠牲にしている。
近年の状態空間および長期畳み込みモデルの成功に触発されて、ハイエナ作用素に基づく同変長畳み込みモデルであるSE(3)-ハイエナ作用素を導入する。
SE(3)-ヒエナは、回転と変換に等しくを維持しながら、大域的な幾何学的文脈を準四分法的な複雑さで捉えている。
等変的連想的リコールとn-体モデリングに基づいて評価され、SE(3)-Hyenaは、長いシーケンスに対してメモリと計算資源を著しく減らしながら、等変的自己アテンションにマッチまたは優れる。
我々のモデルは20kトークンの幾何学的コンテキストを同変変圧器のx3.5倍高速に処理し、x175が同じメモリ予算内でのコンテキストを長くすることができる。
Modeling global geometric context while maintaining equivariance is crucial for accurate predictions in many fields such as biology, chemistry, or vision. Yet, this is challenging due to the computational demands of processing high-dimensional data at scale. Existing approaches such as equivariant self-attention or distance-based message passing, suffer from quadratic complexity with respect to sequence length, while localized methods sacrifice global information. Inspired by the recent success of state-space and long-convolutional models, in this work, we introduce SE(3)-Hyena operator, an equivariant long-convolutional model based on the Hyena operator. The SE(3)-Hyena captures global geometric context at sub-quadratic complexity while maintaining equivariance to rotations and translations. Evaluated on equivariant associative recall and n-body modeling, SE(3)-Hyena matches or outperforms equivariant self-attention while requiring significantly less memory and computational resources for long sequences. Our model processes the geometric context of 20k tokens x3.5 times faster than the equivariant transformer and allows x175 longer a context within the same memory budget. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# WaveShot: 動的水面撮影とメディア制作のための小型携帯型無人表面容器
WaveShot: A Compact Portable Unmanned Surface Vessel for Dynamic Water Surface Videography and Media Production ( http://arxiv.org/abs/2407.01537v2 ) ライセンス: Link先を確認 | Shijian Ma, Shicong Ma, Jianhao Jiao, | (参考訳) 本稿では,水面映像を高度に操作可能で,費用対効果が高く,従来の撮影法に代わる安全な方法を提供することで,水面映像を変換することを目的とした,革新的な携帯型無人表面容器であるWaveShotを提案する。
WaveShotは、映画製作、広告、ドキュメンタリー、視覚芸術の現代的な需要のために設計されており、プロ級防水カメラと高度な技術を備え、水路の静的でダイナミックなシーンを捉えている。
我々はWaveShotの開発と利点について議論し、移植性、輸送の容易さ、迅速な展開能力を強調します。
WaveShotの安定性と様々な水環境における高画質ビデオキャプチャ、およびオペレータの空間知覚を高めるための単眼深度推定アルゴリズムの統合を実験的に検証した。
この論文は、WaveShotの現実世界の応用、ユーザフレンドリーな遠隔操作、および水面の最適化ビデオ撮影のためのジンバル統合や高度なコンピュータビジョンといった将来の拡張を探求することによって、結論付けている。
This paper presents WaveShot, an innovative portable unmanned surface vessel that aims to transform water surface videography by offering a highly maneuverable, cost-effective, and safe alternative to traditional filming methods. WaveShot is designed for the modern demands of film production, advertising, documentaries, and visual arts, equipped with professional-grade waterproof cameras and advanced technology to capture static and dynamic scenes on waterways. We discuss the development and advantages of WaveShot, highlighting its portability, ease of transport, and rapid deployment capabilities. Experimental validation showcasing WaveShot's stability and high-quality video capture in various water conditions, and the integration of monocular depth estimation algorithms to enhance the operator's spatial perception. The paper concludes by exploring WaveShot's real-world applications, its user-friendly remote operation, and future enhancements such as gimbal integration and advanced computer vision for optimized videography on water surfaces. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# TIGER: 実践的なPython型推論のための生成テーマランキングフレームワーク
TIGER: A Generating-Then-Ranking Framework for Practical Python Type Inference ( http://arxiv.org/abs/2407.02095v3 ) ライセンス: Link先を確認 | Chong Wang, Jian Zhang, Yiling Lou, Mingwei Liu, Weisong Sun, Yang Liu, Xin Peng, | (参考訳) Pythonの動的型付けシステムは柔軟性と表現力を提供するが、型関連のエラーを引き起こす可能性があるため、型ヒントを強化するために自動型推論が必要になる。
既存の学習ベースのアプローチは有望な推論精度を示しているが、複雑なジェネリックタイプや(見えない)ユーザ定義型など、さまざまなタイプを包括的に扱うという実践的な課題に苦慮している。
本稿では,Pythonの多種多様な型カテゴリを効果的に扱えるように設計された2段階生成レベル(GTR)フレームワークであるTIGERを紹介する。
TIGERは、微調整された事前訓練されたコードモデルを利用して、スパンマスキングの目的を持つ生成モデルを訓練し、対照的なトレーニングの目的を持つ類似モデルを訓練する。
このアプローチにより、TIGERは生成段階の複雑なジェネリクスを含む幅広い型候補を生成し、ランキング段階のユーザ定義型を正確にランク付けすることができる。
ManyTypes4Pyデータセットに対する評価は、TIGERが様々なタイプのカテゴリで既存のメソッドよりも優れていることを示し、特にTop-5 Exact Matchにおいて、ユーザ定義型と未確認型をそれぞれ11.2%、20.1%の精度で推測する際の精度を向上している。
さらに、実験結果は、TIGERの優れた性能と効率を示すだけでなく、自動型推論の自動化における生成およびランキングステージの重要性も示している。
Python's dynamic typing system offers flexibility and expressiveness but can lead to type-related errors, prompting the need for automated type inference to enhance type hinting. While existing learning-based approaches show promising inference accuracy, they struggle with practical challenges in comprehensively handling various types, including complex generic types and (unseen) user-defined types. In this paper, we introduce TIGER, a two-stage generating-then-ranking (GTR) framework, designed to effectively handle Python's diverse type categories. TIGER leverages fine-tuned pre-trained code models to train a generative model with a span masking objective and a similarity model with a contrastive training objective. This approach allows TIGER to generate a wide range of type candidates, including complex generics in the generating stage, and accurately rank them with user-defined types in the ranking stage. Our evaluation on the ManyTypes4Py dataset shows TIGER's advantage over existing methods in various type categories, notably improving accuracy in inferring user-defined and unseen types by 11.2% and 20.1% respectively in Top-5 Exact Match. Moreover, the experimental results not only demonstrate TIGER's superior performance and efficiency, but also underscore the significance of its generating and ranking stages in enhancing automated type inference. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# 分散情報ネットワーク(DIN)
Decentralized Intelligence Network (DIN) ( http://arxiv.org/abs/2407.02461v4 ) ライセンス: Link先を確認 | Abraham Nash, | (参考訳) 分散インテリジェンスネットワーク(DIN)は、データの断片化とサイロ化に対処し、データ主権を通じてスケーラブルなAIを可能にする理論的フレームワークである。
さまざまなデータソースにアクセスするための障壁を克服することで、主権ネットワーク内の効果的なAI利用を促進する。
1) 個人データストアは,参加者のコントロール内でデータがセキュアに保持されているデータ主権を保証する。
2) 分散AIトレーニングのためのパブリックブロックチェーン上に実装されたスケーラブルなフェデレーション学習プロトコル。
3) パブリックブロックチェーン上のスケーラブルで信頼性のない暗号化報酬機構により、参加をインセンティブ化し、分散監査プロトコルを通じて公正な報酬配布を保証する。
調整と報酬の分配は、不変レコードでパブリックブロックチェーン上で管理されるため、トレーニングデータへのアクセスを防ぎ、制御したり、金銭的利益に影響を与えることは、このアプローチによって保証される。
このフレームワークは、参加者がデータのコントロールを維持し、金銭的に利益を享受し、集団AIを活用して有益なアルゴリズムを開発する分散型でスケーラブルなエコシステムに貢献することで、効果的なAIトレーニングをサポートする。
Decentralized Intelligence Network (DIN) is a theoretical framework addressing data fragmentation and siloing challenges, enabling scalable AI through data sovereignty. It facilitates effective AI utilization within sovereign networks by overcoming barriers to accessing diverse data sources, leveraging: 1) personal data stores to ensure data sovereignty, where data remains securely within Participants' control; 2) a scalable federated learning protocol implemented on a public blockchain for decentralized AI training, where only model parameter updates are shared, keeping data within the personal data stores; and 3) a scalable, trustless cryptographic rewards mechanism on a public blockchain to incentivize participation and ensure fair reward distribution through a decentralized auditing protocol. This approach guarantees that no entity can prevent or control access to training data or influence financial benefits, as coordination and reward distribution are managed on the public blockchain with an immutable record. The framework supports effective AI training by allowing Participants to maintain control over their data, benefit financially, and contribute to a decentralized, scalable ecosystem that leverages collective AI to develop beneficial algorithms. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# DSLR:文レベル再分類による文書のリファインメントと検索機能強化のための再構築
DSLR: Document Refinement with Sentence-Level Re-ranking and Reconstruction to Enhance Retrieval-Augmented Generation ( http://arxiv.org/abs/2407.03627v3 ) ライセンス: Link先を確認 | Taeho Hwang, Soyeong Jeong, Sukmin Cho, SeungYoon Han, Jong C. Park, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な自然言語処理(NLP)タスクにおいて、その性能を大幅に改善している。
しかし、LCMはパラメトリックメモリの制限のため、非実効応答の生成に苦慮している。
Retrieval-Augmented Generation (RAG) システムは、外部知識を検索モジュールに組み込むことでこの問題に対処する。
しかし、その成功にもかかわらず、現在のRAGシステムは、検索に失敗し、LLMが無関係な情報をフィルタリングする能力に制限があるという問題に直面している。
そこで本研究では、検索した文書を文に分解し、無関係な文をフィルタリングし、それらを再び一貫性のある文に再構成する、教師なしのフレームワークであるDSLRを提案する。
我々は,複数のオープンドメインQAデータセット上でDSLRを実験的に検証し,DSLRが従来の固定サイズパスよりもRAG性能を大幅に向上することを示した。
さらに、我々のDSLRは、追加のトレーニングを必要とせずに、特定の現実的なシナリオにおけるパフォーマンスを高め、RAGシステムで取得した文書を精算するための効率的かつ効率的なソリューションを提供する。
Recent advancements in Large Language Models (LLMs) have significantly improved their performance across various Natural Language Processing (NLP) tasks. However, LLMs still struggle with generating non-factual responses due to limitations in their parametric memory. Retrieval-Augmented Generation (RAG) systems address this issue by incorporating external knowledge with a retrieval module. Despite their successes, however, current RAG systems face challenges with retrieval failures and the limited ability of LLMs to filter out irrelevant information. Therefore, in this work, we propose DSLR (Document Refinement with Sentence-Level Re-ranking and Reconstruction), an unsupervised framework that decomposes retrieved documents into sentences, filters out irrelevant sentences, and reconstructs them again into coherent passages. We experimentally validate DSLR on multiple open-domain QA datasets and the results demonstrate that DSLR significantly enhances the RAG performance over conventional fixed-size passage. Furthermore, our DSLR enhances performance in specific, yet realistic scenarios without the need for additional training, providing an effective and efficient solution for refining retrieved documents in RAG systems. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# 高スループットスクリーニングのための仮想染色は一般化できるか?
Can virtual staining for high-throughput screening generalize? ( http://arxiv.org/abs/2407.06979v2 ) ライセンス: Link先を確認 | Samuel Tonks, Cuong Nguyen, Steve Hood, Ryan Musso, Ceridwen Hopely, Steve Titus, Minh Doan, Iain Styles, Alexander Krull, | (参考訳) 製薬業界における高スループットスクリーニング(HTS)からの大量の画像データは、仮想染色モデルのトレーニングに優れた資源を提供する。
しかし、ある実験条件の下で訓練されたモデルが他の条件に一般化する可能性については、まだ未解明のままである。
本研究は,HTSに共通する3種類の細胞型(肺,卵巣,乳房)と2種類の表現型(毒性,非毒性)から得られたデータを用いて,仮想染色モデルを効果的に訓練し,3つの典型的なHTS分布シフト – 見えない表現型,見えない細胞型,および両者の組み合わせを一般化するか否かを系統的に検討した。
772,416対の明るさ場、細胞質、核、DNA損傷染色画像のデータセットを用いて、ピクセルベース、インスタンスワイド、生物学的機能ベースのモデルの一般化能力を評価する。
本研究は,非毒性条件試料の仮想核および細胞質モデルのトレーニングが毒性条件試料に一般化するだけでなく,毒性条件試料のトレーニングと比較して,すべての評価レベルにおける性能の向上につながることを示唆している。
卵巣または肺の細胞サンプルで訓練されたモデルは、他の条件下ではよく機能するが、乳房の細胞サンプルで訓練されたモデルは、常に低い一般化を示す。
未確認の細胞型や表現型への一般化は、未確認の細胞型のみに対処するよりも、あらゆるレベルの評価において良好な一般化を示す。
本研究は、多様なHTSデータセットに基づいてトレーニングされた仮想染色モデルの一般化能力に関する、初めて大規模なデータ中心分析を行い、実験的なデータ生成のための貴重な戦略を提供する。
The large volume and variety of imaging data from high-throughput screening (HTS) in the pharmaceutical industry present an excellent resource for training virtual staining models. However, the potential of models trained under one set of experimental conditions to generalize to other conditions remains underexplored. This study systematically investigates whether data from three cell types (lung, ovarian, and breast) and two phenotypes (toxic and non-toxic conditions) commonly found in HTS can effectively train virtual staining models to generalize across three typical HTS distribution shifts: unseen phenotypes, unseen cell types, and the combination of both. Utilizing a dataset of 772,416 paired bright-field, cytoplasm, nuclei, and DNA-damage stain images, we evaluate the generalization capabilities of models across pixel-based, instance-wise, and biological-feature-based levels. Our findings indicate that training virtual nuclei and cytoplasm models on non-toxic condition samples not only generalizes to toxic condition samples but leads to improved performance across all evaluation levels compared to training on toxic condition samples. Generalization to unseen cell types shows variability depending on the cell type; models trained on ovarian or lung cell samples often perform well under other conditions, while those trained on breast cell samples consistently show poor generalization. Generalization to unseen cell types and phenotypes shows good generalization across all levels of evaluation compared to addressing unseen cell types alone. This study represents the first large-scale, data-centric analysis of the generalization capability of virtual staining models trained on diverse HTS datasets, providing valuable strategies for experimental training data generation. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# 分類の誤用:一部のクラスは、他のクラスよりも分類の誤用が多い
The Misclassification Likelihood Matrix: Some Classes Are More Likely To Be Misclassified Than Others ( http://arxiv.org/abs/2407.07818v3 ) ライセンス: Link先を確認 | Daniel Sikar, Artur Garcez, Robin Bloomfield, Tillman Weyde, Kaleem Peeroo, Naman Singh, Maeve Hutchinson, Dany Laksono, Mirela Reljan-Delaney, | (参考訳) 本研究では、分散シフト下でのニューラルネットワーク予測の信頼性を定量化するための新しいツールとして、MLM(Misclassification Likelihood Matrix)を紹介した。
MLMは、訓練されたニューラルネットワークとクラスセントロイドの予測との距離を測定するために、ソフトマックス出力とクラスタリング技術を活用して得られる。
これらの距離を分析することで、MDMはモデルの分類ミスの傾向を包括的に把握し、意思決定者が最も一般的で重要なエラーの原因を特定することを可能にする。
MLMは、モデル改善の優先順位付けと許容されるリスクレベルに基づく決定しきい値の設定を可能にする。
このアプローチは、分散シフトをシミュレートするために、畳み込みニューラルネットワーク(CNN)とデータセットの摂動バージョンを使用して、MNISTデータセット上で評価される。
その結果、予測の信頼性を評価する上でのMLMの有効性を実証し、ニューラルネットワークの解釈可能性やリスク軽減能力を高める可能性を強調した。
この研究の意義は、複雑な現実世界の環境における意思決定の安全性と信頼性を改善するために、自動運転車などの自動運転システムで進行中の応用において、画像分類を超えて拡張されている。
This study introduces the Misclassification Likelihood Matrix (MLM) as a novel tool for quantifying the reliability of neural network predictions under distribution shifts. The MLM is obtained by leveraging softmax outputs and clustering techniques to measure the distances between the predictions of a trained neural network and class centroids. By analyzing these distances, the MLM provides a comprehensive view of the model's misclassification tendencies, enabling decision-makers to identify the most common and critical sources of errors. The MLM allows for the prioritization of model improvements and the establishment of decision thresholds based on acceptable risk levels. The approach is evaluated on the MNIST dataset using a Convolutional Neural Network (CNN) and a perturbed version of the dataset to simulate distribution shifts. The results demonstrate the effectiveness of the MLM in assessing the reliability of predictions and highlight its potential in enhancing the interpretability and risk mitigation capabilities of neural networks. The implications of this work extend beyond image classification, with ongoing applications in autonomous systems, such as self-driving cars, to improve the safety and reliability of decision-making in complex, real-world environments. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# 自動予測を受理する時と判断する時
When to Accept Automated Predictions and When to Defer to Human Judgment? ( http://arxiv.org/abs/2407.07821v2 ) ライセンス: Link先を確認 | Daniel Sikar, Artur Garcez, Tillman Weyde, Robin Bloomfield, Kaleem Peeroo, | (参考訳) 自動意思決定の信頼性と安全性を確保することが重要です。
機械学習におけるデータ分散シフトが信頼できない結果をもたらすことはよく知られている。
本稿では,分布シフト下での予測の信頼性を評価するための新しい手法を提案する。
我々は、トレーニングされたニューラルネットワークの出力がどのように変化するかをクラスタリングを用いて分析し、出力とクラスセントロイド間の距離を測定する。
本稿では,分布変化による予測の信頼度を評価する指標として,この距離を提案する。
与えられたクラスの全ての正しい予測に対して、平均ソフトマックス出力を表すセントロイドを持つクラスタに各予測を割り当てる。
次に、クラスに対する安全性閾値を、不正確な予測から与えられたクラスセントロイドへの最小距離として定義する。
我々は,畳み込みニューラルネットワークと視覚変換器を用いて,MNISTとCIFAR-10データセットのアプローチを評価する。
その結果,本手法は,これらのデータセットやネットワークモデルに対して一貫したものであり,自動予測がいつ受け入れられるか,また分布シフトが与えられたら人間オペレータにいつ延期されるべきかを,提案手法が効率的に判断できることを示した。
Ensuring the reliability and safety of automated decision-making is crucial. It is well-known that data distribution shifts in machine learning can produce unreliable outcomes. This paper proposes a new approach for measuring the reliability of predictions under distribution shifts. We analyze how the outputs of a trained neural network change using clustering to measure distances between outputs and class centroids. We propose this distance as a metric to evaluate the confidence of predictions under distribution shifts. We assign each prediction to a cluster with centroid representing the mean softmax output for all correct predictions of a given class. We then define a safety threshold for a class as the smallest distance from an incorrect prediction to the given class centroid. We evaluate the approach on the MNIST and CIFAR-10 datasets using a Convolutional Neural Network and a Vision Transformer, respectively. The results show that our approach is consistent across these data sets and network models, and indicate that the proposed metric can offer an efficient way of determining when automated predictions are acceptable and when they should be deferred to human operators given a distribution shift. | 翻訳日:2024-08-14 22:04:55 公開日:2024-08-13 |
# ファジィリカレント確率構造ネットワークによる産業データ分析
Fuzzy Recurrent Stochastic Configuration Networks for Industrial Data Analytics ( http://arxiv.org/abs/2407.11038v2 ) ライセンス: Link先を確認 | Dianhui Wang, Gang Dang, | (参考訳) 本稿では,ファジィリカレント確率構成ネットワーク(F-RSCN)と呼ばれる新しいニューロファジィモデルを提案する。
元の再帰確率的構成ネットワーク(RSCN)とは異なり、提案するF-RSCNは複数の貯留層によって構成され、各貯留層は高木スゲノカン(TSK)ファジィ規則に関連付けられている。
このハイブリッドフレームワークを通じて、まず、ファジィ推論を組み込んで、事前の知識をネットワークに埋め込むことにより、モデルの解釈可能性を高める。
次に、繰り返し確率的構成(RSC)アルゴリズムにより、ニューロファジィモデルのパラメータを決定する。
このスキームは、構築されたモデルの普遍近似特性と高速学習速度を保証するだけでなく、未知の動的順序、任意の構造決定、非線形力学のモデル化における学習パラメータの感度といった不確実な問題を克服する。
最後に、プロジェクションアルゴリズムを用いて出力重みのオンライン更新を行い、学習パラメータの収束解析を行う。
TSKファジィ推論システムをRCCNに統合することにより、F-RSCNは強力なファジィ推論能力を有し、学習と一般化の両面での音響性能を実現することができる。
総合的な実験により、提案されたF-RSCNは、他の古典的な神経ファジィモデルや非ファジィモデルよりも優れており、複雑な産業システムをモデル化する大きな可能性を示している。
This paper presents a novel neuro-fuzzy model, termed fuzzy recurrent stochastic configuration networks (F-RSCNs), for industrial data analytics. Unlike the original recurrent stochastic configuration network (RSCN), the proposed F-RSCN is constructed by multiple sub-reservoirs, and each sub-reservoir is associated with a Takagi-Sugeno-Kang (TSK) fuzzy rule. Through this hybrid framework, first, the interpretability of the model is enhanced by incorporating fuzzy reasoning to embed the prior knowledge into the network. Then, the parameters of the neuro-fuzzy model are determined by the recurrent stochastic configuration (RSC) algorithm. This scheme not only ensures the universal approximation property and fast learning speed of the built model but also overcomes uncertain problems, such as unknown dynamic orders, arbitrary structure determination, and the sensitivity of learning parameters in modelling nonlinear dynamics. Finally, an online update of the output weights is performed using the projection algorithm, and the convergence analysis of the learning parameters is given. By integrating TSK fuzzy inference systems into RSCNs, F-RSCNs have strong fuzzy inference capability and can achieve sound performance for both learning and generalization. Comprehensive experiments show that the proposed F-RSCNs outperform other classical neuro-fuzzy and non-fuzzy models, demonstrating great potential for modelling complex industrial systems. | 翻訳日:2024-08-14 21:54:47 公開日:2024-08-13 |
# 分離可能なオペレータネットワーク
Separable Operator Networks ( http://arxiv.org/abs/2407.11253v2 ) ライセンス: Link先を確認 | Xinling Yu, Sean Hooten, Ziyue Liu, Yequan Zhao, Marco Fiorentino, Thomas Van Vaerenbergh, Zheng Zhang, | (参考訳) 演算子学習は、偏微分方程式(PDE)によって支配される複雑な物理系をモデル化するための機械学習の強力なツールとなった。
Deep Operator Networks (DeepONet) は将来性を示すが、大規模なデータ取得が必要である。
物理インフォームドディープノネット(PI-DeepONet)はデータの不足を軽減するが、非効率なトレーニングプロセスに悩まされる。
本稿では,物理インフォームド演算子の学習効率を大幅に向上させる新しいフレームワークであるSepONetを紹介した。
SepONetは独立したトランクネットワークを使用して、異なる座標軸の基底関数を個別に学習する。
本稿では、任意の演算子学習問題に一般化し、PI-DeepONetに対する総合的なベンチマークによってその性能を検証することを証明したSepONetの普遍近似定理を提案する。
この結果から,SepONetは様々な非線形かつ分離不能なPDEに対して優れた性能を示し,SepONetの優位性は問題複雑性,寸法,スケールで増大している。
1Dの時間依存PDEでは、SepONetは最大で112\times$高速トレーニングと822\times$GPUメモリ使用率をPI-DeepONetと比較して削減し、同等の精度を維持している。
2次元時間依存性の非線形拡散方程式では、SepONetは複雑性を効率的に処理し、相対的な$\ell_{2}$テストエラーを6.44 %達成する一方、PI-DeepONetはメモリ制約のために失敗する。
この研究は無限次元函数空間間の連続写像の極大学習の道を開く。
オープンソースコードは \url{https://github.com/HewlettPackard/separable-operator-networks} で公開されている。
Operator learning has become a powerful tool in machine learning for modeling complex physical systems governed by partial differential equations (PDEs). Although Deep Operator Networks (DeepONet) show promise, they require extensive data acquisition. Physics-informed DeepONets (PI-DeepONet) mitigate data scarcity but suffer from inefficient training processes. We introduce Separable Operator Networks (SepONet), a novel framework that significantly enhances the efficiency of physics-informed operator learning. SepONet uses independent trunk networks to learn basis functions separately for different coordinate axes, enabling faster and more memory-efficient training via forward-mode automatic differentiation. We provide a universal approximation theorem for SepONet proving that it generalizes to arbitrary operator learning problems, and then validate its performance through comprehensive benchmarking against PI-DeepONet. Our results demonstrate SepONet's superior performance across various nonlinear and inseparable PDEs, with SepONet's advantages increasing with problem complexity, dimension, and scale. For 1D time-dependent PDEs, SepONet achieves up to $112\times$ faster training and $82\times$ reduction in GPU memory usage compared to PI-DeepONet, while maintaining comparable accuracy. For the 2D time-dependent nonlinear diffusion equation, SepONet efficiently handles the complexity, achieving a 6.44\% mean relative $\ell_{2}$ test error, while PI-DeepONet fails due to memory constraints. This work paves the way for extreme-scale learning of continuous mappings between infinite-dimensional function spaces. Open source code is available at \url{https://github.com/HewlettPackard/separable-operator-networks}. | 翻訳日:2024-08-14 21:54:47 公開日:2024-08-13 |
# InAs/GaAs量子ドットからの紫外光励起単一光子放出とブロードバンド円筒ナノキャビティ
Purcell-enhanced single-photon emission from InAs/GaAs quantum dots coupled to broadband cylindrical nanocavities ( http://arxiv.org/abs/2407.11642v2 ) ライセンス: Link先を確認 | Abhiroop Chellu, Subhajit Bej, Hanna Wahl, Hermann Kahle, Topi Uusitalo, Roosa Hytönen, Heikki Rekola, Jouko Lang, Eva Schöll, Lukas Hanschke, Patricia Kallert, Tobias Kipp, Christian Strelow, Marjukka Tuominen, Klaus D. Jöns, Petri Karvinen, Tapio Niemi, Mircea Guina, Teemu Hakkarainen, | (参考訳) 単一および絡み合った光子を生成するオンチップエミッタは、フォトニック量子情報処理技術に不可欠である。
半導体量子ドット(QD)は、光の高品質な量子状態を生成する魅力的な候補である。
本研究では、Purcell効果を利用して、InAs QDsの発光速度を38倍に向上させ、それを金属被覆GaAsナノピラーに結合させる。
これらのキャビティは、4.5x10-4 ({\lambda}/n)3のサブ波長モードボリュームと62のクオリティ係数を特徴とし、パーセル強化単光子発光を15nmの広い帯域にわたって可能とし、多重光子放出確率は0.5%である。
キャビティのブロードバンド性は、QDキャビティ共振を実現するのに必要なチューニング機構を実装する必要をなくし、製造制約を緩和する。
最終的に、このQDキャビティアーキテクチャは、GHzレベルの繰り返し速度でほぼ理想の単一光子状態を生成する固体量子エミッタを開発するための重要な一歩である。
On-chip emitters that generate single and entangled photons are essential for photonic quantum information processing technologies. Semiconductor quantum dots (QDs) are attractive candidates that emit high-quality quantum states of light, however at a rate limited by their spontaneous radiative lifetime. In this study, we utilize the Purcell effect to demonstrate up to a 38-fold enhancement in the emission rate of InAs QDs by coupling them to metal-clad GaAs nanopillars. These cavities, featuring a sub-wavelength mode volume of 4.5x10-4 ({\lambda}/n)3 and quality factor of 62, enable Purcell-enhanced single-photon emission across a large bandwidth of 15 nm with a multi-photon emission probability as low as 0.5 %. The broadband nature of the cavity eliminates the need for implementing tuning mechanisms typically required to achieve QD-cavity resonance, thus relaxing fabrication constraints. Ultimately, this QD-cavity architecture represents a significant stride towards developing solid-state quantum emitters generating near-ideal single-photon states at GHz-level repetition rates. | 翻訳日:2024-08-14 21:54:47 公開日:2024-08-13 |
# サブ文字列マッチングによる長文認識
Out of Length Text Recognition with Sub-String Matching ( http://arxiv.org/abs/2407.12317v2 ) ライセンス: Link先を確認 | Yongkun Du, Zhineng Chen, Caiyan Jia, Xieping Gao, Yu-Gang Jiang, | (参考訳) Scene Text Recognition (STR) 法は単語レベルのテキスト認識において頑健な性能を示した。
しかし、実際のアプリケーションでは、複数の水平な単語で検出されるため、テキストイメージが長い場合もあります。
これは、従来あまり研究されていない短いテキストデータセット(すなわち単語レベル)から、長いテキスト認識モデルを構築する必要が生じる。
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
我々は,Long Text Benchmark (LTB) を初めて確立し,長文認識における異なる手法の評価を容易にする。
一方,サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用し、サブストリングをマッチングし、次の文字列と前の文字を同時に認識する。
SMTRは上記のプロセスを反復することで任意の長さのテキストを認識することができる。
非常に類似のサブストリングを認識するために,SMTRを強制する正規化トレーニングを導入し,類似のサブストリング間の微妙な違いを正確に認識するために効果的に発見する。
さらに,同一テキスト中の同一のサブ文字列による混乱を緩和し,全体の認識効率を向上させるための推論増強戦略を提案する。
大規模な実験結果から,SMTRは短いテキストのみに訓練された場合でも,公開短いテキストベンチマークにおいて既存の手法よりも優れており,LCBに対して明らかな優位性を示すことが明らかとなった。
コード:https://github.com/Topdu/OpenOCR。
Scene Text Recognition (STR) methods have demonstrated robust performance in word-level text recognition. However, in real applications the text image is sometimes long due to detected with multiple horizontal words. It triggers the requirement to build long text recognition models from readily available short (i.e., word-level) text datasets, which has been less studied previously. In this paper, we term this task Out of Length (OOL) text recognition. We establish the first Long Text Benchmark (LTB) to facilitate the assessment of different methods in long text recognition. Meanwhile, we propose a novel method called OOL Text Recognition with sub-String Matching (SMTR). SMTR comprises two cross-attention-based modules: one encodes a sub-string containing multiple characters into next and previous queries, and the other employs the queries to attend to the image features, matching the sub-string and simultaneously recognizing its next and previous character. SMTR can recognize text of arbitrary length by iterating the process above. To avoid being trapped in recognizing highly similar sub-strings, we introduce a regularization training to compel SMTR to effectively discover subtle differences between similar sub-strings for precise matching. In addition, we propose an inference augmentation strategy to alleviate confusion caused by identical sub-strings in the same text and improve the overall recognition efficiency. Extensive experimental results reveal that SMTR, even when trained exclusively on short text, outperforms existing methods in public short text benchmarks and exhibits a clear advantage on LTB. Code: https://github.com/Topdu/OpenOCR. | 翻訳日:2024-08-14 21:54:47 公開日:2024-08-13 |
# スカラデータトポロジ的単純化のための実践的解法
A Practical Solver for Scalar Data Topological Simplification ( http://arxiv.org/abs/2407.12399v2 ) ライセンス: Link先を確認 | Mohamed Kissi, Mathieu Pont, Joshua A. Levine, Julien Tierny, | (参考訳) 本稿では,スカラーデータの解析と可視化のための中心的な前処理ステップであるトポロジカルスプリフィケーションの最適化のための実践的アプローチを提案する。
入力スカラー場 f と維持する「信号」永続対の集合が与えられた場合、我々のアプローチは f に近い出力場 g を生成し、最適化する。
(i)非符号対のキャンセル
(ii)「手形」ペアを保存すること。
既存の単純化アルゴリズムとは対照的に,本手法はエクストリームを含む永続性ペアに限らず,特に3次元スカラーデータにおけるサドルペアよりも大きなトポロジ的特徴に対処することができる。
提案手法は,最近の汎用的な永続性最適化フレームワークを活用し,トポロジカル単純化の問題に特有な調整された加速度で拡張する。
大規模な実験では、これらのフレームワークに対する大幅な加速を報告し、実際のデータセットに対してトポロジ的単純化最適化を実践する。
提案手法により, トポロジ的に単純化されたデータ(例えば, 簡易なトポロジの等曲面)を直接可視化し, 解析することができる。
我々は3次元データにおける顕著なフィラメント構造の抽出に本手法を適用した。
具体的には、データの事前単純化により、フィラメントループを除去するための標準トポロジカル手法よりも実用的な改善がもたらされることを示す。
また,本手法は表面処理における遺伝子欠陥の修復にも有効であることを示す。
最後に、再現性のためのC++実装を提供する。
This paper presents a practical approach for the optimization of topological simplification, a central pre-processing step for the analysis and visualization of scalar data. Given an input scalar field f and a set of "signal" persistence pairs to maintain, our approach produces an output field g that is close to f and which optimizes (i) the cancellation of "non-signal" pairs, while (ii) preserving the "signal" pairs. In contrast to pre-existing simplification algorithms, our approach is not restricted to persistence pairs involving extrema and can thus address a larger class of topological features, in particular saddle pairs in three-dimensional scalar data. Our approach leverages recent generic persistence optimization frameworks and extends them with tailored accelerations specific to the problem of topological simplification. Extensive experiments report substantial accelerations over these frameworks, thereby making topological simplification optimization practical for real-life datasets. Our approach enables a direct visualization and analysis of the topologically simplified data, e.g., via isosurfaces of simplified topology (fewer components and handles). We apply our approach to the extraction of prominent filament structures in three-dimensional data. Specifically, we show that our pre-simplification of the data leads to practical improvements over standard topological techniques for removing filament loops. We also show how our approach can be used to repair genus defects in surface processing. Finally, we provide a C++ implementation for reproducibility purposes. | 翻訳日:2024-08-14 21:54:47 公開日:2024-08-13 |
# 量子状態における瞬時量子回路冷却の探索
Probing instantaneous quantum circuit refrigeration in the quantum regime ( http://arxiv.org/abs/2407.14219v2 ) ライセンス: Link先を確認 | Shuji Nakamura, Teruaki Yoshioka, Sergei Lemziakov, Dmitrii Lvov, Hiroto Mukai, Akiyoshi Tomonaga, Shintaro Takada, Yuma Okazaki, Nobu-Hisa Kaneko, Jukka Pekola, Jaw-Shen Tsai, | (参考訳) 近年の量子力学の進歩により、量子系における単一エネルギー量子の正確な操作と検出が可能になった。
量子回路冷凍機(QCR)は、超伝導共振器や量子ビットなどの量子系の励起集団を、超伝導体-絶縁体-正規金属接合内の準粒子の光子支援トンネルにより電気的に冷却することができる。
本研究では,量子状態における瞬時QCRを実証した。
超伝導共振器内におけるQCR誘起光子数冷却の時間分解測定を行い, 量子ビットを光子検出器として利用した。
交流スタークシフト量から推定した共振器の光子損失率の増大から,QCRの冷却力は約300 aWであった。
さらに、単一エネルギー量子より下でも、QCRは熱平衡から100 nsのパルスで共振器内の光子の数を減少させることができる。
Lindbladマスター方程式に基づく数値計算は、これらの実験結果をうまく再現した。
Recent advancements in circuit quantum electrodynamics have enabled precise manipulation and detection of the single energy quantum in quantum systems. A quantum circuit refrigerator (QCR) is capable of electrically cooling the excited population of quantum systems, such as superconducting resonators and qubits, through photon-assisted tunneling of quasi-particles within a superconductor-insulator-normal metal junction. In this study, we demonstrated instantaneous QCR in the quantum regime. We performed the time-resolved measurement of the QCR-induced cooling of photon number inside the superconducting resonator by harnessing a qubit as a photon detector. From the enhanced photon loss rate of the resonator estimated from the amount of the AC Stark shift, the QCR was shown to have a cooling power of approximately 300 aW. Furthermore, even below the single energy quantum, the QCR can reduce the number of photons inside the resonator with 100 ns pulse from thermal equilibrium. Numerical calculations based on the Lindblad master equation successfully reproduced these experimental results. | 翻訳日:2024-08-14 21:54:47 公開日:2024-08-13 |
# RISC-Vコア上の混合精度ニューラルネットワーク:マルチポンプソフトSIMD動作のためのISA拡張
Mixed-precision Neural Networks on RISC-V Cores: ISA extensions for Multi-Pumped Soft SIMD Operations ( http://arxiv.org/abs/2407.14274v2 ) ライセンス: Link先を確認 | Giorgos Armeniakos, Alexis Maras, Sotirios Xydis, Dimitrios Soudris, | (参考訳) 量子化と混合精度アプローチの最近の進歩は、ニューラルネットワーク(NN)の速度とエネルギー効率を改善するための大きな機会を提供する。
研究により、精度の低い個々のパラメータが、完全精度のパラメータに匹敵する精度に達することが示されている。
しかし、現代の組み込みマイクロプロセッサは、命令セットアーキテクチャ(ISA)拡張と、そのハードウェア設計の両方に関する混合精度NNを非常に限定的にサポートし、混合精度操作の効率的な実行を可能にしている。
本研究は、RISC-VのCPUアーキテクチャにおけるエネルギー効率の高いDNN推論をターゲットとした、混合精度ハードウェア最適化に適したISA拡張を初めて実現したものである。
そこで本研究では,協調ハードウェア設計,混合精度量子化,ISA拡張,サイクル精度エミュレーションにおける推論を可能にするハードウェア・ソフトウェア共同設計フレームワークを提案する。
ハードウェアレベルでは、まずALUユニットを概念実証のマイクロアーキテクチャに拡張し、設定可能な微粒混合精度演算をサポートする。
その後,実行遅延を最小限に抑えるためにマルチポンピングを実装し,ソフトSIMDの最適化を2ビット演算に適用した。
ISAレベルでは、3つの異なるMAC命令がRISC-V ISAを拡張してエンコードされ、それぞれ異なる混合精度オペレーティングモードに対応するコンパイラレベルに露出する。
CIFAR10やImageNetのような広く使われているDNNやデータセットに対する大規模な実験により、我々のフレームワークは平均15倍のエネルギー削減を1%未満の精度損失で達成でき、ISA非依存のRISC-Vコアよりも優れた性能を発揮することが示された。
Recent advancements in quantization and mixed-precision approaches offers substantial opportunities to improve the speed and energy efficiency of Neural Networks (NN). Research has shown that individual parameters with varying low precision, can attain accuracies comparable to full-precision counterparts. However, modern embedded microprocessors provide very limited support for mixed-precision NNs regarding both Instruction Set Architecture (ISA) extensions and their hardware design for efficient execution of mixed-precision operations, i.e., introducing several performance bottlenecks due to numerous instructions for data packing and unpacking, arithmetic unit under-utilizations etc. In this work, we bring together, for the first time, ISA extensions tailored to mixed-precision hardware optimizations, targeting energy-efficient DNN inference on leading RISC-V CPU architectures. To this end, we introduce a hardware-software co-design framework that enables cooperative hardware design, mixed-precision quantization, ISA extensions and inference in cycle-accurate emulations. At hardware level, we firstly expand the ALU unit within our proof-of-concept micro-architecture to support configurable fine grained mixed-precision arithmetic operations. Subsequently, we implement multi-pumping to minimize execution latency, with an additional soft SIMD optimization applied for 2-bit operations. At the ISA level, three distinct MAC instructions are encoded extending the RISC-V ISA, and exposed up to the compiler level, each corresponding to a different mixed-precision operational mode. Our extensive experimental evaluation over widely used DNNs and datasets, such as CIFAR10 and ImageNet, demonstrates that our framework can achieve, on average, 15x energy reduction for less than 1% accuracy loss and outperforms the ISA-agnostic state-of-the-art RISC-V cores. | 翻訳日:2024-08-14 21:54:47 公開日:2024-08-13 |
# 二次状態コストを有するワイル微積分と正確に解けるシュレーディンガー橋
Weyl Calculus and Exactly Solvable Schrödinger Bridges with Quadratic State Cost ( http://arxiv.org/abs/2407.15245v3 ) ライセンス: Link先を確認 | Alexis M. H. Teter, Wenqing Wang, Abhishek Halder, | (参考訳) Schr\"{o}dinger bridge--最適質量輸送の確率的動的一般化--学習制御双対性を示す。
確率的制御問題として見なされ、Schr\"{o}dinger Bridgeは、制御された拡散と期限制約による総制御労力を最小限に抑えながら、与えられた結合状態の統計を別の状態にステアリングする最適な制御ポリシーを見つける。
確率的学習問題として見なされ、Schr\"{o}dinger Bridgeは、最もよく似た分布値を持つ軌道と終端分布の観測、すなわち確率分布の多様体上の2点境界制約の最大極大問題を解く。
近年の研究では、状態依存反応速度として状態費用が現れる反応拡散PDEに関連するマルコフ核を見つける必要がある。
量子力学におけるワイル積分、特にワイル作用素とワイル記号のアイデアは、そのようなマルコフ核を決定するのにどのように役立つかを説明する。
Weyl calculus による2次状態コストの場合のマルコフ核を明示的に見つけ、初期の結果を復元するが、エルミート多項式による退屈な計算は避ける。
Schr\"{o}dinger bridge--a stochastic dynamical generalization of optimal mass transport--exhibits a learning-control duality. Viewed as a stochastic control problem, the Schr\"{o}dinger bridge finds an optimal control policy that steers a given joint state statistics to another while minimizing the total control effort subject to controlled diffusion and deadline constraints. Viewed as a stochastic learning problem, the Schr\"{o}dinger bridge finds the most-likely distribution-valued trajectory connecting endpoint distributional observations, i.e., solves the two point boundary-constrained maximum likelihood problem over the manifold of probability distributions. Recent works have shown that solving the Schr\"{o}dinger bridge problem with state cost requires finding the Markov kernel associated with a reaction-diffusion PDE where the state cost appears as a state-dependent reaction rate. We explain how ideas from Weyl calculus in quantum mechanics, specifically the Weyl operator and the Weyl symbol, can help determine such Markov kernels. We illustrate these ideas by explicitly finding the Markov kernel for the case of quadratic state cost via Weyl calculus, recovering our earlier results but avoiding tedious computation with Hermite polynomials. | 翻訳日:2024-08-14 21:54:47 公開日:2024-08-13 |
# 分析に基づく大規模言語モデルに対するジェイルブレイク攻撃
Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models ( http://arxiv.org/abs/2407.16205v3 ) ライセンス: Link先を確認 | Shi Lin, Rongchang Li, Xun Wang, Changting Lin, Wenpeng Xing, Meng Han, | (参考訳) LLM(Large Language Models)の急速な開発は、様々なタスクにまたがって顕著な生成能力をもたらしました。
しかし、驚くべき成果にもかかわらず、これらのLSMには、特にジェイルブレイク攻撃に直面している場合に、多くの固有の脆弱性がある。
脱獄攻撃を捜査することで、LLMの隠れた弱点を解明し、より堅牢な防御機構を開発して彼らのセキュリティを固めることが可能になる。
本稿では,LLMに対するジェイルブレイク攻撃の境界についてさらに検討し,解析に基づくジェイルブレイク(ABJ)を提案する。
この効果的なジェイルブレイク攻撃法は、LLMの増大する分析と推論能力を活用し、解析ベースのタスクに直面した際の基盤となる脆弱性を明らかにする。
我々は、GPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成し、様々なオープンソースおよびクローズドソース LLM のABJ の詳細な評価を行い、最先端の攻撃効率と効率を示す。
本研究は, 誤用リスクを軽減するため, LLMの安全性を優先し, 向上することの重要性を強調した。
コードはhhttps://github.com/theshi-1128/ABJ-Attack.comで公開されている。
警告: 本論文は、攻撃的または有害なLSMの例を含む。
The rapid development of Large Language Models (LLMs) has brought remarkable generative capabilities across diverse tasks. However, despite the impressive achievements, these LLMs still have numerous inherent vulnerabilities, particularly when faced with jailbreak attacks. By investigating jailbreak attacks, we can uncover hidden weaknesses in LLMs and inform the development of more robust defense mechanisms to fortify their security. In this paper, we further explore the boundary of jailbreak attacks on LLMs and propose Analyzing-based Jailbreak (ABJ). This effective jailbreak attack method takes advantage of LLMs' growing analyzing and reasoning capability and reveals their underlying vulnerabilities when facing analyzing-based tasks. We conduct a detailed evaluation of ABJ across various open-source and closed-source LLMs, which achieves 94.8% attack success rate (ASR) and 1.06 attack efficiency (AE) on GPT-4-turbo-0409, demonstrating state-of-the-art attack effectiveness and efficiency. Our research highlights the importance of prioritizing and enhancing the safety of LLMs to mitigate the risks of misuse. The code is publicly available at hhttps://github.com/theshi-1128/ABJ-Attack. Warning: This paper contains examples of LLMs that might be offensive or harmful. | 翻訳日:2024-08-14 21:54:47 公開日:2024-08-13 |
# SAFETY-J:批判による安全性の評価
SAFETY-J: Evaluating Safety with Critique ( http://arxiv.org/abs/2407.17075v3 ) ライセンス: Link先を確認 | Yixiu Liu, Yuxiang Zheng, Shijie Xia, Jiajun Li, Yi Tu, Chaoling Song, Pengfei Liu, | (参考訳) コンテンツ生成におけるLLM(Large Language Models)の展開は、特にコンテンツ評価の透明性と解釈可能性に関して、重要な安全性上の懸念を提起する。
現在の方法は、主に二元的安全性の分類に焦点を当てており、詳細な批判のためのメカニズムが欠如しており、モデルの改善とユーザ信頼のための実用性を制限している。
これらの制約に対処するために、批判に基づく判断を伴う英語と中国語のバイリンガル生成安全評価器であるSAFETY-Jを紹介する。
SAFETY-Jは、多様な対話と拡張されたクエリ応答ペアを含む堅牢なトレーニングデータセットを使用して、さまざまなシナリオの安全性を総合的に評価する。
我々は,人間の介入を最小限に抑えて批評の質を客観的に評価し,スケーラブルで継続的な改善を促進する自動メタ評価ベンチマークを確立する。
さらに、SAFETY-Jはメタ評価や批判に基づいて安全性評価を動的に洗練するために反復的な選好学習技術を採用している。
SAFETY-Jはよりニュアンスで正確な安全性評価を提供し、複雑なコンテンツシナリオにおける批判的品質と予測信頼性の両面を向上することを示した。
SAFETY-Jのトレーニングプロトコル、データセット、コードをhttps://github.com/GAIR-NLP/Safety-Jでオープンソース化しました。
The deployment of Large Language Models (LLMs) in content generation raises significant safety concerns, particularly regarding the transparency and interpretability of content evaluations. Current methods, primarily focused on binary safety classifications, lack mechanisms for detailed critique, limiting their utility for model improvement and user trust. To address these limitations, we introduce SAFETY-J, a bilingual generative safety evaluator for English and Chinese with critique-based judgment. SAFETY-J utilizes a robust training dataset that includes diverse dialogues and augmented query-response pairs to assess safety across various scenarios comprehensively. We establish an automated meta-evaluation benchmark that objectively assesses the quality of critiques with minimal human intervention, facilitating scalable and continuous improvement. Additionally, SAFETY-J employs an iterative preference learning technique to dynamically refine safety assessments based on meta-evaluations and critiques. Our evaluations demonstrate that SAFETY-J provides more nuanced and accurate safety evaluations, thereby enhancing both critique quality and predictive reliability in complex content scenarios. To facilitate further research and application, we open-source SAFETY-J's training protocols, datasets, and code at https://github.com/GAIR-NLP/Safety-J. | 翻訳日:2024-08-14 21:54:47 公開日:2024-08-13 |
# コストを下げ続ける - LLMのKVキャッシュ消費を最適化する方法のレビュー
Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption ( http://arxiv.org/abs/2407.18003v3 ) ライセンス: Link先を確認 | Luohe Shi, Hongyi Zhang, Yao Yao, Zuchao Li, Hai Zhao, | (参考訳) 2022年末にChatGPTがリリースした大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。
しかし、その効率性はTransformerアーキテクチャの長文処理に苦慮しているため、課題となる。
KV-Cacheは、会話の長さに比例したGPUメモリオーバーヘッドの増加にもかかわらず、2次から線形へのトークン生成の時間的複雑さを変換する、この問題に対する重要なソリューションとして登場した。
LLMコミュニティとアカデミアの発展に伴い、様々なKVキャッシュ圧縮手法が提案されている。
本稿では、KVキャッシュの諸特性を解析し、現在LLMのKVキャッシュ空間利用を最適化するために使われている様々な手法について詳述する。
これらの手法は, 事前学習フェーズ, 展開フェーズ, 推論フェーズにまたがっており, これらの手法の共通点と相違点を要約する。
さらに、効率性と能力の観点から、大規模言語モデルの長文能力を評価するための指標をいくつか挙げる。
本稿では, LLM最適化の進化する展望を概観し, このダイナミックな分野における今後の進歩について考察する。
Large Language Models (LLMs), epitomized by ChatGPT' s release in late 2022, have revolutionized various industries with their advanced language comprehension. However, their efficiency is challenged by the Transformer architecture' s struggle with handling long texts. KV-Cache has emerged as a pivotal solution to this issue, converting the time complexity of token generation from quadratic to linear, albeit with increased GPU memory overhead proportional to conversation length. With the development of the LLM community and academia, various KV-Cache compression methods have been proposed. In this review, we dissect the various properties of KV-Cache and elaborate on various methods currently used to optimize the KV-Cache space usage of LLMs. These methods span the pre-training phase, deployment phase, and inference phase, and we summarize the commonalities and differences among these methods. Additionally, we list some metrics for evaluating the long-text capabilities of large language models, from both efficiency and capability perspectives. Our review thus sheds light on the evolving landscape of LLM optimization, offering insights into future advancements in this dynamic field. | 翻訳日:2024-08-14 21:54:47 公開日:2024-08-13 |
# 心的時系列データのための解釈可能な事前学習変換器
Interpretable Pre-Trained Transformers for Heart Time-Series Data ( http://arxiv.org/abs/2407.20775v2 ) ライセンス: Link先を確認 | Harry J. Davies, James Monsen, Danilo P. Mandic, | (参考訳) デコーダのみのトランス (Decoder-only transformer) は、大規模言語モデルの一般的な生成事前学習トランス (GPT) シリーズのバックボーンである。
本研究では,臨床心臓の時系列データの解析にこの枠組みを用いて,PTG-PTとECG-PTという2つのトレーニング済み汎用心臓モデルを作成する。
我々は、これらの事前学習されたモデルの両方を完全に解釈できることに特に重点を置いている。
これはまずアグリゲーション・アテンション・マップ(英語版)を用いて達成され、予測を行うために、モデルが過去の心循環の類似点に焦点を当て、より深い層で徐々に注意を拡大することを示す。
次に、同じ値のトークンが心電図(ECG)と光胸腺図(PPG)の異なる点で発生し、高次元空間で別々のクラスターを形成することを示す。
トークンは変圧器ブロックを介して伝播するので、クラスターは位相に応じて形成される。
最後に, PPGのジクロティックノッチや心電図のP波など, 個々の注意が生理的変化に反応することを明らかにする。
また, 心房細動 (AF) の分類や光胸腺撮影におけるビート検出などのタスクにおいて, これらの事前訓練モデルが容易に微調整できることが実証された。
AFの例では、微調整はコンピュータ時間11分を要し、MIMIC Perform AFデータセット内のECGとPSGのそれぞれ0.99と0.93の残射AUCを達成した。
さらに、微細調整されたビート検出器は、最先端のF1スコアの98%を達成し、信号品質推定器として機能するビート信頼レベルを独自に提供する。
重要なことは、AFスクリーニングのための微調整されたモデルも完全に説明可能であり、心房細動を強く示唆する文脈の領域に注意が移る。
Decoder-only transformers are the backbone of the popular generative pre-trained transformer (GPT) series of large language models. In this work, we employ this framework to the analysis of clinical heart time-series data, to create two pre-trained general purpose cardiac models, termed PPG-PT and ECG-PT. We place a special emphasis on making both such pre-trained models fully interpretable. This is achieved firstly through aggregate attention maps which show that, in order to make predictions, the model focuses on similar points in previous cardiac cycles and gradually broadens its attention in deeper layers. Next, we show that tokens with the same value, which occur at different distinct points in the electrocardiography (ECG) and photoplethysmography (PPG) cycle, form separate clusters in high dimensional space. The clusters form according to phase, as the tokens propagate through the transformer blocks. Finally, we highlight that individual attention heads respond to specific physiologically relevent features, such as the dicrotic notch in PPG and the P-wave in ECG. It is also demonstrated that these pre-trained models are straightforward to fine-tune for tasks such as classification of atrial fibrillation (AF), and beat detection in photoplethysmography. For the example of AF, the fine-tuning took 11 minutes of computer time, and achieved the respective leave-one-subject-out AUCs of 0.99 and 0.93 for ECG and PPG within the MIMIC Perform AF dataset. In addition, the fine-tuned beat detector achieved a state-of-the-art F1 score of 98%, as well as uniquely providing a beat confidence level which acts as a signal quality estimator. Importantly, the fine-tuned models for AF screening are also fully explainable, with attention shifting to regions in the context that are strongly indicative of atrial fibrillation. | 翻訳日:2024-08-14 21:54:47 公開日:2024-08-13 |
# Finch: プロンプト誘導キーバリューキャッシュ圧縮
Finch: Prompt-guided Key-Value Cache Compression ( http://arxiv.org/abs/2408.00167v2 ) ライセンス: Link先を確認 | Giulio Corallo, Paolo Papotti, | (参考訳) Retrieval-Augmented Generationやチャットボットといった最近の大規模言語モデルは、より長い入力コンテキストを処理する必要性が高まっている。
しかし、この要件は固有の制限によって妨げられている。
アーキテクチャ上、モデルはトレーニング中に定義されたコンテキストウィンドウによって制約される。
さらに、広範なテキストを処理するには、相当なGPUメモリが必要である。
本稿では,事前学習した自己意図の重みを生かして,入力コンテキストを圧縮する新しい手法Finchを提案する。
プロンプトと長いテキストが与えられた後、フィンチはプロンプトに条件付けられたテキストのチャンク上で最も関連性の高いキー(K)と値(V)のペアを反復的に識別する。
このようなペアのみがKVキャッシュに格納され、コンテキストウィンドウによって制約された空間内には、最終的に長いテキストの圧縮版が含まれている。
本提案では,高圧縮(最大93倍)のモデルでも,微調整を必要とせずにセマンティックな整合性を保ちながら大きな入力を消費することができる。
Recent large language model applications, such as Retrieval-Augmented Generation and chatbots, have led to an increased need to process longer input contexts. However, this requirement is hampered by inherent limitations. Architecturally, models are constrained by a context window defined during training. Additionally, processing extensive texts requires substantial GPU memory. We propose a novel approach, Finch, to compress the input context by leveraging the pre-trained model weights of the self-attention. Given a prompt and a long text, Finch iteratively identifies the most relevant Key (K) and Value (V) pairs over chunks of the text conditioned on the prompt. Only such pairs are stored in the KV cache, which, within the space constrained by the context window, ultimately contains a compressed version of the long text. Our proposal enables models to consume large inputs even with high compression (up to 93x) while preserving semantic integrity without the need for fine-tuning. | 翻訳日:2024-08-14 19:58:40 公開日:2024-08-13 |
# Deepfake Media Forensics:最先端技術と課題
Deepfake Media Forensics: State of the Art and Challenges Ahead ( http://arxiv.org/abs/2408.00388v2 ) ライセンス: Link先を確認 | Irene Amerini, Mauro Barni, Sebastiano Battiato, Paolo Bestagini, Giulia Boato, Tania Sari Bonaventura, Vittoria Bruni, Roberto Caldelli, Francesco De Natale, Rocco De Nicola, Luca Guarnera, Sara Mandelli, Gian Luca Marcialis, Marco Micheletto, Andrea Montibeller, Giulia Orru', Alessandro Ortis, Pericle Perazzo, Giovanni Puglisi, Davide Salvi, Stefano Tubaro, Claudia Melis Tonti, Massimo Villari, Domenico Vitulano, | (参考訳) AIが生成する合成メディア、別名Deepfakesは、エンターテイメントからサイバーセキュリティまで、多くの領域に大きな影響を与えている。
Generative Adversarial Networks (GANs) と Diffusion Models (DMs) は、Deepfakesを作成するために使われる主要なフレームワークであり、非常に現実的で製造されたコンテンツを生成する。
これらの技術は新たな創造的可能性を開く一方で、潜在的に悪用される可能性があるため、倫理的およびセキュリティ上の大きなリスクをもたらす。
このような先進的なメディアの台頭は、インポスタバイアスとして知られる認知バイアスの発達につながった。
その結果、ディープフェイク検出は研究の重要な領域となり、特に畳み込みニューラルネットワーク(CNN)による機械学習技術による微妙な矛盾やアーティファクトの識別に重点を置いている。
法医学的ディープフェイク技術の研究は、検出、属性と認識、受動的認証、現実的なシナリオにおける検出、アクティブ認証の5つの主要な領域を含んでいる。
本稿では,これらの課題に対処する主要なアルゴリズムについて,その利点,限界,今後の展望について検討する。
AI-generated synthetic media, also called Deepfakes, have significantly influenced so many domains, from entertainment to cybersecurity. Generative Adversarial Networks (GANs) and Diffusion Models (DMs) are the main frameworks used to create Deepfakes, producing highly realistic yet fabricated content. While these technologies open up new creative possibilities, they also bring substantial ethical and security risks due to their potential misuse. The rise of such advanced media has led to the development of a cognitive bias known as Impostor Bias, where individuals doubt the authenticity of multimedia due to the awareness of AI's capabilities. As a result, Deepfake detection has become a vital area of research, focusing on identifying subtle inconsistencies and artifacts with machine learning techniques, especially Convolutional Neural Networks (CNNs). Research in forensic Deepfake technology encompasses five main areas: detection, attribution and recognition, passive authentication, detection in realistic scenarios, and active authentication. This paper reviews the primary algorithms that address these challenges, examining their advantages, limitations, and future prospects. | 翻訳日:2024-08-14 19:58:40 公開日:2024-08-13 |
# CLIP4Sketch: 拡散モデルを用いたデータセット拡張によるスケッチとマグショットマッチングの強化
CLIP4Sketch: Enhancing Sketch to Mugshot Matching through Dataset Augmentation using Diffusion Models ( http://arxiv.org/abs/2408.01233v2 ) ライセンス: Link先を確認 | Kushal Kumar Jain, Steve Grosz, Anoop M. Namboodiri, Anil K. Jain, | (参考訳) Forensic sketch-to-mugshot matchingは顔認識において難しい課題であり、主に注釈付き法医学的スケッチの不足と、スケッチと写真の間のモダリティギャップによって妨げられる。
これを解決するために,拡散モデルを利用して多種多様なスケッチ画像を生成する新しいアプローチであるCLIP4Sketchを提案する。
本手法は拡散確率モデル(DDPM)を用いて,個人性やスタイルを明確に制御したスケッチを生成する。
参照マグショットのCLIPとAdafaceの埋め込みとスタイルのテキスト記述を,拡散モデルの条件として組み合わせる。
本研究のアプローチの有効性は,マグショットに対応するスケッチの包括的データセットを作成し,合成データに基づいて顔認識モデルを訓練することによって実証する。
本研究は,既存の実顔スケッチデータに対するトレーニングよりも,スケッチ・ツー・マガットのマッチング精度を大幅に向上させ,モダリティを越えた顔認識システムの性能向上における拡散モデルの可能性を検証した。
また、その優位性を示すために、GANベースの手法を用いて生成されたデータセットとデータセットを比較した。
Forensic sketch-to-mugshot matching is a challenging task in face recognition, primarily hindered by the scarcity of annotated forensic sketches and the modality gap between sketches and photographs. To address this, we propose CLIP4Sketch, a novel approach that leverages diffusion models to generate a large and diverse set of sketch images, which helps in enhancing the performance of face recognition systems in sketch-to-mugshot matching. Our method utilizes Denoising Diffusion Probabilistic Models (DDPMs) to generate sketches with explicit control over identity and style. We combine CLIP and Adaface embeddings of a reference mugshot, along with textual descriptions of style, as the conditions to the diffusion model. We demonstrate the efficacy of our approach by generating a comprehensive dataset of sketches corresponding to mugshots and training a face recognition model on our synthetic data. Our results show significant improvements in sketch-to-mugshot matching accuracy over training on an existing, limited amount of real face sketch data, validating the potential of diffusion models in enhancing the performance of face recognition systems across modalities. We also compare our dataset with datasets generated using GAN-based methods to show its superiority. | 翻訳日:2024-08-14 19:58:40 公開日:2024-08-13 |
# MapComp: グループアグリゲーションのためのセキュアなビューベースの協調分析フレームワーク
MapComp: A Secure View-based Collaborative Analytics Framework for Join-Group-Aggregation ( http://arxiv.org/abs/2408.01246v2 ) ライセンス: Link先を確認 | Xinyu Peng, Feng Han, Li Peng, Weiran Liu, Zheng Yan, Kai Kang, Xinyuan Zhang, Guoxing Wei, Jianling Sun, Jinfei Liu, | (参考訳) 本稿では、協調分析のための結合グループ集約(JGA)クエリを容易にするビューベースの新しいフレームワークであるMapCompを紹介する。
グループ集約(group-aggregation, GA)プロトコルの結合と新規設計のための特別に製作されたマテリアライズドビューにより、MapCompは重複したジョインのワークロードを排除し、その後のGAを高速化し、JGAクエリの実行効率を向上する。
連続的なデータ更新をサポートするため、当社のマテリアライズドビューはペイロード独立機能を提供し、無料のMPCオーバーヘッドでビューリフレッシュの大幅な効率向上を実現しています。
この機能はまた、GAのさらなる加速を可能にし、以前の作業より優れた複数の新しいプロトコルを考案しました。
特に、本研究は、マテリアライズドビューを使ったセキュアなJGAクエリを高速化する最初の取り組みである。
本実験はMapCompの大きな利点を示し,クエリを8回実行する場合の非ビューベースラインと比較して,2189.9倍の効率向上を実現した。
This paper introduces MapComp, a novel view-based framework to facilitate join-group-aggregation (JGA) queries for collaborative analytics. Through specially crafted materialized view for join and novel design of group-aggregation (GA) protocols, MapComp removes duplicated join workload and expedites subsequent GA, improving the efficiency of JGA query execution. To support continuous data updates, our materialized view offers payload-independence feature and brings in significant efficiency improvement of view refreshing with free MPC overhead. This feature also allows further acceleration for GA, where we devised multiple novel protocols that outperform prior works. Notably, our work represents the first endeavor to expedite secure collaborative JGA queries using materialized views. Our experiments demonstrate a significant advantage of MapComp, achieving up to a 2189.9x efficiency improvement compared to the non-view based baseline when executing queries eight times. | 翻訳日:2024-08-14 19:58:40 公開日:2024-08-13 |
# PsybORG+:先進的脅威における認知バイアスのモデル化とシミュレーション
PsybORG+: Modeling and Simulation for Detecting Cognitive Biases in Advanced Persistent Threats ( http://arxiv.org/abs/2408.01310v3 ) ライセンス: Link先を確認 | Shuo Huang, Fred Jones, Nikolos Gurney, David Pynadath, Kunal Srivastava, Stoney Trent, Peggy Wu, Quanyan Zhu, | (参考訳) Advanced Persistent Threats (APT)は、高度でステルスな性質のため、サイバーセキュリティに重大な課題をもたらす。
従来のサイバーセキュリティ対策はAPTに対する防衛に失敗する。
認知的脆弱性は攻撃者の意思決定プロセスに大きな影響を与える可能性がある。
PsybORG$^+$は、認知的脆弱性に影響されたAPTの振る舞いをモデル化するために設計されたマルチエージェントのサイバーセキュリティシミュレーション環境である。
分類モデルは認知的脆弱性推論のために構築され、シミュレータは合成データ生成のために設計されている。
PsybORG$^+$は、損失回避と確認バイアスレベルが異なるAPT攻撃者を効果的にモデル化できることを示す。
分類モデルは、認知的脆弱性を予測する際に少なくとも0.83の精度率を有する。
Advanced Persistent Threats (APTs) bring significant challenges to cybersecurity due to their sophisticated and stealthy nature. Traditional cybersecurity measures fail to defend against APTs. Cognitive vulnerabilities can significantly influence attackers' decision-making processes, which presents an opportunity for defenders to exploit. This work introduces PsybORG$^+$, a multi-agent cybersecurity simulation environment designed to model APT behaviors influenced by cognitive vulnerabilities. A classification model is built for cognitive vulnerability inference and a simulator is designed for synthetic data generation. Results show that PsybORG$^+$ can effectively model APT attackers with different loss aversion and confirmation bias levels. The classification model has at least a 0.83 accuracy rate in predicting cognitive vulnerabilities. | 翻訳日:2024-08-14 19:58:40 公開日:2024-08-13 |
# OCR修正後の改善:合成データの比較研究
Advancing Post-OCR Correction: A Comparative Study of Synthetic Data ( http://arxiv.org/abs/2408.02253v2 ) ライセンス: Link先を確認 | Shuhao Guan, Derek Greene, | (参考訳) 本稿では,データ量,拡張,合成データ生成手法がモデル性能に与える影響を評価する実験を行い,OCR後領域における合成データの適用について検討する。
さらに,計算機ビジョン特徴検出アルゴリズムを利用して,OCR後合成データ構築のためのグリフ類似性を計算するアルゴリズムを提案する。
ByT5のようなモデルが手動でアノテートすることなく文字誤り率(CER)を大幅に低減できることを示すとともに,提案手法は従来の手法,特に低リソース言語よりも優れていることを示す。
This paper explores the application of synthetic data in the post-OCR domain on multiple fronts by conducting experiments to assess the impact of data volume, augmentation, and synthetic data generation methods on model performance. Furthermore, we introduce a novel algorithm that leverages computer vision feature detection algorithms to calculate glyph similarity for constructing post-OCR synthetic data. Through experiments conducted across a variety of languages, including several low-resource ones, we demonstrate that models like ByT5 can significantly reduce Character Error Rates (CER) without the need for manually annotated data, and our proposed synthetic data generation method shows advantages over traditional methods, particularly in low-resource languages. | 翻訳日:2024-08-14 19:58:40 公開日:2024-08-13 |
# 地理空間画像の疎結合化のためのクロス擬似スーパービジョンフレームワーク
Cross Pseudo Supervision Framework for Sparsely Labelled Geospatial Images ( http://arxiv.org/abs/2408.02382v2 ) ライセンス: Link先を確認 | Yash Dixit, Naman Srivastava, Joel D Joy, Rohan Olikara, Swarup E, Rakshit Ramesh, | (参考訳) 土地利用土地被覆(LULC)マッピングは都市と資源計画にとって重要なツールであり、革新的で持続可能な都市の発展に重要な役割を果たしている。
本研究では,インド各地の多様なデータ分布を持つ高解像度衛星画像を用いたLULC予測のための半教師付きセグメンテーションモデルを提案する。
当社のアプローチは, 異なるタイプの建物, 道路, 木々, 水域にまたがる堅牢な一般化を実現する。
粗いラベル付きデータに基づいて画像分割モデルをトレーニングするクロス擬似スーパービジョンフレームワークを提案する。
提案フレームワークは,半教師付き学習における有名なCross Pseudo Supervisionの限界に対処し,ノイズの多い衛星画像データにスパースラベルと不正確なラベルでセグメンテーションモデルを訓練する際の課題に対処する。
この包括的アプローチはLULCマッピングの精度と有用性を著しく向上させ、都市および資源計画アプリケーションに貴重な洞察を与える。
Land Use Land Cover (LULC) mapping is a vital tool for urban and resource planning, playing a key role in the development of innovative and sustainable cities. This study introduces a semi-supervised segmentation model for LULC prediction using high-resolution satellite images with a vast diversity of data distributions in different areas of India. Our approach ensures a robust generalization across different types of buildings, roads, trees, and water bodies within these distinct areas. We propose a modified Cross Pseudo Supervision framework to train image segmentation models on sparsely labelled data. The proposed framework addresses the limitations of the famous 'Cross Pseudo Supervision' technique for semi-supervised learning, specifically tackling the challenges of training segmentation models on noisy satellite image data with sparse and inaccurate labels. This comprehensive approach significantly enhances the accuracy and utility of LULC mapping, providing valuable insights for urban and resource planning applications. | 翻訳日:2024-08-14 19:58:40 公開日:2024-08-13 |
# 知識ニューロンによる大規模言語モデルの実態的リコール行動の解明
Unveiling Factual Recall Behaviors of Large Language Models through Knowledge Neurons ( http://arxiv.org/abs/2408.03247v2 ) ライセンス: Link先を確認 | Yifei Wang, Yuheng Chen, Wanting Wen, Yu Sheng, Linjing Li, Daniel Dajun Zeng, | (参考訳) 本稿では,Large Language Models (LLMs) が推論タスクに直面すると,その内部知識のリポジトリを積極的にリコールするか,回収するかを検討する。
知識ニューロンによる各推論段階におけるLLMの内部的事実リコールの分析を通じて、LLMは特定の状況下での批判的事実関連を活用できないことが明らかとなった。
代わりに、彼らは理性的な疑問に答えるために、代替のショートカットのような経路を選択する傾向がある。
LLMにおけるパラメトリック知識のリコールプロセスを手動で操作することにより、このリコールプロセスの強化は推論性能を向上する一方、その抑制は顕著な劣化をもたらすことを示す。
さらに,複雑な推論タスクに対処する強力な手法であるChain-of-Thought(CoT)プロンプトの効果を評価する。
以上の結果から, CoT は LLM の順応的かつ信頼性の高い推論を奨励することにより, 事実的知識のリコールを促進できることが示唆された。
さらに,LLMの現実的リコール行動の包括的理解を得るために,文脈的コンフリクトが推論過程における事実の検索にどのように影響するかを考察した。
コードとデータは近く提供される。
In this paper, we investigate whether Large Language Models (LLMs) actively recall or retrieve their internal repositories of factual knowledge when faced with reasoning tasks. Through an analysis of LLMs' internal factual recall at each reasoning step via Knowledge Neurons, we reveal that LLMs fail to harness the critical factual associations under certain circumstances. Instead, they tend to opt for alternative, shortcut-like pathways to answer reasoning questions. By manually manipulating the recall process of parametric knowledge in LLMs, we demonstrate that enhancing this recall process directly improves reasoning performance whereas suppressing it leads to notable degradation. Furthermore, we assess the effect of Chain-of-Thought (CoT) prompting, a powerful technique for addressing complex reasoning tasks. Our findings indicate that CoT can intensify the recall of factual knowledge by encouraging LLMs to engage in orderly and reliable reasoning. Furthermore, we explored how contextual conflicts affect the retrieval of facts during the reasoning process to gain a comprehensive understanding of the factual recall behaviors of LLMs. Code and data will be available soon. | 翻訳日:2024-08-14 19:58:40 公開日:2024-08-13 |
# データセット蒸留における優先順位アライメント
Prioritize Alignment in Dataset Distillation ( http://arxiv.org/abs/2408.03360v2 ) ライセンス: Link先を確認 | Zekai Li, Ziyao Guo, Wangbo Zhao, Tianle Zhang, Zhi-Qi Cheng, Samir Khaki, Kaipeng Zhang, Ahmad Sajedi, Konstantinos N Plataniotis, Kai Wang, Yang You, | (参考訳) Dataset Distillationは、トレーニングされたモデルのパフォーマンスを損なうことなく、大規模なデータセットをはるかにコンパクトな合成データセットに圧縮することを目的としている。
これを実現するために、既存の手法ではエージェントモデルを使用してターゲットデータセットから情報を抽出し、蒸留データセットに埋め込む。
これにより、抽出された組込み情報の品質が蒸留データセットの品質を決定する。
本研究では,情報抽出段階と埋め込み段階の両方において,既存の手法が不整合情報を導入していることを示す。
これを軽減するために、以下の2つの視点から情報を整合させるPAD(Preferitize Alignment in Dataset Distillation)を提案する。
1) エージェントモデルにより抽出可能な情報をフィルタリングするために, 圧縮率に応じてターゲットデータセットを訓練する。
2) エージェントモデルの深層層のみを用いて蒸留を行い, 低レベル情報の過剰な導入を回避する。
この単純な戦略は、誤整情報を効果的にフィルタリングし、主流のマッチングベースの蒸留アルゴリズムに非自明な改善をもたらす。
さらに、トラジェクトリマッチングに基づいて構築された \textbf{PAD} は、様々なベンチマークにおいて顕著な改善を実現し、最先端のパフォーマンスを実現している。
Dataset Distillation aims to compress a large dataset into a significantly more compact, synthetic one without compromising the performance of the trained models. To achieve this, existing methods use the agent model to extract information from the target dataset and embed it into the distilled dataset. Consequently, the quality of extracted and embedded information determines the quality of the distilled dataset. In this work, we find that existing methods introduce misaligned information in both information extraction and embedding stages. To alleviate this, we propose Prioritize Alignment in Dataset Distillation (PAD), which aligns information from the following two perspectives. 1) We prune the target dataset according to the compressing ratio to filter the information that can be extracted by the agent model. 2) We use only deep layers of the agent model to perform the distillation to avoid excessively introducing low-level information. This simple strategy effectively filters out misaligned information and brings non-trivial improvement for mainstream matching-based distillation algorithms. Furthermore, built on trajectory matching, \textbf{PAD} achieves remarkable improvements on various benchmarks, achieving state-of-the-art performance. | 翻訳日:2024-08-14 19:58:40 公開日:2024-08-13 |
# EXAONE 3.0 7.8Bインストラクションチューニング言語モデル
EXAONE 3.0 7.8B Instruction Tuned Language Model ( http://arxiv.org/abs/2408.03541v3 ) ライセンス: Link先を確認 | LG AI Research, :, Soyoung An, Kyunghoon Bae, Eunbi Choi, Stanley Jungkyu Choi, Yemuk Choi, Seokhee Hong, Yeonjung Hong, Junwon Hwang, Hyojin Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Yountae Jung, Euisoon Kim, Hyosang Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Youchul Kim, Edward Hwayoung Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Moontae Lee, Seungjun Lee, Woohyung Lim, Sangha Park, Sooyoun Park, Yongmin Park, Boseong Seo, Sihoon Yang, Heuiyeen Yeen, Kyungjae Yoo, Hyeongu Yun, | (参考訳) 本稿では,LG AI Research が開発したLarge Language Models (LLM) シリーズの最初のオープンモデルである EXAONE 3.0 命令調整言語モデルを紹介する。
様々なモデルサイズの中で、オープンな研究とイノベーションを促進するために、7.8Bの命令調整モデルを公開する。
EXAONE 3.0は、様々な公開および社内ベンチマークの広範な評価を通じて、同様の大きさの他の最先端のオープンモデルに対して、命令追従機能を備えた非常に競争力のある実世界のパフォーマンスを示す。
比較分析の結果,EXAONE 3.0は韓国では特に優れており,一般タスクや複雑な推論において魅力的な性能を実現していることがわかった。
強力な実世界の有効性とバイリンガル能力によって、EXAONEがExpert AIの進歩に寄与し続けることを願っています。
私たちのEXAONE 3.0命令チューニングモデルはhttps://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instructで利用可能です。
We introduce EXAONE 3.0 instruction-tuned language model, the first open model in the family of Large Language Models (LLMs) developed by LG AI Research. Among different model sizes, we publicly release the 7.8B instruction-tuned model to promote open research and innovations. Through extensive evaluations across a wide range of public and in-house benchmarks, EXAONE 3.0 demonstrates highly competitive real-world performance with instruction-following capability against other state-of-the-art open models of similar size. Our comparative analysis shows that EXAONE 3.0 excels particularly in Korean, while achieving compelling performance across general tasks and complex reasoning. With its strong real-world effectiveness and bilingual proficiency, we hope that EXAONE keeps contributing to advancements in Expert AI. Our EXAONE 3.0 instruction-tuned model is available at https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct | 翻訳日:2024-08-14 19:58:40 公開日:2024-08-13 |
# 機能的MRI理解のための階層型量子制御ゲート
Hierarchical Quantum Control Gates for Functional MRI Understanding ( http://arxiv.org/abs/2408.03596v2 ) ライセンス: Link先を確認 | Xuan-Bac Nguyen, Hoang-Quan Nguyen, Hugh Churchill, Samee U. Khan, Khoa Luu, | (参考訳) 量子コンピューティングは、古典的コンピュータ、特に暗号、最適化、ニューロコンピューティングといった一般的な分野において、難解な複雑な問題を解決する強力なツールとして登場した。
本稿では,fMRI(Functional Magnetic Resonance Imaging)データを効率的に理解するために,HQCG(Hierarchical Quantum Control Gates)法という新しい量子ベース手法を提案する。
このアプローチには、それぞれfMRI信号の局所的特徴とグローバルな特徴を抽出するために設計されたローカル量子制御ゲート(LQCG)とグローバル量子制御ゲート(GQCG)の2つの新しいモジュールが含まれている。
提案手法は,量子マシン上でエンドツーエンドで動作し,量子力学を利用して,古典コンピュータの課題である30,000サンプルなどの超高次元fMRI信号のパターンを学習する。
実験結果から,本手法は古典的手法よりも有意に優れていることが示された。
さらに、提案した量子モデルは古典的手法よりも安定性が高く、過度に適合する傾向が低いことが判明した。
Quantum computing has emerged as a powerful tool for solving complex problems intractable for classical computers, particularly in popular fields such as cryptography, optimization, and neurocomputing. In this paper, we present a new quantum-based approach named the Hierarchical Quantum Control Gates (HQCG) method for efficient understanding of Functional Magnetic Resonance Imaging (fMRI) data. This approach includes two novel modules: the Local Quantum Control Gate (LQCG) and the Global Quantum Control Gate (GQCG), which are designed to extract local and global features of fMRI signals, respectively. Our method operates end-to-end on a quantum machine, leveraging quantum mechanics to learn patterns within extremely high-dimensional fMRI signals, such as 30,000 samples which is a challenge for classical computers. Empirical results demonstrate that our approach significantly outperforms classical methods. Additionally, we found that the proposed quantum model is more stable and less prone to overfitting than the classical methods. | 翻訳日:2024-08-14 19:58:40 公開日:2024-08-13 |
# ウェアラブルセンサデータによる感情認識の最適化:ランダムフォレスト・ハイパーパラメータ・チューニングによる身体運動と心拍数の変化パターンの解明
Optimizing Emotion Recognition with Wearable Sensor Data: Unveiling Patterns in Body Movements and Heart Rate through Random Forest Hyperparameter Tuning ( http://arxiv.org/abs/2408.03958v2 ) ライセンス: Link先を確認 | Zikri Kholifah Nur, Rifki Wijaya, Gia Septiana Wulandari, | (参考訳) 本研究は、スマートウォッチセンサデータと心拍モニタリングを利用して、身体の動きと心拍数に基づいて個々の感情を識別する。
感情は人間の生活において重要な役割を担い、精神的な幸福、生活の質、さらには身体的および生理的反応にも影響を及ぼす。
このデータは、フアン・C・クイロス(Juan C. Quiroz)博士による以前の研究から得られた。
調査では、スマートウォッチと心拍モニターを装着した50人の参加者が250メートルの歩行を完了した。
被験者の感情状態はPANASアンケートを用いて評価した。
研究は、歩く前に映画を見ること、歩く前に音楽を聴くこと、歩きながら音楽を聴くことの3つのシナリオを精査した。
個人ベースラインはスカルン図書館の「最頻」戦略を持つDummyClassifierを用いて構築され、ロジスティック回帰やランダムフォレストなど様々なモデルを用いてこれらの活動の影響を計測した。
特に、ランダム化されたSearchCVを用いたランダムフォレストモデルにハイパーパラメータチューニングを組み込むことにより、新しいアプローチが実施された。
その結果、ランダムフォレストモデルにおけるハイパーパラメーターチューニングによる大幅な改善が示され、平均アキュラシーは86.63%、ハッピーは76.33%、ニュートラルは76.33%となった。
This research delves into the utilization of smartwatch sensor data and heart rate monitoring to discern individual emotions based on body movement and heart rate. Emotions play a pivotal role in human life, influencing mental well-being, quality of life, and even physical and physiological responses. The data were sourced from prior research by Juan C. Quiroz, PhD. The study enlisted 50 participants who donned smartwatches and heart rate monitors while completing a 250-meter walk. Emotions were induced through both audio-visual and audio stimuli, with participants' emotional states evaluated using the PANAS questionnaire. The study scrutinized three scenarios: viewing a movie before walking, listening to music before walking, and listening to music while walking. Personal baselines were established using DummyClassifier with the 'most_frequent' strategy from the sklearn library, and various models, including Logistic Regression and Random Forest, were employed to gauge the impacts of these activities. Notably, a novel approach was undertaken by incorporating hyperparameter tuning to the Random Forest model using RandomizedSearchCV. The outcomes showcased substantial enhancements with hyperparameter tuning in the Random Forest model, yielding mean accuracies of 86.63% for happy vs. sad and 76.33% for happy vs. neutral vs. sad. | 翻訳日:2024-08-14 19:58:40 公開日:2024-08-13 |
# 低レベル中間表現におけるオーナシップ
Ownership in low-level intermediate representation ( http://arxiv.org/abs/2408.04043v3 ) ライセンス: Link先を確認 | Siddharth Priya, Arie Gurfinkel, | (参考訳) 高レベルの言語におけるオーナシップの概念は、プログラマとコンパイラの両方がメモリ操作の有効性を判断するのに役立ちます。
これまで、オーナシップセマンティクスは、アドレスマップを維持する代わりに、データの1次論理(FOL)表現によってデータへの参照をモデル化するために、ハイレベルな自動プログラム検証でうまく使われてきた。
しかし、オーナシップのセマンティクスは低レベルのプログラム検証には使われない。
我々は2つの課題を特定した。
まず、プログラムが低レベル中間表現(例えばLLVM IR)にコンパイルされると、所有権情報が失われる。
第二に、低レベルのプログラムのポインタはアドレスマップ(例えば、安全でないRust)を使用してバイトを指しているため、検証条件(VC)は、常にFOL抽象化によってポインタを置き換えることはできない。
状況を改善するため,低レベル中間表現のようなLLVMのオーナシップセマンティクスを開発する。
これらのセマンティクスを使用することで、VCはデータのバイト表現を格納するポインタキャッシュの直接アクセスによって、いくつかのメモリアクセスを同時にモデル化することができる。
このスキームは、特にオーナシップのセマンティクスに従う安全なプログラムに対して、アドレスマップをメンテナンスしなければならないインスタンスを減らす。
安全でない機能のために、メモリアクセスはアドレスマップの操作によってモデル化され、アドレスマップとポインタキャッシュを同期に保つメカニズムを提供する。
LLVMのモデルチェッカーであるSEABMCでこれらのセマンティクスを実装している。
Cにはオーナシップが組み込まれていないため、検証のためにIRのようなLLVMへの変換中にオーナシップを導入して保存する適切なマクロが追加される。
このアプローチは成熟したオープンソースCコードで評価される。
手作りのベンチマークと実用的なプログラムの両方に対して、SMT解決時に13x-5x$のスピードアップを観察する。
The concept of ownership in high level languages can aid both the programmer and the compiler to reason about the validity of memory operations. Previously, ownership semantics has been used successfully in high level automatic program verification to model a reference to data by a first order logic (FOL) representation of data instead of maintaining an address map. However, ownership semantics is not used in low level program verification. We have identified two challenges. First, ownership information is lost when a program is compiled to a low level intermediate representation (e.g., in LLVM IR). Second, pointers in low level programs point to bytes using an address map (e.g., in unsafe Rust) and thus the verification condition (VC) cannot always replace a pointer by its FOL abstraction. To remedy the situation, we develop ownership semantics for an LLVM like low level intermediate representation. Using these semantics, the VC can opportunistically model some memory accesses by a direct access of a pointer cache that stores byte representation of data. This scheme reduces instances where an address map must be maintained, especially for mostly safe programs that follow ownership semantics. For unsafe functionality, memory accesses are modelled by operations on an address map and we provide mechanisms to keep the address map and pointer cache in sync. We implement these semantics in SEABMC, a bit precise bounded model checker for LLVM. For evaluation, the source programs are assumed to be written in C. Since C does not have ownership built in, suitable macros are added that introduce and preserve ownership during translation to LLVM like IR for verification. This approach is evaluated on mature open source C code. For both handcrafted benchmarks and practical programs, we observe a speedup of $1.3x-5x$ during SMT solving. | 翻訳日:2024-08-14 19:58:40 公開日:2024-08-13 |
# mPLUG-Owl3:マルチモーダル大言語モデルにおける長い画像系列理解を目指して
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models ( http://arxiv.org/abs/2408.04840v2 ) ライセンス: Link先を確認 | Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, | (参考訳) MLLM(Multi-modal Large Language Models)は、様々な単一画像タスクの命令を実行する際、顕著な機能を示す。
この進歩にもかかわらず、長い画像列のモデリングには大きな課題が残っている。
本研究では、検索した画像テキスト知識、インターリーブされた画像テキスト、長大なビデオを含むシナリオにおいて、長い画像系列理解能力を高める多機能なマルチモーダル大言語モデルであるmPLUG-Owl3を導入する。
具体的には,視覚と言語を共通言語指導型セマンティック空間に効率的に統合し,拡張されたマルチイメージシナリオの処理を容易にする,新しいハイパーアテンションブロックを提案する。
大規模な実験結果から,mPLUG-Owl3はシングルイメージ,マルチイメージ,ビデオベンチマークに類似した大きさのモデル間で,最先端の性能を実現することが示唆された。
さらに,トラクタ抵抗 (Distractor resistance) という長めの視覚的シーケンス評価手法を提案する。
最後に、提案したアーキテクチャにより、mPLUG-Owl3は超長めの視覚的シーケンス入力において優れた性能を示す。
我々は、mPLUG-Owl3がより効率的で強力なマルチモーダルな大規模言語モデルの開発に寄与することを期待している。
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable capabilities in executing instructions for a variety of single-image tasks. Despite this progress, significant challenges remain in modeling long image sequences. In this work, we introduce the versatile multi-modal large language model, mPLUG-Owl3, which enhances the capability for long image-sequence understanding in scenarios that incorporate retrieved image-text knowledge, interleaved image-text, and lengthy videos. Specifically, we propose novel hyper attention blocks to efficiently integrate vision and language into a common language-guided semantic space, thereby facilitating the processing of extended multi-image scenarios. Extensive experimental results suggest that mPLUG-Owl3 achieves state-of-the-art performance among models with a similar size on single-image, multi-image, and video benchmarks. Moreover, we propose a challenging long visual sequence evaluation named Distractor Resistance to assess the ability of models to maintain focus amidst distractions. Finally, with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to the development of more efficient and powerful multimodal large language models. | 翻訳日:2024-08-14 19:48:49 公開日:2024-08-13 |
# EasyInv: DDIMの高速かつ優れたインバージョンを目指して
EasyInv: Toward Fast and Better DDIM Inversion ( http://arxiv.org/abs/2408.05159v2 ) ライセンス: Link先を確認 | Ziyue Zhang, Mingbao Lin, Shuicheng Yan, Rongrong Ji, | (参考訳) 本稿では,従来の反復最適化手法の非効率性や性能制限に対処することにより,DDIMの逆変換の分野を大幅に発展させる,簡単かつ斬新なアプローチであるEasyInvを紹介する。
EasyInvのコアとなるのは、インバージョン処理の精度と信頼性を高めるために、インバージョンノイズを近似するための洗練された戦略である。
元の画像に関する豊富な情報をカプセル化した初期潜伏状態の優先順位付けにより、EasyInvは、ノイズアイテムの反復的洗練をクリアする。
その代わり,前段階から現在までの潜伏状態の方法論的集約を導入し,初期潜伏状態の影響を効果的に増大させ,騒音の影響を緩和する。
本稿では,従来のDDIMインバージョン手法と同等あるいは同等以上の結果を提供できること,特にモデルの精度が制限されている場合,計算資源が不足している場合について述べる。
同時に、我々のEasyInvは、オフザシェルフ反復最適化技術よりも推論効率を3倍に向上させる。
This paper introduces EasyInv, an easy yet novel approach that significantly advances the field of DDIM Inversion by addressing the inherent inefficiencies and performance limitations of traditional iterative optimization methods. At the core of our EasyInv is a refined strategy for approximating inversion noise, which is pivotal for enhancing the accuracy and reliability of the inversion process. By prioritizing the initial latent state, which encapsulates rich information about the original images, EasyInv steers clear of the iterative refinement of noise items. Instead, we introduce a methodical aggregation of the latent state from the preceding time step with the current state, effectively increasing the influence of the initial latent state and mitigating the impact of noise. We illustrate that EasyInv is capable of delivering results that are either on par with or exceed those of the conventional DDIM Inversion approach, especially under conditions where the model's precision is limited or computational resources are scarce. Concurrently, our EasyInv offers an approximate threefold enhancement regarding inference efficiency over off-the-shelf iterative optimization techniques. | 翻訳日:2024-08-14 19:48:49 公開日:2024-08-13 |
# ほぼ特異な超伝導回路の連続量子化」について
On "Consistent Quantization of Nearly Singular Superconducting Circuits" ( http://arxiv.org/abs/2408.05174v2 ) ライセンス: Link先を確認 | I. L. Egusquiza, A. Parra-Rodriguez, | (参考訳) Rymarz と DiVincenzo (Phys) による分析。
超伝導回路の量子化に関するX 13 021017 (2023) は、それらの一般的な結論を正当化するには不十分である。
様々な理由から、実験的および理論的結果といくつかの相違点の1つは、ジョセフソン接合の存在下での拡張変数とコンパクト変数の間の長期にわたる論争である。
The analysis conducted by Rymarz and DiVincenzo (Phys. Rev. X 13, 021017 (2023)) regarding quantization of superconducting circuits is insufficient to justify their general conclusions, most importantly the need to discard Kirchhoff's laws to effect variable reductions. Amongst a variety of reasons, one source of several disagreements with experimental and theoretical results is the long-standing dispute between extended vs compact variables in the presence of Josephson junctions. | 翻訳日:2024-08-14 19:48:49 公開日:2024-08-13 |
# 半教師付き学習のためのラプラシアン型量子グラフニューラルネットワーク
A Laplacian-based Quantum Graph Neural Network for Semi-Supervised Learning ( http://arxiv.org/abs/2408.05498v2 ) ライセンス: Link先を確認 | Hamed Gholipour, Farid Bozorgnia, Kailash Hambarde, Hamzeh Mohammadigheymasi, Javier Mancilla, Andre Sequeira, Joao Neves, Hugo Proença, | (参考訳) ラプラシアン学習法は古典的なグラフに基づく半教師付き学習において確立された手法であるが、量子領域におけるそのポテンシャルはほとんど解明されていない。
本研究は、Iris, Wine, Breast Cancer Wisconsin, Heart Diseaseの4つのベンチマークデータセットを対象に、ラプラシア語に基づく量子半監視学習(QSSL)法の性能について検討した。
さらなる分析では、量子システムにQubitを増やすことで、パフォーマンスが常に向上するとは限らないことを明らかにする。
追加のQubitsの有効性は、量子アルゴリズムとデータセットの適合性に依存する。
さらに, 種々の絡み合い層が絡み合いエントロピーおよび試験精度に及ぼす影響について検討した。
ラプラシア語学習のパフォーマンスは、異なるデータセット間で最適な設定が異なり、絡み合うレイヤの数に大きく依存している。
通常、適度なレベルの絡み合いは、モデルの複雑さと一般化能力の最良のバランスを提供する。
これらの観察は、ラプラシアン学習法において最適な性能を達成するために、データセットごとに調整された正確なハイパーパラメータチューニングの必要性を強調している。
Laplacian learning method is a well-established technique in classical graph-based semi-supervised learning, but its potential in the quantum domain remains largely unexplored. This study investigates the performance of the Laplacian-based Quantum Semi-Supervised Learning (QSSL) method across four benchmark datasets -- Iris, Wine, Breast Cancer Wisconsin, and Heart Disease. Further analysis explores the impact of increasing Qubit counts, revealing that adding more Qubits to a quantum system doesn't always improve performance. The effectiveness of additional Qubits depends on the quantum algorithm and how well it matches the dataset. Additionally, we examine the effects of varying entangling layers on entanglement entropy and test accuracy. The performance of Laplacian learning is highly dependent on the number of entangling layers, with optimal configurations varying across different datasets. Typically, moderate levels of entanglement offer the best balance between model complexity and generalization capabilities. These observations highlight the crucial need for precise hyperparameter tuning tailored to each dataset to achieve optimal performance in Laplacian learning methods. | 翻訳日:2024-08-14 19:48:49 公開日:2024-08-13 |
# SWIFT:ファインチューニングのためのスケーラブル軽量インフラストラクチャ
SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning ( http://arxiv.org/abs/2408.05517v2 ) ライセンス: Link先を確認 | Yuze Zhao, Jintao Huang, Jinghan Hu, Xingjun Wang, Yunlin Mao, Daoze Zhang, Zeyinzi Jiang, Zhikai Wu, Baole Ai, Ang Wang, Wenmeng Zhou, Yingda Chen, | (参考訳) 近年のLLM(Large Language Models)とMLLM(Multi-modal Large Language Models)は,アテンションベースのトランスフォーマーアーキテクチャを活用し,優れた性能と一般化を実現している。
それ以来、彼らは伝統的な学習タスクの幅広い領域をカバーしてきた。
例えば、テキスト分類やシーケンスラベリングといったテキストベースのタスクや、以前は異なるモデルを使用して対処されていたVisual Question Answering(VQA)やOCR(OCR)といったマルチモーダルタスクは、1つの基礎モデルに基づいて取り組めるようになった。
その結果,特に Transformer アーキテクチャに基づく LLM と MLLM の訓練と軽量な微調整が特に重要になっている。
これらの圧倒的なニーズを認識して、大型モデルのためのカスタマイズ可能なワンストップインフラストラクチャであるSWIFTを開発する。
300ドル以上のLLMと50ドル以上のMLLMをサポートするSWIFTは、大規模なモデルを微調整するための‘textit{most comprehensive support’を提供するオープンソースフレームワークである。
特に、MLLMの体系的なサポートを提供する最初のトレーニングフレームワークである。
微調整のコア機能に加えて、SWIFTは推論、評価、モデル量子化といったポストトレーニングプロセスを統合し、様々なアプリケーションシナリオにおける大規模モデルの迅速な採用を促進する。
様々なトレーニングテクニックを体系的に統合することにより、SWIFTは大規模モデルの異なるトレーニングテクニック間のベンチマーク比較のような有用なユーティリティを提供する。
エージェントフレームワークに特化した微調整モデルでは、ToolBenchのリーダーボードの顕著な改善は、SWIFT上でカスタマイズされたデータセットでトレーニングすることで達成できることを示し、Act.EMでは様々なベースラインモデルに対して5.2%-21.8%、幻覚の1.6%-14.1%、平均的なパフォーマンス改善は8%-17%である。
Recent development in Large Language Models (LLMs) and Multi-modal Large Language Models (MLLMs) have leverage Attention-based Transformer architectures and achieved superior performance and generalization capabilities. They have since covered extensive areas of traditional learning tasks. For instance, text-based tasks such as text-classification and sequence-labeling, as well as multi-modal tasks like Visual Question Answering (VQA) and Optical Character Recognition (OCR), which were previously addressed using different models, can now be tackled based on one foundation model. Consequently, the training and lightweight fine-tuning of LLMs and MLLMs, especially those based on Transformer architecture, has become particularly important. In recognition of these overwhelming needs, we develop SWIFT, a customizable one-stop infrastructure for large models. With support of over $300+$ LLMs and $50+$ MLLMs, SWIFT stands as the open-source framework that provide the \textit{most comprehensive support} for fine-tuning large models. In particular, it is the first training framework that provides systematic support for MLLMs. In addition to the core functionalities of fine-tuning, SWIFT also integrates post-training processes such as inference, evaluation, and model quantization, to facilitate fast adoptions of large models in various application scenarios. With a systematic integration of various training techniques, SWIFT offers helpful utilities such as benchmark comparisons among different training techniques for large models. For fine-tuning models specialized in agent framework, we show that notable improvements on the ToolBench leader-board can be achieved by training with customized dataset on SWIFT, with an increase of 5.2%-21.8% in the Act.EM metric over various baseline models, a reduction in hallucination by 1.6%-14.1%, and an average performance improvement of 8%-17%. | 翻訳日:2024-08-14 19:48:49 公開日:2024-08-13 |
# 二次元マニピュレーションのための模倣学習アルゴリズムの比較
A Comparison of Imitation Learning Algorithms for Bimanual Manipulation ( http://arxiv.org/abs/2408.06536v1 ) ライセンス: Link先を確認 | Michael Drolet, Simon Stepputtis, Siva Kailas, Ajinkya Jain, Jan Peters, Stefan Schaal, Heni Ben Amor, | (参考訳) ロボット工学における模倣学習アルゴリズムの普及の中で、ハイパーパラメータの感度、トレーニングの容易さ、データ効率、パフォーマンスに関するそれらの特性は、高精度産業にインスパイアされた環境ではよく研究されていない。
本研究は,顕著な模倣学習アプローチの限界とメリットを実証し,それらの特性を解析する。
我々は,操作対象と環境との複数の接触を含む設定において,過剰に制約された動的システムを含む複雑な双方向操作タスクにおいて,各アルゴリズムを評価する。
模倣学習は複雑なタスクを解くのに適しているが、全てのアルゴリズムが環境やハイパーパラメータの摂動、訓練要件、性能、使いやすさを扱うという点で等しいわけではない。
本研究では,これらの特徴の実証的影響について,慎重に設計した実験手法と学習環境を用いて検討する。
Paper website: https://bimanual-imitation.github.io/
Amidst the wide popularity of imitation learning algorithms in robotics, their properties regarding hyperparameter sensitivity, ease of training, data efficiency, and performance have not been well-studied in high-precision industry-inspired environments. In this work, we demonstrate the limitations and benefits of prominent imitation learning approaches and analyze their capabilities regarding these properties. We evaluate each algorithm on a complex bimanual manipulation task involving an over-constrained dynamics system in a setting involving multiple contacts between the manipulated object and the environment. While we find that imitation learning is well suited to solve such complex tasks, not all algorithms are equal in terms of handling environmental and hyperparameter perturbations, training requirements, performance, and ease of use. We investigate the empirical influence of these key characteristics by employing a carefully designed experimental procedure and learning environment. Paper website: https://bimanual-imitation.github.io/ | 翻訳日:2024-08-14 19:07:10 公開日:2024-08-13 |
# NewsPaLM MBR と QE データセットの導入: 従来の Web クローリングデータより優れた LLM 生成高品質並列データ
Introducing the NewsPaLM MBR and QE Dataset: LLM-Generated High-Quality Parallel Data Outperforms Traditional Web-Crawled Data ( http://arxiv.org/abs/2408.06537v1 ) ライセンス: Link先を確認 | Mara Finkelstein, David Vilar, Markus Freitag, | (参考訳) ニューラルマシン翻訳(NMT)の最近の研究により、高品質なマシン生成データに対するトレーニングは、人為的なデータに対するトレーニングよりも優れていることが示されている。
この研究は、LLM生成、MBRデコード、QE参照のデータセットを初めてリリースし、文レベルと多文の両方の例を示す。
我々は、NMTモデルの性能に対する下流の影響の観点から、データセットの品質を実証するための広範な実験を行った。
我々の(機械生成)データセットのスクラッチからのトレーニングは、(Webcrawled)WMT'23トレーニングデータセット(300倍大きい)でのトレーニングよりも優れており、WMT'23トレーニングデータセットの最高品質サブセットでのトレーニングよりも優れています。
また、このデータセットを生成するLCMを微調整して自己蒸留を行うことで、LSMの強力な数ショットベースラインよりも優れた性能が得られることも見出した。
これらの結果はデータセットの品質を裏付け、NMTモデルの性能向上における高品質なマシン生成データの価値を実証する。
Recent research in neural machine translation (NMT) has shown that training on high-quality machine-generated data can outperform training on human-generated data. This work accompanies the first-ever release of a LLM-generated, MBR-decoded and QE-reranked dataset with both sentence-level and multi-sentence examples. We perform extensive experiments to demonstrate the quality of our dataset in terms of its downstream impact on NMT model performance. We find that training from scratch on our (machine-generated) dataset outperforms training on the (web-crawled) WMT'23 training dataset (which is 300 times larger), and also outperforms training on the top-quality subset of the WMT'23 training dataset. We also find that performing self-distillation by finetuning the LLM which generated this dataset outperforms the LLM's strong few-shot baseline. These findings corroborate the quality of our dataset, and demonstrate the value of high-quality machine-generated data in improving performance of NMT models. | 翻訳日:2024-08-14 19:07:10 公開日:2024-08-13 |
# 多体系における異常古典-量子遷移の観察
Observation of anomalous classical-to-quantum transitions in many-body systems ( http://arxiv.org/abs/2408.06538v1 ) ライセンス: Link先を確認 | Chenglong You, Mingyuan Hong, Fatemeh Mostafavi, Jannatul Ferdous, Roberto de J. León-Montiel, Riley B. Dawkins, Omar S. Magaña-Loaiza, | (参考訳) 対応原理は、量子と古典の世界を、それらの力学の直接的なリンクを確立することによって橋渡しする。
このよく受け入れられた量子物理学のテナントは、粒子の数がマクロスケールにまで増加する量子系において探索されてきた。
しかし、ナノスケール構造の理論的な研究により、古典物理学と量子物理学を橋渡ししようとする際の相違が明らかになった。
本稿では,オープン多体光学系における異常な古典-量子遷移の実験的観察について報告する。
我々は、初めて、マクロ光学系とその構成量子多光子サブシステム間の古典-量子対応の欠如を実証した。
一般的な信念とは対照的に、最大40個の粒子を持つ多体量子サブシステムのコヒーレンスダイナミクスは、ホストマクロシステムによって示されるものと真に逆であることを示す。
複素ガウス統計を用いて、これらの効果は開多体系に対して普遍的であることを示す。
その結果、凝縮物質から核物理学まで、物理学の他の分野に重要な意味を持つことができる。
The correspondence principle bridges the quantum and classical worlds by establishing a direct link between their dynamics. This well-accepted tenant of quantum physics has been explored in quantum systems wherein the number of particles is increased to macroscopic scales. However, theoretical investigations of nanoscale structures have revealed discrepancies when attempting to bridge classical and quantum physics. Here, we report on the experimental observation of anomalous classical-to-quantum transitions in open many-body optical systems. We demonstrate, for the first time, the lack of classical-to-quantum correspondence between a macroscopic optical system and its constituent quantum multiphoton subsystems. In contrast to common belief, we demonstrate that the coherence dynamics of many-body quantum subsystems with up to forty particles can indeed be opposite to that exhibited by the hosting macroscopic system. By employing complex-Gaussian statistics, we show that these effects are universal for open many-body systems. Consequently, our work can have important implications for other fields of physics ranging from condensed matter to nuclear physics. | 翻訳日:2024-08-14 19:07:10 公開日:2024-08-13 |
# 自律ビームラインアライメントのためのベイズ最適化における低忠実度データの動的排除
Dynamic Exclusion of Low-Fidelity Data in Bayesian Optimization for Autonomous Beamline Alignment ( http://arxiv.org/abs/2408.06540v1 ) ライセンス: Link先を確認 | Megha R. Narayanan, Thomas W. Morris, | (参考訳) シンクロトロン光源におけるビームの配向は、一連の動的光学部品を用いてビームを集中させるため、高次元で高価でサンプル間最適化の問題である。
ベイジアン最適化は、ビーム品質のグローバルな最適性を見つけるための効率的な機械学習手法であるが、ビームがセンサの端から外れたり、バックグラウンドノイズによって引き起こされた故障データポイントによって、モデルは容易に障害を受けることができる。
本研究は,Brookhaven National Laboratory (BNL) のNSLS-II(National Synchrotron Light Source II) 施設で実施され,ビーム品質の信頼できない読み出しを同定し,低忠実度ビームを産出する可能性のある点を求めることを防ぐ方法の検討である。
探索されたアプローチには、サイズと位置モデルの損失解析を用いた動的プルーニングと、最適な適合のためにモデルにどの点を含めるべきかを決定する長さスケールに基づく遺伝的アルゴリズムが含まれる。
各手法は高忠実度点と低忠実度点の分類に成功した。
この研究はBNLのミッションを推進し、全てのビームラインの科学者に高品質なビームへのアクセスを提供し、実験のためにこれらの最適点により早く収束させることによって、国家のエネルギー問題に取り組む。
Aligning beamlines at synchrotron light sources is a high-dimensional, expensive-to-sample optimization problem, as beams are focused using a series of dynamic optical components. Bayesian Optimization is an efficient machine learning approach to finding global optima of beam quality, but the model can easily be impaired by faulty data points caused by the beam going off the edge of the sensor or by background noise. This study, conducted at the National Synchrotron Light Source II (NSLS-II) facility at Brookhaven National Laboratory (BNL), is an investigation of methods to identify untrustworthy readings of beam quality and discourage the optimization model from seeking out points likely to yield low-fidelity beams. The approaches explored include dynamic pruning using loss analysis of size and position models and a lengthscale-based genetic algorithm to determine which points to include in the model for optimal fit. Each method successfully classified high and low fidelity points. This research advances BNL's mission to tackle our nation's energy challenges by providing scientists at all beamlines with access to higher quality beams, and faster convergence to these optima for their experiments. | 翻訳日:2024-08-14 19:07:10 公開日:2024-08-13 |
# アクティブ推論とPMDPにおける情報の価値とリワード仕様
Value of Information and Reward Specification in Active Inference and POMDPs ( http://arxiv.org/abs/2408.06542v1 ) ライセンス: Link先を確認 | Ran Wei, | (参考訳) 期待される自由エネルギー (EFE) は, 期待値の直感的な分解により, 現実的な推論の中心的な量である。
EFEを決定的目的関数として正当化する多くの予想がなされているが、最も広く受け入れられているのは、その直観性と近似ベイズ予想における変分自由エネルギーとの類似性である。
本研究では、ボトムアップアプローチを採用し、EFEを前提として、報酬駆動強化学習(RL)エージェントと比較して、結果として生じるエージェントの最適性ギャップはどのようなものか、よく理解されています。
特定の信念のMDPでEFEを鋳造し、RL理論の分析ツールを用いて、EFEがベイズ最適RLポリシーを情報値で近似することを示す。
本稿では,アクティブ推論エージェントの客観的仕様の意義について論じる。
Expected free energy (EFE) is a central quantity in active inference which has recently gained popularity due to its intuitive decomposition of the expected value of control into a pragmatic and an epistemic component. While numerous conjectures have been made to justify EFE as a decision making objective function, the most widely accepted is still its intuitiveness and resemblance to variational free energy in approximate Bayesian inference. In this work, we take a bottom up approach and ask: taking EFE as given, what's the resulting agent's optimality gap compared with a reward-driven reinforcement learning (RL) agent, which is well understood? By casting EFE under a particular class of belief MDP and using analysis tools from RL theory, we show that EFE approximates the Bayes optimal RL policy via information value. We discuss the implications for objective specification of active inference agents. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# HDRGS:高ダイナミックレンジガウス平滑化
HDRGS: High Dynamic Range Gaussian Splatting ( http://arxiv.org/abs/2408.06543v1 ) ライセンス: Link先を確認 | Jiahao Wu, Lu Xiao, Chao Wang, Rui Peng, Kaiqiang Xiong, Ronggang Wang, | (参考訳) 近年,2次元画像からの3次元再構成の分野では,特にNeRF(Near Raddiance Field)技術の導入により,顕著な進歩が見られた。
しかし,2次元マルチ露光低ダイナミックレンジ(LDR)画像からの3次元高ダイナミックレンジ(HDR)放射界の再構成は大きな課題を呈し続けている。
この問題に対するアプローチは、グリッドベースと暗黙ベースの2つのカテゴリに分類される。
多層パーセプトロン(MLP)を用い、顔の不効率、可溶性の制限、過度に適合するリスクがある。
逆に、グリッドベースの手法は大きなメモリを必要とし、画像の品質と長いトレーニング時間に苦労する。
本稿では,近年の高画質リアルタイム3D再構成技術であるガウススプラッティングについて紹介する。
上記の課題に対処するために, ハイダイナミックレンジガウススティング法(HDR-GS)を更に開発する。
輝度を含むことで色寸法性を高め、トーンマッピングに非対称グリッドを用い、画素光を色に迅速かつ正確に変換する。
提案手法は,HDRシーンの再現精度を向上し,モデル収束の高速化,スパース視点や露出極性に対するロバスト性の向上,局所最適化の防止などの新たな戦略を統合する。
拡張テストにより,本手法は,合成シナリオと実世界のシナリオの両方において,現在の最先端技術を上回ることが確認された。
コードは \url{https://github.com/WuJH 2001/HDRGS} でリリースされる。
Recent years have witnessed substantial advancements in the field of 3D reconstruction from 2D images, particularly following the introduction of the neural radiance field (NeRF) technique. However, reconstructing a 3D high dynamic range (HDR) radiance field, which aligns more closely with real-world conditions, from 2D multi-exposure low dynamic range (LDR) images continues to pose significant challenges. Approaches to this issue fall into two categories: grid-based and implicit-based. Implicit methods, using multi-layer perceptrons (MLP), face inefficiencies, limited solvability, and overfitting risks. Conversely, grid-based methods require significant memory and struggle with image quality and long training times. In this paper, we introduce Gaussian Splatting-a recent, high-quality, real-time 3D reconstruction technique-into this domain. We further develop the High Dynamic Range Gaussian Splatting (HDR-GS) method, designed to address the aforementioned challenges. This method enhances color dimensionality by including luminance and uses an asymmetric grid for tone-mapping, swiftly and precisely converting pixel irradiance to color. Our approach improves HDR scene recovery accuracy and integrates a novel coarse-to-fine strategy to speed up model convergence, enhancing robustness against sparse viewpoints and exposure extremes, and preventing local optima. Extensive testing confirms that our method surpasses current state-of-the-art techniques in both synthetic and real-world scenarios. Code will be released at \url{https://github.com/WuJH2001/HDRGS} | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# 可変再生カスケードQ-ラーニング:アルゴリズムとサンプル複雑度
Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity ( http://arxiv.org/abs/2408.06544v1 ) ライセンス: Link先を確認 | Mohammad Boveiri, Peyman Mohajerin Esfahani, | (参考訳) 同期条件下での$\gamma$-discounted Markov決定過程(MDP)の最適Q-関数を推定する問題について検討する。
本稿では,Variance-Reduced Cascade Q-learning (VRCQ)と呼ばれる新しいモデルフリーアルゴリズムを導入,解析する。
VRCQは2つの重要なビルディングブロックから構成される。
一 確立された直接分散低減技術及び方法
(II)カスケードQ-ラーニング法を提案する。
これらの手法を活用することで、VRCQは既存のモデル自由確率近似型アルゴリズムと比較して$\ell_\infty$-normにおいて優れた保証を提供する。
具体的には,VRCQがミニマックス最適であることを示す。
さらに、アクション集合がシングルトンである場合(Q-ラーニング問題はポリシー評価に還元される)、理論上可能な最小のサンプル数を必要としながら、漸近的でないインスタンス最適性を達成する。
我々の理論的結果とその実践的意味は数値実験によって支えられている。
We study the problem of estimating the optimal Q-function of $\gamma$-discounted Markov decision processes (MDPs) under the synchronous setting, where independent samples for all state-action pairs are drawn from a generative model at each iteration. We introduce and analyze a novel model-free algorithm called Variance-Reduced Cascade Q-learning (VRCQ). VRCQ comprises two key building blocks: (i) the established direct variance reduction technique and (ii) our proposed variance reduction scheme, Cascade Q-learning. By leveraging these techniques, VRCQ provides superior guarantees in the $\ell_\infty$-norm compared with the existing model-free stochastic approximation-type algorithms. Specifically, we demonstrate that VRCQ is minimax optimal. Additionally, when the action set is a singleton (so that the Q-learning problem reduces to policy evaluation), it achieves non-asymptotic instance optimality while requiring the minimum number of samples theoretically possible. Our theoretical results and their practical implications are supported by numerical experiments. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# モダリティの優先順位付け:フェデレーション型マルチモーダル学習におけるフレキシブル・コンパタンス・スケジューリング
Prioritizing Modalities: Flexible Importance Scheduling in Federated Multimodal Learning ( http://arxiv.org/abs/2408.06549v1 ) ライセンス: Link先を確認 | Jieming Bian, Lei Wang, Jie Xu, | (参考訳) Federated Learning(FL)は、デバイスがローカルデータを共有せずに協調的にモデルをトレーニングし、ユーザのプライバシとスケーラビリティを確保する、分散機械学習アプローチである。
しかしながら、FLを現実世界のデータに適用することは、特に既存のFL研究が一助データに焦点を当てているため、課題を呈している。
MFL(Multimodal Federated Learning)は、様々なデータセットを処理するためにモダリティ固有のエンコーダモデルを活用することで、これらの課題に対処するために登場した。
現在のMFL法は、リソースが限られているIoTデバイスでは非効率な全てのモードで計算周波数を均一に割り当てることが多い。
本稿では,各モダリティエンコーダのトレーニングリソースを,その重要性とトレーニング要件に基づいて適応的に割り当てることにより,MFLにおける計算効率を向上させる新しいアプローチであるFlexModを提案する。
我々は,モダリティエンコーダの品質を評価するためにプロトタイプ学習を採用し,各モダリティの重要性を定量化するためにShapley値を使用し,深層強化学習からDeep Deterministic Policy Gradient(DDPG)手法を採用し,トレーニングリソースの割り当てを最適化する。
本手法は,モデル性能と資源利用を最適化し,重要なモダリティを優先する。
実世界の3つのデータセットに対する実験結果から,提案手法はMFLモデルの性能を大幅に向上させることが示された。
Federated Learning (FL) is a distributed machine learning approach that enables devices to collaboratively train models without sharing their local data, ensuring user privacy and scalability. However, applying FL to real-world data presents challenges, particularly as most existing FL research focuses on unimodal data. Multimodal Federated Learning (MFL) has emerged to address these challenges, leveraging modality-specific encoder models to process diverse datasets. Current MFL methods often uniformly allocate computational frequencies across all modalities, which is inefficient for IoT devices with limited resources. In this paper, we propose FlexMod, a novel approach to enhance computational efficiency in MFL by adaptively allocating training resources for each modality encoder based on their importance and training requirements. We employ prototype learning to assess the quality of modality encoders, use Shapley values to quantify the importance of each modality, and adopt the Deep Deterministic Policy Gradient (DDPG) method from deep reinforcement learning to optimize the allocation of training resources. Our method prioritizes critical modalities, optimizing model performance and resource utilization. Experimental results on three real-world datasets demonstrate that our proposed method significantly improves the performance of MFL models. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# 量子コンピュータのための初等量子算術論理ユニット
Elementary Quantum Arithmetic Logic Units for Near-Term Quantum Computers ( http://arxiv.org/abs/2408.06561v1 ) ライセンス: Link先を確認 | Junxu Li, | (参考訳) 量子算術論理ユニット(QALU)は、量子コンピューティングの基本的な構成要素である。
しかし、量子コンピュータにおけるQALUの実装は、主に量子ビットの接続が限られているため、依然として大きな課題である。
本稿では,量子二乗加算器,減算器,乗算器,除算器などの実現可能なQALUを提案する。
さらに、符号付き整数の補表現を計算するために、実現可能な量子演算を導入する。
提案したQALUは、パウリXゲート、CNOTゲート、および$C\sqrt{X}$ (CSX)ゲートのみを使用し、近隣のキュービット間で全ての2ビットゲートが動作している。
本研究は,量子コンピュータにおけるQALUの実装を実証し,スケーラブルで資源効率のよい量子演算への展開を示す。
Quantum arithmetic logic units (QALUs) constitute a fundamental component of quantum computing. However, the implementation of QALUs on near-term quantum computers remains a substantial challenge, largely due to the limited connectivity of qubits. In this paper, we propose feasible QALUs, including quantum binary adders, subtractors, multipliers, and dividers, which are designed for near-term quantum computers with qubits arranged in two-dimensional arrays. Additionally, we introduce a feasible quantum arithmetic operation to compute the two's complement representation of signed integers. The proposed QALUs utilize only Pauli-X gates, CNOT gates, and $C\sqrt{X}$ (CSX) gates, and all two-qubit gates are operated between nearest neighbor qubits. Our work demonstrates a viable implementation of QALUs on near-term quantum computers, advancing towards scalable and resource-efficient quantum arithmetic operations. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# AquilaMoE: スケールアップとスケールアウト戦略を備えたMoEモデルの効率的なトレーニング
AquilaMoE: Efficient Training for MoE Models with Scale-Up and Scale-Out Strategies ( http://arxiv.org/abs/2408.06567v1 ) ライセンス: Link先を確認 | Bo-Wen Zhang, Liangdong Wang, Ye Yuan, Jijie Li, Shuhao Gu, Mengdi Zhao, Xinya Wu, Guang Liu, Chengwei Wu, Hanyu Zhao, Li Du, Yiming Ju, Quanyue Ma, Yulong Ao, Yingli Zhao, Songhe Zhu, Zhou Cao, Dong Liang, Yonghua Lin, Ming Zhang, Shunfei Wang, Yanxin Zhou, Min Ye, Xuekai Chen, Xinyang Yu, Xiangjun Huang, Jian Yang, | (参考訳) 近年,様々な分野にわたる大規模言語モデルの急速な適用により,これらのモデルの規模は徐々に増加し,事前学習に必要な資源は指数関数的に増大している。
LLMをスクラッチからトレーニングするには多くの計算リソースが必要になりますが、小さなモデルからのスケールアップはより効率的なアプローチです。
本稿では,16億のパラメータを持つ8人のエキスパートを対象とする,最先端のバイリンガル8*16B混合言語モデルであるAquilaMoEについて述べる。
このアプローチは、2段階のプロセスを通じてデータ要求を最小限にしながら、パフォーマンスを最適化する。
第1段階はスケールアップ(Scale-Up)と呼ばれ、事前訓練されたより小さなモデルから重み付きより大きなモデルを初期化し、相当量の知識伝達と、はるかに少ないデータで連続的な事前訓練を可能にする。
第2ステージであるScale-Outは、トレーニング済みの密集モデルを使用して、MoEの専門家を初期化し、知識の伝達とパフォーマンスをさらに向上させる。
1.8B と 7B のモデルに対する大規模な検証実験は、様々な初期化スキームを比較し、継続事前訓練における損失の維持と低減を図った。
最適なスキームを用いて、16Bモデルと8*16B AquilaMoEモデルを訓練し、性能と訓練効率を大幅に改善した。
In recent years, with the rapid application of large language models across various fields, the scale of these models has gradually increased, and the resources required for their pre-training have grown exponentially. Training an LLM from scratch will cost a lot of computation resources while scaling up from a smaller model is a more efficient approach and has thus attracted significant attention. In this paper, we present AquilaMoE, a cutting-edge bilingual 8*16B Mixture of Experts (MoE) language model that has 8 experts with 16 billion parameters each and is developed using an innovative training methodology called EfficientScale. This approach optimizes performance while minimizing data requirements through a two-stage process. The first stage, termed Scale-Up, initializes the larger model with weights from a pre-trained smaller model, enabling substantial knowledge transfer and continuous pretraining with significantly less data. The second stage, Scale-Out, uses a pre-trained dense model to initialize the MoE experts, further enhancing knowledge transfer and performance. Extensive validation experiments on 1.8B and 7B models compared various initialization schemes, achieving models that maintain and reduce loss during continuous pretraining. Utilizing the optimal scheme, we successfully trained a 16B model and subsequently the 8*16B AquilaMoE model, demonstrating significant improvements in performance and training efficiency. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# MORCoRA: レビューの可用性を考慮した多目的リファクタリング推奨
MORCoRA: Multi-Objective Refactoring Recommendation Considering Review Availability ( http://arxiv.org/abs/2408.06568v1 ) ライセンス: Link先を確認 | Lei Chen, Shinpei Hayashi, | (参考訳) 背景: 検索ベースのリファクタリングには、特定の目的を達成するための一連のリファクタリングを探すことが含まれる。
検索されたシーケンスは適用前にレビューを受けなければならず、レビューが失敗したり、適切なレビュアーがいないために延期されたりしても適用されない可能性がある。
Aim: ですから,2つの基準を満たすレビュアーによって,検索したリファクタリングシーケンスを即時にレビューできることは不可欠です。
1)十分な専門知識と
2) 重労働を伴わないこと。
2つの基準はリファクタリングシーケンスのレビューの可利用性と見なされる。
方法:MORCoRAは,コード品質の即効性,セマンティックな保存性,高精査性を有するリファクタリングシーケンスおよびそれに対応する適切なレビュアーを検索できる多目的検索手法である。
結果:MORCoRAを6つのオープンソースリポジトリで評価した。
定量的分析により、MORCoRAは要求に合うリファクタリングシーケンスを効果的に推奨できることが明らかになった。
定性的な分析は、MORCoRAが推奨するリファクタリングがコードの品質を高め、コードの臭いに効果的に対処できることを示している。
さらに、これらのリファクタリングのレビュアーは高い専門知識を持ち、レビューすることができる。
結論: リファクタリングの推奨者は、品質改善への影響とリファクタリングの推奨時にレビューに必要な開発者リソースの両方を考慮することを推奨します。
Background: Search-based refactoring involves searching for a sequence of refactorings to achieve specific objectives. Although a typical objective is improving code quality, a different perspective is also required; the searched sequence must undergo review before being applied and may not be applied if the review fails or is postponed due to no proper reviewers. Aim: Therefore, it is essential to ensure that the searched sequence of refactorings can be reviewed promptly by reviewers who meet two criteria: 1) having enough expertise and 2) being free of heavy workload. The two criteria are regarded as the review availability of the refactoring sequence. Method: We propose MORCoRA, a multi-objective search-based technique that can search for code quality improvable, semantic preserved, and high review availability possessed refactoring sequences and corresponding proper reviewers. Results: We evaluate MORCoRA on six open-source repositories. The quantitative analysis reveals that MORCoRA can effectively recommend refactoring sequences that fit the requirements. The qualitative analysis demonstrates that the refactorings recommended by MORCoRA can enhance code quality and effectively address code smells. Furthermore, the recommended reviewers for those refactorings possess high expertise and are available to review. Conclusions: We recommend that refactoring recommenders consider both the impact on quality improvement and the developer resources required for review when recommending refactorings. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# 公平なマルチモーダルLDMのための社会的デバイアス
Social Debiasing for Fair Multi-modal LLMs ( http://arxiv.org/abs/2408.06569v1 ) ライセンス: Link先を確認 | Harry Cheng, Yangyang Guo, Qingpei Guo, Ming Yang, Tian Gan, Liqiang Nie, | (参考訳) MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。
しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。
本稿では,MLLMにおける社会的偏見の問題に対処する。
一 複数社会概念(CMSC)による包括的対実データセットの導入で、既存のデータセットと比較してより多様で広範なトレーニングセットを提供する。
二 抗ステレオタイプ脱バイアス戦略(ASD)の策定。
本手法は,MLLMトレーニングプロセスを再検討し,自己回帰損失関数を再スケーリングし,バイアス対策のためのデータサンプリング方法を改善する。
様々なMLLMに関する広範な実験を通じて、CMSCデータセットとASD法は、モデルの本来の性能を維持しながら、社会的バイアスを著しく低減することを示した。
Multi-modal Large Language Models (MLLMs) have advanced significantly, offering powerful vision-language understanding capabilities. However, these models often inherit severe social biases from their training datasets, leading to unfair predictions based on attributes like race and gender. This paper addresses the issue of social biases in MLLMs by i) Introducing a comprehensive Counterfactual dataset with Multiple Social Concepts (CMSC), which provides a more diverse and extensive training set compared to existing datasets. ii) Proposing an Anti-Stereotype Debiasing strategy (ASD). Our method works by revisiting the MLLM training process, rescaling the autoregressive loss function, and improving data sampling methods to counteract biases. Through extensive experiments on various MLLMs, our CMSC dataset and ASD method demonstrate a significant reduction in social biases while maintaining the models' original performance. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# マイクロサービス分割のためのインフラストラクチャコスト最適化アルゴリズム
An Infrastructure Cost Optimised Algorithm for Partitioning of Microservices ( http://arxiv.org/abs/2408.06570v1 ) ライセンス: Link先を確認 | Kalyani V N S Pendyala, Rajkumar Buyya, | (参考訳) クラウドエンジニアリングの分野での進化と進歩は、ソフトウェア開発のサイクルとプラクティスの絶え間ない変化に影響します。
ソフトウェアアーキテクチャは、ソフトウェア工学の他の領域や能力と共に進化してきた。
アプリケーションをクラウドに移行することはソフトウェア業界で広く採用されているため、マイクロサービスは分散クラウドにデプロイするアプリケーションにとって最も適しており、広く受け入れられているアーキテクチャパターンであることが証明されている。
それらの有効性は、信頼性、障害分離、スケーラビリティ、資産のメンテナンスの容易さ、オーナシップの境界の明確化といった、技術的メリットの両方によって実現されます。
過去10年間、マイクロサービスはアーキテクチャパターンとして確立されてきたが、多くの組織はアーキテクチャ設計の最適化に失敗して効率を最大化している。
場合によっては、既存のアプリケーションをマイクロサービスアーキテクチャに移行するという複雑さは、圧倒的に複雑でコストがかかります。
さらに、この問題の自動化とツールサポートはまだ初期段階にあり、分解をサポートするパターンやツールがひとつもない。
本稿では,既存手法のパラメータとしてインフラストラクチャコスト最適化の欠如を見極めるために,いくつかの影響のある先行研究と調査の取り組みについて論じる。
本稿では,モノリシックソフトウェアをマイクロサービスに分割するインフラストラクチャ最適化予測アルゴリズムを提案する。
また、マイクロサービスアーキテクチャと分散クラウドネットワークの領域における将来の研究機会の範囲についても要約している。
The evolution and advances made in the field of Cloud engineering influence the constant changes in software application development cycle and practices. Software architecture has evolved along with other domains and capabilities of software engineering. As migrating applications into the cloud is universally adopted by the software industry, microservices have proven to be the most suitable and widely accepted architecture pattern for applications deployed on distributed cloud. Their efficacy is enabled by both technical benefits like reliability, fault isolation, scalability and productivity benefits like ease of asset maintenance and clear ownership boundaries which in turn lead to fewer interdependencies and shorter development cycles thereby resulting in faster time to market. Though microservices have been established as an architecture pattern over the last decade, many organizations fail to optimize the architecture design to maximize efficiency. In some cases, the complexity of migrating an existing application into the microservices architecture becomes overwhelmingly complex and expensive. Additionally, automation and tool support for this problem are still at an early stage as there isn't a single well-acknowledged pattern or tool which could support the decomposition. This paper discusses a few impactful previous research and survey efforts to identify the lack of infrastructure cost optimization as a parameter in any of the approaches present. This paper proposes an Infrastructure-optimised predictive algorithm for partitioning monolithic software into microservices. It also summarizes the scope for future research opportunities within the area of microservices architecture and distributed cloud networks. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# 急速振動する横磁場をもつスピンガラス問題の反復量子最適化
Iterative quantum optimization of spin glass problems with rapidly oscillating transverse fields ( http://arxiv.org/abs/2408.06571v1 ) ライセンス: Link先を確認 | Brandon Barton, Jacob Sagal, Sean Feeney, George Grattan, Pratik Patnaik, Vadim Oganesyan, Lincoln D Carr, Eliot Kapit, | (参考訳) 本研究では,高周波振動逆場を用いた量子スピンガラス最適化問題を解くため,IST-SATと呼ばれる新しい反復型量子アルゴリズムを提案する。
IST-SATは、一イテレーションから返されるビットストリングを用いて、次のイテレーションで横フィールドを振動させる際のスピン依存位相を設定する一連のイテレーションとして動作する。
数回にわたり、アルゴリズムの新たなメカニズムが問題基底状態に向けてシステムを操る。
我々は, IST-SAT を MAX-3-XORSAT 問題インスタンスの厳密な状態ベクトルシミュレーションを用いてベンチマークし, トロッタ型アディバティック量子計算 (TAQC) による多項式の高速化を報告する。
IST-SAT が十分に良い初期近似でシードされるとき、アルゴリズムは多項式数の反復において正確な解(s)に収束する。
数値計算により,時間と解法が指数関数から多項式のスケーリングにまたがる初期近似の精度を,限界ハミング半径(CHR)と同定した。
IST-SATと将来の古典的あるいは量子近似アルゴリズムを組み合わせることで、より大きなゲインを達成することができる。
本研究で提案するメカニズムは,最適化における量子優位性の実現に向けた新たな道筋を示すものである。
In this work, we introduce a new iterative quantum algorithm, called Iterative Symphonic Tunneling for Satisfiability problems (IST-SAT), which solves quantum spin glass optimization problems using high-frequency oscillating transverse fields. IST-SAT operates as a sequence of iterations, in which bitstrings returned from one iteration are used to set spin-dependent phases in oscillating transverse fields in the next iteration. Over several iterations, the novel mechanism of the algorithm steers the system toward the problem ground state. We benchmark IST-SAT on sets of hard MAX-3-XORSAT problem instances with exact state vector simulation, and report polynomial speedups over trotterized adiabatic quantum computation (TAQC) and the best known semi-greedy classical algorithm. When IST-SAT is seeded with a sufficiently good initial approximation, the algorithm converges to exact solution(s) in a polynomial number of iterations. Our numerical results identify a critial Hamming radius(CHR), or quality of initial approximation, where the time-to-solution crosses from exponential to polynomial scaling in problem size. By combining IST-SAT with future classical or quantum approximation algorithms, larger gains may be achieved. The mechanism we present in this work thus presents a new path toward achieving quantum advantage in optimization. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# SparkRA: Spark Large Language Modelに基づいた検索強化ナレッジサービスシステム
SparkRA: A Retrieval-Augmented Knowledge Service System Based on Spark Large Language Model ( http://arxiv.org/abs/2408.06574v1 ) ライセンス: Link先を確認 | Dayong Wu, Jiaqi Li, Baoxin Wang, Honghong Zhao, Siyuan Xue, Yanjie Yang, Zhijun Chang, Rui Zhang, Li Qian, Bo Wang, Shijin Wang, Zhixiong Zhang, Guoping Hu, | (参考訳) 大規模言語モデル (LLM) は, 様々な言語課題において顕著な成果を発揮しており, 科学文献におけるLLMの性能向上のために, 科学文献の事前学習と微調整による科学文献LLM(SciLit-LLM)の開発を行い, iFLYTEK Spark LLMをベースとした。
さらに,SciLit-LLMに基づく知識サービスシステムSpark Research Assistant(SparkRA)を提案する。
SparkRAはオンラインでアクセス可能で、文献調査、論文読解、学術著作の3つの主要な機能を提供している。
2024年7月30日時点で、SparkRAは5万人以上の登録ユーザーを獲得し、総利用数は13万回を超えている。
Large language models (LLMs) have shown remarkable achievements across various language tasks.To enhance the performance of LLMs in scientific literature services, we developed the scientific literature LLM (SciLit-LLM) through pre-training and supervised fine-tuning on scientific literature, building upon the iFLYTEK Spark LLM. Furthermore, we present a knowledge service system Spark Research Assistant (SparkRA) based on our SciLit-LLM. SparkRA is accessible online and provides three primary functions: literature investigation, paper reading, and academic writing. As of July 30, 2024, SparkRA has garnered over 50,000 registered users, with a total usage count exceeding 1.3 million. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# 冷間原子干渉計における共鳴周波数変調分光法による原子の低雑音検出のための最適方法
Optimal strategies for low-noise detection of atoms using resonant frequency modulation spectroscopy in cold atom interferometers ( http://arxiv.org/abs/2408.06575v1 ) ライセンス: Link先を確認 | Ryan J. Thomas, Samuel R. Legge, Simon A. Haine, John D. Close, | (参考訳) 共鳴周波数変調分光法は、冷間原子干渉計の出力を測定するための高感度な方法として用いられている。
光飽和度,空間変化強度,原子密度,原子の放射圧を考慮した詳細なモデルを用いて,実験条件下での最適信号-雑音比のパラメータについて理論的に検討する。
本手法を蛍光イメージングの標準手法と比較し, 凝縮原子源を用いた小型干渉計の蛍光イメージングや光子収集効率が制限された場合において, 蛍光イメージングに優れることを示した。
しかし, 原子数に制限があるため, 励起原子源を用いる場合, 蛍光イメージングが好ましいと考えられる。
Resonant frequency modulation spectroscopy has been used as a highly-sensitive method for measuring the output of cold-atom interferometers. Using a detailed model that accounts for optical saturation, spatially-varying intensities and atomic densities, and radiation pressure on the atoms, we theoretically investigate under what parameter regimes the optimum signal-to-noise ratio is found under experimentally realistic conditions. We compare this technique to the standard method of fluorescence imaging and find that it outperforms fluorescence imaging for compact interferometers using condensed atomic sources or where the photon collection efficiency is limited. However, we find that fluorescence imaging is likely to be the preferred method when using squeezed atomic sources due to limited atom number. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# CTISum:サイバー脅威情報要約のためのベンチマークデータセット
CTISum: A New Benchmark Dataset For Cyber Threat Intelligence Summarization ( http://arxiv.org/abs/2408.06576v1 ) ライセンス: Link先を確認 | Wei Peng, Junmei Ding, Wei Wang, Lei Cui, Wei Cai, Zhiyu Hao, Xiaochun Yun, | (参考訳) サイバー脅威インテリジェンス(CTI)の要約タスクでは、生のインテリジェンスデータから簡潔で正確なハイライトを生成する必要がある。
しかし、CTIレポートを要約する効率的な手法(事実、分析的洞察、攻撃プロセスなど)は、主に利用可能なデータセットが欠如していることから、ほとんど探索されていない。
そこで我々は,CTI要約タスクのための新しいベンチマークであるCTISumを提案する。
攻撃プロセスの重要性を考慮すると,リスク評価やセキュリティギャップの特定,脆弱性の特定などを目的とした,攻撃プロセス要約の詳細なサブタスクが提案されている。
具体的には,まずCTIデータを収集,注釈付けするための多段階アノテーションパイプラインを設計し,抽出および抽象的な要約手法を用いてCTISumをベンチマークする。
実験結果から,CTISumに適用した場合,現状のモデルでは限界がみられ,CTIレポートの簡潔な要約を自動生成するという事実が依然としてオープンな研究課題であることが示された。
Cyber Threat Intelligence (CTI) summarization task requires the system to generate concise and accurate highlights from raw intelligence data, which plays an important role in providing decision-makers with crucial information to quickly detect and respond to cyber threats in the cybersecurity domain. However, efficient techniques for summarizing CTI reports, including facts, analytical insights, attack processes, etc., have largely been unexplored, primarily due to the lack of available dataset. To this end, we present CTISum, a new benchmark for CTI summarization task. Considering the importance of attack process, a novel fine-grained subtask of attack process summarization is proposed to enable defenders to assess risk, identify security gaps, vulnerabilities, and so on. Specifically, we first design a multi-stage annotation pipeline to gather and annotate the CTI data, and then benchmark the CTISum with a collection of extractive and abstractive summarization methods. Experimental results show that current state-of-the-art models exhibit limitations when applied to CTISum, underscoring the fact that automatically producing concise summaries of CTI reports remains an open research challenge. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# OpenEP: 将来のイベント予測
OpenEP: Open-Ended Future Event Prediction ( http://arxiv.org/abs/2408.06578v1 ) ライセンス: Link先を確認 | Yong Guan, Hao Peng, Xiaozhi Wang, Lei Hou, Juanzi Li, | (参考訳) FEP(Future Event Prediction)は、イベントの進化を理解することで、早期のリスク識別、情報的意思決定、戦略的計画が可能になる。
既存の作業は通常、イベント予測を分類タスクとして扱い、将来のイベントの結果を、イエス/ノー質問、候補セット、分類といった固定された範囲に閉じ込める。
本稿では,OpenEP(Open-Ended Future Event Prediction Task)を紹介する。
これは主に2つの側面に反映される: 第一に、予測的質問は多様なものであり、イベント開発と視点の異なる段階をカバーする。
この課題の研究を容易にするために,オープンな将来のイベント予測データセットであるOpenEPBenchを構築した。
質問構築には、場所、時間、イベント開発、イベント結果、イベント影響、イベント応答などを含む7つの視点から質問を行い、イベントの深い分析と包括的な進化の理解を促進する。
結果構築のために,結果を含む自由形式のテキストを基礎的真理として収集し,意味論的に完全かつ詳細に富んだ結果を提供する。
さらに,イベント特性をオープンエンド設定に組み込んだ,ステークホルダーによるイベント予測フレームワークであるStkFEPを提案する。
本手法では,イベントに関わるステークホルダーを抽出して質問を拡張し,多様な情報を収集する。
我々はまた、潜在的な進化パターンを明らかにするために、関係があり、疑問に類似した歴史的イベントを収集します。
実験結果から,オープンエンド環境での将来の事象を正確に予測することは,既存のLCMでは困難であることが示唆された。
Future event prediction (FEP) is a long-standing and crucial task in the world, as understanding the evolution of events enables early risk identification, informed decision-making, and strategic planning. Existing work typically treats event prediction as classification tasks and confines the outcomes of future events to a fixed scope, such as yes/no questions, candidate set, and taxonomy, which is difficult to include all possible outcomes of future events. In this paper, we introduce OpenEP (an Open-Ended Future Event Prediction task), which generates flexible and diverse predictions aligned with real-world scenarios. This is mainly reflected in two aspects: firstly, the predictive questions are diverse, covering different stages of event development and perspectives; secondly, the outcomes are flexible, without constraints on scope or format. To facilitate the study of this task, we construct OpenEPBench, an open-ended future event prediction dataset. For question construction, we pose questions from seven perspectives, including location, time, event development, event outcome, event impact, event response, and other, to facilitate an in-depth analysis and understanding of the comprehensive evolution of events. For outcome construction, we collect free-form text containing the outcomes as ground truth to provide semantically complete and detail-enriched outcomes. Furthermore, we propose StkFEP, a stakeholder-enhanced future event prediction framework, that incorporates event characteristics for open-ended settings. Our method extracts stakeholders involved in events to extend questions to gather diverse information. We also collect historically events that are relevant and similar to the question to reveal potential evolutionary patterns. Experiment results indicate that accurately predicting future events in open-ended settings is challenging for existing LLMs. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# 構造認識による生体イベント抽出
Biomedical Event Extraction via Structure-aware Generation ( http://arxiv.org/abs/2408.06583v1 ) ライセンス: Link先を確認 | Haohan Yuan, Siu Cheung Hui, Haopeng Zhang, | (参考訳) バイオメディカルイベント抽出(BEE)は、バイオメディカルテキストデータ中の微細なエンティティ間の複雑な関係をモデル化する重要なタスクである。
しかし、既存のBEEモデルは、データ内のラベルのセマンティクスや引数の依存性構造を無視した分類手法に依存している。
これらの制約に対処するため, バイオメディカルイベント抽出のための構造認識プレフィックスを付加した生成モデルGenBEEを提案する。
GenBEEは、大きな言語モデル(LLM)から抽出された知識を活用するイベントプロンプトを構築し、ラベルの意味論と引数依存関係の両方を組み込む。
さらに、GenBEEは構造的なプロンプトを持つ構造的なプレフィックスを生成する構造的なプレフィックス学習モジュールを導入し、構造的な特徴を持つ生成プロセスを強化した。
3つのベンチマークデータセットに対する大規模な実験は、GenBEEの有効性を示し、MLEEとGE11データセット上で最先端のパフォーマンスを達成する。
さらに, 構造的プレフィックスは, 構造的プロンプトと生成モデルの表現空間とのギャップを効果的に橋渡しし, イベント構造情報のより良い統合を可能にすることを示す。
Biomedical Event Extraction (BEE) is a critical task that involves modeling complex relationships between fine-grained entities in biomedical text data. However, most existing BEE models rely on classification methods that neglect the label semantics and argument dependency structure within the data. To address these limitations, we propose GenBEE, a generative model enhanced with a structure-aware prefix for biomedical event extraction. GenBEE constructs event prompts that leverage knowledge distilled from large language models (LLMs), thereby incorporating both label semantics and argument dependency relationships. Additionally, GenBEE introduces a structural prefix learning module that generates structure-aware prefixes with structural prompts, enriching the generation process with structural features. Extensive experiments on three benchmark datasets demonstrate the effectiveness of GenBEE and it achieves state-of-the-art performance on the MLEE and GE11 datasets. Furthermore, our analysis shows that the structural prefixes effectively bridge the gap between structural prompts and the representation space of generative models, enabling better integration of event structural information. | 翻訳日:2024-08-14 18:56:02 公開日:2024-08-13 |
# 大規模光ネットワークにおける量子保護チャネルの確立
Establishing Quantum-Secured Channels in Large-Scale Optical Networks ( http://arxiv.org/abs/2408.06587v1 ) ライセンス: Link先を確認 | Farzam Toudeh-Fallah, | (参考訳) 量子鍵分配技術に基づく量子セキュアな光チャネルは、世界的に大きな関心を集めている。
短距離(100km未満)の短距離チャネルの成熟度レベルは展開レベルにあるが、このようなチャネルを長距離に配置することは技術上の課題に直面しており、これは世界規模の研究の対象となっている。
本稿では、運用環境における大規模光ネットワークにおける量子セキュアチャネルの確立に関する業界展望について、そのようなチャネルを確立するための様々なアプローチのビジョン、要件、技術的分析などについて論じる。
Quantum-secured optical channels based on Quantum Key Distribution technology have generated a significant global interest. Although the maturity level of the short distance (less than 100 km) quantum-secured channels is at a deployment level, instituting such channels over long distance faces technological challenges, which is the subject of a world-wide research. In this article an industry perspective on establishing quantum-secured channels in large-scale optical networks in operational environments will be discussed, including the vision, requirements, and technical analysis of different approaches for establishing such channels. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# 圧縮回路を用いた適応変動量子力学シミュレーションと少ない測定
Adaptive variational quantum dynamics simulations with compressed circuits and fewer measurements ( http://arxiv.org/abs/2408.06590v1 ) ライセンス: Link先を確認 | Feng Zhang, Cai-Zhuang Wang, Thomas Iadecola, Peter P. Orth, Yong-Xin Yao, | (参考訳) 適応変分量子力学シミュレーション(AVQDS)法は、自動生成されたパラメータ化量子回路を用いて量子状態のリアルタイム進化を行う。
AVQDS(T)と呼ばれるこの手法の改良版を,Tyling Efficient Trial Circuits with Rotations Implemented Simultanely (TETRIS) 技術で実装した。
このアルゴリズムは、変分力学の精度の尺度であるマクラクラン距離を一定しきい値以下に保つために、アンザッツ回路に不連結なユニタリゲートの層を適応的に加算する。
我々は,局所スピンモデルにおけるクエンチダイナミクスのベンチマークノイズレスAVQDS(T)シミュレーションを行い,TETRIS法が回路深さと2量子ゲート数を大幅に減少させることを示した。
また、雑音耐性を増強した変動パラメータに対する線形運動方程式を解くために、固有値トランケーションに基づく手法を示す。
最後に,AVQDS(T)の測定オーバーヘッドを,量子処理ユニット上の量子回路計算と古典的計算,例えばテンソルネットワークとを相乗的に統合することにより,高い精度を維持しつつ,実質的に軽減する手法を提案する。
AVQDS(T)は、量子リソースが少ない時間に比較して、固定された最終深さのアンサッツを用いてシミュレーションよりも正確な結果が得られることを示す。
The adaptive variational quantum dynamics simulation (AVQDS) method performs real-time evolution of quantum states using automatically generated parameterized quantum circuits that often contain substantially fewer gates than Trotter circuits. Here we report an improved version of the method, which we call AVQDS(T), by porting the Tiling Efficient Trial Circuits with Rotations Implemented Simultaneously (TETRIS) technique. The algorithm adaptively adds layers of disjoint unitary gates to the ansatz circuit so as to keep the McLachlan distance, a measure of the accuracy of the variational dynamics, below a fixed threshold. We perform benchmark noiseless AVQDS(T) simulations of quench dynamics in local spin models demonstrating that the TETRIS technique significantly reduces the circuit depth and two-qubit gate count. We also show a method based on eigenvalue truncation to solve the linear equations of motion for the variational parameters with enhanced noise resilience. Finally, we propose a way to substantially alleviate the measurement overhead of AVQDS(T) while maintaining high accuracy by synergistically integrating quantum circuit calculations on quantum processing units with classical calculations using, e.g., tensor networks to evaluate the quantum geometric tensor. We showcase that this approach enables AVQDS(T) to deliver more accurate results than simulations using a fixed ansatz of comparable final depth for a significant time duration with fewer quantum resources. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# ActiveNeRF: アクティブパターン投影による正確な3次元形状の学習
ActiveNeRF: Learning Accurate 3D Geometry by Active Pattern Projection ( http://arxiv.org/abs/2408.06592v1 ) ライセンス: Link先を確認 | Jianyu Tao, Changping Hu, Edward Yang, Jing Xu, Rui Chen, | (参考訳) NeRFは、新しいビュー合成において驚くべき成功を収めた。
しかし、受動的静環境照明は空間周波数が低く、正確な幾何再構成に十分な情報を提供できないため、暗黙的幾何の精度は不満足である。
本研究では、カメラに一定の相対的なポーズを持つプロジェクタを用いて、高空間周波数のパターンをシーンに積極的に投影することにより、NeRFの幾何学的品質を向上させる3次元幾何再構成フレームワークであるActiveNeRFを提案する。
シーン形状とアクティブパターンを協調的に学習する,学習可能なアクティブパターン描画パイプラインを設計する。
提案手法は, アクティブパターンを付加し, 異なる視点で一貫性を付与することにより, シミュレーションと実実験の両方において, 定性的かつ定量的に, 最先端の幾何再構成法より優れることがわかった。
code is avaliable at https://github.com/hcp16/active_nerf
NeRFs have achieved incredible success in novel view synthesis. However, the accuracy of the implicit geometry is unsatisfactory because the passive static environmental illumination has low spatial frequency and cannot provide enough information for accurate geometry reconstruction. In this work, we propose ActiveNeRF, a 3D geometry reconstruction framework, which improves the geometry quality of NeRF by actively projecting patterns of high spatial frequency onto the scene using a projector which has a constant relative pose to the camera. We design a learnable active pattern rendering pipeline which jointly learns the scene geometry and the active pattern. We find that, by adding the active pattern and imposing its consistency across different views, our proposed method outperforms state of the art geometry reconstruction methods qualitatively and quantitatively in both simulation and real experiments. Code is avaliable at https://github.com/hcp16/active_nerf | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# 曲面背景上の2次元HCFTにおける絡み合いのダイナミクス:q-メビウス・ハミルトニアンの場合
Entanglement dynamics in 2d HCFTs on the curved background: the case of q-Möbius Hamiltonian ( http://arxiv.org/abs/2408.06594v1 ) ライセンス: Link先を確認 | Chen Bai, Akihiro Miyata, Masahiro Nozaki, | (参考訳) 二次元ホログラフィック共形場理論(2次元ホログラフィックCFT)により誘導される非平衡現象の時間依存性と相互情報の時間依存性について検討する。
ここで、ホログラフ CFT は重力双対を持つ CFT である。
境界状態と熱場状態から始まり、曲線の背景にあるハミルトニアンとともにユークリッド時間に系を進化させ、同じハミルトニアンでそれをリアルタイムで発展させる。
その結果, 初期および後期の絡み合い構造は曲線の背景に依存するが, 絡み合い成長は行わず, 線形であることがわかった。
さらに、熱場二重状態の重力双対では、この絡み合いの増大はワームホールの線形成長によるものであるが、境界状態の場合は、世界の終わりがブラックホールに衝突することによるものである。
我々は, 低温系を多関節クエンチによって誘導される力学系とみなすことができることを論じた。
また,線張力図と呼ばれる高温系の有効記述についても検討した。
We will explore the dynamical property of non-equilibrium phenomena induced by two-dimensional holographic conformal field theory (2d holographic CFT) Hamiltonian on the curved spacetime by studying the time dependence of the entanglement entropy and mutual information. Here, holographic CFT is the CFT having the gravity dual. We will start from the boundary and thermofield double states, evolve the systems in Euclidean time with the Hamiltonian on the curved background, and then evolve them in real-time with the same Hamiltonian. We found that the early- and late-time entanglement structure depends on the curved background, while the entanglement growth does not, and is linear. Furthermore, in the gravity dual for the thermofield double state, this entanglement growth is due to the linear growth of the wormhole, while in the one for the boundary state, it is due to the in-falling of the end of the world brane to the black hole. We discussed the low temperature system can be regarded as the dynamical system induced by the multi-joining quenches. We also discussed the effective description of the high temperature system, called line tension picture. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# GeoFormer: Tri-Plane Integrated Transformerによるポイントクラウドコンプリート学習
GeoFormer: Learning Point Cloud Completion with Tri-Plane Integrated Transformer ( http://arxiv.org/abs/2408.06596v1 ) ライセンス: Link先を確認 | Jinpeng Yu, Binbin Huang, Yuxuan Zhang, Huaxia Li, Xu Tang, Shenghua Gao, | (参考訳) ポイント・クラウド・コンプリートは、正確なグローバル・ジオメトリを復元し、部分的なポイント・クラウドからのきめ細かい局所的な詳細を保存することを目的としている。
従来の手法では、3Dポイントのクラウド座標から直接見えない点を予測したり、セルフプロジェクションされた多視点深度マップを使ってこの作業を容易にするのが一般的である。
しかし、これらのグレースケールの深度マップはマルチビューの一貫性に到達できず、結果として性能が制限される。
本稿では,ポイントのグローバルな幾何学的構造を同時に拡張し,局所的な詳細性を改善するGeoFormerを提案する。
具体的には、CCM特徴強調点生成器を設計し、多視点一貫した標準座標写像(CCM)から画像特徴を統合し、それらを純点特徴と整合させ、グローバルな幾何学的特徴を向上させる。
さらに,局所的な詳細を段階的に強化するために,マルチスケール幾何対応アップサンプラーモジュールを用いる。
これは、部分入力から抽出したマルチスケール特徴と、予め推定された点から抽出した特徴との交差注意によって達成される。
PCN、ShapeNet-55/34、KITTIベンチマークの大規模な実験により、GeoFormerは最近の手法より優れており、最先端の性能を実現していることが示された。
我々のコードは \href{https://github.com/Jinpeng-Yu/GeoFormer}{https://github.com/Jinpeng-Yu/GeoFormer} で入手できる。
Point cloud completion aims to recover accurate global geometry and preserve fine-grained local details from partial point clouds. Conventional methods typically predict unseen points directly from 3D point cloud coordinates or use self-projected multi-view depth maps to ease this task. However, these gray-scale depth maps cannot reach multi-view consistency, consequently restricting the performance. In this paper, we introduce a GeoFormer that simultaneously enhances the global geometric structure of the points and improves the local details. Specifically, we design a CCM Feature Enhanced Point Generator to integrate image features from multi-view consistent canonical coordinate maps (CCMs) and align them with pure point features, thereby enhancing the global geometry feature. Additionally, we employ the Multi-scale Geometry-aware Upsampler module to progressively enhance local details. This is achieved through cross attention between the multi-scale features extracted from the partial input and the features derived from previously estimated points. Extensive experiments on the PCN, ShapeNet-55/34, and KITTI benchmarks demonstrate that our GeoFormer outperforms recent methods, achieving the state-of-the-art performance. Our code is available at \href{https://github.com/Jinpeng-Yu/GeoFormer}{https://github.com/Jinpeng-Yu/GeoFormer}. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# 大規模言語モデル・知能機械・知識獲得の展望
A Perspective on Large Language Models, Intelligent Machines, and Knowledge Acquisition ( http://arxiv.org/abs/2408.06598v1 ) ライセンス: Link先を確認 | Vladimir Cherkassky, Eng Hock Lee, | (参考訳) 大言語モデル(LLM)は、テキスト文書、音楽、画像など、合成された「知識」を生成できることで知られている。
しかし、抽象概念と推論を理解するためのLLMと人間の能力の間には大きなギャップがある。
我々はこれらの問題を、人間の知識獲得とチューリングテストの哲学的な文脈で論じる。
さらに,科学や数学から常識推論まで,様々な質問に対する GPT-4 応答を解析することにより,LLM の限界を説明する。
これらの例は、GPT-4が理解の欠如にもかかわらず、しばしば人間の推論を模倣できることを示している。
しかし、LLM応答は、利用可能なすべてのデータに基づいてトレーニングされた大きなLLMモデルから合成される。
対照的に、人間の理解は少数の抽象概念に基づいている。
そこで本研究では,LLMが人的知識と教育の獲得に与える影響について論じる。
Large Language Models (LLMs) are known for their remarkable ability to generate synthesized 'knowledge', such as text documents, music, images, etc. However, there is a huge gap between LLM's and human capabilities for understanding abstract concepts and reasoning. We discuss these issues in a larger philosophical context of human knowledge acquisition and the Turing test. In addition, we illustrate the limitations of LLMs by analyzing GPT-4 responses to questions ranging from science and math to common sense reasoning. These examples show that GPT-4 can often imitate human reasoning, even though it lacks understanding. However, LLM responses are synthesized from a large LLM model trained on all available data. In contrast, human understanding is based on a small number of abstract concepts. Based on this distinction, we discuss the impact of LLMs on acquisition of human knowledge and education. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# Sparse View CT再構成のための深部慣性$L_p$半量子スプリットアンローリングネットワーク
Deep Inertia $L_p$ Half-Quadratic Splitting Unrolling Network for Sparse View CT Reconstruction ( http://arxiv.org/abs/2408.06600v1 ) ライセンス: Link先を確認 | Yu Guo, Caiying Wu, Yaxin Li, Qiyu Jin, Tieyong Zeng, | (参考訳) スパース・ビュー・コンピュート・トモグラフィー (CT) 再構成は, 効果的な正則化技術を必要とする, 難解な逆問題を引き起こす。
このレターでは、スパーシを誘導し慣性ステップを導入するために$L_p$-norm(0<p<1$)正規化を用いており、慣性$L_p$-norm半四分法分割アルゴリズムの開発に繋がる。
我々はこのアルゴリズムの収束性を厳格に証明する。
さらに、我々はディープラーニングを活用して共役勾配法を初期化し、理論的保証付きディープ・アンローリング・ネットワークを実現する。
大規模な数値実験により,提案アルゴリズムは既存の手法を超越していることが明らかとなった。
Sparse view computed tomography (CT) reconstruction poses a challenging ill-posed inverse problem, necessitating effective regularization techniques. In this letter, we employ $L_p$-norm ($0<p<1$) regularization to induce sparsity and introduce inertial steps, leading to the development of the inertial $L_p$-norm half-quadratic splitting algorithm. We rigorously prove the convergence of this algorithm. Furthermore, we leverage deep learning to initialize the conjugate gradient method, resulting in a deep unrolling network with theoretical guarantees. Our extensive numerical experiments demonstrate that our proposed algorithm surpasses existing methods, particularly excelling in fewer scanned views and complex noise conditions. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# 超知能か迷信か?AI予測における未知の信念に基づく心理学的要因の探索
Super-intelligence or Superstition? Exploring Psychological Factors Underlying Unwarranted Belief in AI Predictions ( http://arxiv.org/abs/2408.06602v1 ) ライセンス: Link先を確認 | Eunhae Lee, Pat Pataranutaporn, Judith Amores, Pattie Maes, | (参考訳) 本研究では、個人の行動に関するAI予測に対する信念に影響を与える心理的要因を、占星術と人格に基づく予測に対する信念と比較した。
238人の被験者による実験を通じて,認知スタイル,超常的信念,AI態度,性格特性,その他の要因が,異なる情報源からの予測の妥当性,信頼性,有用性,パーソナライズにどのように影響するかを検討した。
その結果、AI予測に対する信念は、占星術とパーソナリティ心理学に基づく予測に対する信念と正の相関があることが判明した。
特に、異常な信念と肯定的なAI態度は、AI予測の妥当性、信頼性、有用性、パーソナライゼーションを著しく向上させた。
良心はすべての情報源の予測に対する信念と負の相関がみられ、予測トピックに対する関心は予測に対する信頼性を高めた。
驚くべきことに、認知スタイルは予測に対する信念に大きな影響を与えなかった。
これらの結果は、AIにおける「合理的迷信」現象を強調しており、信念は批判的評価よりも精神的ヒューリスティックや直観によって駆動される。
適切な信頼と懐疑を育むAIシステムやコミュニケーション戦略を設計する上での意義について論じる。
本研究は,人間-AIインタラクションの心理学的理解に寄与し,AIシステムの設計と展開に関する洞察を提供する。
This study investigates psychological factors influencing belief in AI predictions about personal behavior, comparing it to belief in astrology and personality-based predictions. Through an experiment with 238 participants, we examined how cognitive style, paranormal beliefs, AI attitudes, personality traits, and other factors affect perceived validity, reliability, usefulness, and personalization of predictions from different sources. Our findings reveal that belief in AI predictions is positively correlated with belief in predictions based on astrology and personality psychology. Notably, paranormal beliefs and positive AI attitudes significantly increased perceived validity, reliability, usefulness, and personalization of AI predictions. Conscientiousness was negatively correlated with belief in predictions across all sources, and interest in the prediction topic increased believability across predictions. Surprisingly, cognitive style did not significantly influence belief in predictions. These results highlight the "rational superstition" phenomenon in AI, where belief is driven more by mental heuristics and intuition than critical evaluation. We discuss implications for designing AI systems and communication strategies that foster appropriate trust and skepticism. This research contributes to our understanding of the psychology of human-AI interaction and offers insights for the design and deployment of AI systems. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# 時間的知識グラフ補完のための簡易かつ効果的な複合幾何学的操作
Simple but Effective Compound Geometric Operations for Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2408.06603v1 ) ライセンス: Link先を確認 | Rui Ying, Mengting Hu, Jianfeng Wu, Yalan Xie, Xiaoyi Liu, Zhunheng Wang, Ming Jiang, Hang Gao, Linlin Zhang, Renhong Cheng, | (参考訳) 時間的知識グラフ補完は、時間的知識グラフに欠けている事実を推測することを目的としている。
現在のアプローチでは、事実知識を連続ベクトル空間に埋め込んで、時間的知識グラフの潜在的なパターンを学習するために幾何学的操作を適用するのが一般的である。
しかし、これらの手法は1つの操作しか採用せず、時間的知識グラフに存在する複雑な時間的ダイナミクスを捉えるのに制限がある可能性がある。
そこで本研究では,時間固有操作と関係固有演算を含む2つの幾何演算を特別に設計した,単純かつ効果的な方法TCompoundEを提案する。
我々は、TCompoundEが様々な関係パターンをエンコードする能力を示す数学的証明を提供する。
実験結果から,提案モデルが既存の時間的知識グラフ埋め込みモデルより有意に優れていることが示された。
私たちのコードはhttps://github.com/nk-ruiying/TCompoundE.comで利用可能です。
Temporal knowledge graph completion aims to infer the missing facts in temporal knowledge graphs. Current approaches usually embed factual knowledge into continuous vector space and apply geometric operations to learn potential patterns in temporal knowledge graphs. However, these methods only adopt a single operation, which may have limitations in capturing the complex temporal dynamics present in temporal knowledge graphs. Therefore, we propose a simple but effective method, i.e. TCompoundE, which is specially designed with two geometric operations, including time-specific and relation-specific operations. We provide mathematical proofs to demonstrate the ability of TCompoundE to encode various relation patterns. Experimental results show that our proposed model significantly outperforms existing temporal knowledge graph embedding models. Our code is available at https://github.com/nk-ruiying/TCompoundE. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# MV-DETR:マルチビュー・デテクトン・トラアンスフォーマによる多モード屋内物体検出
MV-DETR: Multi-modality indoor object detection by Multi-View DEtecton TRansformers ( http://arxiv.org/abs/2408.06604v1 ) ライセンス: Link先を確認 | Zichao Dong, Yilin Zhang, Xufeng Huang, Hang Ji, Zhan Shi, Xin Zhan, Junbo Chen, | (参考訳) 本稿では,効率的なトランスベース検出手法として,新しいMV-DETRパイプラインを提案する。
入力RGBDデータを考えると、RGBデータには強い事前学習重みがあるが、深度関連データには効果が低いことが分かる。
まず第一に、幾何学とテクスチャの手がかりはどちらも重要であり、別々に符号化できると論じる。
第二に、3次元空間の幾何学的特徴と比較して視覚的テクスチャの特徴を抽出することが比較的困難である。
残念なことに、何千ものデータを持つ単一のRGBDデータセットは、視覚テクスチャの特徴抽出のための識別フィルタをトレーニングするのに十分なものではない。
最後に、我々は、視覚テキストエンコーダ、幾何学エンコーダ、VGコネクタからなる軽量なVGモジュールを設計した。
従来のV-DETRのような最先端技術と比較すると、事前訓練されたビジュアルエンコーダの利得が見られる。
ScanNetV2データセットの大規模な実験により,本手法の有効性が示された。
ScanNetv2ベンチマークで新しい最先端のAPを生成する手法を, 78 %のAPで実現したことは注目に値する。
We introduce a novel MV-DETR pipeline which is effective while efficient transformer based detection method. Given input RGBD data, we notice that there are super strong pretraining weights for RGB data while less effective works for depth related data. First and foremost , we argue that geometry and texture cues are both of vital importance while could be encoded separately. Secondly, we find that visual texture feature is relatively hard to extract compared with geometry feature in 3d space. Unfortunately, single RGBD dataset with thousands of data is not enough for training an discriminating filter for visual texture feature extraction. Last but certainly not the least, we designed a lightweight VG module consists of a visual textual encoder, a geometry encoder and a VG connector. Compared with previous state of the art works like V-DETR, gains from pretrained visual encoder could be seen. Extensive experiments on ScanNetV2 dataset shows the effectiveness of our method. It is worth mentioned that our method achieve 78\% AP which create new state of the art on ScanNetv2 benchmark. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# 物理インフォームドオブザーバブル制御のための低騒音安定クープマン演算子の学習
Learning Noise-Robust Stable Koopman Operator for Control with Physics-Informed Observables ( http://arxiv.org/abs/2408.06607v1 ) ライセンス: Link先を確認 | Shahriar Akbar Sakib, Shaowu Pan, | (参考訳) 本稿では,非線形力学系のクープマン演算子に対する新しい学習フレームワークを提案する。
拡張動的モード分解(EDMD)において,アドホック・オブザーバブルあるいはブラックボックス・ニューラル・ネットワークを用いてオブザーバブルを構築する既存のフレームワークとは対照的に,我々のオブザーバブルはPolyflowを介して制御方程式によって通知される。
ノイズロバスト性の向上と長期安定性を保証するため,我々は,繰り返し損失をロールアウトする進行学習戦略とともに,クープマン演算子の安定パラメータ化を設計した。
位相空間におけるモデル性能をさらに向上させるために、データ拡張の簡単な反復戦略を開発した。
アブレーション法による古典非線形システムの予測と制御に関する数値実験により, 提案手法の有効性が示された。
We propose a novel learning framework for Koopman operator of nonlinear dynamical systems that is informed by the governing equation and guarantees long-time stability and robustness to noise. In contrast to existing frameworks where either ad-hoc observables or blackbox neural networks are used to construct observables in the extended dynamic mode decomposition (EDMD), our observables are informed by governing equations via Polyflow. To improve the noise robustness and guarantee long-term stability, we designed a stable parameterization of the Koopman operator together with a progressive learning strategy for roll-out recurrent loss. To further improve model performance in the phase space, a simple iterative strategy of data augmentation was developed. Numerical experiments of prediction and control of classic nonlinear systems with ablation study showed the effectiveness of the proposed techniques over several state-of-the-art practices. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# CROME:マルチモーダルLLM用クロスモーダルアダプタ
CROME: Cross-Modal Adapters for Efficient Multimodal LLM ( http://arxiv.org/abs/2408.06610v1 ) ライセンス: Link先を確認 | Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister, | (参考訳) MLLM(Multimodal Large Language Models)は、画像言語に優れた能力を示すが、その普及は、コスト効率のよいトレーニングと適応の課題に直面している。
既存のアプローチは、しばしば高価な言語モデルの再訓練と限定的な適応性を必要とする。
さらに、ゼロショットパフォーマンスの改善に焦点が当てられていることで、タスク固有のチューニングのガイダンスが不十分になっている。
本稿では,効率的な視覚言語命令チューニングフレームワークCROMEを提案する。
凍結LDMに入力する前に視覚的およびテキスト的表現を効果的に結合する新しいゲートクロスモーダルアダプタを備えている。
最小限のパラメータで訓練されたこの軽量アダプタは、効率的なクロスモーダル理解を可能にする。
特にCROMEは、標準的な視覚的質問応答と命令追従ベンチマークにおいて優れたゼロショット性能を示す。
さらに、タスク固有の専門的な最先端手法に対抗して、例外的なパラメータ効率で微調整を行う。
CROMEは、スケーラブルで適応性があり、パラメータ効率の良いマルチモーダルモデルを構築するための事前LMアライメントの可能性を示す。
Multimodal Large Language Models (MLLMs) demonstrate remarkable image-language capabilities, but their widespread use faces challenges in cost-effective training and adaptation. Existing approaches often necessitate expensive language model retraining and limited adaptability. Additionally, the current focus on zero-shot performance improvements offers insufficient guidance for task-specific tuning. We propose CROME, an efficient vision-language instruction tuning framework. It features a novel gated cross-modal adapter that effectively combines visual and textual representations prior to input into a frozen LLM. This lightweight adapter, trained with minimal parameters, enables efficient cross-modal understanding. Notably, CROME demonstrates superior zero-shot performance on standard visual question answering and instruction-following benchmarks. Moreover, it yields fine-tuning with exceptional parameter efficiency, competing with task-specific specialist state-of-the-art methods. CROME demonstrates the potential of pre-LM alignment for building scalable, adaptable, and parameter-efficient multimodal models. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# ViMo:カジュアルビデオから動きを生成する
ViMo: Generating Motions from Casual Videos ( http://arxiv.org/abs/2408.06614v1 ) ライセンス: Link先を確認 | Liangdong Qiu, Chengxing Yu, Yanran Li, Zhao Wang, Haibin Huang, Chongyang Ma, Di Zhang, Pengfei Wan, Xiaoguang Han, | (参考訳) 人間は、ビデオから複数のアクションを想像できる能力を持っているが、複雑なカメラの動きとモンタージュのために、コンピュータにとって驚くべき挑戦だ。
既存のモーション生成手法のほとんどは、手作業で収集したモーションデータセットに依存しており、通常はモーションキャプチャ(Mocap)システムやマルチビューカメラから退屈にソースされている。
近年の拡散モデルの発展に触発されて,映像から映像をキャプチャするためのシンプルで効果的な手法を探索し,未使用映像の膨大なトロブを利用して多種多様な3次元モーションを生成できる新しいビデオ・トゥ・モーション・ジェネレーション・フレームワーク(ViMo)を提案する。
これまでの作業とは違って、私たちのビデオは複雑なカメラの動きやオクルージョンなど、もっと因果関係があるかもしれない。
実験結果から、高速な動き、様々な視点、あるいは頻繁なオクルージョンが存在するビデオであっても、提案モデルが自然な動きを生成できることを示した。
また、この研究により、任意の音楽やソース・ビデオのスタイルに応じてダンス・モーションを生成するなど、3つの重要なダウンストリーム・アプリケーションを可能にすることを示す。
広範にわたる実験結果から,本モデルは多様性と現実的な動きを効果的かつスケーラブルに生成できることを示した。
コードとデモは近く公開される。
Although humans have the innate ability to imagine multiple possible actions from videos, it remains an extraordinary challenge for computers due to the intricate camera movements and montages. Most existing motion generation methods predominantly rely on manually collected motion datasets, usually tediously sourced from motion capture (Mocap) systems or Multi-View cameras, unavoidably resulting in a limited size that severely undermines their generalizability. Inspired by recent advance of diffusion models, we probe a simple and effective way to capture motions from videos and propose a novel Video-to-Motion-Generation framework (ViMo) which could leverage the immense trove of untapped video content to produce abundant and diverse 3D human motions. Distinct from prior work, our videos could be more causal, including complicated camera movements and occlusions. Striking experimental results demonstrate the proposed model could generate natural motions even for videos where rapid movements, varying perspectives, or frequent occlusions might exist. We also show this work could enable three important downstream applications, such as generating dancing motions according to arbitrary music and source video style. Extensive experimental results prove that our model offers an effective and scalable way to generate diversity and realistic motions. Code and demos will be public soon. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# バイオメディカルエンティティと関係抽出のための一般知識強化フレームワーク
Generalized knowledge-enhanced framework for biomedical entity and relation extraction ( http://arxiv.org/abs/2408.06618v1 ) ライセンス: Link先を確認 | Minh Nguyen, Phuong Le, | (参考訳) 近年,生物医学的実体と関係抽出のために開発されたフレームワークが増えている。
本研究は, バイオメディカル・パブリッシングの急速な成長と, 主にドメインの専門家向けに書かれたバイオメディカル・テキストの複雑な性質に対処することを目的としている。
これらの課題に対処するため、我々は、外部知識を利用して、バイオメディカルな実体と関係抽出のためのタスクに依存しない再利用可能な背景知識グラフを構築する新しいフレームワークを開発した。
私たちのモデルの設計は、人間がドメイン固有のトピックを学ぶ方法にインスパイアされています。
特に、人間はまず基礎知識を構築する分野に関する最も基礎的で一般的な知識を取得し、それを様々な専門的なトピックに拡張するための基礎として利用する。
我々のフレームワークは、そのような共通知識共有機構を用いて、異なるドメイン固有のバイオメディカルテキストに効果的に転送可能な学習が可能な、一般的なニューラルネットワーク知識グラフを構築する。
実験により, この一般化・相互変換可能な知識ベースを備えた本モデルは, 結合相互作用検出のためのBioRelExや, 逆薬物効果同定のためのADEなど, 競合性能ベンチマークを達成できることが確認された。
In recent years, there has been an increasing number of frameworks developed for biomedical entity and relation extraction. This research effort aims to address the accelerating growth in biomedical publications and the intricate nature of biomedical texts, which are written for mainly domain experts. To handle these challenges, we develop a novel framework that utilizes external knowledge to construct a task-independent and reusable background knowledge graph for biomedical entity and relation extraction. The design of our model is inspired by how humans learn domain-specific topics. In particular, humans often first acquire the most basic and common knowledge regarding a field to build the foundational knowledge and then use that as a basis for extending to various specialized topics. Our framework employs such common-knowledge-sharing mechanism to build a general neural-network knowledge graph that is learning transferable to different domain-specific biomedical texts effectively. Experimental evaluations demonstrate that our model, equipped with this generalized and cross-transferable knowledge base, achieves competitive performance benchmarks, including BioRelEx for binding interaction detection and ADE for Adverse Drug Effect identification. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# 欠陥の解消:時系列異常検出における初期化効果の臨界解析
Unveiling the Flaws: A Critical Analysis of Initialization Effect on Time Series Anomaly Detection ( http://arxiv.org/abs/2408.06620v1 ) ライセンス: Link先を確認 | Alex Koran, Hadi Hojjati, Narges Armanfard, | (参考訳) 時系列異常検出(TSAD)のための深層学習は,過去10年間で大きな注目を集めている。
いくつかの論文で改善が報告されているにもかかわらず、これらのモデルの実用的応用は依然として限られている。
近年の研究はこれらのモデルに疑問を呈し、その成果は欠陥評価技術に寄与している。
しかし、初期化の影響はおおむね見過ごされている。
本稿では,TSADモデルの性能に対する初期化効果を批判的に分析する。
大規模な実験により,TSADモデルはウィンドウサイズ,シード数,正規化などのハイパーパラメータに非常に敏感であることが判明した。
この感度は、しばしば性能に大きなばらつきをもたらし、これらのモデルの報告された有効性を人工的にインフレーションするために利用することができる。
初期化パラメータの微妙な変更さえも、新しいモデルアーキテクチャから要求される改善を覆すパフォーマンスの変動をもたらすことを実証する。
本研究は,異常検出手法の信頼性と公平性を確保するため,厳密な評価プロトコルと事前処理手順の透過的な報告の必要性を強調した。
本稿では、TSADの進歩をより慎重に解釈し、より堅牢で透明な評価手法の開発を奨励し、分野とその実践的応用について述べる。
Deep learning for time-series anomaly detection (TSAD) has gained significant attention over the past decade. Despite the reported improvements in several papers, the practical application of these models remains limited. Recent studies have cast doubt on these models, attributing their results to flawed evaluation techniques. However, the impact of initialization has largely been overlooked. This paper provides a critical analysis of the initialization effects on TSAD model performance. Our extensive experiments reveal that TSAD models are highly sensitive to hyperparameters such as window size, seed number, and normalization. This sensitivity often leads to significant variability in performance, which can be exploited to artificially inflate the reported efficacy of these models. We demonstrate that even minor changes in initialization parameters can result in performance variations that overshadow the claimed improvements from novel model architectures. Our findings highlight the need for rigorous evaluation protocols and transparent reporting of preprocessing steps to ensure the reliability and fairness of anomaly detection methods. This paper calls for a more cautious interpretation of TSAD advancements and encourages the development of more robust and transparent evaluation practices to advance the field and its practical applications. | 翻訳日:2024-08-14 18:46:15 公開日:2024-08-13 |
# 大規模言語モデルのためのロバストで費用効率の良い知識学習を目指して
Towards Robust and Cost-Efficient Knowledge Unlearning for Large Language Models ( http://arxiv.org/abs/2408.06621v1 ) ライセンス: Link先を確認 | Sungmin Cha, Sungjun Cho, Dasol Hwang, Moontae Lee, | (参考訳) 大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
しかし、人間によるテキストによるLLMのトレーニングには、プライバシや著作権侵害の重大なリスクが伴うため、モデルをスクラッチから再トレーニングすることなく、機密データの知識を削除するための効率的な機械学習フレームワークが要求される。
グラディエント・アセント(GA)は、望ましくない情報を生成する可能性を減らすことで、未学習に広く利用されているが、クロスエントロピー損失の増加は不安定な最適化だけでなく、保持すべき知識の破滅的な忘れを招いている。
また,低ランク適応条件下でのジョイント適用により,生成性能トレードオフに対する計算コストが著しく低下することがわかった。
この制限を考慮して,LLMにおけるロバストかつコスト効率の高いアンラーニングのための2つの新しい手法を提案する。
まず,次に最も可能性の高いトークンの確率を増大させることで,不必要なトークンを抑える逆ヒンジ損失を設計する。
また,フィッシャー重み付き低ランク近似に基づく低ランクアダプタウェイトの初期化も提案する。これは,削除したいテキストデータを生成する上で重要なパラメータにモデル更新を集中させることにより,より高速な未学習と知識保持を実現する。
Large Language Models (LLMs) have demonstrated strong reasoning and memorization capabilities via pretraining on massive textual corpora. However, training LLMs on human-written text entails significant risk of privacy and copyright violations, which demands an efficient machine unlearning framework to remove knowledge of sensitive data without retraining the model from scratch. While Gradient Ascent (GA) is widely used for unlearning by reducing the likelihood of generating unwanted information, the unboundedness of increasing the cross-entropy loss causes not only unstable optimization, but also catastrophic forgetting of knowledge that needs to be retained. We also discover its joint application under low-rank adaptation results in significantly suboptimal computational cost vs. generative performance trade-offs. In light of this limitation, we propose two novel techniques for robust and cost-efficient unlearning on LLMs. We first design an Inverted Hinge loss that suppresses unwanted tokens by increasing the probability of the next most likely token, thereby retaining fluency and structure in language generation. We also propose to initialize low-rank adapter weights based on Fisher-weighted low-rank approximation, which induces faster unlearning and better knowledge retention by allowing model updates to be focused on parameters that are important in generating textual data we wish to remove. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# ActPrompt: ビデオ時間グラウンドのためのアクションキューによるドメイン内特徴適応
ActPrompt: In-Domain Feature Adaptation via Action Cues for Video Temporal Grounding ( http://arxiv.org/abs/2408.06622v1 ) ライセンス: Link先を確認 | Yubin Wang, Xinyang Jiang, De Cheng, Dongsheng Li, Cairong Zhao, | (参考訳) ビデオの時間的グラウンド化は、ビデオ内の特定のクリップを特定することを目的とした、新たなトピックである。
事前訓練された映像モデルに加えて、現代の手法では、ビデオフレームから様々なシーンやオブジェクトの詳細な特徴を捉えるために、事前訓練された視覚言語モデル(VLM)を使用している。
しかし、画像上で事前訓練されているため、VLMは静的オブジェクトとアクションに敏感なパターンを区別するのに苦労し、時間的接地よりも効果的な特徴表現のために特定のデータ領域に適応する必要がある。
この目標を達成するための2つの主要な課題に対処する。
具体的には、高適応コストを軽減するために、複数のプレテキストタスクを通じて下流適応機能を学ぶ機能適応のための効率的なドメイン内微調整パラダイムを提案する。
さらに, VLMのイメージエンコーダにアクションキューを注入し, アクションセンシティブなパターンの発見に役立てるアクションキュー注入型テンポラルプロンプト学習(ActPrompt)を導入する。
大規模な実験により、ActPromptは既製のトレーニングフレームワークであり、様々なSOTAメソッドに効果的に適用できることが証明された。
本研究で使用する全コードについては補足資料に記載する。
Video temporal grounding is an emerging topic aiming to identify specific clips within videos. In addition to pre-trained video models, contemporary methods utilize pre-trained vision-language models (VLM) to capture detailed characteristics of diverse scenes and objects from video frames. However, as pre-trained on images, VLM may struggle to distinguish action-sensitive patterns from static objects, making it necessary to adapt them to specific data domains for effective feature representation over temporal grounding. We address two primary challenges to achieve this goal. Specifically, to mitigate high adaptation costs, we propose an efficient preliminary in-domain fine-tuning paradigm for feature adaptation, where downstream-adaptive features are learned through several pretext tasks. Furthermore, to integrate action-sensitive information into VLM, we introduce Action-Cue-Injected Temporal Prompt Learning (ActPrompt), which injects action cues into the image encoder of VLM for better discovering action-sensitive patterns. Extensive experiments demonstrate that ActPrompt is an off-the-shelf training framework that can be effectively applied to various SOTA methods, resulting in notable improvements. The complete code used in this study is provided in the supplementary materials. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# DePatch: 実世界における人検知器の侵入に対するロバストな逆パッチを目指して
DePatch: Towards Robust Adversarial Patch for Evading Person Detectors in the Real World ( http://arxiv.org/abs/2408.06625v1 ) ライセンス: Link先を確認 | Jikang Cheng, Ying Zhang, Zhongyuan Wang, Zou Qin, Chen Li, | (参考訳) 近年、ディープニューラルネットワーク、特に人検知器を欺くための展開可能なパターンを構築することを目的として、物理的な敵攻撃への関心が高まっている。
しかし、既存のパッチベースの攻撃の逆行パターンは、物理的変換によって引き起こされる劣化が、あらゆる小さなパッチセグメントの完全な逆行障害を招き、複雑な現実の世界での堅牢性が低下する自己結合の問題に大きく悩まされる。
そこで本研究では,デカップリング逆パッチ(Decoupled adversarial Patch, DePatch)攻撃を導入し,逆パッチの自己結合問題に対処する。
具体的には、逆パッチをブロックワイズセグメントに分割し、最適化中にいくつかのセグメントをランダムに消去することで、これらのセグメント間の相互依存性を低減する。
さらに,攻撃能力を向上させるために,境界シフト操作とプログレッシブデカップリング戦略を導入する。
大規模な実験により,他の物理的攻撃,特に実世界では,本手法の優れた性能が実証された。
Recent years have seen an increasing interest in physical adversarial attacks, which aim to craft deployable patterns for deceiving deep neural networks, especially for person detectors. However, the adversarial patterns of existing patch-based attacks heavily suffer from the self-coupling issue, where a degradation, caused by physical transformations, in any small patch segment can result in a complete adversarial dysfunction, leading to poor robustness in the complex real world. Upon this observation, we introduce the Decoupled adversarial Patch (DePatch) attack to address the self-coupling issue of adversarial patches. Specifically, we divide the adversarial patch into block-wise segments, and reduce the inter-dependency among these segments through randomly erasing out some segments during the optimization. We further introduce a border shifting operation and a progressive decoupling strategy to improve the overall attack capabilities. Extensive experiments demonstrate the superior performance of our method over other physical adversarial attacks, especially in the real world. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# WorldScribe: コンテキスト対応のライブビジュアル記述を目指して
WorldScribe: Towards Context-Aware Live Visual Descriptions ( http://arxiv.org/abs/2408.06627v1 ) ライセンス: Link先を確認 | Ruei-Che Chang, Yuxuan Liu, Anhong Guo, | (参考訳) 視覚的自動記述は、視覚障害者が周囲の自律性と独立性を理解するのに役立つ。
しかし、リッチでコンテキストがあり、ジャスト・イン・タイムな記述を提供することは、アクセシビリティーにおける長年にわたる課題である。
本研究では,ユーザのコンテキストに合わせてカスタマイズ可能な実世界の視覚的記述自動生成システムであるWorldScribeを開発する。
(i)WorldScribeの記述はユーザの意図に合わせて調整され,セマンティックな関連性に基づいて優先順位付けされる。
(ii)WorldScribeは視覚的コンテキストに適応し、動的シーンの簡潔な説明を連続的に提供し、安定した設定のためにより長く詳細な記述を提示する。
(三)WorldScribeは、音環境に適応し、例えば、騒々しい環境での音量増加、会話開始時の一時停止を図っている。
WorldScribeは、視覚、言語、および音声認識モデルを組み合わせて、リッチさとレイテンシのトレードオフをバランスさせてリアルタイム使用をサポートするための記述生成パイプラインを導入している。
WorldScribeの設計は、視覚的な記述と、盲目の参加者に形式的な研究を提供することに関する以前の研究によって通知される。
ユーザ調査およびその後のパイプライン評価により,WorldScribeは,ユーザのコンテキストに適応してカスタマイズされた環境理解を容易にするために,リアルタイムかつかなり正確な視覚的記述を提供することができることがわかった。
最後に、実写の視覚的記述をよりコンテキストに意識し、人間化されたものにするための意味とさらなるステップについて論じる。
Automated live visual descriptions can aid blind people in understanding their surroundings with autonomy and independence. However, providing descriptions that are rich, contextual, and just-in-time has been a long-standing challenge in accessibility. In this work, we develop WorldScribe, a system that generates automated live real-world visual descriptions that are customizable and adaptive to users' contexts: (i) WorldScribe's descriptions are tailored to users' intents and prioritized based on semantic relevance. (ii) WorldScribe is adaptive to visual contexts, e.g., providing consecutively succinct descriptions for dynamic scenes, while presenting longer and detailed ones for stable settings. (iii) WorldScribe is adaptive to sound contexts, e.g., increasing volume in noisy environments, or pausing when conversations start. Powered by a suite of vision, language, and sound recognition models, WorldScribe introduces a description generation pipeline that balances the tradeoffs between their richness and latency to support real-time use. The design of WorldScribe is informed by prior work on providing visual descriptions and a formative study with blind participants. Our user study and subsequent pipeline evaluation show that WorldScribe can provide real-time and fairly accurate visual descriptions to facilitate environment understanding that is adaptive and customized to users' contexts. Finally, we discuss the implications and further steps toward making live visual descriptions more context-aware and humanized. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# 高速情報ストリーミングハンドラ(FisH):一駅実時間地震早期警報のための統一型地震ニューラルネットワーク
Fast Information Streaming Handler (FisH): A Unified Seismic Neural Network for Single Station Real-Time Earthquake Early Warning ( http://arxiv.org/abs/2408.06629v1 ) ライセンス: Link先を確認 | Tianning Zhang, Feng Liu, Yuming Yuan, Rui Su, Wanli Ouyang, Lei Bai, | (参考訳) 既存のEEWアプローチは、しばしばフェーズの選択、位置推定、大きさ推定を独立したタスクとして扱い、統一されたフレームワークを欠いている。
さらに、地震学における深層学習モデルは、完全な3成分波形に依存しており、リアルタイムストリーミングデータには適していない。
これらの制約に対処するため,我々はFast Information Streaming Handler (FisH) と呼ばれる新しい統合型耐震ニューラルネットワークを提案する。
FisHは、リアルタイムストリーミング地震データを処理し、位相選択、位置推定、大きさ推定をエンドツーエンドで同時生成するように設計されている。
これらのタスクを単一のモデルに統合することで、FisHはプロセス全体を単純化し、タスク間の非線形関係を利用してパフォーマンスを向上させる。
FisHモデルはRetNetをバックボーンとして使用し、トレーニング中の並列処理と推論時のリカレント処理を可能にする。
これにより、リアルタイムアプリケーションに適したFisHを実現し、EEWシステムのレイテンシを低減できる。
STEADベンチマークデータセットで行った大規模な実験は、提案したFisHモデルの有効性を強く検証する。
以上の結果から,FisHは複数の地震事象の検出および評価タスクにおいて優れた性能を発揮することが示された。
具体的には、F1スコアが0.99/0.96に達する。
また、FisHは正確な地震位置推定を行い、位置誤差は6.0km、距離誤差は2.6km、後方方位誤差は19{\deg}である。
このモデルは正確なマグニチュード推定も行っており、マグニチュード誤差はわずか0.14である。
さらに、FisHは、P波が到着してからわずか3秒以内に、位置と大きさの誤差8.06kmと等級の誤差0.18でリアルタイム推定を生成することができる。
Existing EEW approaches often treat phase picking, location estimation, and magnitude estimation as separate tasks, lacking a unified framework. Additionally, most deep learning models in seismology rely on full three-component waveforms and are not suitable for real-time streaming data. To address these limitations, we propose a novel unified seismic neural network called Fast Information Streaming Handler (FisH). FisH is designed to process real-time streaming seismic data and generate simultaneous results for phase picking, location estimation, and magnitude estimation in an end-to-end fashion. By integrating these tasks within a single model, FisH simplifies the overall process and leverages the nonlinear relationships between tasks for improved performance. The FisH model utilizes RetNet as its backbone, enabling parallel processing during training and recurrent handling during inference. This capability makes FisH suitable for real-time applications, reducing latency in EEW systems. Extensive experiments conducted on the STEAD benchmark dataset provide strong validation for the effectiveness of our proposed FisH model. The results demonstrate that FisH achieves impressive performance across multiple seismic event detection and characterization tasks. Specifically, it achieves an F1 score of 0.99/0.96. Also, FisH demonstrates precise earthquake location estimation, with location error of only 6.0km, a distance error of 2.6km, and a back-azimuth error of 19{\deg}. The model also exhibits accurate earthquake magnitude estimation, with a magnitude error of just 0.14. Additionally, FisH is capable of generating real-time estimations, providing location and magnitude estimations with a location error of 8.06km and a magnitude error of 0.18 within a mere 3 seconds after the P-wave arrives. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# IFShip:ドメイン知識強化型インストラクションチューニングによる船種分類の解釈可能な大規模視覚言語モデル
IFShip: A Large Vision-Language Model for Interpretable Fine-grained Ship Classification via Domain Knowledge-Enhanced Instruction Tuning ( http://arxiv.org/abs/2408.06631v1 ) ライセンス: Link先を確認 | Mingning Guo, Mengwei Wu, Yuxiang Shen, Haifeng Li, Chao Tao, | (参考訳) エンド・ツー・エンドの解釈は、現在、リモートセンシングきめ細かい船種分類(RS-FGSC)タスクにおいて広く使われているパラダイムである。
しかし、その推論プロセスは解釈不能であり、ブラックボックスモデルとして批判される。
この問題に対処するために, IFShip という名前の大型視覚言語モデル (LVLM) を提案する。
従来の方法とは異なり、IFShipは自然言語でFGSCの推論過程を正確に伝達することで、解釈可能性を向上させる。
具体的には、まずドメイン知識を付加したCOT(Chain-of-Thought)プロンプト生成機構を設計する。
このメカニズムは、人間のような論理的な意思決定をエミュレートするTITANIC-FGSというタスク固有の命令追従データセットを半自動で構築するために使用される。
次に、TITANIC-FGSデータセットをチューニングしたタスク命令を用いてIFShipモデルをトレーニングする。
IFShip上に構築したFGSCビジュアルチャットボットは,FGSC問題をステップバイステップ推論タスクとして再定義し,自然言語による推論処理を行う。
実験結果から,提案手法は最先端のFGSCアルゴリズムよりも,分類の解釈性と精度が優れていることがわかった。
さらに,LLaVAやMiniGPT-4のようなLVLMと比較して,FGSCタスクにおいて優れた専門知識を示す。
きめ細かい船種が人間の目で認識できる場合の正確な推論の連鎖を提供し、そうでない場合は解釈可能な説明を提供する。
End-to-end interpretation is currently the prevailing paradigm for remote sensing fine-grained ship classification (RS-FGSC) task. However, its inference process is uninterpretable, leading to criticism as a black box model. To address this issue, we propose a large vision-language model (LVLM) named IFShip for interpretable fine-grained ship classification. Unlike traditional methods, IFShip excels in interpretability by accurately conveying the reasoning process of FGSC in natural language. Specifically, we first design a domain knowledge-enhanced Chain-of-Thought (COT) prompt generation mechanism. This mechanism is used to semi-automatically construct a task-specific instruction-following dataset named TITANIC-FGS, which emulates human-like logical decision-making. We then train the IFShip model using task instructions tuned with the TITANIC-FGS dataset. Building on IFShip, we develop an FGSC visual chatbot that redefines the FGSC problem as a step-by-step reasoning task and conveys the reasoning process in natural language. Experimental results reveal that the proposed method surpasses state-of-the-art FGSC algorithms in both classification interpretability and accuracy. Moreover, compared to LVLMs like LLaVA and MiniGPT-4, our approach demonstrates superior expertise in the FGSC task. It provides an accurate chain of reasoning when fine-grained ship types are recognizable to the human eye and offers interpretable explanations when they are not. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# EditScribe: 自然言語検証ループによる非ビジュアル画像編集
EditScribe: Non-Visual Image Editing with Natural Language Verification Loops ( http://arxiv.org/abs/2408.06632v1 ) ライセンス: Link先を確認 | Ruei-Che Chang, Yuxuan Liu, Lotus Zhang, Anhong Guo, | (参考訳) 画像編集は、編集意図に合わせて出力の正確な視覚的評価と操作を必要とする反復的なプロセスである。
しかし、現在の画像編集ツールは、このレベルの制御を達成するために、目と視力の低い個人に対して、アクセス可能なインタラクションや十分なフィードバックを提供していない。
そこで我々は,大規模なマルチモーダルモデルを用いた自然言語検証ループを用いて,画像編集を可能にするプロトタイプであるEditScribeを開発した。
EditScribeを使うと、ユーザは最初に画像の内容を、最初のジェネリクスとオブジェクト記述で理解し、その後、オープンな自然言語プロンプトを使って編集アクションを指定する。
EditScribeは画像編集を実行し、ユーザーが実行した編集を検証するための4種類の検証フィードバックを提供する。
ユーザは、追加の編集を実行する前に、フォローアップの質問をして、編集や検証のフィードバックを明確にし、調査することができる。
視覚障害者10名を対象にした調査では、EditScribeが画像編集動作を非視覚的に実行し、検証することを支援した。
参加者から異なるプロンプト戦略と,各種の検証フィードバックに対する認識を観察した。
最後に、視覚的オーサリングを非視覚的に利用できるようにするために、自然言語検証ループを活用することの意味について論じる。
Image editing is an iterative process that requires precise visual evaluation and manipulation for the output to match the editing intent. However, current image editing tools do not provide accessible interaction nor sufficient feedback for blind and low vision individuals to achieve this level of control. To address this, we developed EditScribe, a prototype system that makes image editing accessible using natural language verification loops powered by large multimodal models. Using EditScribe, the user first comprehends the image content through initial general and object descriptions, then specifies edit actions using open-ended natural language prompts. EditScribe performs the image edit, and provides four types of verification feedback for the user to verify the performed edit, including a summary of visual changes, AI judgement, and updated general and object descriptions. The user can ask follow-up questions to clarify and probe into the edits or verification feedback, before performing another edit. In a study with ten blind or low-vision users, we found that EditScribe supported participants to perform and verify image edit actions non-visually. We observed different prompting strategies from participants, and their perceptions on the various types of verification feedback. Finally, we discuss the implications of leveraging natural language verification loops to make visual authoring non-visually accessible. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# 閉塞歩行者検出のための軽量YOLOv5-FFMモデル
A lightweight YOLOv5-FFM model for occlusion pedestrian detection ( http://arxiv.org/abs/2408.06633v1 ) ライセンス: Link先を確認 | Xiangjie Luo, Bo Shao, Zhihao Cai, Yingxun Wang, | (参考訳) 自動運転技術の開発は歩行者検出とは切り離さなければならない。
車両の速度が速いため、歩行者検出アルゴリズムの精度とリアルタイム性能は非常に重要である。
ヨロは、効率的で単純な1段階目標検出法であり、様々な環境における歩行者検出によく用いられる。
しかし、この一連の検出器は、過剰な計算や、閉塞した歩行者に直面する際の望ましくない検出率など、いくつかの課題に直面している。
本稿では,これらの問題に対処する軽量YOLOv5モデルを提案する。
このモデルは浮動小数点演算(FLOP)の少ない歩行者検出精度が向上する。
上記の目標を達成するため、YOLOv5モデルフレームワークに基づいて改善を行い、GhostモジュールとSEブロックを導入した。
さらに,歩行者検出における閉塞に対処する局所的特徴融合モジュール (FFM) を設計した。
提案手法の有効性を検証するため,CitypersonsとCUHK Occlusionの2つのデータセットを選択した。
実験の結果,元のヨーロブ5sモデルと比較して平均精度(AP)は有意に向上し,パラメータ数は27.9%減少し,FLOPは19.0%低下した。
The development of autonomous driving technology must be inseparable from pedestrian detection. Because of the fast speed of the vehicle, the accuracy and real-time performance of the pedestrian detection algorithm are very important. YOLO, as an efficient and simple one-stage target detection method, is often used for pedestrian detection in various environments. However, this series of detectors face some challenges, such as excessive computation and undesirable detection rate when facing occluded pedestrians. In this paper, we propose an improved lightweight YOLOv5 model to deal with these problems. This model can achieve better pedestrian detection accuracy with fewer floating-point operations (FLOPs), especially for occluded targets. In order to achieve the above goals, we made improvements based on the YOLOv5 model framework and introduced Ghost module and SE block. Furthermore, we designed a local feature fusion module (FFM) to deal with occlusion in pedestrian detection. To verify the validity of our method, two datasets, Citypersons and CUHK Occlusion, were selected for the experiment. The experimental results show that, compared with the original yolov5s model, the average precision (AP) of our method is significantly improved, while the number of parameters is reduced by 27.9% and FLOPs are reduced by 19.0%. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# Harnessing Earnings Reports for Stock Predictions: A QLoRA-Enhanced LLM Approach
Harnessing Earnings Reports for Stock Predictions: A QLoRA-Enhanced LLM Approach ( http://arxiv.org/abs/2408.06634v1 ) ライセンス: Link先を確認 | Haowei Ni, Shuchen Meng, Xupeng Chen, Ziqing Zhao, Andi Chen, Panfeng Li, Shiyao Zhang, Qifu Yin, Yuanqing Wang, Yuxi Chan, | (参考訳) 決算報告後の正確な株式市場予測は投資家にとって不可欠だ。
従来の手法、特に古典的な機械学習モデルは、収益報告に含まれる広範なテキストデータを効果的に処理し解釈することができず、市場の動きに影響を及ぼすニュアンスを見落としているため、これらの予測に苦慮している。
本稿では、命令ベースの新しい手法と量子化低ランク適応(QLoRA)圧縮を組み合わせることで、LLM(Large Language Models)命令を微調整することで、高度なアプローチを提案する。
近年の市場指標やアナリストの成績等「外部要因」を統合して、リッチで教師付きデータセットを作成する。
この包括的データセットにより、精度、重み付けされたF1、マシューズ相関係数(MCC)、特にGPT-4などのベンチマークとの比較において優れた予測性能が得られる。
具体的には,ベースラインモデルよりも大幅に改良されたllama-3-8b-Instruct-4bitモデルの有効性を強調した。
また,「ホールド」オプションを含む出力能力を拡大し,様々な投資スタイルや時間枠に対応することを目的とした予測地平線を拡大する可能性についても論じる。
この研究は、最先端のAIを微調整された財務データに統合する能力を実証するだけでなく、AI駆動の財務分析ツールを強化するための将来の研究の道を開く。
Accurate stock market predictions following earnings reports are crucial for investors. Traditional methods, particularly classical machine learning models, struggle with these predictions because they cannot effectively process and interpret extensive textual data contained in earnings reports and often overlook nuances that influence market movements. This paper introduces an advanced approach by employing Large Language Models (LLMs) instruction fine-tuned with a novel combination of instruction-based techniques and quantized low-rank adaptation (QLoRA) compression. Our methodology integrates 'base factors', such as financial metric growth and earnings transcripts, with 'external factors', including recent market indices performances and analyst grades, to create a rich, supervised dataset. This comprehensive dataset enables our models to achieve superior predictive performance in terms of accuracy, weighted F1, and Matthews correlation coefficient (MCC), especially evident in the comparison with benchmarks such as GPT-4. We specifically highlight the efficacy of the llama-3-8b-Instruct-4bit model, which showcases significant improvements over baseline models. The paper also discusses the potential of expanding the output capabilities to include a 'Hold' option and extending the prediction horizon, aiming to accommodate various investment styles and time frames. This study not only demonstrates the power of integrating cutting-edge AI with fine-tuned financial data but also paves the way for future research in enhancing AI-driven financial analysis tools. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# IDRetracor: 悪意ある顔スワッピングに対する視覚的法医学を目指す
IDRetracor: Towards Visual Forensics Against Malicious Face Swapping ( http://arxiv.org/abs/2408.06635v1 ) ライセンス: Link先を確認 | Jikang Cheng, Jiaxin Ai, Zhen Han, Chao Liang, Qin Zou, Zhongyuan Wang, Qian Wang, | (参考訳) ディープフェイク法に基づく顔交換技術は、個人アイデンティティのセキュリティに重大な社会的リスクをもたらす。
悪意のある顔交換に対する対策として多くのディープフェイク検出法が提案されているが、信頼性とトレーサブルな証拠のない偽コンテンツを識別するためのバイナリラベル(フェイク/リアル)を出力できる。
視覚法医学と対象顔帰属を両立させるために,対象顔と対象顔との逆マッピングを考慮に入れた,顔の追跡という新しいタスクを提案する。
そこで本研究では,複数の顔スワップ法により生成された偽の顔から,任意のターゲットIDを追跡可能なIDRetracorを提案する。
具体的には、まず、逆写像に対する元のターゲット面の解空間を知覚するために、マッピングレゾルバを採用する。
そこで,本研究では,対象の顔と偽の顔とを追尾するために,マッピング対応の畳み込みを提案する。
このような畳み込みは、マッピングレゾルバの制御下で結合可能な複数のカーネルを含み、動的に異なる顔スワッピングマッピングに取り組む。
大規模な実験により、IDRetracorは定量的および定性的な観点から、有望な追跡性能を示すことが示された。
The face swapping technique based on deepfake methods poses significant social risks to personal identity security. While numerous deepfake detection methods have been proposed as countermeasures against malicious face swapping, they can only output binary labels (Fake/Real) for distinguishing fake content without reliable and traceable evidence. To achieve visual forensics and target face attribution, we propose a novel task named face retracing, which considers retracing the original target face from the given fake one via inverse mapping. Toward this goal, we propose an IDRetracor that can retrace arbitrary original target identities from fake faces generated by multiple face swapping methods. Specifically, we first adopt a mapping resolver to perceive the possible solution space of the original target face for the inverse mappings. Then, we propose mapping-aware convolutions to retrace the original target face from the fake one. Such convolutions contain multiple kernels that can be combined under the control of the mapping resolver to tackle different face swapping mappings dynamically. Extensive experiments demonstrate that the IDRetracor exhibits promising retracing performance from both quantitative and qualitative perspectives. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# Unified-IoU: 高品質なオブジェクト検出
Unified-IoU: For High-Quality Object Detection ( http://arxiv.org/abs/2408.06636v1 ) ライセンス: Link先を確認 | Xiangjie Luo, Zhihao Cai, Bo Shao, Yingxun Wang, | (参考訳) 物体検出はコンピュータビジョンの分野において重要な部分であり、物体検出の効果は予測ボックスの回帰精度によって直接決定される。
モデルトレーニングの鍵として、IoU (Intersection over Union) は現在の予測ボックスとグラウンドトゥルースボックスの差を大きく示す。
その後の研究者は、中心距離やアスペクト比など、IoUにさらに多くの考察を加えてきた。
しかし、幾何学的な違いを補うには上限がある; そして、新しい考慮指標とIoU自身の間には潜在的なつながりがあり、2つの間の直接の加算または減算は「過剰な考察」の問題につながるかもしれない。
そこで本研究では,異なる品質予測ボックス間の重み付けをより重視する,Unified-IoU (UIoU) と呼ばれる新しいIoU損失関数を提案する。
具体的には、損失関数は、モデルの注意を低品質の予測ボックスから高品質の予測ボックスに動的にシフトさせ、高精度または集中的なデータセット上でのモデルの検出性能を高め、トレーニング速度のバランスを達成する。
提案手法は複数のデータセット,特に高IoUしきい値において,UIoUが他の改良IoU損失よりも有意に改善する。
私たちのコードは、https://github.com/lxj-drifter/UIOU_files.comで公開されています。
Object detection is an important part in the field of computer vision, and the effect of object detection is directly determined by the regression accuracy of the prediction box. As the key to model training, IoU (Intersection over Union) greatly shows the difference between the current prediction box and the Ground Truth box. Subsequent researchers have continuously added more considerations to IoU, such as center distance, aspect ratio, and so on. However, there is an upper limit to just refining the geometric differences; And there is a potential connection between the new consideration index and the IoU itself, and the direct addition or subtraction between the two may lead to the problem of "over-consideration". Based on this, we propose a new IoU loss function, called Unified-IoU (UIoU), which is more concerned with the weight assignment between different quality prediction boxes. Specifically, the loss function dynamically shifts the model's attention from low-quality prediction boxes to high-quality prediction boxes in a novel way to enhance the model's detection performance on high-precision or intensive datasets and achieve a balance in training speed. Our proposed method achieves better performance on multiple datasets, especially at a high IoU threshold, UIoU has a more significant improvement effect compared with other improved IoU losses. Our code is publicly available at: https://github.com/lxj-drifter/UIOU_files. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# COD: 領域適応回帰のための条件不変表現の学習
COD: Learning Conditional Invariant Representation for Domain Adaptation Regression ( http://arxiv.org/abs/2408.06638v1 ) ライセンス: Link先を確認 | Hao-Ran Yang, Chuan-Xian Ren, You-Wei Luo, | (参考訳) 連続的な出力を持つソースドメインから未ラベルのターゲットドメインへのラベル知識の一般化を目的として,複雑な実践的学習問題に対してドメイン適応回帰(DAR)を開発した。
しかし、回帰の連続性問題により、既存の条件分布アライメント理論や、分類設定に有効であることが証明された離散事前の手法はもはや適用できない。
本研究では, DARにおける実現可能性問題に着目し, 一般化誤差が領域間条件の不一致によって十分に支配されることを示す回帰モデルに対する十分性理論を確立する。
さらに、連続条件変数による条件差を特徴付けるために、カーネル埋め込み理論による条件分布の計量特性を認める新しい条件演算子離散性(COD)を提案する。
最後に,この差を最小化するために,CODに基づく条件不変表現学習モデルを提案し,モーメント統計に対する合理的な修正が適応モデルの識別性をさらに向上させることを示す。
標準DARデータセットの大規模な実験は、理論結果の妥当性とSOTA DAR法よりも優れていることを検証している。
Aiming to generalize the label knowledge from a source domain with continuous outputs to an unlabeled target domain, Domain Adaptation Regression (DAR) is developed for complex practical learning problems. However, due to the continuity problem in regression, existing conditional distribution alignment theory and methods with discrete prior, which are proven to be effective in classification settings, are no longer applicable. In this work, focusing on the feasibility problems in DAR, we establish the sufficiency theory for the regression model, which shows the generalization error can be sufficiently dominated by the cross-domain conditional discrepancy. Further, to characterize conditional discrepancy with continuous conditioning variable, a novel Conditional Operator Discrepancy (COD) is proposed, which admits the metric property on conditional distributions via the kernel embedding theory. Finally, to minimize the discrepancy, a COD-based conditional invariant representation learning model is proposed, and the reformulation is derived to show that reasonable modifications on moment statistics can further improve the discriminability of the adaptation model. Extensive experiments on standard DAR datasets verify the validity of theoretical results and the superiority over SOTA DAR methods. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# キャビティ強化によるエミッションのないコヒーレンス
Cavity-enhanced induced coherence without induced emission ( http://arxiv.org/abs/2408.06639v1 ) ライセンス: Link先を確認 | Minhaeng Cho, Peter W. Milonni, | (参考訳) 本稿では, 共振器型自然パラメトリックダウンコンバージョン(SPDC)プロセスによるZu-Wang-Mandel(ZWM)干渉の促進に関する理論的研究を行う。
ZWMインターフェロメトリは、絡み合ったアイドラー光子間の不明瞭性を通じて、単一信号光子間の干渉効果を生成する能力を示す。
本稿では、コヒーレンスと光子対生成効率を向上させるために光子帯域幅を狭くすることを目的として、キャビティ強化SPDCを統合することにより、ZWM干渉法の基礎原理を拡張し、量子情報技術、量子暗号化、量子イメージングにおける応用に不可欠である。
本研究は、狭帯域単一光子を生成するために、ZWM干渉計内で単独共振光パラメトリック発振器を用いることの理論的意味を探求する。
キャビティ強化SPDCとZWM干渉計を組み合わせることで、この研究は現在の理論的提案のギャップを埋め、信頼性の高い狭帯域単一光子を必要とする量子暗号とネットワークアプリケーションに大きな進歩をもたらす。
This paper presents a theoretical study of the enhancement of Zou-Wang-Mandel (ZWM) interferometry through cavity-enhanced spontaneous parametric down-conversion (SPDC) processes producing frequency-entangled biphotons. The ZWM interferometry shows the capability to generate interference effects between single signal photons via indistinguishability between the entangled idler photons. This paper extends the foundational principles of ZWM interferometry by integrating cavity-enhanced SPDCs, aiming to narrow photon bandwidths for improved coherence and photon pair generation efficiency, which is critical for applications in quantum information technologies, quantum encryption, and quantum imaging. This work explores the theoretical implication of employing singly resonant optical parametric oscillators within the ZWM interferometer to produce narrow-band single photons. By combining cavity-enhanced SPDCs with ZWM interferometry, this study fills a gap in current theoretical proposals, offering significant advancements in quantum cryptography and network applications that require reliable, narrow-band single photons. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# サルポックス皮膚病変検出のための注意型特徴融合ネットワーク
Attention Based Feature Fusion Network for Monkeypox Skin Lesion Detection ( http://arxiv.org/abs/2408.06640v1 ) ライセンス: Link先を確認 | Niloy Kumar Kundu, Mainul Karim, Sarah Kobir, Dewan Md. Farid, | (参考訳) 最近のサルポックスの流行は、複数の国で急速に広まっているため、公衆衛生上の懸念が高まりつつある。
サルポックスは3つの疾患の症状が類似しているため、早期の鶏痘や麻疹と区別することは困難である。
現代のディープラーニングアルゴリズムは、影響を受けた地域の画像を分析することで、新型コロナウイルスを含む病気を識別するために使用することができる。
本研究では,ヒトサルポックス病を分類するために,事前学習した2つのアーキテクチャであるEfficientNetV2B3とResNet151V2を統合する軽量モデルを提案する。
また,サルポックス画像の分類において,特徴マップの重要な部分に焦点をあてるために,Switch-and-excitation attention networkモジュールを組み込んだ。
このアテンションモジュールはチャンネルと空間的アテンションを提供し、特徴マップ内の重要な領域をハイライトする。
4倍のクロスバリデーション手法を用いて,一般公開されたMonkeypox Skin Lesions Dataset上で広範囲にテストし,本モデルの有効性を評価した。
モデルの評価基準を既存モデルと比較した。
我々のモデルは、96.52%の平均検証精度を、精度、リコール、F1スコア値はそれぞれ96.58%、96.52%、96.51%と達成している。
The recent monkeypox outbreak has raised significant public health concerns due to its rapid spread across multiple countries. Monkeypox can be difficult to distinguish from chickenpox and measles in the early stages because the symptoms of all three diseases are similar. Modern deep learning algorithms can be used to identify diseases, including COVID-19, by analyzing images of the affected areas. In this study, we introduce a lightweight model that merges two pre-trained architectures, EfficientNetV2B3 and ResNet151V2, to classify human monkeypox disease. We have also incorporated the squeeze-and-excitation attention network module to focus on the important parts of the feature maps for classifying the monkeypox images. This attention module provides channels and spatial attention to highlight significant areas within feature maps. We evaluated the effectiveness of our model by extensively testing it on a publicly available Monkeypox Skin Lesions Dataset using a four-fold cross-validation approach. The evaluation metrics of our model were compared with the existing others. Our model achieves a mean validation accuracy of 96.52%, with precision, recall, and F1-score values of 96.58%, 96.52%, and 96.51%, respectively. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# 共形アンサンブルによる気候予測の不確かさの定量化
Quantifying uncertainty in climate projections with conformal ensembles ( http://arxiv.org/abs/2408.06642v1 ) ライセンス: Link先を確認 | Trevor Harris, Ryan Sriver, | (参考訳) コンフォメーション推論に基づく気候予測における不確実性定量化の新しいアプローチであるコンフォメーションアンサンブルを導入する。
従来の手法とは異なり、共形アンサンブルは気候モデルと観測データを様々なスケールでシームレスに統合し、統計的に厳密で容易に解釈できる不確実性推定を生成する。
アンサンブル解析法を用いて任意の気候変数に適用でき、すべての時間地平線およびSSP2-4.5の下でのほとんどの空間的位置における不確実な定量化において、既存のモデル間変動法より優れる。
コンフォーマルエンハンブルもまた計算的に効率的であり、最小限の仮定を必要とし、コンフォーマルエンハンブル測度に対して非常に堅牢である。
実験により、従来のアンサンブル平均化手法と比較して、過去の分析データに将来の予測を条件付けると、より物理的に一貫した予測が得られることが示された。
We introduce conformal ensembling, a new approach to uncertainty quantification in climate projections based on conformal inference. Unlike traditional methods, conformal ensembling seamlessly integrates climate models and observational data across a range of scales to generate statistically rigorous, easy-to-interpret uncertainty estimates. It can be applied to any climatic variable using any ensemble analysis method and outperforms existing inter-model variability methods in uncertainty quantification across all time horizons and most spatial locations under SSP2-4.5. Conformal ensembling is also computationally efficient, requires minimal assumptions, and is highly robust to the conformity measure. Experiments show that it is effective when conditioning future projections on historical reanalysis data compared with standard ensemble averaging approaches, yielding more physically consistent projections. | 翻訳日:2024-08-14 18:36:27 公開日:2024-08-13 |
# セグメント情報を用いた特化変化検出
Specialized Change Detection using Segment Anything ( http://arxiv.org/abs/2408.06644v1 ) ライセンス: Link先を確認 | Tahir Ahmad, Sudipan Saha, | (参考訳) 変化検出(CD)は地球観測の基本的な課題である。
ほとんどの変更検出方法は、すべての変更を検知するが、特定のアプリケーションに関連する特定の変更をターゲットとして、他の変更を破棄する特殊な方法の必要性が高まっている。
例えば、都市経営は自然災害などの理由で建物の消失を検出することを優先する可能性がある。
さらに、ほとんどの教師付き変更検出方法は大規模なトレーニングデータセットを必要とするが、多くのアプリケーションでは、大規模なデータセットの代わりに1つまたは2つのトレーニング例しか利用できない。
このようなニーズに対処するため、多目的視覚基盤モデルであるSAM(Segment Anything Model)を用いて焦点を絞ったCDアプローチを提案する。
本手法は,事前変更画像に注目する対象の2値マスクを利用して,後変更画像の消失を検出する。
SAMの堅牢なセグメンテーション機能を使用することで、プリチェンジマスクからのプロンプトを生成し、これらのプロンプトを使用してポストチェンジイメージのセグメンテーションを行い、行方不明なオブジェクトを特定する。
この非教師なしのアプローチは、特殊なCDを必要とする様々な領域に適応できる。
コントリビューションには、新しいCD問題の定義、SAMを用いた手法の提案、その有効性を示すことが含まれる。
提案手法は,プライバシ保護に関するメリットももたらしている。
Change detection (CD) is a fundamental task in Earth observation. While most change detection methods detect all changes, there is a growing need for specialized methods targeting specific changes relevant to particular applications while discarding the other changes. For instance, urban management might prioritize detecting the disappearance of buildings due to natural disasters or other reasons. Furthermore, while most supervised change detection methods require large-scale training datasets, in many applications only one or two training examples might be available instead of large datasets. Addressing such needs, we propose a focused CD approach using the Segment Anything Model (SAM), a versatile vision foundation model. Our method leverages a binary mask of the object of interest in pre-change images to detect their disappearance in post-change images. By using SAM's robust segmentation capabilities, we create prompts from the pre-change mask, use those prompts to segment the post-change image, and identify missing objects. This unsupervised approach demonstrated for building disappearance detection, is adaptable to various domains requiring specialized CD. Our contributions include defining a novel CD problem, proposing a method using SAM, and demonstrating its effectiveness. The proposed method also has benefits related to privacy preservation. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# ハイブリッドSD:安定拡散モデルのためのエッジクラウド協調推論
Hybrid SD: Edge-Cloud Collaborative Inference for Stable Diffusion Models ( http://arxiv.org/abs/2408.06646v1 ) ライセンス: Link先を確認 | Chenqian Yan, Songwei Liu, Hongjian Liu, Xurui Peng, Xiaojian Wang, Fangming Chen, Lean Fu, Xing Mei, | (参考訳) 安定拡散モデル (SDM) は画像合成において顕著な熟練性を示した。
しかしながら、その広範なアプリケーションには、大規模なモデルサイズと集中的な計算要求があり、通常はデプロイに高価なクラウドサーバを必要とする。
一方、エッジデバイスに適したコンパクトなモデルが多く、これらの要求を削減できるが、フルサイズのSDMと比較して意味的整合性と視覚的品質に妥協することが多い。
このギャップを埋めるために,エッジクラウド協調推論用に設計された,革新的なトレーニング不要なSDM推論フレームワークであるHybrid SDを導入する。
ハイブリッドSDは、拡散プロセスの初期段階をクラウドサーバにデプロイされた大規模モデルに分散し、セマンティックプランニングを強化する。
さらに、エッジデバイスにデプロイされる小さな効率的なモデルは、後段の視覚的詳細を精査するために統合することができる。
計算能力と記憶能力の異なるエッジデバイスの多様性を認め,SDMのU-Netに構造的プルーニングを採用し,軽量なVAEを訓練する。
画像品質の競争力のあるエッジデバイス上で, 圧縮されたモデルにより, 最先端パラメータ効率(225.8M)が得られることを示す実験的検討を行った。
さらに、ハイブリッドSDは、エッジクラウドのコラボレーティブ推論により、クラウドコストを66%削減する。
Stable Diffusion Models (SDMs) have shown remarkable proficiency in image synthesis. However, their broad application is impeded by their large model sizes and intensive computational requirements, which typically require expensive cloud servers for deployment. On the flip side, while there are many compact models tailored for edge devices that can reduce these demands, they often compromise on semantic integrity and visual quality when compared to full-sized SDMs. To bridge this gap, we introduce Hybrid SD, an innovative, training-free SDMs inference framework designed for edge-cloud collaborative inference. Hybrid SD distributes the early steps of the diffusion process to the large models deployed on cloud servers, enhancing semantic planning. Furthermore, small efficient models deployed on edge devices can be integrated for refining visual details in the later stages. Acknowledging the diversity of edge devices with differing computational and storage capacities, we employ structural pruning to the SDMs U-Net and train a lightweight VAE. Empirical evaluations demonstrate that our compressed models achieve state-of-the-art parameter efficiency (225.8M) on edge devices with competitive image quality. Additionally, Hybrid SD reduces the cloud cost by 66% with edge-cloud collaborative inference. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# 階層構造ニューラルネットワークによる検索
Hierarchical Structured Neural Network for Retrieval ( http://arxiv.org/abs/2408.06653v1 ) ライセンス: Link先を確認 | Kaushik Rangadurai, Siyang Yuan, Minhui Huang, Yiqun Liu, Golnaz Ghasemiesfeh, Yunchen Pu, Xinfeng Xie, Xingfeng He, Fangzhou Xu, Andrew Cui, Vidhoon Viswanathan, Yan Dong, Liang Xiong, Lin Yang, Liang Wang, Jiyan Yang, Chonglin Sun, | (参考訳) アドレコメンデーションシステム(Ads)では,Two Tower や Siamese Networks を利用してユーザとアイテム(ads)の両方の埋め込みを学習する。
次に、ANN(Adroximate Nearest Neighbor Search)を使用して、特定のユーザに対して最も関連性の高い広告を効率よく検索する。
最近この業界で人気が高まっているにもかかわらず、いくつかの制限がある。
第一に、Two Towerモデルアーキテクチャは単一のドット製品インタラクションを使用する。
第2に、トレーニングプロセスが完了した後、ANNのコンポーネントであるCentroid表現とクラスタ割り当てが発生する。
その結果、彼らは検索モデルに使用される最適化基準を考慮していない。
本稿では,階層型階層型ニューラルネットワーク(HSNN)を提案する。階層型クラスタリングとニューラルネットワークモデルにより,線形推論コストを維持しつつ,ランク付け段階においてより一般的な高度なインタラクションとモデルアーキテクチャを活用できる。
オフライン評価の6.5%の改善と、A/B実験によるオンライン利益の1.22%を実証する。
HSNNはAds Recommendationシステムにうまくデプロイされ、現在トラフィックの大部分を処理しています。
本稿では,新鮮度,ボラティリティ,コールドスタートレコメンデーション,クラスタ崩壊,大規模検索生産システムにおけるモデル展開の教訓といった課題に対処し,本システムの開発経験を公開する。
Embedding Based Retrieval (EBR) is a crucial component of the retrieval stage in (Ads) Recommendation System that utilizes Two Tower or Siamese Networks to learn embeddings for both users and items (ads). It then employs an Approximate Nearest Neighbor Search (ANN) to efficiently retrieve the most relevant ads for a specific user. Despite the recent rise to popularity in the industry, they have a couple of limitations. Firstly, Two Tower model architecture uses a single dot product interaction which despite their efficiency fail to capture the data distribution in practice. Secondly, the centroid representation and cluster assignment, which are components of ANN, occur after the training process has been completed. As a result, they do not take into account the optimization criteria used for retrieval model. In this paper, we present Hierarchical Structured Neural Network (HSNN), a deployed jointly optimized hierarchical clustering and neural network model that can take advantage of sophisticated interactions and model architectures that are more common in the ranking stages while maintaining a sub-linear inference cost. We achieve 6.5% improvement in offline evaluation and also demonstrate 1.22% online gains through A/B experiments. HSNN has been successfully deployed into the Ads Recommendation system and is currently handling major portion of the traffic. The paper shares our experience in developing this system, dealing with challenges like freshness, volatility, cold start recommendations, cluster collapse and lessons deploying the model in a large scale retrieval production system. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# ひずみ勾配連続塑性の物理インフォームド深層学習
Physics Informed Deep Learning for Strain Gradient Continuum Plasticity ( http://arxiv.org/abs/2408.06657v1 ) ライセンス: Link先を確認 | Ankit Tyagi, Uttam Suman, Mariya Mamajiwala, Debasish Roy, | (参考訳) 本研究では、物理情報深層学習(PIDL)に基づく時空間離散化を用いて、速度依存性のひずみ勾配塑性モデルの解を近似する。
可塑性流を規定する微分方程式、いわゆるマイクロフォースバランスは非常に硬く、しばしば数値的な腐敗と有限要素法(FE)による精度や収束の欠如に繋がる。
実際、離散化フレームワークのセットアップ、特に位置が未知のアプリオリ(a-priori)と呼ばれるプロパゲーションプラスチックバンドを網羅した精巧なメッシュリングは、計算の労力を大幅に増大させる。
物理情報ニューラルネットワークからインスピレーションを得て、PIDLモデルの損失関数をいくつかの新しい方法で修正し、変動スキームが適用されれば、エネルギーまたは結果のPDEを通してバランス法則を考慮し、構成方程式を導出する。
初期条件と境界条件は、PIDLアーキテクチャ内でそれらをエンコードすることで厳格に課されるか、損失関数の一部として弱強制される。
PIDL技術の実装における柔軟性は、しばしば強力な最適化スキームを備えた準備の整ったインターフェースに適合する。
我々は、GPU上で高速で並列計算を行うオープンソースライブラリを無料で使用しています。
数値図解を用いて, PIDL法がひずみ勾配塑性モデルによって生じる計算課題にどのように対処できるかを示す。
また、PIDL法は、問題の目的に応じて定式化をカスタマイズする際、vis-\'a-visはやや不安定で、FE法の近似が劣っている。
We use a space-time discretization based on physics informed deep learning (PIDL) to approximate solutions of a class of rate-dependent strain gradient plasticity models. The differential equation governing the plastic flow, the so-called microforce balance for this class of yield-free plasticity models, is very stiff, often leading to numerical corruption and a consequent lack of accuracy or convergence by finite element (FE) methods. Indeed, setting up the discretized framework, especially with an elaborate meshing around the propagating plastic bands whose locations are often unknown a-priori, also scales up the computational effort significantly. Taking inspiration from physics informed neural networks, we modify the loss function of a PIDL model in several novel ways to account for the balance laws, either through energetics or via the resulting PDEs once a variational scheme is applied, and the constitutive equations. The initial and the boundary conditions may either be imposed strictly by encoding them within the PIDL architecture, or enforced weakly as a part of the loss function. The flexibility in the implementation of a PIDL technique often makes for its ready interface with powerful optimization schemes, and this in turn provides for many possibilities in posing the problem. We have used freely available open-source libraries that perform fast, parallel computations on GPUs. Using numerical illustrations, we demonstrate how PIDL methods could address the computational challenges posed by strain gradient plasticity models. Also, PIDL methods offer abundant potentialities, vis-\'a-vis a somewhat straitjacketed and poorer approximant of FE methods, in customizing the formulation as per the problem objective. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# 3次元Dense Captioningのための双方向コンテキストアテンション
Bi-directional Contextual Attention for 3D Dense Captioning ( http://arxiv.org/abs/2408.06662v1 ) ライセンス: Link先を確認 | Minjung Kim, Hyung Suk Lim, Soonyoung Lee, Bumsoo Kim, Gunhee Kim, | (参考訳) 3Dシークエンスキャプションは、オブジェクトのローカライゼーションと、各オブジェクトの3Dシーンにおける記述の生成を含むタスクである。
最近のアプローチでは、オブジェクトペアとの関係をモデル化したり、オブジェクトの最も近い特徴を集約したりすることで、コンテキスト情報を組み込もうとしている。
しかし、これらのシナリオで構築されるコンテキスト情報は2つの側面に制限されている: まず、オブジェクトは、オブジェクト自身だけでなく、グローバルシーン全体にわたって存在する複数の位置関係を持つ。
第2に,グローバルな位置関係を含む記述はグローバルなシーンの文脈的特徴によってより良く生成される一方で,局所化や属性記述は密な位置化によってより良く生成される。
この課題を克服するために,双方向のコンテキストアテンションを持つ各オブジェクトに対して3次元の高密度キャプションを行うトランスフォーマーエンコーダデコーダパイプラインであるBiCAを導入する。
オブジェクトの並列デコードされたインスタンスクエリと非オブジェクトコンテキストのコンテキストクエリを活用して、BiCAは、オブジェクトに関連するコンテキストを要約するオブジェクト認識コンテキストと、要約されたオブジェクト認識コンテキストに関連するオブジェクトを集約するコンテキスト認識オブジェクトを生成する。
この拡張により、従来の手法が矛盾する目的から解放され、ローカライゼーション性能が向上し、グローバルシーン全体のコンテキスト特徴の集約が可能となり、同時にキャプション生成性能が向上する。
最も広く使われている2つの3次元高密度キャプションデータセットに対する大規模な実験により,提案手法が従来の手法よりも大幅に改善されたことを示す。
3D dense captioning is a task involving the localization of objects and the generation of descriptions for each object in a 3D scene. Recent approaches have attempted to incorporate contextual information by modeling relationships with object pairs or aggregating the nearest neighbor features of an object. However, the contextual information constructed in these scenarios is limited in two aspects: first, objects have multiple positional relationships that exist across the entire global scene, not only near the object itself. Second, it faces with contradicting objectives--where localization and attribute descriptions are generated better with tight localization, while descriptions involving global positional relations are generated better with contextualized features of the global scene. To overcome this challenge, we introduce BiCA, a transformer encoder-decoder pipeline that engages in 3D dense captioning for each object with Bi-directional Contextual Attention. Leveraging parallelly decoded instance queries for objects and context queries for non-object contexts, BiCA generates object-aware contexts, where the contexts relevant to each object is summarized, and context-aware objects, where the objects relevant to the summarized object-aware contexts are aggregated. This extension relieves previous methods from the contradicting objectives, enhancing both localization performance and enabling the aggregation of contextual features throughout the global scene; thus improving caption generation performance simultaneously. Extensive experiments on two of the most widely-used 3D dense captioning datasets demonstrate that our proposed method achieves a significant improvement over prior methods. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# Amuro & Char:大規模言語モデルの事前学習と微調整の関係の分析
Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2408.06663v1 ) ライセンス: Link先を確認 | Kaiser Sun, Mark Dredze, | (参考訳) 大規模言語モデルの開発は、通常、大きなテキストコーパスで事前訓練され、モデルを人間の好みや下流のタスクに合わせるためのチューニングステージが実施される、事前訓練済みのパラダイムの形成につながる。
本研究では,複数の中間学習モデルチェックポイントを微調整することにより,事前学習と微調整の関係について検討する。
私たちの18のデータセットの結果は、
一 連続事前訓練は、微調整の後に現われる潜時的な方法により、モデルを改善する。
二 追加の微調整により、モデルが能力を示すことができないデータセットは、事前訓練期間中に、モデルがよく機能するデータセットよりも大きく向上する。
三 モデルは、監督された微調整により著しく恩恵を受けるが、これまで知られていたドメイン知識及び微調整中に見られない課題を忘れることがある。
iv) モデルは、教師付き微調整後の評価プロンプトに対して高い感度に類似しているが、この感度は、より事前訓練によって緩和することができる。
The development of large language models leads to the formation of a pre-train-then-align paradigm, in which the model is typically pre-trained on a large text corpus and undergoes a tuning stage to align the model with human preference or downstream tasks. In this work, we investigate the relationship between pre-training and fine-tuning by fine-tuning multiple intermediate pre-trained model checkpoints. Our results on 18 datasets suggest that i) continual pre-training improves the model in a latent way that unveils after fine-tuning; ii) with extra fine-tuning, the datasets that the model does not demonstrate capability gain much more than those that the model performs well during the pre-training stage; iii) although model benefits significantly through supervised fine-tuning, it may forget previously known domain knowledge and the tasks that are not seen during fine-tuning; iv) the model resembles high sensitivity to evaluation prompts after supervised fine-tuning, but this sensitivity can be alleviated by more pre-training. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# RW-NSGCN:負サンプリングによる構造攻撃に対するロバストアプローチ
RW-NSGCN: A Robust Approach to Structural Attacks via Negative Sampling ( http://arxiv.org/abs/2408.06665v1 ) ライセンス: Link先を確認 | Shuqi He, Jun Zhuang, Ding Wang, Jun Song, | (参考訳) グラフニューラルネットワーク(GNN)を用いたノード分類は、ユーザ関心の予測やソーシャルネットワーク内のコミュニティの検出など、さまざまな実践シナリオに広く適用されている。
しかし、近年の研究では、グラフ構造化ネットワークは、しばしば、トポロジ的摂動や重み乱の形で、潜在的なノイズや攻撃を含んでいることが示されており、GNNの分類性能が低下する可能性がある。
モデルの堅牢性を改善するために,RW-NSGCN(Random Walk Negative Smpling Graph Convolutional Network)を提案する。
具体的には、RW-NSGCNはRandom Walk with Restart(RWR)とPageRank(PGR)アルゴリズムを負のサンプリングのために統合し、畳み込み操作にDeterminantal Point Process(DPP)ベースのGCNを使用する。
RWRは、大域的および局所的な情報を利用してノイズと局所的な変動を管理する一方、PGRは位相構造を安定化するためにノードの重要性を評価する。
DPPベースのGCNは、負のサンプルの多様性を保証し、それらの特徴を集約して堅牢なノード埋め込みを生成し、分類性能を向上させる。
実験により,RW-NSGCNモデルはネットワークトポロジ攻撃と重み不安定性に効果的に対応し,異常検出の精度と全体的な安定性を向上することを示した。
分類精度の面では、RW-NSGCNは既存の手法を著しく上回り、様々なシナリオで高いレジリエンスを示し、そのような脆弱性の影響を効果的に軽減している。
Node classification using Graph Neural Networks (GNNs) has been widely applied in various practical scenarios, such as predicting user interests and detecting communities in social networks. However, recent studies have shown that graph-structured networks often contain potential noise and attacks, in the form of topological perturbations and weight disturbances, which can lead to decreased classification performance in GNNs. To improve the robustness of the model, we propose a novel method: Random Walk Negative Sampling Graph Convolutional Network (RW-NSGCN). Specifically, RW-NSGCN integrates the Random Walk with Restart (RWR) and PageRank (PGR) algorithms for negative sampling and employs a Determinantal Point Process (DPP)-based GCN for convolution operations. RWR leverages both global and local information to manage noise and local variations, while PGR assesses node importance to stabilize the topological structure. The DPP-based GCN ensures diversity among negative samples and aggregates their features to produce robust node embeddings, thereby improving classification performance. Experimental results demonstrate that the RW-NSGCN model effectively addresses network topology attacks and weight instability, increasing the accuracy of anomaly detection and overall stability. In terms of classification accuracy, RW-NSGCN significantly outperforms existing methods, showing greater resilience across various scenarios and effectively mitigating the impact of such vulnerabilities. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# 時系列生成のための拡散橋による先行手法の活用
Leveraging Priors via Diffusion Bridge for Time Series Generation ( http://arxiv.org/abs/2408.06672v1 ) ライセンス: Link先を確認 | Jinseong Park, Seungyun Lee, Woojin Jeong, Yujin Choi, Jaewook Lee, | (参考訳) 時系列生成はシミュレーション、データ拡張、仮説テスト技術といった実世界のアプリケーションで広く利用されている。
近年,時系列生成のデファクトアプローチとして拡散モデルが登場し,時系列データストリームや関連時系列データストリームに基づく多様な合成シナリオが強調されている。
時系列は固定時間順序やデータスケーリングのようなユニークな特徴を持つため、標準ガウス事前は一般的な時系列生成には不適当である。
本稿では,多様な先行分布を用いた合成手法を提案する。
そこで本研究では,拡散ブリッジを利用したフレキシブルな合成を可能にするフレームワークであるTimeBridgeを提案する。
我々のモデルは、時系列拡散モデルにおける幅広いシナリオをカバーし、これを活用します。
一 無条件合成のためのデータ及び時間に依存した先行
(II)条件生成の先行として制約付きデータスケール保存合成。
実験により, 条件付き時系列生成タスクと条件付き時系列生成タスクの両方において, 最先端の性能を実現する。
Time series generation is widely used in real-world applications such as simulation, data augmentation, and hypothesis test techniques. Recently, diffusion models have emerged as the de facto approach for time series generation, emphasizing diverse synthesis scenarios based on historical or correlated time series data streams. Since time series have unique characteristics, such as fixed time order and data scaling, standard Gaussian prior might be ill-suited for general time series generation. In this paper, we exploit the usage of diverse prior distributions for synthesis. Then, we propose TimeBridge, a framework that enables flexible synthesis by leveraging diffusion bridges to learn the transport between chosen prior and data distributions. Our model covers a wide range of scenarios in time series diffusion models, which leverages (i) data- and time-dependent priors for unconditional synthesis, and (ii) data-scale preserving synthesis with a constraint as a prior for conditional generation. Experimentally, our model achieves state-of-the-art performance in both unconditional and conditional time series generation tasks. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# LLMによるスカラー不適応の実用的推論
Pragmatic inference of scalar implicature by LLMs ( http://arxiv.org/abs/2408.06673v1 ) ライセンス: Link先を確認 | Ye-eun Cho, Seong mook Kim, | (参考訳) 本研究では,Large Language Models(LLMs),特にBERT(Devlin et al , 2019)とGPT-2(Radford et al , 2019)が,スカラー不適応の実用的な推論にどのように関わっているかを検討する。
実験手法として,コサイン類似性と次の文/単語予測を用いた2種類の実験を行った。
実験1では, 両モデルとも, 文脈の欠如がすべてではなく, 人間の言語処理と整合していると解釈した。
実験2では,QUDが文脈的キューとして提示された場合,BERTはQUDの種類に関わらず一貫した性能を示し,GPT-2はある種のQUDが不適応に実用的推論を必要とするため処理困難に遭遇した。
この結果から、BERT は理論的アプローチの観点で、本質的には「一部」という用語の中では実用的不適応を含まないことが判明した(Levinson, 2000)。
対照的に、GPT-2はコンテキスト駆動モデル(Sperber and Wilson, 2002)と整合して、文脈内で実用的不規則を推論する処理困難に直面しているようである。
This study investigates how Large Language Models (LLMs), particularly BERT (Devlin et al., 2019) and GPT-2 (Radford et al., 2019), engage in pragmatic inference of scalar implicature, such as some. Two sets of experiments were conducted using cosine similarity and next sentence/token prediction as experimental methods. The results in experiment 1 showed that, both models interpret some as pragmatic implicature not all in the absence of context, aligning with human language processing. In experiment 2, in which Question Under Discussion (QUD) was presented as a contextual cue, BERT showed consistent performance regardless of types of QUDs, while GPT-2 encountered processing difficulties since a certain type of QUD required pragmatic inference for implicature. The findings revealed that, in terms of theoretical approaches, BERT inherently incorporates pragmatic implicature not all within the term some, adhering to Default model (Levinson, 2000). In contrast, GPT-2 seems to encounter processing difficulties in inferring pragmatic implicature within context, consistent with Context-driven model (Sperber and Wilson, 2002). | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# ラテンツリーバンクス レビュー: 時間を通しての形態的タグ付けの評価
Latin Treebanks in Review: An Evaluation of Morphological Tagging Across Time ( http://arxiv.org/abs/2408.06675v1 ) ライセンス: Link先を確認 | Marisa Hudspeth, Brendan O'Connor, Laure Thompson, | (参考訳) 現存するラテン・ツリーバンクは、17世紀と様々な文化にまたがる、ラテン語の長い伝統から来ている。
最近の試みは、これらの木バンクのアノテーションを調和させて、形態的タグ付けをより良く訓練し、評価し始めている。
しかし、これらの木バンクの不均一性は、効果的で信頼性の高いデータを構築するために慎重に考慮する必要がある。
本研究では,既存のラテンツリーバンクをレビューして,それらが引き起こしたテキストを識別し,それらの重複を識別し,時間とジャンルにわたってそのカバレッジを文書化する。
我々はまた、それらの形態的特徴アノテーションを標準ラテン文法の規約に自動変換する設計も行っている。
そこで我々は,POSと形態的特徴タグ付けのクロスタイム解析を行うために,既存の木バンクから抽出した新しい時間分割データを構築した。
BERTベースのタグは既存のタグよりも優れており、ドメイン間のシフトに対して堅牢であることに気付きました。
Existing Latin treebanks draw from Latin's long written tradition, spanning 17 centuries and a variety of cultures. Recent efforts have begun to harmonize these treebanks' annotations to better train and evaluate morphological taggers. However, the heterogeneity of these treebanks must be carefully considered to build effective and reliable data. In this work, we review existing Latin treebanks to identify the texts they draw from, identify their overlap, and document their coverage across time and genre. We additionally design automated conversions of their morphological feature annotations into the conventions of standard Latin grammar. From this, we build new time-period data splits that draw from the existing treebanks which we use to perform a broad cross-time analysis for POS and morphological feature tagging. We find that BERT-based taggers outperform existing taggers while also being more robust to cross-domain shifts. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# 有限複写における集合的測定と量子状態判別の有界性
Attainability of quantum state discrimination bounds with collective measurements on finite copies ( http://arxiv.org/abs/2408.06678v1 ) ライセンス: Link先を確認 | Lorcan Conlon, Jin Ming Koh, Biveen Shajilal, Jasminder Sidhu, Ping Koy Lam, Syed M. Assad, | (参考訳) 量子力学の基本的な要素の1つは、非直交状態が完全に区別できないことである。
混合量子状態の複数のコピーを区別する場合、未知状態の異なるコピー間の絡み合いを生成する集団測定は、非絡み合い測定よりも低い誤差確率が得られる。
未知状態の有限個のコピーの集合的測定を用いて達成できる誤差確率は、ヘルストローム境界によって与えられる。
量子状態の漸近的に多くのコピーを集合的に測定できる極限において、量子チャーノフ境界は到達可能な誤差確率を与える。
誤差がこの漸近極限にどの速度で現れるか、あるいは有限個のコピーに対して漸近極限が達成できるかどうかを尋ねるのは自然である。
本稿ではこれらの疑問に対処する。
いくつかの簡単な量子ビット例において、未知状態の任意の数のコピーに対してヘルストローム境界に対する解析式を求める。
これらの解析式を用いて、量子状態の有限個のコピーの集合的な測定を可能にすることにより、到達可能な誤差率がどのように変化するかを検討する。
また、M-コピーヘルストローム境界を飽和させるために必要な条件についても検討する。
未知状態のすべてのM-コピーの集合的測定は、常にM-コピー・ヘルストローム境界を飽和させるのに十分であることが知られている。
しかし、ヘルストローム境界を飽和させるためにそのような測定が必要な場合の一般的な条件はいまだ不明である。
未知状態の全てのMコピーよりも少ない操作を絡み合わせるための具体的な測定方法を検討する。
多くの状況において、未知状態のすべてのM-コピーの集合的測定は、M-コピー・ヘルストローム境界を飽和させるのに必要である。
One of the fundamental tenets of quantum mechanics is that non-orthogonal states cannot be distinguished perfectly. When distinguishing multiple copies of a mixed quantum state, a collective measurement, which generates entanglement between the different copies of the unknown state, can achieve a lower error probability than non-entangling measurements. The error probability that can be attained using a collective measurement on a finite number of copies of the unknown state is given by the Helstrom bound. In the limit where we can perform a collective measurement on asymptotically many copies of the quantum state, the quantum Chernoff bound gives the attainable error probability. It is natural to ask at what rate does the error tend to this asymptotic limit, and whether the asymptotic limit can be attained for any finite number of copies. In this paper we address these questions. We find analytic expressions for the Helstrom bound for arbitrarily many copies of the unknown state in several simple qubit examples. Using these analytic expressions, we investigate how the attainable error rate changes as we allow collective measurements on finite numbers of copies of the quantum state. We also investigate the necessary conditions to saturate the M-copy Helstrom bound. It is known that a collective measurement on all M-copies of the unknown state is always sufficient to saturate the M-copy Helstrom bound. However, general conditions for when such a measurement is necessary to saturate the Helstrom bound remain unknown. We investigate specific measurement strategies which involve entangling operations on fewer than all M-copies of the unknown state. For many regimes we find that a collective measurement on all M-copies of the unknown state is necessary to saturate the M-copy Helstrom bound. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# ランダム林のケースベース説明可能性--原型,批判,反事実,半事実-
Case-based Explainability for Random Forest: Prototypes, Critics, Counter-factuals and Semi-factuals ( http://arxiv.org/abs/2408.06679v1 ) ライセンス: Link先を確認 | Gregory Yampolsky, Dhruv Desai, Mingshu Li, Stefano Pasquali, Dhagash Mehta, | (参考訳) 説明可能な人工知能(XAI: Explainable Artificial Intelligence)として知られるブラックボックス機械学習アルゴリズムの説明可能性は、規制要件とビジネスプラクティスにおける透明性の必要性により、金融その他の規制された産業アプリケーションにとって重要になっている。
XAIのさまざまなパラダイムの中で、説明可能なケースベース推論(XCBR)は、モデルのトレーニングやテストに使用されるデータから実際の例を参照することによって、モデルの出力を解明する実践的なアプローチとして際立っている。
その可能性にもかかわらず、XCBRはツリーベースモデルのような多くのアルゴリズムに対して最近まで比較的過小評価されてきた。
まず,ほとんどのXCBR法が,アルゴリズムが学習した距離測定値に基づいて定義されていることを観察することから始める。
最近提案された手法を用いて、幾何保存法と精度保存法の両方であるランダムフォレスト(RF)が学習した距離距離を抽出し、様々なXCBR法について検討した。
これらの手法は、RFの所定のクエリの予測を説明するために、プロトタイプ、評論家、反事実、半事実といったトレーニングデータセットから特別なポイントを識別する。
様々な評価指標を用いてこれらの特徴点を評価し,その説明力と有効性を評価する。
The explainability of black-box machine learning algorithms, commonly known as Explainable Artificial Intelligence (XAI), has become crucial for financial and other regulated industrial applications due to regulatory requirements and the need for transparency in business practices. Among the various paradigms of XAI, Explainable Case-Based Reasoning (XCBR) stands out as a pragmatic approach that elucidates the output of a model by referencing actual examples from the data used to train or test the model. Despite its potential, XCBR has been relatively underexplored for many algorithms such as tree-based models until recently. We start by observing that most XCBR methods are defined based on the distance metric learned by the algorithm. By utilizing a recently proposed technique to extract the distance metric learned by Random Forests (RFs), which is both geometry- and accuracy-preserving, we investigate various XCBR methods. These methods amount to identify special points from the training datasets, such as prototypes, critics, counter-factuals, and semi-factuals, to explain the predictions for a given query of the RF. We evaluate these special points using various evaluation metrics to assess their explanatory power and effectiveness. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# 回折ニューラルネットワークにおけるコヒーレンス認識
Coherence Awareness in Diffractive Neural Networks ( http://arxiv.org/abs/2408.06681v1 ) ライセンス: Link先を確認 | Matan Kleiner, Lior Michaeli, Tomer Michaeli, | (参考訳) 微分ニューラルネットワークは、集中的な計算処理を必要とするアプリケーションに大いに期待できる。
注意すべきは、空間的コヒーレントまたは空間的非コヒーレント照明のための拡散ネットワークである。
ここでは、画像システムとは対照的に、拡散ネットワークでは空間コヒーレンス(空間コヒーレンス)の程度が劇的な効果を持つことを示す。
特に、物体の空間的コヒーレンス長が光学系で保存される最小の特徴量に匹敵する場合、非コヒーレントおよびコヒーレント極端は許容できる近似として機能しないことを示す。
重要なことに、この状況は、反射光顕微鏡、自動運転車、スマートフォンなど、活動的な照明を含む多くの環境に固有のものだ。
本研究は,任意の空間的および時間的コヒーレンスに対して,あらゆる種類の線形および非線形層をサポートする拡散ネットワークを訓練するための一般的な枠組みを提案する。
本手法を用いて,画像分類のためのネットワークを数値的に最適化し,照明コヒーレンス特性に対する性能依存性を徹底的に検討する。
さらに、照明条件の変化に対するレジリエンスを高めたコヒーレンス・ブラインド・ネットワークの概念を導入する。
われわれの発見は、全光学ニューラルネットワークを現実世界の応用に適用するための足掛かりとなり、自然光のみを活用している。
Diffractive neural networks hold great promise for applications requiring intensive computational processing. Considerable attention has focused on diffractive networks for either spatially coherent or spatially incoherent illumination. Here we illustrate that, as opposed to imaging systems, in diffractive networks the degree of spatial coherence has a dramatic effect. In particular, we show that when the spatial coherence length on the object is comparable to the minimal feature size preserved by the optical system, neither the incoherent nor the coherent extremes serve as acceptable approximations. Importantly, this situation is inherent to many settings involving active illumination, including reflected light microscopy, autonomous vehicles and smartphones. Following this observation, we propose a general framework for training diffractive networks for any specified degree of spatial and temporal coherence, supporting all types of linear and nonlinear layers. Using our method, we numerically optimize networks for image classification, and thoroughly investigate their performance dependence on the illumination coherence properties. We further introduce the concept of coherence-blind networks, which have enhanced resilience to changes in illumination conditions. Our findings serve as a steppingstone toward adopting all-optical neural networks in real-world applications, leveraging nothing but natural light. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# デモサイジングとデノナイジングをうまく組み合わせるには?
How to Best Combine Demosaicing and Denoising? ( http://arxiv.org/abs/2408.06684v1 ) ライセンス: Link先を確認 | Yu Guo, Qiyu Jin, Jean-Michel Morel, Gabriele Facciolo, | (参考訳) 画像の復調と復調は生画像パイプラインにおいて重要な役割を担っている。
これらの過程は、しばしば相互作用を考慮せずに独立して扱われる。
実際、ほとんどの古典的な復調法は、生画像ではなくノイズの多いRGB画像を扱う。
逆に、ほとんどの復調法はノイズフリー画像の復調に対処する。
本当の問題は、ノイズの多い生画像の合成と分解を共同で行うことだ。
しかし、どのように進めるかという問題は、まだ明らかになっていない。
本稿では,この問題を低複雑性アルゴリズムで解くために,広範な実験と数学的解析を行う。
実際、どちらの問題もエンドツーエンドの重畳畳み込みニューラルネットワーク(CNN)によってのみ解決され、現在は低消費電力のポータブルイメージングデバイスと互換性がなく、自然領域(またはデバイス)に依存している。
我々の研究は、中程度の雑音では、まずデモセッシングを適用すべきであり、次にデノベーションを実施すべきである、という結論を導いた。
これは、ノイズを復調するために古典的復調アルゴリズムの簡単な適応が必要であり、これを正当化し、指定する。
主な結論は「まずはデモザイク、次にデノネーズ」であるが、高雑音の場合、より複雑な戦略として、部分的なCFAデノナイジングと復調、RGBイメージの第二のデノナイジングがある。
これらの驚くべき結果は、パイプラインのブラックボックス最適化によって得られる。
いくつかのベンチマークから得られたシミュレートされた実雑音CFA画像に対して,本結果の有効性を検証した。
Image demosaicing and denoising play a critical role in the raw imaging pipeline. These processes have often been treated as independent, without considering their interactions. Indeed, most classic denoising methods handle noisy RGB images, not raw images. Conversely, most demosaicing methods address the demosaicing of noise free images. The real problem is to jointly denoise and demosaic noisy raw images. But the question of how to proceed is still not yet clarified. In this paper, we carry-out extensive experiments and a mathematical analysis to tackle this problem by low complexity algorithms. Indeed, both problems have been only addressed jointly by end-to-end heavy weight convolutional neural networks (CNNs), which are currently incompatible with low power portable imaging devices and remain by nature domain (or device) dependent. Our study leads us to conclude that, with moderate noise, demosaicing should be applied first, followed by denoising. This requires a simple adaptation of classic denoising algorithms to demosaiced noise, which we justify and specify. Although our main conclusion is ``demosaic first, then denoise'', we also discover that for high noise, there is a moderate PSNR gain by a more complex strategy: partial CFA denoising followed by demosaicing, and by a second denoising on the RGB image. These surprising results are obtained by a black-box optimization of the pipeline, which could be applied to any other pipeline. We validate our results on simulated and real noisy CFA images obtained from several benchmarks. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# Masked Image Modeling: A Survey
Masked Image Modeling: A Survey ( http://arxiv.org/abs/2408.06687v1 ) ライセンス: Link先を確認 | Vlad Hondru, Florinel Alin Croitoru, Shervin Minaee, Radu Tudor Ionescu, Nicu Sebe, | (参考訳) 本研究では,コンピュータビジョンにおける強力な自己教師型学習手法として登場したマスク型画像モデリング(MIM)の最近の研究について調査する。
MIMタスクは、例えばピクセル、パッチ、あるいは潜伏表現などの情報を隠蔽し、モデル(通常はオートエンコーダ)を訓練して、入力の可視部分で利用可能なコンテキストを使用して、行方不明情報を予測する。
我々は、MIMを前提課題として実装する方法の2つのカテゴリを同定し、定式化し、その1つは再構築に基づくもので、もう1つは対照的な学習に基づくものである。
そして,分類学を構築し,近年でもっとも顕著な論文をレビューする。
階層的クラスタリングアルゴリズムを適用したデンドログラムを用いて手動で構築した分類法を補完する。
得られたデンドログラムを手動で検査することで,関連するクラスタを同定する。
我々のレビューには、MIM研究で一般的に使用されるデータセットも含まれている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能結果を集約し,競合する手法の比較を容易にする。
最後に、研究ギャップを特定し、今後の研究のいくつかの興味深い方向性を提案する。
In this work, we survey recent studies on masked image modeling (MIM), an approach that emerged as a powerful self-supervised learning technique in computer vision. The MIM task involves masking some information, e.g. pixels, patches, or even latent representations, and training a model, usually an autoencoder, to predicting the missing information by using the context available in the visible part of the input. We identify and formalize two categories of approaches on how to implement MIM as a pretext task, one based on reconstruction and one based on contrastive learning. Then, we construct a taxonomy and review the most prominent papers in recent years. We complement the manually constructed taxonomy with a dendrogram obtained by applying a hierarchical clustering algorithm. We further identify relevant clusters via manually inspecting the resulting dendrogram. Our review also includes datasets that are commonly used in MIM research. We aggregate the performance results of various masked image modeling methods on the most popular datasets, to facilitate the comparison of competing methods. Finally, we identify research gaps and propose several interesting directions of future work. | 翻訳日:2024-08-14 18:26:42 公開日:2024-08-13 |
# 教育効果におけるデジタルツールと伝統的な教育方法の比較分析
Comparative Analysis of Digital Tools and Traditional Teaching Methods in Educational Effectiveness ( http://arxiv.org/abs/2408.06689v1 ) ライセンス: Link先を確認 | Aarush Kandukoori, Aditya Kandukoori, Faizan Wajid, | (参考訳) この研究の目的は、コンピュータとデジタルツールが、教科書やワークシートを使って数学を学習する従来の方法よりも優れているかどうかを調べることである。
この研究は、クラークスバーグ小学校でMoCo Innovationの助けを借りて行われた。
デジタルツールは、生徒の数学のスキルを改善する従来の方法よりも、コンピュータで学ぶことの方が優れているか?
デジタルツールを使用する学生は、数学のスキルが向上すると考えている。
私たちはその学校から30人の生徒と仕事をした。
私たちはそれらを2つのグループに分け、各グループに事前評価とポストアセスメントを与えました。
あるグループはコンピュータを使って数学を学び、カーン・アカデミーのようなインタラクティブな数学のウェブサイトを使えるようになった。
学んだ後、私たちは、彼らがどれだけ改善したかを確認するために、ポストアセスメントを行いました。
その結果, デジタルツールを用いた学生は, テストスコアを平均24.2%, 70%から77%に改善し, 従来の方法を用いた生徒は8.3%, 数学の72%から78%に改善した。
これらの結果から,デジタルツールは,特に数学などの科目において,通常の授業方法よりも優れていることが示唆された。
しかし、この改善の主な理由はデジタルツールかどうかを確かめるためには、さらなる研究が必要である。
この研究は、学校がより多くのテクノロジーを使いたいかどうかを決めるのを助けるために間違いなく重要である。
In today's world technology comprises a large aspect of our lives so this study aimed to investigate if using computers and digital tools are better than traditional methods like using textbooks and worksheets for learning math. This study was done at Clarksburg Elementary School with help from MoCo Innovation which is a club that focuses on fostering an interest in technology among students. A major question that sparked our minds was: Are digital tools like learning on computers better than traditional methods for improving students math skills? We believe students who use digital tools might improve more in their math skills. To find out we worked with 30 students from the school. We split them into two groups and gave each group a pre assessment and post assessment. One group learned math using computers and were able to use interactive math websites such as Khan Academy while the other group used worksheets. After some learning we gave them a post assessment to see how much they had improved. Our results showed that the students who used the digital tools improved test scores averages by 24.2 percent from 70 percent to 87 percent while the students who used traditional methods only improved by 8.3 percent from 72 percent to 78 percent in math. These results show that digital tools are superior to regular teaching methods especially for subjects like math. But more research is required to see if digital tools are the main reason for this improvement. This research is definitely important to help schools decide if they want to use more technology. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# DC3DO:3次元オブジェクトの拡散分類器
DC3DO: Diffusion Classifier for 3D Objects ( http://arxiv.org/abs/2408.06693v1 ) ライセンス: Link先を確認 | Nursena Koprucu, Meher Shashwat Nigam, Shicheng Xu, Biruk Abere, Gabriele Dominici, Andrew Rodriguez, Sharvaree Vadgam, Berfin Inal, Alberto Tono, | (参考訳) ジェフリー・ヒントン(Geoffrey Hinton)は、生成モデリング(generative modeling)を強調した: 形状を認識し、最初にそれらを生成するために、オブジェクト分類に3D拡散モデルを用いることを探求する。
これらのモデルから得られた密度推定を利用して、3次元オブジェクトの拡散分類器 (Diffusion Classifier for 3D Objects, DC3DO) は、追加の訓練なしに3次元形状のゼロショット分類を可能にする。
本手法は, 差別的アプローチよりも優れたマルチモーダル推論を実証し, 平均12.5パーセントの改善を実現している。
直流3DOはShapeNetで訓練されたクラス条件拡散モデルを用いており、椅子や車の点雲上で推論を行う。
この研究は、3次元オブジェクト分類における生成モデルの可能性を強調している。
Inspired by Geoffrey Hinton emphasis on generative modeling, To recognize shapes, first learn to generate them, we explore the use of 3D diffusion models for object classification. Leveraging the density estimates from these models, our approach, the Diffusion Classifier for 3D Objects (DC3DO), enables zero-shot classification of 3D shapes without additional training. On average, our method achieves a 12.5 percent improvement compared to its multiview counterparts, demonstrating superior multimodal reasoning over discriminative approaches. DC3DO employs a class-conditional diffusion model trained on ShapeNet, and we run inferences on point clouds of chairs and cars. This work highlights the potential of generative models in 3D object classification. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# SlotLifter: 物体中心の放射場を学習するためのスロット誘導機能リフティング
SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields ( http://arxiv.org/abs/2408.06697v1 ) ライセンス: Link先を確認 | Yu Liu, Baoxiong Jia, Yixin Chen, Siyuan Huang, | (参考訳) 複雑な視覚シーンからオブジェクト中心の抽象化を抽出する能力は、人間レベルの一般化を支えている。
オブジェクト中心学習法が著しく進歩しているにもかかわらず、3次元物理世界におけるオブジェクト中心表現の学習は依然として重要な課題である。
本研究では,スロット誘導機能持ち上げによるシーン再構成と分解を両立させる新しいオブジェクト中心放射率モデルであるSlotLifterを提案する。
このようなデザインは、オブジェクト中心の学習表現と画像ベースのレンダリング手法を結合し、シーン分解における最先端のパフォーマンスと、4つの挑戦的な合成と4つの複雑な実世界のデータセットに対する新規ビュー合成を提供し、既存の3Dオブジェクト中心の学習手法を大きなマージンで上回る。
本研究では,SlotLifterにおける設計の有効性を明らかにするとともに,今後の方向性について重要な知見を提示する。
The ability to distill object-centric abstractions from intricate visual scenes underpins human-level generalization. Despite the significant progress in object-centric learning methods, learning object-centric representations in the 3D physical world remains a crucial challenge. In this work, we propose SlotLifter, a novel object-centric radiance model addressing scene reconstruction and decomposition jointly via slot-guided feature lifting. Such a design unites object-centric learning representations and image-based rendering methods, offering state-of-the-art performance in scene decomposition and novel-view synthesis on four challenging synthetic and four complex real-world datasets, outperforming existing 3D object-centric learning methods by a large margin. Through extensive ablative studies, we showcase the efficacy of designs in SlotLifter, revealing key insights for potential future directions. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# スパース変分T過程の最適化のための情報幾何学とベータリンク
Information Geometry and Beta Link for Optimizing Sparse Variational Student-t Processes ( http://arxiv.org/abs/2408.06699v1 ) ライセンス: Link先を確認 | Jian Xu, Delu Zeng, John Paisley, | (参考訳) 近年,sparse variational Student-t Processesと呼ばれるスパースバージョンのSparse-t Processesが提案され,確率勾配勾配を用いた実世界のデータセットの計算効率と柔軟性が向上している。
しかし、アダムのような伝統的な勾配降下法はパラメータ空間の幾何を完全に活用できないため、収束が遅く、最適以下の性能が低下する可能性がある。
これらの問題を緩和するために、学生-tプロセスの変動パラメータ最適化のための情報幾何から自然勾配法を採用する。
このアプローチはパラメータ空間の曲率と構造を利用し、我々のモデルにおけるベータ関数にリンクしたフィッシャー情報行列のようなツールを利用する。
本手法は, 学生のt分布を変分分布として用いた場合, 自然勾配アルゴリズムに対する頑健な数学的支援を提供する。
さらに,自然勾配を効率的に計算するミニバッチアルゴリズムを提案する。
4つのベンチマークデータセットに対する実験結果から,本手法は収束速度を継続的に加速することが示された。
Recently, a sparse version of Student-t Processes, termed sparse variational Student-t Processes, has been proposed to enhance computational efficiency and flexibility for real-world datasets using stochastic gradient descent. However, traditional gradient descent methods like Adam may not fully exploit the parameter space geometry, potentially leading to slower convergence and suboptimal performance. To mitigate these issues, we adopt natural gradient methods from information geometry for variational parameter optimization of Student-t Processes. This approach leverages the curvature and structure of the parameter space, utilizing tools such as the Fisher information matrix which is linked to the Beta function in our model. This method provides robust mathematical support for the natural gradient algorithm when using Student's t-distribution as the variational distribution. Additionally, we present a mini-batch algorithm for efficiently computing natural gradients. Experimental results across four benchmark datasets demonstrate that our method consistently accelerates convergence speed. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# DiffSG:拡散モデルを用いたネットワーク最適化のための生成解法
DiffSG: A Generative Solver for Network Optimization with Diffusion Model ( http://arxiv.org/abs/2408.06701v1 ) ライセンス: Link先を確認 | Ruihuai Liang, Bo Yang, Zhiwen Yu, Bin Guo, Xuelin Cao, Mérouane Debbah, H. Vincent Poor, Chau Yuen, | (参考訳) 画像生成の性能で有名な拡散生成モデルは、様々なクロスドメインアプリケーションで人気がある。
しかし、コミュニケーションコミュニティにおける彼らの利用は、主にデータモデリングや特徴抽出といった補助的なタスクに限られている。
これらのモデルは、従来の機械学習手法と比較して、ネットワーク最適化における根本的な問題に対して大きな期待を持っている。
識別的深層学習は、単一ステップの入出力マッピングと、特にネットワーク最適化の目的関数の複雑さを考えると、解空間のグローバルな認識の欠如により、しばしば不足する。
対照的に、拡散生成モデルはより広い範囲の解を考えることができ、基礎となる解空間の分布を記述する学習パラメータによるより強力な一般化を示し、より良い解に割り当てられる確率が高い。
本稿では,拡散生成モデルの本質的な分布学習機能を活用して,与えられた入力に基づいて高品質な解分布を学習する拡散モデルベースソリューション生成(DiffSG)を提案する。
この分布の最適解は高い確率で得られ、繰り返しサンプリングすることで効果的に到達することができる。
我々はDiffSGの性能を、混合整数非線形プログラミング、凸最適化、階層的非凸最適化など、いくつかの典型的なネットワーク最適化問題に対して検証する。
DiffSGは既存のベースラインよりも優れています。
まとめると、複雑なネットワーク最適化問題に取り組む上での拡散生成モデルの可能性を示し、コミュニケーションコミュニティにおけるより広範な応用に期待できる道筋を概説する。
Diffusion generative models, famous for their performance in image generation, are popular in various cross-domain applications. However, their use in the communication community has been mostly limited to auxiliary tasks like data modeling and feature extraction. These models hold greater promise for fundamental problems in network optimization compared to traditional machine learning methods. Discriminative deep learning often falls short due to its single-step input-output mapping and lack of global awareness of the solution space, especially given the complexity of network optimization's objective functions. In contrast, diffusion generative models can consider a broader range of solutions and exhibit stronger generalization by learning parameters that describe the distribution of the underlying solution space, with higher probabilities assigned to better solutions. We propose a new framework Diffusion Model-based Solution Generation (DiffSG), which leverages the intrinsic distribution learning capabilities of diffusion generative models to learn high-quality solution distributions based on given inputs. The optimal solution within this distribution is highly probable, allowing it to be effectively reached through repeated sampling. We validate the performance of DiffSG on several typical network optimization problems, including mixed-integer non-linear programming, convex optimization, and hierarchical non-convex optimization. Our results show that DiffSG outperforms existing baselines. In summary, we demonstrate the potential of diffusion generative models in tackling complex network optimization problems and outline a promising path for their broader application in the communication community. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# MAIR++: 暗黙の照明表現によるマルチビューアテンション逆レンダリングの改善
MAIR++: Improving Multi-view Attention Inverse Rendering with Implicit Lighting Representation ( http://arxiv.org/abs/2408.06707v1 ) ライセンス: Link先を確認 | JunYong Choi, SeokYeong Lee, Haesol Park, Seung-Won Jung, Ig-Jae Kim, Junghyun Cho, | (参考訳) 本稿では,多視点画像を用いてシーンを幾何学,SVBRDF,空間的に変化する光に分解するシーンレベルの逆レンダリングフレームワークを提案する。
多視点画像は、オブジェクトレベルの逆レンダリングに広く用いられているが、ランドスケープレベルの逆レンダリングは、地上形状、材質、空間的に変化する照明を含む高ダイナミックレンジのマルチビュー画像を含むデータセットが欠如していることから、主にシングルビュー画像を用いて研究されている。
シーンレベルの逆レンダリングの質を向上させるため,MAIR(Multi-view Attention Inverse Rendering)と呼ばれる新しいフレームワークが最近導入された。
MAIRは、OpenRoomsデータセットを拡張し、マルチビューイメージを処理するための効率的なパイプラインを設計し、空間的に変化する照明を分割することで、シーンレベルのマルチビュー逆レンダリングを実行する。
MAIRは印象的な結果を示したが、その照明表現は球状ガウスに固定されており、現実的に画像をレンダリングする能力を制限する。
したがって、MAIRはマテリアル編集などのアプリケーションでは直接利用できない。
さらに,多視点アグリゲーションネットワークは,多視点特徴間の平均と分散にのみ焦点を絞っているため,リッチな特徴の抽出が困難である。
本稿では,その拡張版であるMAIR++を提案する。
MAIR++は、画像の照明条件を正確にキャプチャし、リアルなレンダリングを容易にする暗黙の照明表現を導入することで、上記の制限に対処する。
さらに、ビュー間のより複雑な関係を推測する指向性アテンションに基づく多視点アグリゲーションネットワークを設計する。
実験の結果、MAIR++はMAIRやシングルビューベースのメソッドよりも優れたパフォーマンスを達成するだけでなく、目に見えない現実世界のシーンで堅牢なパフォーマンスを示すことがわかった。
In this paper, we propose a scene-level inverse rendering framework that uses multi-view images to decompose the scene into geometry, SVBRDF, and 3D spatially-varying lighting. While multi-view images have been widely used for object-level inverse rendering, scene-level inverse rendering has primarily been studied using single-view images due to the lack of a dataset containing high dynamic range multi-view images with ground-truth geometry, material, and spatially-varying lighting. To improve the quality of scene-level inverse rendering, a novel framework called Multi-view Attention Inverse Rendering (MAIR) was recently introduced. MAIR performs scene-level multi-view inverse rendering by expanding the OpenRooms dataset, designing efficient pipelines to handle multi-view images, and splitting spatially-varying lighting. Although MAIR showed impressive results, its lighting representation is fixed to spherical Gaussians, which limits its ability to render images realistically. Consequently, MAIR cannot be directly used in applications such as material editing. Moreover, its multi-view aggregation networks have difficulties extracting rich features because they only focus on the mean and variance between multi-view features. In this paper, we propose its extended version, called MAIR++. MAIR++ addresses the aforementioned limitations by introducing an implicit lighting representation that accurately captures the lighting conditions of an image while facilitating realistic rendering. Furthermore, we design a directional attention-based multi-view aggregation network to infer more intricate relationships between views. Experimental results show that MAIR++ not only achieves better performance than MAIR and single-view-based methods, but also displays robust performance on unseen real-world scenes. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# 2つのブラウン粒子間の絡み合いの実験的実現
Experimental realization of entanglement between two Brownian particles ( http://arxiv.org/abs/2408.06708v1 ) ライセンス: Link先を確認 | Lakshmanan Theerthagiri, Sergio Ciliberto, | (参考訳) 弾性力で連結されたブラウン粒子に等価な2つの電気回路間の絡み合いの量子アナログの統計的性質を,別個の熱貯水池を通して異なる温度で保持する実験を行った。
座標と粗粒度速度の不確かさは、温度がプランク定数の役割を果たす量子絡み合いに似た現象を引き起こす。
理論解析は実験結果と一致し、相互接続された粒子がブラウン量子にインスパイアされた古典的相関の絡み合いを示すことを確認した。
この効果はブラウン運動の粗いきめ細かい記述から生じ、より微細な解像度で消える。
{粗いスケール範囲も測定される。
We experimentally investigate the statistical properties of the quantum analog of entanglement between two electric circuits equivalent to two Brownian particles connected by an elastic force and maintained at different temperatures through separate heat reservoirs. Uncertainty relations between coordinates and coarse-grained velocity can produce a phenomenon similar to quantum entanglement, where temperature plays the role of Planck's constant. The theoretical analysis matches the experimental results, confirming that the interconnected particles exhibit Brownian quantum-inspired classical correlation entanglement. This effect arises from a coarse grained description of Brownian motion and vanishes at a finer resolution. {The coarsening scales range is measured too. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# レビュー学習:オールインワンの超高精細画像復元訓練法の改善
Review Learning: Advancing All-in-One Ultra-High-Definition Image Restoration Training Method ( http://arxiv.org/abs/2408.06709v1 ) ライセンス: Link先を確認 | Xin Su, Zhuoran Zheng, Chen Wu, | (参考訳) 特に超高精細画像(UHD)では、オールインワン画像復元作業の重要性が高まっている。
既存のオールインワンのUHD画像復元手法は、通常、異なる劣化タイプのためのプロンプトまたはカスタマイズされたダイナマイズネットワークを導入することにより、モデルの性能を高める。
推論段階では親しみやすいかもしれないが、トレーニング段階では、このモデルは時代によって異なる品質の複数の劣化した画像に遭遇するため、これらの散らかった学習目的はモデルの情報汚染である可能性がある。
そこで本稿では,画像復元モデルに対して,事前の知識やプロンプトを必要とせずに,複数種類の劣化を処理できるような訓練パラダイムを提案する。
このアプローチは、いくつかの劣化データセットに対する画像復元モデルのシーケンシャルトレーニングと、過去の劣化データセットのクラスに対する画像復元モデルのメモリを向上するレビューメカニズムの組み合わせから始まります。
さらに,1つのコンシューマグレードGPU上で4K (3840 \times 2160$)解像度の劣化画像を効率的に推論できる,軽量な全目的画像復元ネットワークを設計する。
All-in-one image restoration tasks are becoming increasingly important, especially for ultra-high-definition (UHD) images. Existing all-in-one UHD image restoration methods usually boost the model's performance by introducing prompt or customized dynamized networks for different degradation types. For the inference stage, it might be friendly, but in the training stage, since the model encounters multiple degraded images of different quality in an epoch, these cluttered learning objectives might be information pollution for the model. To address this problem, we propose a new training paradigm for general image restoration models, which we name \textbf{Review Learning}, which enables image restoration models to be capable enough to handle multiple types of degradation without prior knowledge and prompts. This approach begins with sequential training of an image restoration model on several degraded datasets, combined with a review mechanism that enhances the image restoration model's memory for several previous classes of degraded datasets. In addition, we design a lightweight all-purpose image restoration network that can efficiently reason about degraded images with 4K ($3840 \times 2160$) resolution on a single consumer-grade GPU. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# 確率勾配焼鈍重要度サンプリングによるガウス過程潜時変動モデルの変分学習
Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling ( http://arxiv.org/abs/2408.06710v1 ) ライセンス: Link先を確認 | Jian Xu, Shian Du, Junmei Yang, Qianli Ma, Delu Zeng, | (参考訳) Gaussian Process Latent Variable Models (GPLVMs) は、その柔軟性と非線形の性質から、次元削減やデータリカバリの欠如といった教師なしのタスクで人気が高まっている。
ベイジアン GPLVM の重み付けされたバージョンは、より厳密な変動境界を得るために提案されている。
しかし、このアプローチのこのバージョンは、高次元空間や複雑なデータセットで効率的な提案分布の生成がかなり困難になるため、主に単純なデータ構造の分析に限られる。
本研究では,これらの問題に対処するために,Annealed Importance Smpling (AIS)アプローチを提案する。
熱処理により後続分布を中間分布列に変換することにより, 連続モンテカルロサンプリング器とVIの強度を組み合わせることにより, 広範囲の後方分布を探索し, 対象分布に徐々にアプローチする。
さらに,エビデンスローバウンド(ELBO)における全ての変数を再パラメータ化することで,効率的なアルゴリズムを提案する。
実験結果から,本手法はより厳密な変動境界,高い対数類似度,より堅牢な収束率で最先端の手法より優れていることが示された。
Gaussian Process Latent Variable Models (GPLVMs) have become increasingly popular for unsupervised tasks such as dimensionality reduction and missing data recovery due to their flexibility and non-linear nature. An importance-weighted version of the Bayesian GPLVMs has been proposed to obtain a tighter variational bound. However, this version of the approach is primarily limited to analyzing simple data structures, as the generation of an effective proposal distribution can become quite challenging in high-dimensional spaces or with complex data sets. In this work, we propose an Annealed Importance Sampling (AIS) approach to address these issues. By transforming the posterior into a sequence of intermediate distributions using annealing, we combine the strengths of Sequential Monte Carlo samplers and VI to explore a wider range of posterior distributions and gradually approach the target distribution. We further propose an efficient algorithm by reparameterizing all variables in the evidence lower bound (ELBO). Experimental results on both toy and image datasets demonstrate that our method outperforms state-of-the-art methods in terms of tighter variational bounds, higher log-likelihoods, and more robust convergence. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# すべてのコンパイルされた非局所ゲームにおける量子値上の有界性
A bound on the quantum value of all compiled nonlocal games ( http://arxiv.org/abs/2408.06711v1 ) ライセンス: Link先を確認 | Alexander Kulpe, Giulio Malavolta, Connor Paddock, Simon Schmidt, Michael Walter, | (参考訳) Kalai et al (STOC'23) によって導入されたコンパイラは、任意の非ローカルゲームを1つの計算バウンド証明器で対話的なプロトコルに変換する。
コンパイラは古典的プローバーの場合や量子の場合では完全であるのが知られているが、量子音響性は今のところゲームの特別なクラスに対してのみ確立されている。
本研究では,コンパイルされた2人プレイヤの非ローカルゲームに対して,量子音響性(quantum Soundness)の計算結果を確立する。
特に、基礎となる非局所ゲームにおける量子交換演算子値は、コンパイルされたゲームの量子値の上限であることを示す。
この結果、演算子から計算および暗号設定の手法を用いて、セキュリティパラメータの漸近的極限における情報理論オブジェクトを確立する。
さらに、独立した興味を持つかもしれない量子交換作用素相関のシーケンシャルな特徴づけに依存している。
A compiler introduced by Kalai et al. (STOC'23) converts any nonlocal game into an interactive protocol with a single computationally-bounded prover. Although the compiler is known to be sound in the case of classical provers, as well as complete in the quantum case, quantum soundness has so far only been established for special classes of games. In this work, we establish a quantum soundness result for all compiled two-player nonlocal games. In particular, we prove that the quantum commuting operator value of the underlying nonlocal game is an upper bound on the quantum value of the compiled game. Our result employs techniques from operator algebras in a computational and cryptographic setting to establish information-theoretic objects in the asymptotic limit of the security parameter. It further relies on a sequential characterization of quantum commuting operator correlations which may be of independent interest. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# 大規模LORAを用いたSegment Anythingモデルによるクロスドメイン単一細胞画像分類に向けて
Towards Cross-Domain Single Blood Cell Image Classification via Large-Scale LoRA-based Segment Anything Model ( http://arxiv.org/abs/2408.06716v1 ) ライセンス: Link先を確認 | Yongcheng Li, Lingcong Cai, Ying Lu, Yupeng Zhang, Jingyan Jiang, Genan Dai, Bowen Zhang, Jingzhou Cao, Xiangzhong Zhang, Xiaomao Fan, | (参考訳) 血液細胞の正確な分類は、様々な医学的状態の診断において医師を助けるため、血液学的解析において重要な役割を担っている。
本稿では,BC-SAMとして知られる血液細胞像を分類するための新しいアプローチを提案する。
BC-SAMはSegment Anything Model(SAM)の大規模基盤モデルを活用し、LoRAを用いた微調整技術を取り入れ、血液細胞画像から一般的な画像埋め込みを抽出する。
異なる血液細胞画像データセットに適用性を高めるために,画像中のアーティファクトを抑えながら本質的な特徴を学習することに焦点を当てた教師なしクロスドメインオートエンコーダを導入する。
BC-SAMの性能を評価するため、我々は4つの機械学習分類器(Random Forest, Support Vector Machine, Artificial Neural Network, XGBoost)を用いて、血液細胞分類モデルを構築し、既存の最先端手法と比較した。
Matek-19 と Acevedo-20 の2つの公開血液細胞データセットで行った実験の結果,提案した BC-SAM が新たな最先端の成果を達成し,ベースライン法をはるかに上回る結果が得られた。
本論文のソースコードはhttps://github.com/AnoK3111/BC-SAMで公開されている。
Accurate classification of blood cells plays a vital role in hematological analysis as it aids physicians in diagnosing various medical conditions. In this study, we present a novel approach for classifying blood cell images known as BC-SAM. BC-SAM leverages the large-scale foundation model of Segment Anything Model (SAM) and incorporates a fine-tuning technique using LoRA, allowing it to extract general image embeddings from blood cell images. To enhance the applicability of BC-SAM across different blood cell image datasets, we introduce an unsupervised cross-domain autoencoder that focuses on learning intrinsic features while suppressing artifacts in the images. To assess the performance of BC-SAM, we employ four widely used machine learning classifiers (Random Forest, Support Vector Machine, Artificial Neural Network, and XGBoost) to construct blood cell classification models and compare them against existing state-of-the-art methods. Experimental results conducted on two publicly available blood cell datasets (Matek-19 and Acevedo-20) demonstrate that our proposed BC-SAM achieves a new state-of-the-art result, surpassing the baseline methods with a significant improvement. The source code of this paper is available at https://github.com/AnoK3111/BC-SAM. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# 大規模言語モデルにおける知識の蓄積による計算フレンドリなグラフニューラルネットワークの設計
Computation-friendly Graph Neural Network Design by Accumulating Knowledge on Large Language Models ( http://arxiv.org/abs/2408.06717v1 ) ライセンス: Link先を確認 | Jialiang Wang, Shimin Di, Hanmo Liu, Zhili Wang, Jiachuan Wang, Lei Chen, Xiaofang Zhou, | (参考訳) 他のニューラルネットワークと同様、グラフニューラルネットワーク(GNN)も顕著な成功を収めているが、特定のデータやタスクに大きく依存するアーキテクチャ設計の複雑さによって妨げられている。
伝統的に、適切なアーキテクチャを設計するには試行錯誤が伴う。
人間の作業量を減らすために、研究者はGNNを設計するための自動アルゴリズムを開発しようとしている。
しかし、専門家と自動化アルゴリズムの両方が、GNNの設計において2つの大きな問題に悩まされている。
1) 実現可能な設計が達成されるまで、繰り返し試行するGNNアーキテクチャにおいて、実質的な計算資源
2) グラフ, GNN, 性能間の相互関係に関する知識を蓄積するために, 人やアルゴリズムが必要とする複雑で長期のプロセス。
GNNアーキテクチャ設計の自動化をさらに促進するため,GNNの設計に精通した大規模言語モデル(LLM)の強化を行い,GNNアーキテクチャ設計の計算オーバーヘッドと開発サイクルを大幅に短縮する手法を提案する。
我々のフレームワークは、グラフ、GNN、パフォーマンスの相互関係を理解する知識検索パイプラインを確立することから始まります。
このパイプラインは、過去のモデル設計の経験をLLM参照のための構造化知識に変換することで、初期モデルの提案を素早く提案することができる。
続いて,人間専門家の探索・探索過程をエミュレートする知識駆動型探索戦略を導入し,有望な範囲で提案を迅速に改善する。
大規模な実験により、我々のフレームワークは、望ましくないデータセットを数秒で提供し、事前のトレーニングをすることなく、数イテレーションで優れた検索性能を達成することができる(Top-5.77%など)。
Graph Neural Networks (GNNs), like other neural networks, have shown remarkable success but are hampered by the complexity of their architecture designs, which heavily depend on specific data and tasks. Traditionally, designing proper architectures involves trial and error, which requires intensive manual effort to optimize various components. To reduce human workload, researchers try to develop automated algorithms to design GNNs. However, both experts and automated algorithms suffer from two major issues in designing GNNs: 1) the substantial computational resources expended in repeatedly trying candidate GNN architectures until a feasible design is achieved, and 2) the intricate and prolonged processes required for humans or algorithms to accumulate knowledge of the interrelationship between graphs, GNNs, and performance. To further enhance the automation of GNN architecture design, we propose a computation-friendly way to empower Large Language Models (LLMs) with specialized knowledge in designing GNNs, thereby drastically shortening the computational overhead and development cycle of designing GNN architectures. Our framework begins by establishing a knowledge retrieval pipeline that comprehends the intercorrelations between graphs, GNNs, and performance. This pipeline converts past model design experiences into structured knowledge for LLM reference, allowing it to quickly suggest initial model proposals. Subsequently, we introduce a knowledge-driven search strategy that emulates the exploration-exploitation process of human experts, enabling quick refinement of initial proposals within a promising scope. Extensive experiments demonstrate that our framework can efficiently deliver promising (e.g., Top-5.77%) initial model proposals for unseen datasets within seconds and without any prior training and achieve outstanding search performance in a few iterations. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# β可変オートエンコーダを用いた急性骨髄性白血病患者における白血球分化のマルチモーダル解析
Multimodal Analysis of White Blood Cell Differentiation in Acute Myeloid Leukemia Patients using a β-Variational Autoencoder ( http://arxiv.org/abs/2408.06720v1 ) ライセンス: Link先を確認 | Gizem Mert, Ario Sadafi, Raheleh Salehi, Nassir Navab, Carsten Marr, | (参考訳) 単細胞レゾリューションによるバイオメディカルイメージングとRNAシークエンシングにより、白血病のような白血球疾患の理解が向上する。
形態学的データと転写学的データを組み合わせることで、細胞分化に関わる細胞機能や軌跡の洞察を得ることができる。
しかし、既存の手法は形態学的および転写学的データの統合に苦慮しており、細胞の分化のダイナミクスを包括的に理解する上で重要な研究のギャップを残している。
本稿では、これらの2つのモードを探索・再構成し、形態学的および対応する転写産物の観点からヒト末梢血スミア由来の白血球の異なるサブタイプとの関係を明らかにする、教師なしの方法を提案する。
提案手法は, 単一セルを背景から識別し, 人工物からの干渉を最小限に抑えるため, R-CNNアーキテクチャを組み込んだβ変分オートエンコーダ (\beta-VAE) に基づく。
この‘beta-VAE’の実装は、単一セルクラスの明確な分化を維持しながら、連続的な潜伏埋め込みとともに、良好な再構築能力を示している。
我々の新しいアプローチは、細胞(顆粒球体)の顆粒形成などの複雑な生物学的過程における2つの潜在的特徴と遺伝子発現パターンとの相関を明らかにするのに特に有用である。
これにより、バイオメディシンと診断のための白血球成熟の理解を改善するためのユニークなツールを提供する。
Biomedical imaging and RNA sequencing with single-cell resolution improves our understanding of white blood cell diseases like leukemia. By combining morphological and transcriptomic data, we can gain insights into cellular functions and trajectoriess involved in blood cell differentiation. However, existing methodologies struggle with integrating morphological and transcriptomic data, leaving a significant research gap in comprehensively understanding the dynamics of cell differentiation. Here, we introduce an unsupervised method that explores and reconstructs these two modalities and uncovers the relationship between different subtypes of white blood cells from human peripheral blood smears in terms of morphology and their corresponding transcriptome. Our method is based on a beta-variational autoencoder (\beta-VAE) with a customized loss function, incorporating a R-CNN architecture to distinguish single-cell from background and to minimize any interference from artifacts. This implementation of \beta-VAE shows good reconstruction capability along with continuous latent embeddings, while maintaining clear differentiation between single-cell classes. Our novel approach is especially helpful to uncover the correlation of two latent features in complex biological processes such as formation of granules in the cell (granulopoiesis) with gene expression patterns. It thus provides a unique tool to improve the understanding of white blood cell maturation for biomedicine and diagnostics. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# 応答広帯域シャット:基本視覚言語モデル機能における意外な観察
Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities ( http://arxiv.org/abs/2408.06721v1 ) ライセンス: Link先を確認 | Shivam Chandhok, Wan-Cyuan Fan, Leonid Sigal, | (参考訳) VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
このようなモデルは高い能力を持つことが示されているが、同時にいくつかの基本的な視覚的理解スキルも欠如している。
本稿では, オブジェクト分類, 空間配置の理解, 個々のオブジェクトインスタンスを(計数を通して)記述する能力など, 基本的な視覚的タスクにおけるSoTA VLMの限界を理解するために, 設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築した。
また、視覚エンコーダ(画像埋め込み)から直接訓練されたプローブの性能と、多くのSoTAモデル(例えば、LLaVA、BLIP、InstructBLIP)で画像エンコーダとLLMデコーダをブリッジするために使用される中間ビジョン言語プロジェクションを比較して、VLMの最終性能を簡易に測定する。
そのために、VLMの応答の初期の欠点を明らかにし、将来より効果的なVLMモデルをトレーニングし開発する上で役立つ、多くの重要な観察を行う。
Vision-Language Models (VLMs) have emerged as general purpose tools for addressing a variety of complex computer vision problems. Such models have been shown to be highly capable, but, at the same time, also lacking some basic visual understanding skills. In this paper, we set out to understand the limitations of SoTA VLMs on fundamental visual tasks: object classification, understanding spatial arrangement, and ability to delineate individual object instances (through counting), by constructing a series of tests that probe which components of design, specifically, maybe lacking. Importantly, we go significantly beyond the current benchmarks, that simply measure final performance of VLM, by also comparing and contrasting it to performance of probes trained directly on features obtained from visual encoder (image embeddings), as well as intermediate vision-language projection used to bridge image-encoder and LLM-decoder ouput in many SoTA models (e.g., LLaVA, BLIP, InstructBLIP). In doing so, we uncover nascent shortcomings in VLMs response and make a number of important observations which could help train and develop more effective VLM models in future. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# 量子クローン変換は秘密共有プロトコルにおけるWクラスのポテンシャルを解き放つ
Quantum cloning transformation unlocks the potential of W class of states in a secret sharing protocol ( http://arxiv.org/abs/2408.06722v1 ) ライセンス: Link先を確認 | Rashi Jain, Satyabrata Adhikari, | (参考訳) 最も難しい問題の1つは、送信側が受信側を完全に信頼していないため、秘密を共有することである。
これにより、送信側は受信側に情報の一部を供給し、送信側が依存できる第三者にその情報の他部分を共有する。
受信者と第三者が協力することに同意したとき、秘密を明らかにすることができる。
これがシークレット共有プロトコルの本質です。
3量子GHZ状態を用いて多くの研究が行われており、W状態に関わる研究はごくわずかである。
本研究では,Alice(Sender),Bob(Mediator),Charlie(Receiver)の3つのパーティ間で共有される状態の3ビットWクラスを利用した量子秘密共有プロトコルを提案する。
提案プロトコルでは、共有状態パラメータとシークレットは、それらを決定するのが非常に難しい方法でリンクされる。
これらのパラメータは、受信機が量子クローニングマシン(QCM)を使用している場合、容易に分解できることを示し、シークレットを検索できる。
このプロトコルは確率的であり,プロトコルの成功確率を計算した。
さらに、我々は、成功確率とQCMの効率の関係を確立する。
一般に、構築されたQCMの効率は$\frac{1}{3}$より大きいか等しいが、共有状態のパラメータをQCMのパラメータとして使用すると、その効率が向上できることが示されている。
さらに,共有状態のWクラスにおける成功確率と絡み合い量との相関関係を導出した。
得られた結果を分析した結果,より絡み合った状態のWクラスであっても,提案した秘密共有方式において重要な役割を果たすことがわかった。
One of the most challenging problems is to share a secret because the sender does not trust the receiver completely. Thus, the sender provides one part of the information to the receiver and shares the other part of the information to a third party on whom the sender can rely. The secret can be revealed when the receiver and the third party agree to cooperate. This is the essence of the secret-sharing protocol. A lot of studies have been done on it using the three-qubit GHZ state, and only a few works have involved the W state. In this work, we introduce a quantum secret sharing protocol exploiting a three-qubit W class of state shared between three parties, Alice (Sender), Bob (Mediator), and Charlie (Receiver). In the proposed protocol, the shared state parameters and the secret are linked in such a way that it is very difficult to factor them. We will show that these parameters can be factored out easily if the receiver uses a quantum cloning machine (QCM) and thus can retrieve the secret. We find that the protocol is probabilistic and have calculated the probability of success of the protocol. Further, we establish the relation between the success probability and the efficiency of the QCM. In general, we find that the efficiency of the constructed QCM is greater than or equal to $\frac{1}{3}$, but we have shown that its efficiency can be enhanced when the parameters of the shared state are used as the parameters of the QCM. Moreover, we derived the linkage between the probability of success and the amount of entanglement in the shared W class of state. We analyzed the obtained result and found that even a less entangled W class of state can also play a vital role in the proposed secret-sharing scheme. | 翻訳日:2024-08-14 18:16:48 公開日:2024-08-13 |
# ヒューマンインフラストラクチャによる健全なオープンソースプロジェクトの保守作業の継続:保守的視点
Sustaining Maintenance Labor for Healthy Open Source Software Projects through Human Infrastructure: A Maintainer Perspective ( http://arxiv.org/abs/2408.06723v1 ) ライセンス: Link先を確認 | Johan Linåker, Georg J. P. Link, Kevin Lumbard, | (参考訳) 背景: オープンソースソフトウェア(OSS)は私たちのグローバルなデジタルインフラストラクチャを推進しますが、一般的には時間と労力が枯渇したリソースを表す人々の小さなグループによって管理されています。
OSSプロジェクトが持続可能であり、中断や弱体化なしに維持されるためには、メンテナンス作業は基盤となるインフラをサポートし、確保する必要がある。
Aims: 人的インフラの構築を用いて, 保守作業をどのように支援し, 確保し, 持続的なOSSプロジェクトの創出と維持を可能にするかを検討することを目的とする。
Method: 調査では、9つの熟達したOSSプロジェクトのメンテナ10人にインタビューしました。
我々は調査員の三角測量を用いて2つのステップでデータを符号化した。
結果: 人間のインフラ設計におけるOSSプロジェクトの洞察を提供するインフラストラクチャ設計のフレームワークを構築しました。
この枠組みは、例えば、ワークライフバランスを確保し、社会的圧力、毒性、多様性を積極的に管理することの重要性を特に強調する。
また、保守担当者とOSSコミュニティの保守作業をサポートするために必要なインフラの相違点と重複点についても留意する。
資金調達は、両タイプのリソースにとって重要なイネーブラーとして特に強調されている。
結論: 本研究は, 健全なOSSプロジェクトの構築と維持に必要な維持作業の重要性, 感受性, リスクの質的理解に寄与する。
人的インフラは、維持作業が持続可能であること、そして私たち全員が依存するOSSプロジェクトを拡張する上で、重要なのです。
Background: Open Source Software (OSS) fuels our global digital infrastructure but is commonly maintained by small groups of people whose time and labor represent a depletable resource. For the OSS projects to stay sustainable, i.e., viable and maintained over time without interruption or weakening, maintenance labor requires an underlying infrastructure to be supported and secured. Aims: Using the construct of human infrastructure, our study aims to investigate how maintenance labor can be supported and secured to enable the creation and maintenance of sustainable OSS projects, viewed from the maintainers' perspective. Method: In our exploration, we interviewed ten maintainers from nine well-adopted OSS projects. We coded the data in two steps using investigator-triangulation. Results: We constructed a framework of infrastructure design that provide insight for OSS projects in the design of their human infrastructure. The framework specifically highlight the importance of human factors, e.g., securing a work-life balance and proactively managing social pressure, toxicity, and diversity. We also note both differences and overlaps in how the infrastructure needs to support and secure maintenance labor from maintainers and the wider OSS community, respectively. Funding is specifically highlighted as an important enabler for both types of resources. Conclusions: The study contributes to the qualitative understanding of the importance, sensitivity, and risk for depletion of the maintenance labor required to build and maintain healthy OSS projects. Human infrastructure is pivotal in ensuring that maintenance labor is sustainable, and by extension the OSS projects on which we all depend. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# 産業用ドリフト・アウェア・メカニズムを用いた適応型データ品質スコアリング・オペレーション・フレームワーク
Adaptive Data Quality Scoring Operations Framework using Drift-Aware Mechanism for Industrial Applications ( http://arxiv.org/abs/2408.06724v1 ) ライセンス: Link先を確認 | Firas Bayram, Bestoun S. Ahmed, Erik Hallin, | (参考訳) 産業アプリケーションのためのデータ駆動人工知能(AI)システムの中で、入ってくるデータストリームの信頼性を保証することは、信頼できる意思決定の不可欠な部分である。
データ妥当性を評価するアプローチは、データ品質スコアリングであり、様々な品質次元に基づいて、各データポイントまたはストリームにスコアを割り当てる。
しかし、ある次元は、システムの現在の状態に基づいて適応を必要とする動的な性質を示す。
既存のメソッドは、しばしばこの側面を見落とし、動的生産環境で非効率にする。
本稿では,産業データストリームの動的品質次元がもたらす課題に対処する新しいフレームワークであるAdaptive Data Quality Scoring Operations Frameworkを紹介する。
このフレームワークは、データ品質の変化を積極的に監視し、適応し、品質スコアの関連性を保証する動的変更検出メカニズムを統合することで、革新的なアプローチを導入している。
実世界の産業利用事例において提案したフレームワークの性能を評価する。
実験結果は、予測性能と効率的な処理時間を示し、実用的な品質駆動型AIアプリケーションにおけるその有効性を強調した。
Within data-driven artificial intelligence (AI) systems for industrial applications, ensuring the reliability of the incoming data streams is an integral part of trustworthy decision-making. An approach to assess data validity is data quality scoring, which assigns a score to each data point or stream based on various quality dimensions. However, certain dimensions exhibit dynamic qualities, which require adaptation on the basis of the system's current conditions. Existing methods often overlook this aspect, making them inefficient in dynamic production environments. In this paper, we introduce the Adaptive Data Quality Scoring Operations Framework, a novel framework developed to address the challenges posed by dynamic quality dimensions in industrial data streams. The framework introduces an innovative approach by integrating a dynamic change detector mechanism that actively monitors and adapts to changes in data quality, ensuring the relevance of quality scores. We evaluate the proposed framework performance in a real-world industrial use case. The experimental results reveal high predictive performance and efficient processing time, highlighting its effectiveness in practical quality-driven AI applications. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# 多言語会話における反復的オブジェクト・エンティティアライメントによる視覚的対話状態追跡の強化
Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations ( http://arxiv.org/abs/2408.06725v1 ) ライセンス: Link先を確認 | Wei Pang, Ruixue Duan, Jinfu Yang, Ning Li, | (参考訳) ビジュアルダイアログ(Visual Dialog, VD)は、エージェントが複数ラウンドのダイアログ履歴に基づいて一連の画像関連質問に答えるタスクである。
しかし、従来のVD手法では、対話履歴全体を単純なテキスト入力として扱うことが多く、ラウンドレベルでの会話情報の流れを無視する。
本稿では,対話履歴から学習した対話状態を利用して質問に答えることにより,この制限に対処するMDST(Multi-round Dialogue State Tracking Model)を提案する。
MDSTは、内的対話状態表現を視覚言語表現の2-タプルとして定義し、各ラウンドの対話履歴をキャプチャする。
これらの表現は、現在の疑問を効果的に解き明かし、正確な答えを生み出すことができる。
VisDial v1.0データセットの実験結果は、MDSTが生成環境において新しい最先端性能を達成することを示した。
さらに, 一連の人間の研究を通じて, MDSTが長い, 一貫性があり, 人間の様相を呈し, 一連の質問に対して常に正解し, MDSTの有効性を検証した。
Visual Dialog (VD) is a task where an agent answers a series of image-related questions based on a multi-round dialog history. However, previous VD methods often treat the entire dialog history as a simple text input, disregarding the inherent conversational information flows at the round level. In this paper, we introduce Multi-round Dialogue State Tracking model (MDST), a framework that addresses this limitation by leveraging the dialogue state learned from dialog history to answer questions. MDST captures each round of dialog history, constructing internal dialogue state representations defined as 2-tuples of vision-language representations. These representations effectively ground the current question, enabling the generation of accurate answers. Experimental results on the VisDial v1.0 dataset demonstrate that MDST achieves a new state-of-the-art performance in generative setting. Furthermore, through a series of human studies, we validate the effectiveness of MDST in generating long, consistent, and human-like answers while consistently answering a series of questions correctly. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# 大規模言語モデルは、選挙情報処理のための高品質なコンテンツを一貫して生成できる
Large language models can consistently generate high-quality content for election disinformation operations ( http://arxiv.org/abs/2408.06731v1 ) ライセンス: Link先を確認 | Angus R. Williams, Liam Burke-Moore, Ryan Sze-Yin Chan, Florence E. Enock, Federico Nanni, Tvesha Sippy, Yi-Ling Chung, Evelina Gabasova, Kobi Hackenburg, Jonathan Bright, | (参考訳) 大規模言語モデルの進歩は、説得力のある選挙偽情報を大規模に生成する可能性への懸念を提起している。
本研究は,選挙偽情報処理の段階を自動化するLLMの能力について,二部構成で検討した。
まず,2200件の悪意のあるプロンプトと50件の良心的なプロンプトを含む,英国における選挙偽情報操作のコンテンツを生成するための命令によるLCMコンプライアンスの測定を目的とした,新たな評価データセットであるDisElectを紹介する。
また、悪意のあるプロンプトを拒否する数少ないモデルは、良心的な選挙関連プロンプトを拒否し、右翼の観点からコンテンツを生成することを拒否する傾向にあることも見出した。
次に, LLMの「人間性」を評価するための一連の実験(N=2,340)を行った。
以上の結果から,2022年以降に試験されたほぼ全てのLDMは,その50%以上の期間において,人的評価者による選挙偽情報操作の内容が認められないことが示唆された。
特に、複数のモデルが人間性以上のレベルを達成するのを観察する。
これらの結果は, 従来の手法よりもはるかに低コストで, 高局所化シナリオにおいても, 選挙情報処理のための高品質なコンテンツを生成するために, 現行のLCMを使用することが可能であることを示唆し, 研究者や政策立案者に対して, 現状および将来モデルにおけるこれらの機能の測定と評価に関する実証的ベンチマークを提供する。
Advances in large language models have raised concerns about their potential use in generating compelling election disinformation at scale. This study presents a two-part investigation into the capabilities of LLMs to automate stages of an election disinformation operation. First, we introduce DisElect, a novel evaluation dataset designed to measure LLM compliance with instructions to generate content for an election disinformation operation in localised UK context, containing 2,200 malicious prompts and 50 benign prompts. Using DisElect, we test 13 LLMs and find that most models broadly comply with these requests; we also find that the few models which refuse malicious prompts also refuse benign election-related prompts, and are more likely to refuse to generate content from a right-wing perspective. Secondly, we conduct a series of experiments (N=2,340) to assess the "humanness" of LLMs: the extent to which disinformation operation content generated by an LLM is able to pass as human-written. Our experiments suggest that almost all LLMs tested released since 2022 produce election disinformation operation content indiscernible by human evaluators over 50% of the time. Notably, we observe that multiple models achieve above-human levels of humanness. Taken together, these findings suggest that current LLMs can be used to generate high-quality content for election disinformation operations, even in hyperlocalised scenarios, at far lower costs than traditional methods, and offer researchers and policymakers an empirical benchmark for the measurement and evaluation of these capabilities in current and future models. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# 自発英語音声における調音速度の解剖 : 発話長効果と社会的要因との関係
Exploring the anatomy of articulation rate in spontaneous English speech: relationships between utterance length effects and social factors ( http://arxiv.org/abs/2408.06732v1 ) ライセンス: Link先を確認 | James Tanner, Morgan Sonderegger, Jane Stuart-Smith, Tyler Kendall, Jeff Mielke, Robin Dodsworth, Erik Thomas, | (参考訳) 発話速度は、性別、年齢、方言などの社会的カテゴリーによって異なるが、音声プランニングの特性によっても異なることが示されている。
また, 発話速度がより速く, より長い発話で変化しない発話長が社会要因の役割を低下させることが示されており, 条件付き発話速度における社会的要因と音声生成との関係は明らかでない。
英語音声コーパス間の発話速度のモデル化により、発話長が発話速度に最も大きな影響を及ぼすことがわかったが、この効果自体はコーパスや話者によってほとんど変化しない。
年齢や性別も発話速度を調節するが、その効果は桁違いに小さい。
これらの結果から,発話長の影響は調音的・知覚的制約によって条件付けされ,発話速度に対する社会的影響は,発話速度の変動がどう構成されるかというより広い文脈で解釈されるべきであることが示唆された。
Speech rate has been shown to vary across social categories such as gender, age, and dialect, while also being conditioned by properties of speech planning. The effect of utterance length, where speech rate is faster and less variable for longer utterances, has also been shown to reduce the role of social factors once it has been accounted for, leaving unclear the relationship between social factors and speech production in conditioning speech rate. Through modelling of speech rate across 13 English speech corpora, it is found that utterance length has the largest effect on speech rate, though this effect itself varies little across corpora and speakers. While age and gender also modulate speech rate, their effects are much smaller in magnitude. These findings suggest utterance length effects may be conditioned by articulatory and perceptual constraints, and that social influences on speech rate should be interpreted in the broader context of how speech rate variation is structured. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# 不確かさと人間性アルゴリズムの推測
Speculations on Uncertainty and Humane Algorithms ( http://arxiv.org/abs/2408.06736v1 ) ライセンス: Link先を確認 | Nicholas Gray, | (参考訳) リスクと不確実性の認識と活用は、AIによって引き起こされる多くの倫理的問題の解決を支援する上で重要な役割を果たします。
不確実性を理解することは、アルゴリズムが出力の正確性をチェックするための疑わしい方法を提供することによって、より良い決定を下すことを可能にする。
アルゴリズムが入力の多様性とあいまいさに対処できることは、人々に不快な分類を強制する必要がないことを意味する。
Provenanceは、アルゴリズムが危険を防ぐために何を知っているかを知ることを可能にする。
さらに、証明に関する不確実性は、アルゴリズムの信頼性を強調します。
正当でない、あるいは不可能な仮定をするよりも、私たちが知っていることを計算することが不可欠です。
本稿では、特にリスクの高いシナリオにおいて、倫理的AIの開発におけるリスクと不確実性の重要性について考察する。
不確実性(特に疫学的な不確実性)の扱いは、アルゴリズムが害を起こさないこと、信頼に値すること、そしてそれらが行う決定が人間であることを保証するために重要である、と論じている。
The appreciation and utilisation of risk and uncertainty can play a key role in helping to solve some of the many ethical issues that are posed by AI. Understanding the uncertainties can allow algorithms to make better decisions by providing interrogatable avenues to check the correctness of outputs. Allowing algorithms to deal with variability and ambiguity with their inputs means they do not need to force people into uncomfortable classifications. Provenance enables algorithms to know what they know preventing possible harms. Additionally, uncertainty about provenance highlights the trustworthiness of algorithms. It is essential to compute with what we know rather than make assumptions that may be unjustified or untenable. This paper provides a perspective on the need for the importance of risk and uncertainty in the development of ethical AI, especially in high-risk scenarios. It argues that the handling of uncertainty, especially epistemic uncertainty, is critical to ensuring that algorithms do not cause harm and are trustworthy and ensure that the decisions that they make are humane. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# チェックワードソーシャルメディアポスト検出のための多言語モデル
Multilingual Models for Check-Worthy Social Media Posts Detection ( http://arxiv.org/abs/2408.06737v1 ) ライセンス: Link先を確認 | Sebastian Kula, Michal Gregor, | (参考訳) 本研究は,検証済みの事実主張と有害な主張を含むソーシャルメディアポストの検出を目的とした,トランスフォーマーに基づくNLPモデルに関する広範な研究である。
この研究は、データセットの収集、データセットの事前処理、アーキテクチャの選択、設定の設定、モデルのトレーニング(微調整)、モデルテスト、実装など、さまざまなアクティビティをカバーしている。
この研究はさまざまなモデルの包括的分析を含み、同じモデルが英語とアラビア語、ブルガリア語、オランダ語、ポーランド語、チェコ語、スロバキア語といった低リソース言語の両方でソーシャルメディアの投稿を処理できる多言語モデルに特化している。
本研究の結果は, 最先端モデルに対して検証され, 提案モデルのロバスト性を示した。
この研究の新規性は、検証可能な事実的主張を効果的に含む有害なポストとポストを同時に検出できるマルチラベル多言語分類モデルの開発にある。
This work presents an extensive study of transformer-based NLP models for detection of social media posts that contain verifiable factual claims and harmful claims. The study covers various activities, including dataset collection, dataset pre-processing, architecture selection, setup of settings, model training (fine-tuning), model testing, and implementation. The study includes a comprehensive analysis of different models, with a special focus on multilingual models where the same model is capable of processing social media posts in both English and in low-resource languages such as Arabic, Bulgarian, Dutch, Polish, Czech, Slovak. The results obtained from the study were validated against state-of-the-art models, and the comparison demonstrated the robustness of the proposed models. The novelty of this work lies in the development of multi-label multilingual classification models that can simultaneously detect harmful posts and posts that contain verifiable factual claims in an efficient way. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# DiffLoRA: 拡散によるパーソナライズされた低ランク適応重量の生成
DiffLoRA: Generating Personalized Low-Rank Adaptation Weights with Diffusion ( http://arxiv.org/abs/2408.06740v1 ) ライセンス: Link先を確認 | Yujia Wu, Yiming Shi, Jiwei Wei, Chengwei Sun, Yuyang Zhou, Yang Yang, Heng Tao Shen, | (参考訳) パーソナライズされたテキスト・ツー・イメージ生成は、ユーザ定義のプロンプトで条件付けられた特定のアイデンティティの高忠実なポートレートを生成する能力において、大きな注目を集めている。
既存のメソッドではテスト時の微調整や、トレーニング済みのブランチの追加が一般的である。
しかしながら、これらのアプローチは効率性、アイデンティティの忠実さ、モデルのオリジナルの生成能力の維持という要求に同時に対処するのに苦労する。
本稿では,拡散モデルをハイパーネットワークとして活用し,参照画像に基づく個人化低ランク適応(LoRA)の重み付けを予測する手法であるDiffLoRAを提案する。
これらのLoRA重みをテキスト・ツー・イメージモデルに統合することにより、DiffLoRAは推論中のパーソナライズをさらなるトレーニングなしで達成する。
さらに、DiffLoRAのトレーニングを容易にするために、アイデンティティ指向のLoRA重み構築パイプラインを提案する。
このパイプラインによって生成されたデータセットを利用することで、DiffLoRAは一貫して高性能で正確なLoRA重みを生成します。
本手法の有効性を総合評価し, 個人化プロセスを通じて, 時間効率とアイデンティティの忠実さの両立を図った。
Personalized text-to-image generation has gained significant attention for its capability to generate high-fidelity portraits of specific identities conditioned on user-defined prompts. Existing methods typically involve test-time fine-tuning or instead incorporating an additional pre-trained branch. However, these approaches struggle to simultaneously address the demands of efficiency, identity fidelity, and preserving the model's original generative capabilities. In this paper, we propose DiffLoRA, a novel approach that leverages diffusion models as a hypernetwork to predict personalized low-rank adaptation (LoRA) weights based on the reference images. By integrating these LoRA weights into the text-to-image model, DiffLoRA achieves personalization during inference without further training. Additionally, we propose an identity-oriented LoRA weight construction pipeline to facilitate the training of DiffLoRA. By utilizing the dataset produced by this pipeline, our DiffLoRA consistently generates high-performance and accurate LoRA weights. Extensive evaluations demonstrate the effectiveness of our method, achieving both time efficiency and maintaining identity fidelity throughout the personalization process. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# 一般化に向けた合成画像検出の改善:画像変換の視点から
Improving Synthetic Image Detection Towards Generalization: An Image Transformation Perspective ( http://arxiv.org/abs/2408.06741v1 ) ライセンス: Link先を確認 | Ouxiang Li, Jiayin Cai, Yanbin Hao, Xiaolong Jiang, Yao Hu, Fuli Feng, | (参考訳) 画像合成を容易にする最近の生成モデルにより、合成画像の増殖は社会プラットフォームに一定の負の影響を及ぼし、効果的な検出器を開発するために緊急の衝動を生じさせている。
現在の合成画像検出(SID)パイプラインは、主に、SIDトレーニングパラダイムに関する監視を伴う、普遍的なアーティファクト機能の構築に向けられている。
本稿では、SID問題を再検討し、現在の訓練パラダイムにおける2つの偏り、すなわち、不足したアーティファクト特徴と過度に適合したアーティファクト特徴を同定する。
一方, 合成画像の撮像機構は, 画素間の局所的相関の増大に寄与し, 検出器に局所的認識を組み込むことが示唆された。
本稿では,3つの簡単な画像変換を行う軽量かつ効率的な検出器SAFEを提案する。
まず, 画像前処理において, ダウンサンプリング演算子をクロップ演算子に置き換えて, アーチファクトの歪みを回避する。
第二に、過度に適合したアーティファクト機能には、追加のデータ拡張としてColorJitterとRandomRotationが含まれています。
第3に、局所的な認識のために、SIDに適したパッチベースのランダムマスキング戦略を提案する。
比較実験は、26の異なる生成モデルによって生成された合成画像からなるオープンワールドデータセット上で実施される。
我々のパイプラインは、新しい最先端のパフォーマンスを実現し、既存の手法に対する平均精度は4.5%、平均精度は2.9%向上した。
With recent generative models facilitating photo-realistic image synthesis, the proliferation of synthetic images has also engendered certain negative impacts on social platforms, thereby raising an urgent imperative to develop effective detectors. Current synthetic image detection (SID) pipelines are primarily dedicated to crafting universal artifact features, accompanied by an oversight about SID training paradigm. In this paper, we re-examine the SID problem and identify two prevalent biases in current training paradigms, i.e., weakened artifact features and overfitted artifact features. Meanwhile, we discover that the imaging mechanism of synthetic images contributes to heightened local correlations among pixels, suggesting that detectors should be equipped with local awareness. In this light, we propose SAFE, a lightweight and effective detector with three simple image transformations. Firstly, for weakened artifact features, we substitute the down-sampling operator with the crop operator in image pre-processing to help circumvent artifact distortion. Secondly, for overfitted artifact features, we include ColorJitter and RandomRotation as additional data augmentations, to help alleviate irrelevant biases from color discrepancies and semantic differences in limited training samples. Thirdly, for local awareness, we propose a patch-based random masking strategy tailored for SID, forcing the detector to focus on local regions at training. Comparative experiments are conducted on an open-world dataset, comprising synthetic images generated by 26 distinct generative models. Our pipeline achieves a new state-of-the-art performance, with remarkable improvements of 4.5% in accuracy and 2.9% in average precision against existing methods. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# 長時間のアウト・オブ・ディストリビューション検出:タイルへの注意の優先順位付け
Long-Tailed Out-of-Distribution Detection: Prioritizing Attention to Tail ( http://arxiv.org/abs/2408.06742v1 ) ライセンス: Link先を確認 | Yina He, Lei Peng, Yongcun Zhang, Juanjuan Weng, Zhiming Luo, Shaozi Li, | (参考訳) 現在のアウト・オブ・ディストリビューション(OOD)検出法は、通常はバランスの取れたイン・ディストリビューション(ID)データを仮定する。
長い尾のOOD検出に対する以前のアプローチは、しばしばヘッドクラスのセマンティクスを減らしてIDデータのバランスをとる。
しかし、この削減はIDデータの分類精度に深刻な影響を及ぼす可能性がある。
このタスクの主な課題は、テールクラスの機能の深刻な欠如であり、OODデータとの混同につながります。
この問題に対処するために,削減ではなく拡張を用いたPATT法を提案する。
我々の主な直感は、von Mises-Fisher(vMF)分布を混合してIDデータと温度スケーリングモジュールをモデル化し、IDデータの信頼性を高めることである。
これにより、IDとOODデータの区別を促進しながら、IDクラスのセマンティクスを暗黙的に強化し、無限のコントラスト対を生成することができる。
IDデータの分類性能を損なうことなくOODデータの検出をさらに強化するため,推測フェーズにおける特徴キャリブレーションを提案する。
テールクラスを優先し、OODデータの信頼性を低下させる訓練セットから注意重みを抽出することにより、OOD検出能力を向上する。
大規模実験により,本手法は様々なベンチマークにおいて最先端の手法よりも優れていることを確認した。
Current out-of-distribution (OOD) detection methods typically assume balanced in-distribution (ID) data, while most real-world data follow a long-tailed distribution. Previous approaches to long-tailed OOD detection often involve balancing the ID data by reducing the semantics of head classes. However, this reduction can severely affect the classification accuracy of ID data. The main challenge of this task lies in the severe lack of features for tail classes, leading to confusion with OOD data. To tackle this issue, we introduce a novel Prioritizing Attention to Tail (PATT) method using augmentation instead of reduction. Our main intuition involves using a mixture of von Mises-Fisher (vMF) distributions to model the ID data and a temperature scaling module to boost the confidence of ID data. This enables us to generate infinite contrastive pairs, implicitly enhancing the semantics of ID classes while promoting differentiation between ID and OOD data. To further strengthen the detection of OOD data without compromising the classification performance of ID data, we propose feature calibration during the inference phase. By extracting an attention weight from the training set that prioritizes the tail classes and reduces the confidence in OOD data, we improve the OOD detection capability. Extensive experiments verified that our method outperforms the current state-of-the-art methods on various benchmarks. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# ラベル抽出によるクラス認識と拡張不要なコントラスト学習
Class-aware and Augmentation-free Contrastive Learning from Label Proportion ( http://arxiv.org/abs/2408.06743v1 ) ライセンス: Link先を確認 | Jialiang Wang, Ning Zhang, Shimin Di, Ruidong Wang, Lei Chen, | (参考訳) LLP(Learning from Label Proportion)は、トレーニングデータを予め定義されたインスタンスのバッグに整理し、バッグごとのクラスラベル比率のみを開示する、弱い教師付き学習シナリオである。
このパラダイムは、ユーザのプライバシが最重要であるユーザモデリングとパーソナライズに不可欠であり、個々のデータを明らかにすることなく、ユーザの好みに関する洞察を提供する。
LLPは、バッグレベルの監督とインスタンスレベルの予測の目的の相違、主にラベルの比率マッチングに固有の曖昧さが原因で、独特な困難に直面している。
従来の研究では、深層表現学習が補助信号を生成し、画像領域の監督レベルを促進することが示されている。
しかし、これらのテクニックを表データに適用すると、大きな課題が浮かび上がる。
1)多視点の確立にはラベル不変の拡張に大きく依存しており、表形式のデータセットの異種性には対応できない。
2) 表形式のデータセットは, 完全クラス区別に十分な意味を欠くことが多く, ラベル比例マッチングの本来のあいまいさによって生じる過度な最適性に陥る傾向がある。
これらの課題に対処するために、インスタンスレベルでクラス認識の監督(クラス差を明示的に認識する)を導入する拡張フリーコントラストフレームワークであるTabLLP-BDCを提案する。
提案手法は,バッグラベル比のニュアンスを,増量に頼ることなく分解することで,堅牢なクラス認識型インスタンスレベルの監視を確立する2段階のBag差分比較学習機構を特徴とする。
同時に,本モデルでは,ラベルの比率分布に則って,内在的な表型特徴相関を捉えた,表型LPPに適したマルチタスク事前学習パイプラインを考案した。
拡張実験により,TabLLP-BDCは表領域におけるLPPの最先端性能を実現することが示された。
Learning from Label Proportion (LLP) is a weakly supervised learning scenario in which training data is organized into predefined bags of instances, disclosing only the class label proportions per bag. This paradigm is essential for user modeling and personalization, where user privacy is paramount, offering insights into user preferences without revealing individual data. LLP faces a unique difficulty: the misalignment between bag-level supervision and the objective of instance-level prediction, primarily due to the inherent ambiguity in label proportion matching. Previous studies have demonstrated deep representation learning can generate auxiliary signals to promote the supervision level in the image domain. However, applying these techniques to tabular data presents significant challenges: 1) they rely heavily on label-invariant augmentation to establish multi-view, which is not feasible with the heterogeneous nature of tabular datasets, and 2) tabular datasets often lack sufficient semantics for perfect class distinction, making them prone to suboptimality caused by the inherent ambiguity of label proportion matching. To address these challenges, we propose an augmentation-free contrastive framework TabLLP-BDC that introduces class-aware supervision (explicitly aware of class differences) at the instance level. Our solution features a two-stage Bag Difference Contrastive (BDC) learning mechanism that establishes robust class-aware instance-level supervision by disassembling the nuance between bag label proportions, without relying on augmentations. Concurrently, our model presents a pioneering multi-task pretraining pipeline tailored for tabular-based LLP, capturing intrinsic tabular feature correlations in alignment with label proportion distribution. Extensive experiments demonstrate that TabLLP-BDC achieves state-of-the-art performance for LLP in the tabular domain. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# ReCLIP++: 教師なしセマンティックセグメンテーションのためのCLIPのバイアスの明確化を学ぶ
ReCLIP++: Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2408.06747v1 ) ライセンス: Link先を確認 | Jingyun Wang, Guoliang Kang, | (参考訳) 最近の研究では、CLIPを使用して、アノテーションのない画像のみが利用可能な、教師なしセマンティックセマンティックセマンティクスタスクを実行している。
しかし,このようなピクセルレベルの理解タスクにCLIPを採用すると,予期せぬバイアス(クラス参照バイアスや空間参照バイアスを含む)が発生することが観察された。
それまでの作業は、偏見を明示的にモデル化するものではありません。
本稿では,CLIPに存在するバイアスを明示的にモデル化し,修正し,教師なしセマンティックセマンティックセマンティクス作業を容易にすることを提案する。
具体的には、クラス参照バイアスを符号化する学習可能な'参照'プロンプトと、空間参照バイアスをそれぞれ符号化するビジョントランスフォーマーへの位置埋め込みの投影を設計する。
干渉を避けるために、まず2種類のバイアスを基準特徴と位置特徴に独立に符号化する。
2つの特徴間の行列乗法により、2種類のバイアスを明示的に表すバイアスロジットマップが生成される。
次に、簡単な要素単位の減算によってCLIPのロジットを修正します。
修正結果をよりスムーズかつコンテキスト的にするために,CLIPと修正ロジットを入力として取り込んだマスクデコーダを設計し,Gumbel-Softmax操作の助けを借りて修正セグメンテーションマスクを出力する。
バイアスモデリング及び修正プロセスを有意義かつ効果的にするために、マスキングされた視覚特徴と異なるクラスのテキスト特徴とに基づく対照的な損失を課す。
さらにセグメンテーションを改善するため、我々は、修正CLIPから高度なセグメンテーションアーキテクチャへの知識を、設計したマスク誘導型、特徴誘導型、テキスト誘導型損失項を最小化することで、蒸留する。
様々なベンチマーク実験により、ReCLIP++は以前のSOTAに対して好意的に機能することが示された。
実装は、https://github.com/dogehhh/ReCLIP.comで公開されている。
Recent works utilize CLIP to perform the challenging unsupervised semantic segmentation task where only images without annotations are available. However, we observe that when adopting CLIP to such a pixel-level understanding task, unexpected bias (including class-preference bias and space-preference bias) occurs. Previous works don't explicitly model the bias, which largely constrains the segmentation performance. In this paper, we propose to explicitly model and rectify the bias existing in CLIP to facilitate the unsupervised semantic segmentation task. Specifically, we design a learnable ''Reference'' prompt to encode class-preference bias and a projection of the positional embedding in vision transformer to encode space-preference bias respectively. To avoid interference, two kinds of biases are firstly independently encoded into the Reference feature and the positional feature. Via a matrix multiplication between two features, a bias logit map is generated to explicitly represent two kinds of biases. Then we rectify the logits of CLIP via a simple element-wise subtraction. To make the rectified results smoother and more contextual, we design a mask decoder which takes the feature of CLIP and rectified logits as input and outputs a rectified segmentation mask with the help of Gumbel-Softmax operation. To make the bias modeling and rectification process meaningful and effective, a contrastive loss based on masked visual features and the text features of different classes is imposed. To further improve the segmentation, we distill the knowledge from the rectified CLIP to the advanced segmentation architecture via minimizing our designed mask-guided, feature-guided and text-guided loss terms. Extensive experiments on various benchmarks demonstrate that ReCLIP++ performs favorably against previous SOTAs. The implementation is available at: https://github.com/dogehhh/ReCLIP. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# 大規模言語モデルによる研究品質の評価:設定と入力の異なるChatGPTの有効性の分析
Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs ( http://arxiv.org/abs/2408.06752v1 ) ライセンス: Link先を確認 | Mike Thelwall, | (参考訳) 学術雑誌記事の質を評価することは、国家研究評価演習、任命、昇進に時間を要するが重要な課題である。
したがって,このプロセスにおいてLLM(Large Language Models)が果たす役割について検討することが重要である。
本稿では、ChatGPTがどの入力を入力するか(表、図、参照のないフルテキスト、タイトルと抽象、タイトルのみ)を評価し、スコアがChatGPTモデルやシステムプロンプトの影響を受けやすいかを評価する。
その結果、最適な入力は記事のタイトルと抽象であり、これらに基づいて平均的なChatGPTスコア(51論文のデータセットの30イテレーション)が0.67と人間スコアと関連していることがわかった。
ChatGPT 4oは3.5ターボ(0.66)と4oミニ(0.66)より若干良い。
論文全文は,単純なものよりも複雑なシステム命令が効果的であるにもかかわらず,LSMの研究品質評価を混乱させる可能性が示唆された。
したがって、抽象論は厳密さの徹底的な評価に不十分な情報を含んでいる一方で、独創性と重要性に関する強い指摘を含んでいるかもしれない。
最後に、線形回帰はモデルスコアを人間のスケールスコアに変換するのに使用することができる。
Evaluating the quality of academic journal articles is a time consuming but critical task for national research evaluation exercises, appointments and promotion. It is therefore important to investigate whether Large Language Models (LLMs) can play a role in this process. This article assesses which ChatGPT inputs (full text without tables, figures and references; title and abstract; title only) produce better quality score estimates, and the extent to which scores are affected by ChatGPT models and system prompts. The results show that the optimal input is the article title and abstract, with average ChatGPT scores based on these (30 iterations on a dataset of 51 papers) correlating at 0.67 with human scores, the highest ever reported. ChatGPT 4o is slightly better than 3.5-turbo (0.66), and 4o-mini (0.66). The results suggest that article full texts might confuse LLM research quality evaluations, even though complex system instructions for the task are more effective than simple ones. Thus, whilst abstracts contain insufficient information for a thorough assessment of rigour, they may contain strong pointers about originality and significance. Finally, linear regression can be used to convert the model scores into the human scale scores, which is 31% more accurate than guessing. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# 微細不整合によるオーディオ・ビジュアルディープフェイクの検出
Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies ( http://arxiv.org/abs/2408.06753v1 ) ライセンス: Link先を確認 | Marcella Astrid, Enjie Ghorbel, Djamila Aouada, | (参考訳) オーディオ・ビジュアル・ディープフェイク検出における既存の手法は、主に音声と視覚データの不整合をモデル化するための高レベルな特徴に焦点を当てている。
結果として、これらのアプローチは通常、ディープフェイクに固有の、より微細なオーディオ視覚アーチファクトを見落としている。
本稿では,空間領域と時間領域の両方において微妙なアーティファクトを検出するためのきめ細かいメカニズムを提案する。
まず,音声との不整合が生じやすい小さな空間領域を撮影できる局所視覚モデルを提案する。
その目的のために、アテンションモジュールと結合された空間的局所距離に基づくきめ細かいメカニズムを採用する。
第2に、トレーニングセットに微妙な時間的不整合を取り入れたサンプルを含む、時間的に局所的な擬似フェイク増強を導入する。
DFDC と FakeAVCeleb データセットを用いた実験により,提案手法の一般化における優位性を示した。
Existing methods on audio-visual deepfake detection mainly focus on high-level features for modeling inconsistencies between audio and visual data. As a result, these approaches usually overlook finer audio-visual artifacts, which are inherent to deepfakes. Herein, we propose the introduction of fine-grained mechanisms for detecting subtle artifacts in both spatial and temporal domains. First, we introduce a local audio-visual model capable of capturing small spatial regions that are prone to inconsistencies with audio. For that purpose, a fine-grained mechanism based on a spatially-local distance coupled with an attention module is adopted. Second, we introduce a temporally-local pseudo-fake augmentation to include samples incorporating subtle temporal inconsistencies in our training set. Experiments on the DFDC and the FakeAVCeleb datasets demonstrate the superiority of the proposed method in terms of generalization as compared to the state-of-the-art under both in-dataset and cross-dataset settings. | 翻訳日:2024-08-14 18:07:03 公開日:2024-08-13 |
# Sumotosima: 眼底画像の分類と要約のためのフレームワークとデータセット
Sumotosima: A Framework and Dataset for Classifying and Summarizing Otoscopic Images ( http://arxiv.org/abs/2408.06755v1 ) ライセンス: Link先を確認 | Eram Anwarul Khan, Anas Anwarul Haq Khan, | (参考訳) オトスコープ(Otoscopy)は、耳管と耳栓を内視鏡で検査する診断法である。
感染、異物、耳のドラムの穿孔、耳の異常などの症状を識別する。
本稿では,新しい資源効率のよい深層学習・変圧器ベースのフレームワークSumotosimaを提案する。
私たちのフレームワークは、三重項とクロスエントロピー損失の組み合わせに取り組んでいます。
さらに,テキストと画像の埋め込みを融合したKnowledge Enhanced Multimodal BARTを使用する。
本研究の目的は, 患者に適した要約を提供することであり, 内視鏡画像の理解において, 明瞭さと効率性を確保することである。
既存のデータセットが欠如していることを踏まえ,我々は独自のOCASD (Otoscopic Classification And Summary Dataset) をキュレートした。
スモトシマは98.03%を達成し、これはK-Nearest Neighbors、Random Forest、Support Vector Machinesよりも7.00%、3.10%、3.01%高い。
要約すると、スモトシマはGPT-4oとLLaVAを88.53%、ROUGEスコアは107.57%で上回った。
私たちはコードとデータセットをhttps://github.com/anas2908/Sumotosimaで公開しました。
Otoscopy is a diagnostic procedure to examine the ear canal and eardrum using an otoscope. It identifies conditions like infections, foreign bodies, ear drum perforations and ear abnormalities. We propose a novel resource efficient deep learning and transformer based framework, Sumotosima (Summarizer for otoscopic images), an end-to-end pipeline for classification followed by summarization. Our framework works on combination of triplet and cross-entropy losses. Additionally, we use Knowledge Enhanced Multimodal BART whose input is fused textual and image embedding. The objective is to provide summaries that are well-suited for patients, ensuring clarity and efficiency in understanding otoscopic images. Given the lack of existing datasets, we have curated our own OCASD (Otoscopic Classification And Summary Dataset), which includes 500 images with 5 unique categories annotated with their class and summaries by Otolaryngologists. Sumotosima achieved a result of 98.03%, which is 7.00%, 3.10%, 3.01% higher than K-Nearest Neighbors, Random Forest and Support Vector Machines, respectively, in classification tasks. For summarization, Sumotosima outperformed GPT-4o and LLaVA by 88.53% and 107.57% in ROUGE scores, respectively. We have made our code and dataset publicly available at https://github.com/anas2908/Sumotosima | 翻訳日:2024-08-14 18:07:02 公開日:2024-08-13 |
# KubernetesとJupyterのノートブックによる量子開発者エクスペリエンスの改善
Improving Quantum Developer Experience with Kubernetes and Jupyter Notebooks ( http://arxiv.org/abs/2408.06756v1 ) ライセンス: Link先を確認 | Otso Kinanen, Andrés D. Muñoz-Moller, Vlad Stirbu, Tommi Mikkonen, | (参考訳) 量子コンピューティングは、多くの科学的および産業的なアプリケーションドメインを根本的に変換できる革命的パラダイムを提案する。
この約束を実現するために、新しい機能には、そのパワーを効果的に活用できるソフトウェアソリューションが必要である。
しかし、開発者は、古典的なシステム上で量子コンピュータをシミュレートする高い計算要求のために、量子ソフトウェアを開発する際に重大な課題に直面している。
本稿では,量子ソフトウェア開発者の経験を改善するために,アクセシブルで費用効率のよい遠隔計算機能を利用することの可能性について検討する。
Quantum computing proposes a revolutionary paradigm that can radically transform numerous scientific and industrial application domains. To realize this promise, new capabilities need software solutions that are able to effectively harness its power. However, developers face significant challenges when developing quantum software due to the high computational demands of simulating quantum computers on classical systems. In this paper, we investigate the potential of using an accessible and cost-efficient manner remote computational capabilities to improve the experience of quantum software developers. | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# 最大カットから最大独立セットへ
From Maximum Cut to Maximum Independent Set ( http://arxiv.org/abs/2408.06758v1 ) ライセンス: Link先を確認 | Chuixiong Wu, Jianan Wang, Fen Zuo, | (参考訳) 最大カット(Max-Cut)問題は、二次非拘束バイナリ最適化(QUBO)の定式化やイジングモデル(Ising model)として自然に表現できる。
最大独立集合(MIS)問題も特定のイジングモデルと関係があることは以前から知られていた。
したがって、様々なMax-Cut/IsingソルバでMISを攻撃するのは自然なことである。
この戦略は、ランダムな Erd\H{o}s-R\'{e}nyi グラフの独立性の近似を大幅に改善する。
また、コーディング理論から生じるベンチマークで完全なパフォーマンスを示す。
これらの結果は、MIS上の近似量子アルゴリズム、特に対応する符号化問題において、さらなる発展の道を開くものである。
The Maximum Cut (Max-Cut) problem could be naturally expressed either in a Quadratic Unconstrained Binary Optimization (QUBO) formulation, or as an Ising model. It has long been known that the Maximum Independent Set (MIS) problem could also be related to a specific Ising model. Therefore, it would be natural to attack MIS with various Max-Cut/Ising solvers. It turns out that this strategy greatly improves the approximation for the independence number of random Erd\H{o}s-R\'{e}nyi graphs. It also exhibits perfect performance on a benchmark arising from coding theory. These results pave the way for further development of approximate quantum algorithms on MIS, and specifically on the corresponding coding problems. | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# ストリートビューとVHR衛星画像を用いたクロスビュー測地と災害マッピング:ハリケーンIANを事例として
Cross-View Geolocalization and Disaster Mapping with Street-View and VHR Satellite Imagery: A Case Study of Hurricane IAN ( http://arxiv.org/abs/2408.06761v1 ) ライセンス: Link先を確認 | Hao Li, Fabian Deuser, Wenping Yina, Xuanshu Luo, Paul Walther, Gengchen Mai, Wei Huang, Martin Werner, | (参考訳) 自然災害は、都市と都市との相互作用を形作る上で重要な役割を担っている。
自然災害に対する効果的かつ効率的な対応は、レジリエンスと持続可能な都市環境の構築に不可欠である。
2種類の情報は通常、災害対応において最も必要であり、収集が困難である。
最初の情報は災害に対する認識であり、都市インフラが被害を受けたと考える人々がどれほどひどいかを示している。
第二の情報として位置情報の認識がある。
本稿では,SVI(Street-View Imagery)とVery High-Resolution(高分解能)の衛星画像を用いた局地化と損傷知覚推定を同時に行うことを目的とした,新しい災害対応フレームワークCVDisasterを提案する。
CVDisasterは2つのクロスビューモデルから構成されており、CVDisaster-GeolocはSamese ConvNeXtイメージエンコーダによる対照的な学習目標に基づくクロスビュージオローカライゼーションモデルであり、CVDisaster-EstはCouple Global Context Vision Transformer (CGCViT)に基づくクロスビュー分類モデルである。
ハリケーンIANを事例として,新しいクロスビューデータセット(CVIAN)を作成し,広範な実験を行うことでCVDisasterフレームワークを評価する。
その結果,CVDisasterはより広範なGeoAI研究コミュニティにおいて,将来的なクロスビューモデルや応用の動機となる微調整を限定して,高度に競争力のある性能(ジオローカライゼーションの80%以上,損傷知覚の推定の75%以上)を達成できることが示唆された。
データとコードは、https://github.com/tum-bgd/CVDisaster.comで公開されている。
Nature disasters play a key role in shaping human-urban infrastructure interactions. Effective and efficient response to natural disasters is essential for building resilience and a sustainable urban environment. Two types of information are usually the most necessary and difficult to gather in disaster response. The first information is about disaster damage perception, which shows how badly people think that urban infrastructure has been damaged. The second information is geolocation awareness, which means how people whereabouts are made available. In this paper, we proposed a novel disaster mapping framework, namely CVDisaster, aiming at simultaneously addressing geolocalization and damage perception estimation using cross-view Street-View Imagery (SVI) and Very High-Resolution satellite imagery. CVDisaster consists of two cross-view models, where CVDisaster-Geoloc refers to a cross-view geolocalization model based on a contrastive learning objective with a Siamese ConvNeXt image encoder, and CVDisaster-Est is a cross-view classification model based on a Couple Global Context Vision Transformer (CGCViT). Taking Hurricane IAN as a case study, we evaluate the CVDisaster framework by creating a novel cross-view dataset (CVIAN) and conducting extensive experiments. As a result, we show that CVDisaster can achieve highly competitive performance (over 80% for geolocalization and 75% for damage perception estimation) with even limited fine-tuning efforts, which largely motivates future cross-view models and applications within a broader GeoAI research community. The data and code are publicly available at: https://github.com/tum-bgd/CVDisaster. | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# 共ドメイン被覆を用いた深部ニューラルネットワークのロバストブラックボックス試験
Robust Black-box Testing of Deep Neural Networks using Co-Domain Coverage ( http://arxiv.org/abs/2408.06766v1 ) ライセンス: Link先を確認 | Aishwarya Gupta, Indranil Saha, Piyush Rai, | (参考訳) 信頼できるデプロイメントには、マシンラーニングモデルの厳格なテストが必要です。
本稿では,ディープニューラルネットワーク(DNN)の堅牢なテストのためのテストスイートを生成するための,新しいブラックボックスアプローチを提案する。
既存のほとんどの方法は、テスト入力によって活性化されるニューロンの分数など、いくつかの"カバレッジ"基準/メトリックを最大化するテスト入力を生成する。
しかしながら、このようなアプローチは、各ニューロンの振る舞いや各レイヤの出力を独立して分析することしかできず、DNNの出力に対してそれらの集団的効果を捉えることができないため、しばしばDNNの様々な障害モードを適切に捉えないテストスイートが生成される。
これらのアプローチはまた、ホワイトボックスアクセス、すなわちDNNの内部(ノードのアクティベーション)へのアクセスを必要とする。
本稿では,モデル出力の関数として定義され,そのエンド・ツー・エンドの振る舞いを考慮に入れた,新しいブラックボックスカバレッジ基準であるコドメインカバレッジ(CDC)を提案する。
その後、CDCを用いてファジィングプロセスをガイドし、DNN用のテストスイートを生成する、CoDoFuzzと呼ばれる新しいファジィテスト手順を開発した。
我々は、CoDoFuzzが生成したテストスイートを、6つの公開データセットでトレーニングされたDNNに対して、最先端のカバレッジベースのファジテスト手法を用いて生成されたものと比較した。
実験結果から,CoDoFuzzの誤分類入力の最大数と,その決定に対する信頼性に欠ける入力の効率性と有効性が確認された。
Rigorous testing of machine learning models is necessary for trustworthy deployments. We present a novel black-box approach for generating test-suites for robust testing of deep neural networks (DNNs). Most existing methods create test inputs based on maximizing some "coverage" criterion/metric such as a fraction of neurons activated by the test inputs. Such approaches, however, can only analyze each neuron's behavior or each layer's output in isolation and are unable to capture their collective effect on the DNN's output, resulting in test suites that often do not capture the various failure modes of the DNN adequately. These approaches also require white-box access, i.e., access to the DNN's internals (node activations). We present a novel black-box coverage criterion called Co-Domain Coverage (CDC), which is defined as a function of the model's output and thus takes into account its end-to-end behavior. Subsequently, we develop a new fuzz testing procedure named CoDoFuzz, which uses CDC to guide the fuzzing process to generate a test suite for a DNN. We extensively compare the test suite generated by CoDoFuzz with those generated using several state-of-the-art coverage-based fuzz testing methods for the DNNs trained on six publicly available datasets. Experimental results establish the efficiency and efficacy of CoDoFuzz in generating the largest number of misclassified inputs and the inputs for which the model lacks confidence in its decision. | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# 各種環境条件下におけるレーダベース3次元物体検出における領域シフトの探索
Exploring Domain Shift on Radar-Based 3D Object Detection Amidst Diverse Environmental Conditions ( http://arxiv.org/abs/2408.06772v1 ) ライセンス: Link先を確認 | Miao Zhang, Sherif Abdulatif, Benedikt Loesch, Marco Altmann, Marius Schwarz, Bin Yang, | (参考訳) ディープラーニングの急速な進化と自律運転システムとの統合は、マルチモーダルセンサーを用いた3次元認識の大幅な進歩をもたらした。
特にレーダーセンサーは、悪天候や様々な照明条件下でのカメラやライダーと比較して、より頑丈である。
この研究は、4Dレーダーによる物体検出におけるドメインシフトがしばしば見過ごされがちな課題を掘り下げ、異なる気象パターンや道路タイプなどの環境条件が3D物体検出性能に与える影響について検討した。
この結果から,レーダポイント雲の生成において重要な役割を担っている,ユニークなデータセットの感度が明らかになった。
さらに,道路タイプの違い,特に高速道路から都市環境への移行は,様々な道路環境にまたがる多様なデータ収集の必要性を強調し,顕著な領域シフトをもたらすことを示した。
我々の知る限りでは、これが4Dレーダーによる物体検出におけるドメインシフト効果の包括的な分析としては初めてである。
この実証研究は、レーダーデータにおける領域シフトの複雑な性質の理解に寄与し、環境変動に直面したデータ収集戦略の道筋を提案する。
The rapid evolution of deep learning and its integration with autonomous driving systems have led to substantial advancements in 3D perception using multimodal sensors. Notably, radar sensors show greater robustness compared to cameras and lidar under adverse weather and varying illumination conditions. This study delves into the often-overlooked yet crucial issue of domain shift in 4D radar-based object detection, examining how varying environmental conditions, such as different weather patterns and road types, impact 3D object detection performance. Our findings highlight distinct domain shifts across various weather scenarios, revealing unique dataset sensitivities that underscore the critical role of radar point cloud generation. Additionally, we demonstrate that transitioning between different road types, especially from highways to urban settings, introduces notable domain shifts, emphasizing the necessity for diverse data collection across varied road environments. To the best of our knowledge, this is the first comprehensive analysis of domain shift effects on 4D radar-based object detection. We believe this empirical study contributes to understanding the complex nature of domain shifts in radar data and suggests paths forward for data collection strategy in the face of environmental variability. | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# 部分観測可能な配電系統におけるインバータを用いたボルトバリア制御のためのロバスト深部強化学習
Robust Deep Reinforcement Learning for Inverter-based Volt-Var Control in Partially Observable Distribution Networks ( http://arxiv.org/abs/2408.06776v1 ) ライセンス: Link先を確認 | Qiong Liu, Ye Guo, Tong Xu, | (参考訳) 本稿では,インバータを用いたVolt-var制御について述べる。
DRLベースのアプローチにおける重要な問題のひとつは、アクティブな分散ネットワークにおける限られた測定配置であり、これは部分的に観測可能な状態と未知の報酬の問題を引き起こす。
このような問題に対処するために,保守的な批評家と代理的な報酬を持つ堅牢なDRLアプローチを提案する。
保守的評論家は、量子レグレッション技術を用いて、部分的に観測可能な状態に基づいて保守的状態-動作値関数を推定し、堅牢な政策の訓練を支援する。
提案手法は、他のバスの電圧プロファイルを間接的に改善しつつ、測定可能な電圧を持つバスのネットワーク全体の電力損失と電圧プロファイルを最適化する。
ルートバスのアクティブ電力注入とバス電圧の10%未満が測定可能である場合でも, 異なる測定条件下でのロバストDRLアプローチの有効性を検証する。
Inverter-based volt-var control is studied in this paper. One key issue in DRL-based approaches is the limited measurement deployment in active distribution networks, which leads to problems of a partially observable state and unknown reward. To address those problems, this paper proposes a robust DRL approach with a conservative critic and a surrogate reward. The conservative critic utilizes the quantile regression technology to estimate conservative state-action value function based on the partially observable state, which helps to train a robust policy; the surrogate rewards of power loss and voltage violation are designed that can be calculated from the limited measurements. The proposed approach optimizes the power loss of the whole network and the voltage profile of buses with measurable voltages while indirectly improving the voltage profile of other buses. Extensive simulations verify the effectiveness of the robust DRL approach in different limited measurement conditions, even when only the active power injection of the root bus and less than 10% of bus voltages are measurable. | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# 高速かつフルーガルなテキストグラフ変換器は効果的なリンク予測器である
Fast-and-Frugal Text-Graph Transformers are Effective Link Predictors ( http://arxiv.org/abs/2408.06778v1 ) ライセンス: Link先を確認 | Andrei C. Coman, Christos Theodoropoulos, Marie-Francine Moens, James Henderson, | (参考訳) リンク予測モデルは、エンティティとリレーションのテキスト記述を取り入れることで、動的グラフに完全に帰納的学習と柔軟性を実現することができる。
テキスト記述とグラフ構造を効果的に統合し,リソース集約型テキストエンコーダへの依存を軽減し,トランスフォーマーベースのアプローチを導入することで,エンティティとその関係に関するリッチな構造化情報を取得するという課題にも対処する。
本稿では,FnF-TG(Fast-and-Frugal Text-Graph)トランスフォーマーの高速化とスケーラビリティを両立させながら,従来の最先端手法よりも優れた性能を実現していることを示す。
Link prediction models can benefit from incorporating textual descriptions of entities and relations, enabling fully inductive learning and flexibility in dynamic graphs. We address the challenge of also capturing rich structured information about the local neighbourhood of entities and their relations, by introducing a Transformer-based approach that effectively integrates textual descriptions with graph structure, reducing the reliance on resource-intensive text encoders. Our experiments on three challenging datasets show that our Fast-and-Frugal Text-Graph (FnF-TG) Transformers achieve superior performance compared to the previous state-of-the-art methods, while maintaining efficiency and scalability. | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# ED$^4$: ディープフェイク検出のための明示的なデータレベルのデバイアス
ED$^4$: Explicit Data-level Debiasing for Deepfake Detection ( http://arxiv.org/abs/2408.06779v1 ) ライセンス: Link先を確認 | Jikang Cheng, Ying Zhang, Qin Zou, Zhiyuan Yan, Chao Liang, Zhongyuan Wang, Chen Li, | (参考訳) 限られたデータから固有のバイアスを学習することは、一般化可能なディープフェイク検出の失敗の主な原因と考えられている。
検出された内容と特定の偽造バイアスとは別に、検出器が画像中心に現れる構造的偽造の手がかりを慣性的に予測する新しい空間バイアスが、既存の手法の一般化に繋がる可能性がある。
ネットワーク設計による暗黙の絡み合いではなく、上記のバイアスを統一されたフレームワークにおけるデータレベルで明示的に解決するための、単純で効果的な戦略であるED$^4$を提案する。
特に,任意のサンプルを用いた顔構造保存混合物を生成するためにClockMixを開発した。これにより,より多様なアイデンティティ,背景,局所的な操作トレース,および複数の偽物の共起による指数関数的に拡張されたデータ分布から学習することができる。
さらに,空間バイアスのある特徴の抽出を防止するためのAdvSCM(Adversarial Spatial Consistency Module)を提案する。
モデルに依存しないデビアシング戦略として、ED$^4$はプラグアンドプレイであり、様々なディープフェイク検出器と統合して大きな利益を得ることができる。
我々は,既存のディープフェイク検出手法よりも有効性と優位性を示すため,広範囲な実験を行った。
Learning intrinsic bias from limited data has been considered the main reason for the failure of deepfake detection with generalizability. Apart from the discovered content and specific-forgery bias, we reveal a novel spatial bias, where detectors inertly anticipate observing structural forgery clues appearing at the image center, also can lead to the poor generalization of existing methods. We present ED$^4$, a simple and effective strategy, to address aforementioned biases explicitly at the data level in a unified framework rather than implicit disentanglement via network design. In particular, we develop ClockMix to produce facial structure preserved mixtures with arbitrary samples, which allows the detector to learn from an exponentially extended data distribution with much more diverse identities, backgrounds, local manipulation traces, and the co-occurrence of multiple forgery artifacts. We further propose the Adversarial Spatial Consistency Module (AdvSCM) to prevent extracting features with spatial bias, which adversarially generates spatial-inconsistent images and constrains their extracted feature to be consistent. As a model-agnostic debiasing strategy, ED$^4$ is plug-and-play: it can be integrated with various deepfake detectors to obtain significant benefits. We conduct extensive experiments to demonstrate its effectiveness and superiority over existing deepfake detection approaches. | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# Vision-Language Foundational Modelは、ロバストな視覚知覚を示すか?
Do Vision-Language Foundational models show Robust Visual Perception? ( http://arxiv.org/abs/2408.06781v1 ) ライセンス: Link先を確認 | Shivam Chandhok, Pranav Tandon, | (参考訳) 近年の視覚言語基盤モデルの進歩により、視覚的理解と推論のタスクを実行できるシステムの開発が可能になった。
しかし、これらのモデルが分散シフトに頑健なのか、その性能と一般化能力がデータ分散の変化の下でどのように変化するのかは明らかでない。
このプロジェクトでは、"人間の知覚のような分散シフトに頑健なビジョン言語基盤モデルがあるか?
具体的には、様々な視覚言語モデルについて考察し、実際の現実のシナリオで一般的に見られるような腐敗に基づく分布変化(例えば、‘textit{motion blur, fog, snow, gaussian noise}’)によって、これらのシステムの性能がどのように影響を受けるかを比較する。
我々は、上記の分布シフトの下で、ゼロショット画像分類タスクに対して、定性的かつ定量的に一般化能力を解析する。
私たちのコードは \url{https://github.com/shivam-chandhok/CPSC-540-Project} で利用可能になります。
Recent advances in vision-language foundational models have enabled development of systems that can perform visual understanding and reasoning tasks. However, it is unclear if these models are robust to distribution shifts, and how their performance and generalization capabilities vary under changes in data distribution. In this project we strive to answer the question "Are vision-language foundational models robust to distribution shifts like human perception?" Specifically, we consider a diverse range of vision-language models and compare how the performance of these systems is affected by corruption based distribution shifts (such as \textit{motion blur, fog, snow, gaussian noise}) commonly found in practical real-world scenarios. We analyse the generalization capabilities qualitatively and quantitatively on zero-shot image classification task under aforementioned distribution shifts. Our code will be avaible at \url{https://github.com/shivam-chandhok/CPSC-540-Project} | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# 最適量子アニールプロトコルのロバスト性
Robustness of optimal quantum annealing protocols ( http://arxiv.org/abs/2408.06782v1 ) ライセンス: Link先を確認 | Niklas Funcke, Julian Berberich, | (参考訳) 量子コンピューティングデバイスのノイズは、その実現に重要な課題をもたらす。
本稿では,現在の量子デバイスに有害な影響をもたらすハミルトニアン誤差であるコヒーレント制御誤差に対する最適量子アニールプロトコルのロバスト性について検討する。
ハミルトンのノルムはこれらの誤りに対するロバスト性を定量化し、コスト関数に追加の正規化項を導入する動機となっている。
我々はポントリャーギンの最大原理に基づいて、結果として生じるロバストな量子最適制御問題の最適条件を解析し、ロバストなプロトコルがより大きな滑らかなアニール断面積を持つことを示した。
このことは、量子近似最適化アルゴリズムのようなバンバン解と比較して、量子アニールはロバスト性を向上させることを示唆している。
最後に,解析結果を検証し,提案手法のロバスト性向上を実証するために数値シミュレーションを行った。
Noise in quantum computing devices poses a key challenge in their realization. In this paper, we study the robustness of optimal quantum annealing protocols against coherent control errors, which are multiplicative Hamlitonian errors causing detrimental effects on current quantum devices. We show that the norm of the Hamiltonian quantifies the robustness against these errors, motivating the introduction of an additional regularization term in the cost function. We analyze the optimality conditions of the resulting robust quantum optimal control problem based on Pontryagin's maximum principle, showing that robust protocols admit larger smooth annealing sections. This suggests that quantum annealing admits improved robustness in comparison to bang-bang solutions such as the quantum approximate optimization algorithm. Finally, we perform numerical simulations to verify our analytical results and demonstrate the improved robustness of the proposed approach. | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# 糖尿病網膜症診断の強化 : 網膜基底画像の効率的な抽出のための軽量CNNアーキテクチャ
Enhancing Diabetic Retinopathy Diagnosis: A Lightweight CNN Architecture for Efficient Exudate Detection in Retinal Fundus Images ( http://arxiv.org/abs/2408.06784v1 ) ライセンス: Link先を確認 | Mujadded Al Rabbani Alif, | (参考訳) 網膜基底像は糖尿病網膜症の様々な段階の診断において重要な役割を担っている。
これらの抽出液のプロンプト検出は、オプトメトリストが病気の進行を逮捕または著しく減速させるために重要である。
本稿では,これらのマーカーを効率よく正確に識別するように設計された,新しい軽量畳み込みニューラルネットワークアーキテクチャを提案する。
限られたトレーニングデータの課題に対処するため、モデルの一般化性を高めるためにドメイン固有のデータ拡張を取り入れた。
さらに、我々は、計算効率を最適化しながら診断精度を向上させるために、カスタムアーキテクチャに一連の正規化手法を適用した。
注目すべきは、この合理化モデルは、11.69万のパラメータを持つ標準のResNet-18モデルと比較して60%近く減少する4.73万のパラメータしか含まないことである。
複雑度は低いものの,F1スコアの90%を達成し,基礎画像による糖尿病網膜症の早期発見に有効であることを示した。
Retinal fundus imaging plays an essential role in diagnosing various stages of diabetic retinopathy, where exudates are critical markers of early disease onset. Prompt detection of these exudates is pivotal for enabling optometrists to arrest or significantly decelerate the disease progression. This paper introduces a novel, lightweight convolutional neural network architecture tailored for automated exudate detection, designed to identify these markers efficiently and accurately. To address the challenge of limited training data, we have incorporated domain-specific data augmentations to enhance the model's generalizability. Furthermore, we applied a suite of regularization techniques within our custom architecture to boost diagnostic accuracy while optimizing computational efficiency. Remarkably, this streamlined model contains only 4.73 million parameters a reduction of nearly 60% compared to the standard ResNet-18 model, which has 11.69 million parameters. Despite its reduced complexity, our model achieves an impressive F1 score of 90%, demonstrating its efficacy in the early detection of diabetic retinopathy through fundus imaging. | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# 知識グラフコンプリートにおける凍結LDMのパワーの解錠
Unlock the Power of Frozen LLMs in Knowledge Graph Completion ( http://arxiv.org/abs/2408.06787v1 ) ライセンス: Link先を確認 | Bo Xue, Yi Xu, Yunchong Song, Yiming Pang, Yuyang Ren, Jiaxin Ding, Luoyi Fu, Xinbing Wang, | (参考訳) 古典的知識グラフ補完(KGC)法は構造情報のみに依存しており、知識グラフ(KG)の本質的な疎性に悩まされている。
大規模言語モデル(LLM)は,従来の手法の限界を緩和する上で理想的な,強力なコンテキストモデリングを備えた大規模コーパスから広範な知識を学習する。
直接微調整 LLM は優れた能力を提供するが、凍結した LLM を利用することで準最適結果が得られる一方で、膨大な時間とメモリ消費のコストがかかる。
本研究は,KGCにLLMを効果的かつ効率的に活用することを目的としている。
我々は、LLMの中間層を刺激するためにプロンプトを利用することで、コンテキスト対応の知識三重項の隠蔽状態を捉える。
次に、これらの隠れ状態にデータ効率の分類器をトレーニングし、KGCにおける凍結LDMの本質的な機能を利用する。
また、KGのサブグラフサンプリングによるエンティティ記述を生成し、三重項のあいまいさを減らし、知識表現を豊かにする。
標準ベンチマークに関する大規模な実験は、我々のアプローチの効率性と有効性を示している。
我々は、ほとんどのデータセットにおいて古典的なKGC法より優れており、微調整LLMの性能と一致している。
さらに、微調整 LLM と比較して、GPU メモリ効率を \textbf{$188\times$} で、トレーニング+推論を \textbf{$13.48\times$} で高速化する。
Classical knowledge graph completion (KGC) methods rely solely on structural information, struggling with the inherent sparsity of knowledge graphs (KGs). Large Language Models (LLMs) learn extensive knowledge from large corpora with powerful context modeling, which is ideal for mitigating the limitations of previous methods. Directly fine-tuning LLMs offers great capability but comes at the cost of huge time and memory consumption, while utilizing frozen LLMs yields suboptimal results. In this work, we aim to leverage LLMs for KGC effectively and efficiently. We capture the context-aware hidden states of knowledge triples by employing prompts to stimulate the intermediate layers of LLMs. We then train a data-efficient classifier on these hidden states to harness the inherent capabilities of frozen LLMs in KGC. We also generate entity descriptions with subgraph sampling on KGs, reducing the ambiguity of triplets and enriching the knowledge representation. Extensive experiments on standard benchmarks showcase the efficiency and effectiveness of our approach. We outperform classical KGC methods on most datasets and match the performance of fine-tuned LLMs. Additionally, compared to fine-tuned LLMs, we boost GPU memory efficiency by \textbf{$188\times$} and speed up training+inference by \textbf{$13.48\times$}. | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# 改良されたビジュアルEEGセマンティック一貫性によるビジュアルニューラルデコーディング
Visual Neural Decoding via Improved Visual-EEG Semantic Consistency ( http://arxiv.org/abs/2408.06788v1 ) ライセンス: Link先を確認 | Hongzhou Chen, Lianghua He, Yihang Liu, Longzhen Yang, | (参考訳) ビジュアル・ニューラル・デコーディング(英: Visual Neural Decoding)とは、人間の脳活動からオリジナルの視覚体験を抽出し、解釈する過程のこと。
近年の計量学習に基づく脳波視覚復号法は有望な成果をもたらし,脳活動から新たな視覚カテゴリーを復号する可能性を示した。
しかし、EEG機能をCLIP埋め込み空間に直接マッピングする手法は、マッピングバイアスを導入し、特徴間の意味的不整合を引き起こす可能性があるため、アライメントが低下し、デコード性能が低下する。
視覚信号と神経信号のセマンティック一貫性をさらに探求する。
本研究では,共同意味空間を構築し,これら2つのモードのセマンティックな特徴を明示的に抽出し,最適アライメントを容易にするVisual-EEG Semantic Deouple Frameworkを提案する。
具体的には、モダリティからのセマンティック関連情報の抽出を導くために、クロスモーダル情報デカップリングモジュールを導入する。
そして、視覚画像と脳波の特徴間の相互情報を定量化することにより、復号性能と相互情報の規模との間に強い正の相関関係を観測する。
さらに、神経科学からの視覚的物体理解のメカニズムに着想を得て、アライメント過程におけるクラス内幾何整合性アプローチを提案する。
この戦略は、同じクラス内の視覚サンプルを一貫したニューラルネットワークパターンにマッピングする。
大規模な画像-EEGデータセットを用いた実験により,ゼロショットニューラルデコードタスクにおける最先端の結果が得られた。
Visual neural decoding refers to the process of extracting and interpreting original visual experiences from human brain activity. Recent advances in metric learning-based EEG visual decoding methods have delivered promising results and demonstrated the feasibility of decoding novel visual categories from brain activity. However, methods that directly map EEG features to the CLIP embedding space may introduce mapping bias and cause semantic inconsistency among features, thereby degrading alignment and impairing decoding performance. To further explore the semantic consistency between visual and neural signals. In this work, we construct a joint semantic space and propose a Visual-EEG Semantic Decouple Framework that explicitly extracts the semantic-related features of these two modalities to facilitate optimal alignment. Specifically, a cross-modal information decoupling module is introduced to guide the extraction of semantic-related information from modalities. Then, by quantifying the mutual information between visual image and EEG features, we observe a strong positive correlation between the decoding performance and the magnitude of mutual information. Furthermore, inspired by the mechanisms of visual object understanding from neuroscience, we propose an intra-class geometric consistency approach during the alignment process. This strategy maps visual samples within the same class to consistent neural patterns, which further enhances the robustness and the performance of EEG visual decoding. Experiments on a large Image-EEG dataset show that our method achieves state-of-the-art results in zero-shot neural decoding tasks. | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# SVDと疑似絡み合いエントロピーについて
Musings on SVD and pseudo entanglement entropies ( http://arxiv.org/abs/2408.06791v1 ) ライセンス: Link先を確認 | Pawel Caputa, Souradeep Purkayastha, Abhigyan Saha, Piotr Sułkowski, | (参考訳) 擬エントロピーとSVDエントロピーは、選択後を含む絡み合いエントロピーの一般化である。
本研究では、量子状態の空間上の測度としてそれらの性質を解析し、その余剰が、ある特徴を共有し、ある場合において計量として特定できる2つの状態(前選択および後選択)の違いの有用な特徴づけを提供すると主張している。
特に、チャーン・サイモンズ理論(英語版)によるトポロジカルなリンクと関連づけられた連結連結状態に適用する場合、これらの一般化エントロピーとその超越は、対応するリンク間の差の新たな定量化を与える。
チャーン・サイモンズ理論のレベルにおけるそのようなエントロピー測度の依存性を議論し、特定のリンク状態に対するそれらの漸近値を決定する。
擬似エントロピーの想像的部分は敏感であり,結び目のキラリティーを診断できることがわかった。
また、一般化されたSU(2)およびSU(1,1)コヒーレント状態やGHZおよびW状態のような、より単純な量子力学系に対するこれらのエントロピー測度の性質についても考察する。
Pseudo-entropy and SVD entropy are generalizations of the entanglement entropy that involve post-selection. In this work we analyze their properties as measures on the spaces of quantum states and argue that their excess provides useful characterization of a difference between two (i.e. pre-selected and post-selected) states, which shares certain features and in certain cases can be identified as a metric. In particular, when applied to link complement states that are associated to topological links via Chern-Simons theory, these generalized entropies and their excess provide a novel quantification of a difference between corresponding links. We discuss the dependence of such entropy measures on the level of Chern-Simons theory and determine their asymptotic values for certain link states. We find that imaginary part of the pseudo-entropy is sensitive to, and can diagnose chirality of knots. We also consider properties of these entropy measures for simpler quantum mechanical systems, such as generalized SU(2) and SU(1,1) coherent states, and tripartite GHZ and W states. | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# 混合実験用層状リカレントルータ
Layerwise Recurrent Router for Mixture-of-Experts ( http://arxiv.org/abs/2408.06793v1 ) ライセンス: Link先を確認 | Zihan Qiu, Zeyu Huang, Shuang Cheng, Yizhi Zhou, Zili Wang, Ivan Titov, Jie Fu, | (参考訳) 大規模言語モデル(LLM)のスケーリングは様々なタスクにおいてその能力に革命をもたらしたが、この成長は効率的な計算戦略と一致しなければならない。
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできることを特徴としている。
それらの利点にもかかわらず、現在のMoEモデルはパラメータ非効率をしばしば表示する。
例えば、52億のパラメータを持つ事前訓練された MoE ベースの LLM は、67億のパラメータを持つ標準モデルと同等に機能する可能性がある。
MoEの重要な部分である、異なるレイヤの現在のルータは、過去のルーティング情報を活用することなく、独立してトークンを割り当てる。
この問題を軽減するために,Mixture-of-Experts (RMoE) 用のLayerwise Recurrent Routerを導入する。
RMoEはGRU(Gated Recurrent Unit)を活用して、連続するレイヤ間のルーティング決定間の依存関係を確立する。
このような階層的な再帰は、入力トークンに対して効率的に並列に計算でき、交渉可能なコストを導入する。
実験により,RMoEに基づく言語モデルは,ベースラインモデルのスペクトルを一貫して上回ることを示した。
さらに、RMoEは既存の手法と直交する新しい計算段階を統合し、他のMoEアーキテクチャとのシームレスな互換性を実現する。
分析の結果,RMoEの有効層間情報共有は,専門家の選択や多様性の向上にも寄与することがわかった。
私たちのコードはhttps://github.com/qiuzh20/RMoEにあります。
The scaling of large language models (LLMs) has revolutionized their capabilities in various tasks, yet this growth must be matched with efficient computational strategies. The Mixture-of-Experts (MoE) architecture stands out for its ability to scale model size without significantly increasing training costs. Despite their advantages, current MoE models often display parameter inefficiency. For instance, a pre-trained MoE-based LLM with 52 billion parameters might perform comparably to a standard model with 6.7 billion parameters. Being a crucial part of MoE, current routers in different layers independently assign tokens without leveraging historical routing information, potentially leading to suboptimal token-expert combinations and the parameter inefficiency problem. To alleviate this issue, we introduce the Layerwise Recurrent Router for Mixture-of-Experts (RMoE). RMoE leverages a Gated Recurrent Unit (GRU) to establish dependencies between routing decisions across consecutive layers. Such layerwise recurrence can be efficiently parallelly computed for input tokens and introduces negotiable costs. Our extensive empirical evaluations demonstrate that RMoE-based language models consistently outperform a spectrum of baseline models. Furthermore, RMoE integrates a novel computation stage orthogonal to existing methods, allowing seamless compatibility with other MoE architectures. Our analyses attribute RMoE's gains to its effective cross-layer information sharing, which also improves expert selection and diversity. Our code is at https://github.com/qiuzh20/RMoE | 翻訳日:2024-08-14 17:56:13 公開日:2024-08-13 |
# 眠れる美しさに悩まされる:プリンス・プロビタビリティーが運命の出会いについて予測を更新する方法
Stunned by Sleeping Beauty: How Prince Probability updates his forecast upon their fateful encounter ( http://arxiv.org/abs/2408.06797v1 ) ライセンス: Link先を確認 | Laurens Walleghem, | (参考訳) 睡眠美」問題(Sleeping Beauty problem)は、エルガの議論(Elga, Adam, Analysis 60 (2), p.143-147 (2000))以来注目されている確率論のパズルである。
眠れる美女を眠らせ、コインを投げる。
コイントスの結果がタイルズの場合、スリープングビューティは月曜日に目覚め、再び眠り、火曜日に再び目覚める(月曜日に目覚めたという記憶は残っていない)。
結果が頭なら、Sleeping Beautyは月曜日にのみ目覚める。
眠る美女が目覚めるたびに、彼女は結末が「頭」であるという信念を尋ねられる。
眠る美女は何に答えるべきか?
文献では 1/3 と 1/2 が正しい答えとして与えられている。
ここでは、単純ベイズ確率論を用いて、1/3 が 1/2 ではなく正しい答えである理由を論じる。
簡単に言えば、眠れる美女が目を覚ますと、目が覚めることは、彼女の頭についての信念を1/3に更新する余計な余計な情報である。
我々は、スリーピング・ビューティーに会わないかもしれない、あるいは会わないかもしれない追加のオブザーバーであるプリンス・プロビタビリティーを考慮することで、我々の主張を強化する。
目が覚めている間に眠れる美女と出会うと、頭の中での信条を1/3に下げる。
また、彼女が夢を見ている(そして眠っている)ことを知っている「眠る美人の頭」の信条を簡潔に考察する。
The Sleeping Beauty problem is a puzzle in probability theory that has gained much attention since Elga's discussion of it [Elga, Adam, Analysis 60 (2), p.143-147 (2000)]. Sleeping Beauty is put asleep, and a coin is tossed. If the outcome of the coin toss is Tails, Sleeping Beauty is woken up on Monday, put asleep again and woken up again on Tuesday (with no recollection of having woken up on Monday). If the outcome is Heads, Sleeping Beauty is woken up on Monday only. Each time Sleeping Beauty is woken up, she is asked what her belief is that the outcome was Heads. What should Sleeping Beauty reply? In literature arguments have been given for both 1/3 and 1/2 as the correct answer. In this short note we argue using simple Bayesian probability theory why 1/3 is the right answer, and not 1/2. Briefly, when Sleeping Beauty awakens, her being awake is nontrivial extra information that leads her to update her beliefs about Heads to 1/3. We strengthen our claim by considering an additional observer, Prince Probability, who may or may not meet Sleeping Beauty. If he meets Sleeping Beauty while she is awake, he lowers his credence in Heads to 1/3. We also briefly consider the credence in Heads of a Sleeping Beauty who knows that she is dreaming (and thus asleep). | 翻訳日:2024-08-14 17:46:22 公開日:2024-08-13 |
# Token Compensator:再調整なしでの視覚変換器の推論コストの調整
Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning ( http://arxiv.org/abs/2408.06798v1 ) ライセンス: Link先を確認 | Shibo Jie, Yehui Tang, Jianyuan Guo, Zhi-Hong Deng, Kai Han, Yunhe Wang, | (参考訳) トークン圧縮は、冗長トークンの数を減らし、不注意なトークンをプルーニングしたり、類似のトークンをマージすることで、ビジョントランスフォーマー(ViT)のトレーニングと推論を高速化する。
しかし、下流タスクに適用した場合、これらの手法は、トレーニングと推論の段階で圧縮度が一致しない場合、大幅な性能低下に悩まされ、既成モデルのトークン圧縮の適用が制限される。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
予め訓練したモデルに高速なパラメータ効率の自己蒸留工程を施し, 圧縮度が異なるモデル間のギャップを記述したToken Compensator (ToCom) と呼ばれる小さなプラグインを得る。
推論中、ToComはミスマッチしたトレーニングや推論圧縮の度合いを伴って、下流のオフザシェルフモデルに直接挿入することで、さらなるトレーニングをすることなく、普遍的なパフォーマンス改善を得ることができる。
20以上の下流タスクの実験では、我々のフレームワークの有効性が示されています。
CIFAR100、細粒度視覚分類、VTAB-1kでは、ToComはDeiT-Bの平均性能を最大2.3%、1.5%、2.0%向上させることができる。
コード:https://github.com/JieShibo/ToCom
Token compression expedites the training and inference of Vision Transformers (ViTs) by reducing the number of the redundant tokens, e.g., pruning inattentive tokens or merging similar tokens. However, when applied to downstream tasks, these approaches suffer from significant performance drop when the compression degrees are mismatched between training and inference stages, which limits the application of token compression on off-the-shelf trained models. In this paper, we propose a model arithmetic framework to decouple the compression degrees between the two stages. In advance, we additionally perform a fast parameter-efficient self-distillation stage on the pre-trained models to obtain a small plugin, called Token Compensator (ToCom), which describes the gap between models across different compression degrees. During inference, ToCom can be directly inserted into any downstream off-the-shelf models with any mismatched training and inference compression degrees to acquire universal performance improvements without further training. Experiments on over 20 downstream tasks demonstrate the effectiveness of our framework. On CIFAR100, fine-grained visual classification, and VTAB-1k, ToCom can yield up to a maximum improvement of 2.3%, 1.5%, and 2.0% in the average performance of DeiT-B, respectively. Code: https://github.com/JieShibo/ToCom | 翻訳日:2024-08-14 17:46:22 公開日:2024-08-13 |
# キャンディクラッシュサガにおけるバンドル勧告のスケール不変的アプローチについて
On a Scale-Invariant Approach to Bundle Recommendations in Candy Crush Saga ( http://arxiv.org/abs/2408.06799v1 ) ライセンス: Link先を確認 | Styliani Katsarou, Francesca Carminati, Martin Dlask, Marta Braojos, Lavena Patra, Richard Perkins, Carlos Garcia Ling, Maria Paskevich, | (参考訳) プレイヤーの好みをよく理解することは、特にモバイルゲームにおいてコンテンツ関連性を高めるために不可欠である。
本稿では,モバイルゲームシナリオにおけるアイテムレコメンデーション作成における注意モデルの利用について述べる。
この手法は、ユーザレベルのレコメンデーションを作成するための教師なしアプローチと教師なしアプローチを組み合わせたもので、予測に新しいスケール不変アプローチを導入している。
この手法はその後、Candy Crush Sagaのバンドルレコメンデーションに適用される。
数百万のユーザに提供するようにスケールアップされたMLモデルのデプロイメント、メンテナンス、監視の戦略に加えて、MLシステムの技術的負債を最小限に抑えるためのベストプラクティスと設計パターンが紹介されている。
推奨アプローチはオフラインとオンラインの両方で評価され、エンゲージメントの増加、クリック・アンド・テイクレート、ノベルティ効果、レコメンデーションの多様性、退行フィードバックループの影響を理解することに焦点を当てている。
提案手法は,クリック率を30%,テイクレートを40%以上向上させ,ユーザのエンゲージメントを30%向上させることを示した。
さらに,ユーザのエンゲージメントに対する推奨精度の低下効果を実証的に定量化する。
A good understanding of player preferences is crucial for increasing content relevancy, especially in mobile games. This paper illustrates the use of attentive models for producing item recommendations in a mobile game scenario. The methodology comprises a combination of supervised and unsupervised approaches to create user-level recommendations while introducing a novel scale-invariant approach to the prediction. The methodology is subsequently applied to a bundle recommendation in Candy Crush Saga. The strategy of deployment, maintenance, and monitoring of ML models that are scaled up to serve millions of users is presented, along with the best practices and design patterns adopted to minimize technical debt typical of ML systems. The recommendation approach is evaluated both offline and online, with a focus on understanding the increase in engagement, click- and take rates, novelty effects, recommendation diversity, and the impact of degenerate feedback loops. We have demonstrated that the recommendation enhances user engagement by 30% concerning click rate and by more than 40% concerning take rate. In addition, we empirically quantify the diminishing effects of recommendation accuracy on user engagement. | 翻訳日:2024-08-14 17:46:22 公開日:2024-08-13 |
# 強化対象検出のための高次ランク付けと強化学習の統合
Integrating Saliency Ranking and Reinforcement Learning for Enhanced Object Detection ( http://arxiv.org/abs/2408.06803v1 ) ライセンス: Link先を確認 | Matthias Bartolo, Dylan Seychell, Josef Bajada, | (参考訳) 本研究は多種多様な物体検出手法を用いて,強化学習(RL)に基づく視覚的注意法と相性ランキング法を併用し,透明で持続可能なソリューションを探索する一連の実験を探索する。
初期バウンディングボックス予測のためのサリエンシランキングを統合し,その後にRL手法を適用して,複数ステップにわたる有限の動作によってこれらの予測を洗練させることにより,RLオブジェクト検出精度を向上させることを目的とした。
本研究は, 様々な画像特徴抽出手法の活用について検討し, 深部強化学習に基づく局部化学習のための多種多様な深部Q-Network (DQN) アーキテクチャのバリエーションについて検討する。
さらに、より軽量で高速なモデルを優先することで、各ステップにおける検出パイプラインの最適化に注力するとともに、検出対象を分類する機能も備えています。
本研究では,Pascal VOC 2007データセットを用いて,これらのトレーニングエージェントの性能を評価することにより,より高速で最適化されたモデルを開発した。
特に、この研究で達成された平均精度(mAP)は51.4で、RLを用いた単体検出器のベンチマークを上回りました。
With the ever-growing variety of object detection approaches, this study explores a series of experiments that combine reinforcement learning (RL)-based visual attention methods with saliency ranking techniques to investigate transparent and sustainable solutions. By integrating saliency ranking for initial bounding box prediction and subsequently applying RL techniques to refine these predictions through a finite set of actions over multiple time steps, this study aims to enhance RL object detection accuracy. Presented as a series of experiments, this research investigates the use of various image feature extraction methods and explores diverse Deep Q-Network (DQN) architectural variations for deep reinforcement learning-based localisation agent training. Additionally, we focus on optimising the detection pipeline at every step by prioritising lightweight and faster models, while also incorporating the capability to classify detected objects, a feature absent in previous RL approaches. We show that by evaluating the performance of these trained agents using the Pascal VOC 2007 dataset, faster and more optimised models were developed. Notably, the best mean Average Precision (mAP) achieved in this study was 51.4, surpassing benchmarks set by RL-based single object detectors in the literature. | 翻訳日:2024-08-14 17:46:21 公開日:2024-08-13 |
# 話者識別のためのディープラーニング:AB-1コーパス解析と性能評価からのアーキテクチャ的考察
Deep Learning for Speaker Identification: Architectural Insights from AB-1 Corpus Analysis and Performance Evaluation ( http://arxiv.org/abs/2408.06804v1 ) ライセンス: Link先を確認 | Matthias Bartolo, | (参考訳) セキュリティシステム、法医学的な調査、パーソナライズされたサービスといった分野において、人間の基本的な入力としての音声の重要性は、テキストベースの相互作用よりも優れている。
本研究は、話者同定(SID)の複雑な分野を深く掘り下げ、その必須成分を調べ、特徴抽出にMel SpectrogramとMel Frequency Cepstral Coefficients(MFCC)を強調する。
さらに, 性能評価に広範な解析手法を用いて6つの異なるモデルアーキテクチャを評価し, 最適性能モデルに適用したハイパーパラメータチューニングについて検討した。
この研究は、AB-1 Corpusデータセット内のバイアス評価に加えて、アクセントと性別の正確性を検証するための言語分析を行う。
In the fields of security systems, forensic investigations, and personalized services, the importance of speech as a fundamental human input outweighs text-based interactions. This research delves deeply into the complex field of Speaker Identification (SID), examining its essential components and emphasising Mel Spectrogram and Mel Frequency Cepstral Coefficients (MFCC) for feature extraction. Moreover, this study evaluates six slightly distinct model architectures using extensive analysis to evaluate their performance, with hyperparameter tuning applied to the best-performing model. This work performs a linguistic analysis to verify accent and gender accuracy, in addition to bias evaluation within the AB-1 Corpus dataset. | 翻訳日:2024-08-14 17:46:21 公開日:2024-08-13 |
# 独特さを解き明かす:アフリカ原住民の年齢不変顔認識への傾斜
Unmasking the Uniqueness: A Glimpse into Age-Invariant Face Recognition of Indigenous African Faces ( http://arxiv.org/abs/2408.06806v1 ) ライセンス: Link先を確認 | Fakunle Ajewole, Joseph Damilola Akinyemi, Khadijat Tope Ladoja, Olufade Falade Williams Onifade, | (参考訳) 年齢別顔認識(AIFR)の課題は、アフリカと比較して、ヨーロッパ、アメリカ、アジアでかなりの研究努力を払っている。
したがって、AIFRの研究努力はアフリカ民族を非先住民のアフリカ人と過小評価/誤解していることが多い。
この研究は、顔画像解析研究においてアフリカ民族の誤表現を減らすために、アフリカ先住民の顔のためのAIFRシステムを開発した。
我々は,この研究のために収集された5000人のアフリカ先住民の顔(FAGE\_v2)のデータセットに基づいて,AIFRのための事前学習深層学習モデル(VGGFace)を採用した。
FAGE\_v2は、アフリカ10か国に均等に分布する500人の人物のインターネットイメージ検索を通じてキュレーションされた。
VGGFaceはFAGE\_v2でトレーニングされ、81.80\%の精度が得られた。
また,CACDデータセットのアフリカ系アメリカ人サブセットについても実験を行い,その精度は91.5\%であった。
その結果、先住民と非先住民のアフリカ人に対する認識精度に有意な差が認められた。
The task of recognizing the age-separated faces of an individual, Age-Invariant Face Recognition (AIFR), has received considerable research efforts in Europe, America, and Asia, compared to Africa. Thus, AIFR research efforts have often under-represented/misrepresented the African ethnicity with non-indigenous Africans. This work developed an AIFR system for indigenous African faces to reduce the misrepresentation of African ethnicity in facial image analysis research. We adopted a pre-trained deep learning model (VGGFace) for AIFR on a dataset of 5,000 indigenous African faces (FAGE\_v2) collected for this study. FAGE\_v2 was curated via Internet image searches of 500 individuals evenly distributed across 10 African countries. VGGFace was trained on FAGE\_v2 to obtain the best accuracy of 81.80\%. We also performed experiments on an African-American subset of the CACD dataset and obtained the best accuracy of 91.5\%. The results show a significant difference in the recognition accuracies of indigenous versus non-indigenous Africans. | 翻訳日:2024-08-14 17:46:21 公開日:2024-08-13 |
# Oracle Bone Script Similiar Character Screening Approach based on Simsiam Contrastive Learning and Supervised Learning
Oracle Bone Script Similiar Character Screening Approach Based on Simsiam Contrastive Learning and Supervised Learning ( http://arxiv.org/abs/2408.06811v1 ) ライセンス: Link先を確認 | Xinying Weng, Yifan Li, Shuaidong Hao, Jialiang Hou, | (参考訳) 本稿では,ファジィ総合評価手法を用いて,ResNet-50自己教師型学習とRepVGG教師型学習を統合する手法を提案する。
ソース画像データセットHWOBCオラクルを入力として対象画像を選択し、最後に最も類似した画像を手動で介入することなく出力する。
同じ特徴符号化法は、異なるモダリティの画像には使われない。
モデルトレーニングの前に、画像データを前処理し、ランダム回転処理、自己二乗グラフ等化理論アルゴリズム、ガンマ変換により画像を強化し、キー特徴学習を効果的に強化する。
最後に、ファジィ総合評価法を用いて、教師付きトレーニングと教師なしトレーニングの結果を組み合わせることで、定量化が難しい「最も類似した」問題をよりよく解決することができる。
現在、多くの未知のオラクル骨の碑文が私たちが割れるのを待っている。
グリフと接触することで、ひび割れの新しいアイデアを提供することができる。
This project proposes a new method that uses fuzzy comprehensive evaluation method to integrate ResNet-50 self-supervised and RepVGG supervised learning. The source image dataset HWOBC oracle is taken as input, the target image is selected, and finally the most similar image is output in turn without any manual intervention. The same feature encoding method is not used for images of different modalities. Before the model training, the image data is preprocessed, and the image is enhanced by random rotation processing, self-square graph equalization theory algorithm, and gamma transform, which effectively enhances the key feature learning. Finally, the fuzzy comprehensive evaluation method is used to combine the results of supervised training and unsupervised training, which can better solve the "most similar" problem that is difficult to quantify. At present, there are many unknown oracle-bone inscriptions waiting for us to crack. Contacting with the glyphs can provide new ideas for cracking. | 翻訳日:2024-08-14 17:46:21 公開日:2024-08-13 |
# 室内環境における構造保存型平面簡易化
Structure-preserving Planar Simplification for Indoor Environments ( http://arxiv.org/abs/2408.06814v1 ) ライセンス: Link先を確認 | Bishwash Khanal, Sanjay Rijal, Manish Awale, Vaghawan Ojha, | (参考訳) 本稿では,シミュレーション環境と実環境の両方を対象とした屋内シーンポイント雲の構造保存型平面簡易化手法を提案する。
当初、シーンポイントクラウドは、ノイズ低減やマンハッタンのワールドアライメントを含む前処理のステップを実行し、その後の分析において堅牢性と一貫性を確保する。
キャプチャされた各シーンを、構造化された(壁焼床)と非構造化された(屋内オブジェクト)のシーンに分割する。
RANSACアルゴリズムを用いて,入力点雲から原始平面を抽出し,構成シーンの分割と単純化を容易にする。
次に、最も適した壁メッシュがプリミティブから生成され、その後、メッシュレイアウトを保存する頂点変換アルゴリズムと隣のメッシュがマージされる。
天井と床を正確に表現するために,壁面の正常性に対して天井と床のメッシュを切断するメッシュクリッピングアルゴリズムを用いる。
屋内シーンでは,表面再構成技術を用いて忠実度を向上する。
本稿では,多階建てや斜めの壁,天井などの複雑なシナリオに対処する,シーン簡略化手法の複雑なステップに焦点を当てる。
また,一般的な表面再構成,形状近似,フロアプラン生成手法に対する定性的,定量的な性能比較を行った。
This paper presents a novel approach for structure-preserving planar simplification of indoor scene point clouds for both simulated and real-world environments. Initially, the scene point cloud undergoes preprocessing steps, including noise reduction and Manhattan world alignment, to ensure robustness and coherence in subsequent analyses. We segment each captured scene into structured (walls-ceiling-floor) and non-structured (indoor objects) scenes. Leveraging a RANSAC algorithm, we extract primitive planes from the input point cloud, facilitating the segmentation and simplification of the structured scene. The best-fitting wall meshes are then generated from the primitives, followed by adjacent mesh merging with the vertex-translation algorithm which preserves the mesh layout. To accurately represent ceilings and floors, we employ the mesh clipping algorithm which clips the ceiling and floor meshes with respect to wall normals. In the case of indoor scenes, we apply a surface reconstruction technique to enhance the fidelity. This paper focuses on the intricate steps of the proposed scene simplification methodology, addressing complex scenarios such as multi-story and slanted walls and ceilings. We also conduct qualitative and quantitative performance comparisons against popular surface reconstruction, shape approximation, and floorplan generation approaches. | 翻訳日:2024-08-14 17:46:21 公開日:2024-08-13 |
# $^{229}$Th$^{39+}$イオンにおける近接共鳴電子遷移による核励起
Nuclear Excitation by Near-Resonant Electron Transition in $^{229}$Th$^{39+}$ Ions ( http://arxiv.org/abs/2408.06815v1 ) ライセンス: Link先を確認 | Karol Kozioł, Jacek Rzadkiewicz, | (参考訳) 基底状態から8eV$^{229m}$Th異性体への核励起に関する理論的考察は、Sb型(q=39+$)トリウムイオンのほぼ共鳴電子遷移を通じて行われる。
最初の励起原子状態(J=7/2$)のエネルギーは、$^{229}$Th$^{39+}$ イオンは8.308$\pm$0.011 eVと推定され、これは$^{229m}$Th核異性体エネルギーの新たな基準値に非常に近い。
原子励起エネルギーと原子励起エネルギーの両方の不確実範囲において、電子遷移による核励起の速度は20桁以上変化することが判明した。
我々の結果は、$^{229m}$Th異性体励起速度の上限値が1.05\times10^{16}$ s$^{-1}$ at resonance$\Delta=0$ meVであることを示している。
さらに、電子ビームイオントラップ(EBIT)を用いて、$^{229}$Th異性体の製造は10thsから約6\times10^{19}$ s$^{-1}$に到達できることを示した。
したがって、EBIT実験は、$^{229}$Th核における異性体状態の励起エネルギーを独立に検証するための非常に敏感なツールとして機能する可能性がある。
Theoretical considerations are made for the nuclear excitation from the ground state to the 8 eV $^{229m}$Th isomer via near-resonant electron transitions in Sb-like ($q=39+$) thorium ions. The energy of the first excited atomic state ($J=7/2$) in the $^{229}$Th$^{39+}$ ion is estimated to be 8.308$\pm$0.011 eV, which is very close to the new reference value for the $^{229m}$Th nuclear isomer energy, 8.338$\pm$0.024 eV [Kraemer et al., Nature 617, 706 (2023)]. It was found that within the uncertainty range of both atomic and nuclear excitation energies, the rate of nuclear excitation by electron transition can vary by more than 20 orders of magnitude. Our results indicate that the upper theoretical limit for the $^{229m}$Th isomer excitation rate reaches an enormous value of $1.05\times10^{16}$ s$^{-1}$ at resonance ($\Delta=0$ meV). Additionally, it was shown that using an electron beam ion trap (EBIT), the production of the $^{229}$Th isomer can reach rates ranging from tenths to approximately $6\times10^{19}$ s$^{-1}$. Thus, EBIT experimental studies could serve as an extremely sensitive tool for the independent verification of the excitation energy of the isomeric state in the $^{229}$Th nucleus. | 翻訳日:2024-08-14 17:46:21 公開日:2024-08-13 |
# MAQA:データの不確実性に関するLCMの不確実性定量評価
MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty ( http://arxiv.org/abs/2408.06816v1 ) ライセンス: Link先を確認 | Yongjin Yang, Haneul Yoo, Hwaran Lee, | (参考訳) 大規模言語モデル (LLM) は様々なタスクを実行できるが、それでももっともらしいが誤った反応を生じさせることに苦しむ。
LLMの信頼性を向上させるため、最近の研究では、応答が正しいかどうかを予測する不確実性定量化に焦点を当てている。
しかし、ほとんどの不確実性定量化法は、既約ランダム性から生じるデータ不確実性の存在を無視して、単一の明確な答えを必要とする質問に対して評価されている。
代わりに、これらの手法は、知識の欠如から生じるモデルの不確実性のみを考慮する。
本稿では,データ不確実性の存在下での過去の不確実性定量化手法について検討する。
私たちの貢献は2つあります。
1)Multi-Answer Question Answering dataset, MAQA(世界知識、数学的推論、常識推論タスク)を提案し、データの不確実性に関する不確実性定量化を評価する。
2) 多様な白と黒のLLMの5つの不確実性定量化手法を評価する。
その結果,データ不確実性の下でも,エントロピーと一貫性に基づく手法がモデル不確実性をよく推定し,一方,白黒 LLM の他の手法はタスクによっては困難であることがわかった。
さらに、ホワイトボックスLLM用に設計された手法は、単純な知識クエリと比較して、タスクの推論において過度な自信に悩まされる。
我々は、我々の観察が、現実的な環境での不確実性定量化に関する今後の研究の道を開くと信じている。
Although large language models (LLMs) are capable of performing various tasks, they still suffer from producing plausible but incorrect responses. To improve the reliability of LLMs, recent research has focused on uncertainty quantification to predict whether a response is correct or not. However, most uncertainty quantification methods have been evaluated on questions requiring a single clear answer, ignoring the existence of data uncertainty that arises from irreducible randomness. Instead, these methods only consider model uncertainty, which arises from a lack of knowledge. In this paper, we investigate previous uncertainty quantification methods under the presence of data uncertainty. Our contributions are two-fold: 1) proposing a new Multi-Answer Question Answering dataset, MAQA, consisting of world knowledge, mathematical reasoning, and commonsense reasoning tasks to evaluate uncertainty quantification regarding data uncertainty, and 2) assessing 5 uncertainty quantification methods of diverse white- and black-box LLMs. Our findings show that entropy and consistency-based methods estimate the model uncertainty well even under data uncertainty, while other methods for white- and black-box LLMs struggle depending on the tasks. Additionally, methods designed for white-box LLMs suffer from overconfidence in reasoning tasks compared to simple knowledge queries. We believe our observations will pave the way for future work on uncertainty quantification in realistic setting. | 翻訳日:2024-08-14 17:46:21 公開日:2024-08-13 |
# パーソナライズされた動的難易度調整 - 模倣学習は強化学習と出会う
Personalized Dynamic Difficulty Adjustment -- Imitation Learning Meets Reinforcement Learning ( http://arxiv.org/abs/2408.06818v1 ) ライセンス: Link先を確認 | Ronja Fuchs, Robin Gieseke, Alexander Dockhorn, | (参考訳) ビデオゲームにおけるゲームの難しさのバランスをとることは、プレイヤーにとって面白いゲーム体験を生み出すための重要なタスクである。
ゲームの難しさとプレーヤーのスキルやコミットメントを損なうと、プレイヤー側のフラストレーションや退屈が生じ、ゲームに費やした時間を短縮する。
本研究では,機械学習をベースとしたエージェントを用いて,現在の動作に基づいてプレイヤーに挑戦するゲーム難易度について検討する。
これは2つのエージェントの組み合わせによって達成され、1つはプレイヤーを模倣することを学び、もう1つは1つを倒すように訓練される。
本稿では,対戦ゲームAIコンペティションにおけるAIエージェントの動的難易度調整のためのフレームワークを提案する。
Balancing game difficulty in video games is a key task to create interesting gaming experiences for players. Mismatching the game difficulty and a player's skill or commitment results in frustration or boredom on the player's side, and hence reduces time spent playing the game. In this work, we explore balancing game difficulty using machine learning-based agents to challenge players based on their current behavior. This is achieved by a combination of two agents, in which one learns to imitate the player, while the second is trained to beat the first. In our demo, we investigate the proposed framework for personalized dynamic difficulty adjustment of AI agents in the context of the fighting game AI competition. | 翻訳日:2024-08-14 17:46:21 公開日:2024-08-13 |
# マルチビュー・シナジーの強化: 合意と相補性原理による波動損失関数の爆発的展開によるロバスト学習
Enhancing Multiview Synergy: Robust Learning by Exploiting the Wave Loss Function with Consensus and Complementarity Principles ( http://arxiv.org/abs/2408.06819v1 ) ライセンス: Link先を確認 | A. Quadir, Mushir Akhtar, M. Tanveer, | (参考訳) マルチビュー学習(MvL)は、複数のデータパースペクティブを活用して、ビュー一貫性とビュー差分性を通じてモデルパフォーマンスを向上させる機械学習の進歩した領域である。
多数の成功したマルチビューベースのSVMモデルにもかかわらず、既存のフレームワークは主にコンセンサス原理に焦点を合わせており、しばしば相補性原理を見落としている。
さらに、マルチビューデータセットで広く使われているノイズ、エラー傾向、およびビュー一貫性のないサンプルに対して、限られた堅牢性を示す。
本稿では、上記の制約に対処するため、ウェーブロス(W-loss)関数を活用する新しいマルチビューサポートベクターマシンフレームワークであるWave-MvSVMを紹介する。
異なる視点で補完的な情報をしばしば見落としている従来のアプローチとは異なり、提案されたWave-MvSVMは、両方の原則を効果的に統合することによって、より包括的で回復力のある学習プロセスを保証する。
W-loss関数は、その滑らかさ、非対称性、および有界な性質を特徴とするものであり、特にノイズおよび外れ値データの悪影響を緩和し、モデル安定性を高めるのに有効である。
理論的には、W-loss関数は重要な分類校正特性を示し、その効果をさらに高める。
Wave-MvSVMは、ビューの一貫性を強制するために、ビュー間の共規則化項を使用し、各ビューの識別力を最大化するために、適応的な組合せ重み戦略を利用する。
GDとADMMの組み合わせを用いて最適化問題を効率的に解き、最適解に対する信頼性の高い収束を保証する。
Rademacher複雑性に基づく理論的解析は、Wave-MvSVMモデルの一般化能力を検証する。
多様なデータセットにわたる大規模な経験的評価は、既存のベンチマークモデルと比較して、Wave-MvSVMの優れたパフォーマンスを示している。
Multiview learning (MvL) is an advancing domain in machine learning, leveraging multiple data perspectives to enhance model performance through view-consistency and view-discrepancy. Despite numerous successful multiview-based SVM models, existing frameworks predominantly focus on the consensus principle, often overlooking the complementarity principle. Furthermore, they exhibit limited robustness against noisy, error-prone, and view-inconsistent samples, prevalent in multiview datasets. To tackle the aforementioned limitations, this paper introduces Wave-MvSVM, a novel multiview support vector machine framework leveraging the wave loss (W-loss) function, specifically designed to harness both consensus and complementarity principles. Unlike traditional approaches that often overlook the complementary information among different views, the proposed Wave-MvSVM ensures a more comprehensive and resilient learning process by integrating both principles effectively. The W-loss function, characterized by its smoothness, asymmetry, and bounded nature, is particularly effective in mitigating the adverse effects of noisy and outlier data, thereby enhancing model stability. Theoretically, the W-loss function also exhibits a crucial classification-calibrated property, further boosting its effectiveness. Wave-MvSVM employs a between-view co-regularization term to enforce view consistency and utilizes an adaptive combination weight strategy to maximize the discriminative power of each view. The optimization problem is efficiently solved using a combination of GD and the ADMM, ensuring reliable convergence to optimal solutions. Theoretical analyses, grounded in Rademacher complexity, validate the generalization capabilities of the Wave-MvSVM model. Extensive empirical evaluations across diverse datasets demonstrate the superior performance of Wave-MvSVM in comparison to existing benchmark models. | 翻訳日:2024-08-14 17:46:21 公開日:2024-08-13 |
# グラディエント輝きを有するカスタマイズ活性化関数の効率的な探索
Efficient Search for Customized Activation Functions with Gradient Descent ( http://arxiv.org/abs/2408.06820v1 ) ライセンス: Link先を確認 | Lukas Strack, Mahmoud Safari, Frank Hutter, | (参考訳) 異なるアクティベーション関数は、異なるディープラーニングモデルに最適である。
これを活用するために、ニューラルネットワークの勾配に基づく探索手法の最近の進歩を活用し、与えられたアプリケーションに対して高い性能のアクティベーション関数を効率的に同定する。
本稿では,基本的な数学的操作をモデル活性化関数に組み合わせ,新しい活性化関数の探索を可能にする,きめ細かい検索セルを提案する。
提案手法は,画像分類から言語モデルまで,試行したすべてのモデルの性能向上につながる,特殊アクティベーションの識別を可能にする。
さらに、識別されたアクティベーションは、新しいデータセットと同様に、同じタイプのより大きなモデルに対して強い転送可能性を示す。
重要なことは、カスタマイズされたアクティベーション関数を作成する自動化プロセスは、以前のアプローチよりも桁違いに効率的である。
任意のディープラーニングパイプラインに簡単に適用可能であり、ディープラーニングアーキテクチャを強化するための有望な実践的道を提供する。
Different activation functions work best for different deep learning models. To exploit this, we leverage recent advancements in gradient-based search techniques for neural architectures to efficiently identify high-performing activation functions for a given application. We propose a fine-grained search cell that combines basic mathematical operations to model activation functions, allowing for the exploration of novel activations. Our approach enables the identification of specialized activations, leading to improved performance in every model we tried, from image classification to language models. Moreover, the identified activations exhibit strong transferability to larger models of the same type, as well as new datasets. Importantly, our automated process for creating customized activation functions is orders of magnitude more efficient than previous approaches. It can easily be applied on top of arbitrary deep learning pipelines and thus offers a promising practical avenue for enhancing deep learning architectures. | 翻訳日:2024-08-14 17:46:21 公開日:2024-08-13 |
# CRISP: 信頼できるクラウドネイティブコンピューティングのための信頼性、ロールバック、統合ストレージ保護
CRISP: Confidentiality, Rollback, and Integrity Storage Protection for Confidential Cloud-Native Computing ( http://arxiv.org/abs/2408.06822v1 ) ライセンス: Link先を確認 | Ardhi Putra Pratama Hartono, Andrey Brito, Christof Fetzer, | (参考訳) 信頼された実行環境(TEE)は、実行中のコードとその関連するデータの完全性と機密性を保護する。
それでも、TEEsの整合性保護はディスク上に保存された状態にまで拡張されない。
さらに、現代的なクラウドネイティブアプリケーションは、オーケストレーション(例えば、Kubernetesなどのシステムを通じて)に大きく依存しているため、サービスを頻繁に再起動する。
再起動中、攻撃者は機密サービスの状態を悪意のある意図を助長する可能性のある以前のバージョンに戻すことができる。
本稿では,Intel SGXの既存のランタイムを使用してロールバックを透過的に防止するロールバック保護機構であるCRISPを提案する。
当社のアプローチでは,アタックウィンドウを一定かつ短期間に制限するか,あるいは脆弱性ウィンドウを完全に回避するためのツールを開発者に提供します。
最後に、CRISPをクリティカルなステートフルなクラウドネイティブアプリケーションに適用することは、リソースの増加を招く可能性があるが、パフォーマンス上のペナルティはわずかである。
Trusted execution environments (TEEs) protect the integrity and confidentiality of running code and its associated data. Nevertheless, TEEs' integrity protection does not extend to the state saved on disk. Furthermore, modern cloud-native applications heavily rely on orchestration (e.g., through systems such as Kubernetes) and, thus, have their services frequently restarted. During restarts, attackers can revert the state of confidential services to a previous version that may aid their malicious intent. This paper presents CRISP, a rollback protection mechanism that uses an existing runtime for Intel SGX and transparently prevents rollback. Our approach can constrain the attack window to a fixed and short period or give developers the tools to avoid the vulnerability window altogether. Finally, experiments show that applying CRISP in a critical stateful cloud-native application may incur a resource increase but only a minor performance penalty. | 翻訳日:2024-08-14 17:46:21 公開日:2024-08-13 |
# マスク画像モデリングに対するメンバーシップ推論攻撃
Membership Inference Attack Against Masked Image Modeling ( http://arxiv.org/abs/2408.06825v1 ) ライセンス: Link先を確認 | Zheng Li, Xinlei He, Ning Yu, Yang Zhang, | (参考訳) Masked Image Modeling (MIM)は、視覚認識のための自己教師付き学習(SSL)の領域で大きな成功を収めた。
MIMを介して事前訓練された画像エンコーダは、様々な下流視覚タスクにおいて、マスキングとその後の入力画像の再構成を含む最先端の性能を達成する。
しかし,既存の研究の多くはMIMの性能向上に重点を置いており,本研究ではMIMの事前学習データプライバシの研究によって異なる角度を採っている。
具体的には,MIMが事前学習した画像エンコーダに対する最初のメンバシップ推論攻撃を提案する。
鍵となる設計は、MIMの事前学習パラダイム、すなわち画像マスキングとその後の再構成をシミュレートし、再構成エラーを取得することである。
これらの再構成エラーは、エンコーダがより低いエラーでトレーニングセットの入力イメージを再構成できるため、攻撃目標を達成するためのメンバシップ信号として機能する。
大規模な評価は3つのモデルアーキテクチャと3つのベンチマークデータセットで実施される。
実験の結果,攻撃はベースライン法よりも優れていた。
さらに,攻撃性能に影響を及ぼす可能性のある複数の要因を分析するために,複雑なアブレーション研究を行っている。
Masked Image Modeling (MIM) has achieved significant success in the realm of self-supervised learning (SSL) for visual recognition. The image encoder pre-trained through MIM, involving the masking and subsequent reconstruction of input images, attains state-of-the-art performance in various downstream vision tasks. However, most existing works focus on improving the performance of MIM.In this work, we take a different angle by studying the pre-training data privacy of MIM. Specifically, we propose the first membership inference attack against image encoders pre-trained by MIM, which aims to determine whether an image is part of the MIM pre-training dataset. The key design is to simulate the pre-training paradigm of MIM, i.e., image masking and subsequent reconstruction, and then obtain reconstruction errors. These reconstruction errors can serve as membership signals for achieving attack goals, as the encoder is more capable of reconstructing the input image in its training set with lower errors. Extensive evaluations are conducted on three model architectures and three benchmark datasets. Empirical results show that our attack outperforms baseline methods. Additionally, we undertake intricate ablation studies to analyze multiple factors that could influence the performance of the attack. | 翻訳日:2024-08-14 17:46:21 公開日:2024-08-13 |
# PreSENT:zero-Shot Text-to-Prosody Control
PRESENT: Zero-Shot Text-to-Prosody Control ( http://arxiv.org/abs/2408.06827v1 ) ライセンス: Link先を確認 | Perry Lam, Huayun Zhang, Nancy F. Chen, Berrak Sisman, Dorien Herremans, | (参考訳) 音声合成における微細な韻律制御を実現するための現在の戦略は、追加のスタイル埋め込みを抽出することや、より複雑なアーキテクチャを採用することを必要とする。
事前訓練されたテキスト・トゥ・音声(TTS)モデルのゼロショット適用を可能にするため,FastSpeech2 ベースのモデルにおいて,推論プロセスを直接修正することで,明示的な韻律予測を利用する PreSENT (Prosody Editing without Style Embeddings or New Training) を提案する。
英語LJSpeechデータにのみ訓練されたJETSモデルを用いて,テキストと韻律のフレームワークをゼロショット言語転送に適用する。
我々は、それぞれドイツ語、ハンガリー語、スペイン語の文字誤り率(CER)を12.8%、18.7%、および5.9%とし、3つの言語で前回のCERを2倍以上上回った。
さらに,音素レベルの制御も可能で,この分野では初となる。
その効果を評価するために,PreSENTは質問の韻律を改良し,母音のピッチがサブ音素レベルで変化する音節言語であるMandarinを生成する。
JETSモデルで25.3%のハンジCERと13.0%のピンジンCERを得る。
コードとオーディオのサンプルはすべてオンラインで入手できます。
Current strategies for achieving fine-grained prosody control in speech synthesis entail extracting additional style embeddings or adopting more complex architectures. To enable zero-shot application of pretrained text-to-speech (TTS) models, we present PRESENT (PRosody Editing without Style Embeddings or New Training), which exploits explicit prosody prediction in FastSpeech2-based models by modifying the inference process directly. We apply our text-to-prosody framework to zero-shot language transfer using a JETS model exclusively trained on English LJSpeech data. We obtain character error rates (CER) of 12.8%, 18.7% and 5.9% for German, Hungarian and Spanish respectively, beating the previous state-of-the-art CER by over 2x for all three languages. Furthermore, we allow subphoneme-level control, a first in this field. To evaluate its effectiveness, we show that PRESENT can improve the prosody of questions, and use it to generate Mandarin, a tonal language where vowel pitch varies at subphoneme level. We attain 25.3% hanzi CER and 13.0% pinyin CER with the JETS model. All our code and audio samples are available online. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# 光メトリック逆レンダリング:シェーディングキュースモデリングと表面反射率規則化
Photometric Inverse Rendering: Shading Cues Modeling and Surface Reflectance Regularization ( http://arxiv.org/abs/2408.06828v1 ) ライセンス: Link先を確認 | Jingzhi Bao, Guanying Chen, Shuguang Cui, | (参考訳) 本稿では,測光画像からの逆レンダリングの問題に対処する。
この問題の既存のアプローチは、自己陰影、相互反射の影響、および表面反射率に対する制約の欠如に悩まされ、逆レンダリングの不正な性質により反射率と照明の不正確な分解を引き起こす。
本研究では,ニューラル・リバース・レンダリングの新しい手法を提案する。
本手法は,画像中の自己陰影を考慮した光源位置を協調的に最適化し,異なるレンダリング層と重要なサンプリング戦略を用いて間接照明を算出する。
表面反射率の劣化を改善するために,DINO特性を蒸留することにより,高精度で一貫した材料分解を促進する新しい正則化を導入する。
合成データセットと実データセットの大規模な実験により、我々の手法は反射率分解における最先端の手法よりも優れていることが示された。
This paper addresses the problem of inverse rendering from photometric images. Existing approaches for this problem suffer from the effects of self-shadows, inter-reflections, and lack of constraints on the surface reflectance, leading to inaccurate decomposition of reflectance and illumination due to the ill-posed nature of inverse rendering. In this work, we propose a new method for neural inverse rendering. Our method jointly optimizes the light source position to account for the self-shadows in images, and computes indirect illumination using a differentiable rendering layer and an importance sampling strategy. To enhance surface reflectance decomposition, we introduce a new regularization by distilling DINO features to foster accurate and consistent material decomposition. Extensive experiments on synthetic and real datasets demonstrate that our method outperforms the state-of-the-art methods in reflectance decomposition. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# FlatFusion: 自律運転のためのスパーストランスフォーマーベースカメラLiDARフュージョンの詳細
FlatFusion: Delving into Details of Sparse Transformer-based Camera-LiDAR Fusion for Autonomous Driving ( http://arxiv.org/abs/2408.06832v1 ) ライセンス: Link先を確認 | Yutao Zhu, Xiaosong Jia, Xinyu Yang, Junchi Yan, | (参考訳) センサーの多様性(例えばカメラやLiDAR)からのデータの統合は、自律運転のシナリオにおいて一般的な方法論となっている。
効率的な点雲変換器の最近の進歩は、スパースフォーマットにおける情報統合の有効性を裏付けている。
融合に関しては、画像パッチは不明瞭な深さを持つピクセル空間に密着しているため、効果的な融合のために追加の設計上の考慮が必要である。
本稿では,Transformer を用いた sparse cameraLiDAR 融合における設計選択を包括的に検討する。
本研究は,画像から3D,LiDAR-to-2Dマッピング,アテンション近隣グループ化,シングルモーダルトークン化,トランスフォーマーの微細構造について検討する。
調査を通じて明らかになった最も効果的な原理を要約することで、カメラ-LiDAR融合のための慎重に設計されたフレームワークであるFlatFusionを紹介します。
特に、FlatFusionは、UniTR、CMT、SparseFusionといった最先端のスパーストランスフォーマーベースの手法よりも優れており、PyTorchで10.1 FPSのnuScenesバリデーションセットで73.7 NDSを達成した。
The integration of data from diverse sensor modalities (e.g., camera and LiDAR) constitutes a prevalent methodology within the ambit of autonomous driving scenarios. Recent advancements in efficient point cloud transformers have underscored the efficacy of integrating information in sparse formats. When it comes to fusion, since image patches are dense in pixel space with ambiguous depth, it necessitates additional design considerations for effective fusion. In this paper, we conduct a comprehensive exploration of design choices for Transformer-based sparse cameraLiDAR fusion. This investigation encompasses strategies for image-to-3D and LiDAR-to-2D mapping, attention neighbor grouping, single modal tokenizer, and micro-structure of Transformer. By amalgamating the most effective principles uncovered through our investigation, we introduce FlatFusion, a carefully designed framework for sparse camera-LiDAR fusion. Notably, FlatFusion significantly outperforms state-of-the-art sparse Transformer-based methods, including UniTR, CMT, and SparseFusion, achieving 73.7 NDS on the nuScenes validation set with 10.1 FPS with PyTorch. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# GLGait:野生における歩行認識のためのグローバルローカル時間受容フィールドネットワーク
GLGait: A Global-Local Temporal Receptive Field Network for Gait Recognition in the Wild ( http://arxiv.org/abs/2408.06834v1 ) ライセンス: Link先を確認 | Guozhen Peng, Yunhong Wang, Yuwei Zhao, Shaoxiong Zhang, Annan Li, | (参考訳) 歩行認識は、協力を必要とせず、非侵襲的な方法での人間の認識技術として、学術や産業から注目を集めている。
先進的な手法は実験室のシナリオでは目覚ましい成功を収めてきたが、そのほとんどは野生では性能が悪くなっている。
近年,いくつかの畳み込みニューラルネットワーク(ConvNets)に基づく手法が提案されている。
しかし、畳み込み操作によって得られる時間受容場は、長い歩数列に対して制限される。
畳み込みブロックをビジュアルトランスフォーマーブロックに置き換える場合、このモデルは、完全な歩行サイクルをカバーするために重要である局所的時間受容場を拡張できない可能性がある。
この問題に対処するため,Global-Local Temporal Receptive Field Network (GLGait) を設計した。
GLGaitはGlobal-Local Temporal Module (GLTM) を用いて、Pseudo Global Temporal Self-Attention (PGTA) と時間的畳み込み操作からなるグローバルローカルな時間的受容場を確立する。
特に、PGTAは、MHSA(Multi-head self-attention)と比較して、メモリと計算の複雑さの少ない擬似的グローバル時間受容場を得るのに使用される。
時間的畳み込み操作は、局所的時間的受容野を高めるために用いられる。
さらに、擬大域的時間受容場を真の全体論的時間受容場に集約することもできる。
さらに,GLGaitにおけるCentral-Augmented Triplet Loss (CTL)を提案し,クラス内距離を削減し,トレーニング段階における正のサンプルを拡大する。
広汎な実験により,本手法は<i>e。$, Gait3D, GREW。
コードはhttps://github.com/bgdpgz/GLGait.comで入手できる。
Gait recognition has attracted increasing attention from academia and industry as a human recognition technology from a distance in non-intrusive ways without requiring cooperation. Although advanced methods have achieved impressive success in lab scenarios, most of them perform poorly in the wild. Recently, some Convolution Neural Networks (ConvNets) based methods have been proposed to address the issue of gait recognition in the wild. However, the temporal receptive field obtained by convolution operations is limited for long gait sequences. If directly replacing convolution blocks with visual transformer blocks, the model may not enhance a local temporal receptive field, which is important for covering a complete gait cycle. To address this issue, we design a Global-Local Temporal Receptive Field Network (GLGait). GLGait employs a Global-Local Temporal Module (GLTM) to establish a global-local temporal receptive field, which mainly consists of a Pseudo Global Temporal Self-Attention (PGTA) and a temporal convolution operation. Specifically, PGTA is used to obtain a pseudo global temporal receptive field with less memory and computation complexity compared with a multi-head self-attention (MHSA). The temporal convolution operation is used to enhance the local temporal receptive field. Besides, it can also aggregate pseudo global temporal receptive field to a true holistic temporal receptive field. Furthermore, we also propose a Center-Augmented Triplet Loss (CTL) in GLGait to reduce the intra-class distance and expand the positive samples in the training stage. Extensive experiments show that our method obtains state-of-the-art results on in-the-wild datasets, $i.e.$, Gait3D and GREW. The code is available at https://github.com/bgdpgz/GLGait. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# 平面交互磁極トラップにおける活性化サブmg強磁性立方体のキャラクタリゼーション
Characterisation of a levitated sub-mg ferromagnetic cube in a planar alternating-current magnetic Paul trap ( http://arxiv.org/abs/2408.06838v1 ) ライセンス: Link先を確認 | Martijn Janse, Eli van der Bent, Mart Laurman, Robert Smit, Bas Hensen, | (参考訳) 微小浮遊物体は慣性センシング、小さなスケールでの重力試験、量子状態の光学、質量重畳のための有望なプラットフォームである。
しかし、光電場を利用した既存の浮上技術は、それぞれ内部温度の上昇と荷電騒音によって誘導されるノイズに悩まされている。
マイスナーをベースとした磁気浮上は両方のデコヒーレンスを回避できるが、低温環境を必要とする。
ここでは、室温で交互に流れる平面磁性ポールトラップで浮遊するサブmg強磁性立方体を特徴付ける。
マチュー方程式やリボリショナルモードでは最大2500のクオリティ係数と一致した振る舞いを示す。
この技術は、技術センシングの応用の他に、マイクロンサイズの粒子制限におけるMHzリリレーションモードの経路を定め、超伝導回路やスピン系量子システムへの磁気結合を可能にした。
Microscopic levitated objects are a promising platform for inertial sensing, testing gravity at small scales, optomechanics in the quantum regime, and large-mass superpositions. However, existing levitation techniques harnessing optical and electrical fields suffer from noise induced by elevated internal temperatures and charge noise, respectively. Meissner-based magnetic levitation circumvents both sources of decoherence but requires cryogenic environments. Here we characterize a sub-mg ferromagnetic cube levitated in an alternating-current planar magnetic Paul trap at room temperature. We show behavior in line with the Mathieu equations and quality factors of up to 2500 for the librational modes. Besides technological sensing applications, this technique sets out a path for MHz librational modes in the micron-sized particle limit, allowing for magnetic coupling to superconducting circuits and spin-based quantum systems. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# 映像から映像への変換器の動的・圧縮的適応
Dynamic and Compressive Adaptation of Transformers From Images to Videos ( http://arxiv.org/abs/2408.06840v1 ) ライセンス: Link先を確認 | Guozhen Zhang, Jingyu Liu, Shengming Cao, Xiaotong Zhao, Kevin Zhao, Kai Ma, Limin Wang, | (参考訳) 近年,画像テキストマッチングによるViT(Pre-trained Vision Transformer)の顕著な成功により,画像から映像への適応への関心が高まっている。
しかし、現在のほとんどのアプローチは各フレームのフルフォワードパスを保持しており、ビデオ全体の処理に高い計算オーバーヘッドをもたらす。
本稿では,動的フレーム間Token補間を用いた圧縮画像から映像への適応手法InTIを提案する。
InTIは、コヒーレントな時空間構造を乱すことなく、情報的トークンをソフトに保存することを目指している。
具体的には、隣接するフレーム内の同一位置にある各トークンペアを線形に新しいトークンに集約し、その集約重みはマルチスケールのコンテキスト認識ネットワークによって生成される。
これにより、隣接するフレームの情報をポイント・バイ・ポイントで適応的に圧縮し、処理されたフレームの数を1回に半分減らすことができる。
重要なことは、InTIは既存のアダプティブメソッドとシームレスに統合することができ、複雑な設計をせずに強力なパフォーマンスを実現することができる。
Kinetics-400 では、InTI は 87.1 の最高-1 の精度に達し、GFLOP は単純適応に比べて37.5% 減少している。
追加の時間モジュールと組み合わせると、InTIは最高1の精度87.6で、GFLOPsは37%減少する。
同様の結論は、他の一般的なデータセットで検証されている。
Recently, the remarkable success of pre-trained Vision Transformers (ViTs) from image-text matching has sparked an interest in image-to-video adaptation. However, most current approaches retain the full forward pass for each frame, leading to a high computation overhead for processing entire videos. In this paper, we present InTI, a novel approach for compressive image-to-video adaptation using dynamic Inter-frame Token Interpolation. InTI aims to softly preserve the informative tokens without disrupting their coherent spatiotemporal structure. Specifically, each token pair at identical positions within neighbor frames is linearly aggregated into a new token, where the aggregation weights are generated by a multi-scale context-aware network. In this way, the information of neighbor frames can be adaptively compressed in a point-by-point manner, thereby effectively reducing the number of processed frames by half each time. Importantly, InTI can be seamlessly integrated with existing adaptation methods, achieving strong performance without extra-complex design. On Kinetics-400, InTI reaches a top-1 accuracy of 87.1 with a remarkable 37.5% reduction in GFLOPs compared to naive adaptation. When combined with additional temporal modules, InTI achieves a top-1 accuracy of 87.6 with a 37% reduction in GFLOPs. Similar conclusions have been verified in other common datasets. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# 上級性形式論と二変量原理におけるゲミナル理論
Geminal theory within the seniority formalism and bi-variational principle ( http://arxiv.org/abs/2408.06842v1 ) ライセンス: Link先を確認 | Stijn De Baerdemacker, Dimitri Van Neck, | (参考訳) 本稿では,重大性形式論と二変分原理におけるゲジナル理論の数学的構造について概説する。
星座に因んで命名されたゲミナル波動関数は、量子化学における対電子波動関数の平均場のような表現を提供し、電子対による化学結合のルイス像と結びついている。
残念ながら、平均場積の波動関数が記述されているにもかかわらず、ゲミナル波動関数の計算コストは、スレーター行列式参照状態との恒久的な重なり合いに支配されている。
恒常行列の因子的スケーリングを減少させる最近のアプローチを概観し、予測されたシュリンガー方程式と縮密度行列の計算のための一貫した枠組みとして、二変分原理を提示する。
We present an overview of the mathematical structure of geminal theory within the seniority formalism and bi-variational principle. Named after the constellation, geminal wavefunctions provide the mean-field like representation of paired-electron wavefunctions in quantum chemistry, tying in with the Lewis picture of chemical bonding via electron pairs. Unfortunately, despite its mean-field product wave function description, the computational cost of computing geminal wavefunctions is dominated by the permanent overlaps with Slater determinant reference states. We review recent approaches to reduce the factorial scaling of the permanent, and present the bi-variational principle as a consistent framework for the projected Schr\"odinger Equation and the computation of reduced density matrices. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# 状態マップに基づく逆状態選択によるステートフルプロトコルファジリング
Stateful protocol fuzzing with statemap-based reverse state selection ( http://arxiv.org/abs/2408.06844v1 ) ライセンス: Link先を確認 | Liu Yu, Shen Yanlong, Zhou Ying, | (参考訳) Stateful Coverage-Based Greybox Fuzzing (SCGF) はネットワークプロトコルのグレーボックスファジングの最先端手法であると考えられている。
プロトコルファジィングプロセスの間、SCGFはプロトコル状態を特定してターゲットプロトコルの状態マシンを構築する。
ヒューリスティック法と対応する種子および突然変異領域を用いて、ファズ試験を効果的に行うために最適な状態を選択する。
それにもかかわらず、既存のSCGF手法は、プログラムの基本ブロックカバレッジ情報とプロトコル状態との対応を考慮せずに、プロトコル状態の選択を優先している。
このギャップに対処するために、SCGFの状態マップに基づく逆状態選択法を提案する。
本手法は、ファジィテストシードのカバレッジ情報を優先し、ビットマップカバレッジを改善することを目的として、プログラムの基本ブロックカバレッジ情報とプロトコル状態との対応を深く掘り下げる。
ステートマップはステートマシン表現法を単純化するために使用される。
さらに、異なるタイプの状態の設計により、メッセージシーケンスの構築方法の最適化が可能となり、メッセージシーケンスの長さの削減により、テストケースの実行効率が向上した。
SCGFの最適化により,SMGFuzzの開発を行い,SMGFuzzの試験効率を評価するためにProfuzzbenchを用いた実験を行った。その結果,AFLNetと比較して,SMGFuzzはエッジカバレッジの平均12.48%,ユニーククラッシュ50.1%,テストケース実行速度40.2%を24時間で達成した。
Stateful Coverage-Based Greybox Fuzzing (SCGF) is considered the state-of-the-art method for network protocol greybox fuzzing. During the protocol fuzzing process, SCGF constructs the state machine of the target protocol by identifying protocol states. Optimal states are selected for fuzzing using heuristic methods, along with corresponding seeds and mutation regions, to effectively conduct fuzz testing. Nevertheless, existing SCGF methodologies prioritise the selection of protocol states without considering the correspondence between program basic block coverage information and protocol states. To address this gap, this paper proposes a statemap-based reverse state selection method for SCGF. This approach prioritises the coverage information of fuzzy test seeds, and delves deeper into the correspondence between the basic block coverage information of the programme and the protocol state, with the objective of improving the bitmap coverage. The state map is employed to simplify the state machine representation method. Furthermore, the design of different types of states has enabled the optimisation of the method of constructing message sequences, the reduction in the length of message sequences further improve the efficiency of test case execution. By optimising the SCGF, we developed SMGFuzz and conducted experiments utilising Profuzzbench in order to assess the testing efficiency of SMGFuzz.The results indicate that compared to AFLNet, SMGFuzz achieved an average increase of 12.48% in edges coverage, a 50.1% increase in unique crashes and a 40.2% increase in test case execution speed over a period of 24 hours. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# AI研究は魔法ではない、再現可能で責任を負う必要がある:博士課程の学生の視点からのAI分野の課題
AI Research is not Magic, it has to be Reproducible and Responsible: Challenges in the AI field from the Perspective of its PhD Students ( http://arxiv.org/abs/2408.06847v1 ) ライセンス: Link先を確認 | Andrea Hrckova, Jennifer Renoux, Rafael Tolosana Calasanz, Daniela Chuda, Martin Tamajka, Jakub Simko, | (参考訳) 調査中の欧州のAI学生が直面する課題を明らかにすることを目的として、13カ国から28人のAI博士候補を調査した。
その結果,(1)データセット,モデル,実験などのAIリソースの発見可能性,品質,(2)実験をAI論文で再現することの難しさ,(3)信頼性と学際性の欠如,の3つの重要な領域において,課題が浮き彫りになった。
この結果から、初期のAI研究者は一般的にAIリソースを共有する傾向にあるが、データセットやコードの準備、キュレーション、倫理的評価により関与する動機や知識は欠如しており、アプリケーションドメインの専門家との協力には使用されていないと考えられる。
さらに、コンピュータ科学と人工知能の両方において、データガバナンスと再現性における既存の実践について検討する。
例えば、再現性評価などの再現性イニシアチブを積極的に推進しているのは少数の会場のみである。
批判的に言えば、社会全体にとって重要な、特にAI研究コミュニティにとって不可欠な、責任と再現可能なAI研究プラクティスの即時導入が必要である。
本稿では,社会的・技術的レコメンデーションを組み合わせることで,課題を克服する。
社会的には、AIカンファレンスやジャーナルにおける再現性イニシアチブの一般的な採用や、特にデータガバナンスの実践における学際的コラボレーションの改善を提案する。
技術的な面では、データセットとコードのバージョニングコントロールをよりサポートするための強化されたツールと、AIリソースの共有と発見を容易にするコンピューティングインフラストラクチャ、さらには実験の共有、実行、検証をサポートすることが必要です。
With the goal of uncovering the challenges faced by European AI students during their research endeavors, we surveyed 28 AI doctoral candidates from 13 European countries. The outcomes underscore challenges in three key areas: (1) the findability and quality of AI resources such as datasets, models, and experiments; (2) the difficulties in replicating the experiments in AI papers; (3) and the lack of trustworthiness and interdisciplinarity. From our findings, it appears that although early stage AI researchers generally tend to share their AI resources, they lack motivation or knowledge to engage more in dataset and code preparation and curation, and ethical assessments, and are not used to cooperate with well-versed experts in application domains. Furthermore, we examine existing practices in data governance and reproducibility both in computer science and in artificial intelligence. For instance, only a minority of venues actively promote reproducibility initiatives such as reproducibility evaluations. Critically, there is need for immediate adoption of responsible and reproducible AI research practices, crucial for society at large, and essential for the AI research community in particular. This paper proposes a combination of social and technical recommendations to overcome the identified challenges. Socially, we propose the general adoption of reproducibility initiatives in AI conferences and journals, as well as improved interdisciplinary collaboration, especially in data governance practices. On the technical front, we call for enhanced tools to better support versioning control of datasets and code, and a computing infrastructure that facilitates the sharing and discovery of AI resources, as well as the sharing, execution, and verification of experiments. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# IQサンプルによるWiFi CSIフィンガープリントの改善
Improving WiFi CSI Fingerprinting with IQ Samples ( http://arxiv.org/abs/2408.06848v1 ) ライセンス: Link先を確認 | Junjie Wang, Yong Huang, Feiyang Zhao, Wenjing Wang, Dalong Zhang, Wei Wang, | (参考訳) 無線通信の情報セキュリティを確保するためにはアイデンティティ認証が不可欠である。
RF (Radio frequency) フィンガープリント技術は、暗号ベースの認証アプローチのプロムアップサプリメントを提供するが、インフェーズとクアキュア(IQ)サンプルをキャプチャするための専用の機器に依存しており、広く採用されるのを妨げている。
近年の進歩は、市販のRFフィンガープリンティングデバイスによるチャネル状態情報(CSI)の取得が容易であるが、チャネル干渉の排除に重点を置いており、CSI測定の粗い粒度や情報損失の課題に対処できない。
これらの課題を克服するために、IQベースのアプローチに匹敵する性能を実現する新しいCSIフィンガープリントシステムであるCSI2Qを提案する。
指紋を生のCSI測定から直接抽出する代わりに、CSI2Qはまず、同じ特徴空間をIQサンプルで共有する時間領域信号に変換する。
次に,特徴抽出におけるIQフィンガープリントモデルの特長を,補助的なトレーニング戦略を通じてCSIに伝達する。
最後に、トレーニングされたCSIフィンガープリントモデルを使用して、テスト中のサンプルがどのデバイスから来ているかを決定する。
合成CSIデータセットと実CSIデータセットの両方でCSI2Qを評価する。
合成データセットでは,認識精度を76%から91%に向上させることができる。
実際のデータセットでは、CSI2Qは精度を67%から82%に向上させる。
Identity authentication is crucial for ensuring the information security of wireless communication. Radio frequency (RF) fingerprinting techniques provide a prom-ising supplement to cryptography-based authentication approaches but rely on dedicated equipment to capture in-phase and quadrature (IQ) samples, hindering their wide adoption. Recent advances advocate easily obtainable channel state in-formation (CSI) by commercial WiFi devices for lightweight RF fingerprinting, but they mainly focus on eliminating channel interference and cannot address the challenges of coarse granularity and information loss of CSI measurements. To overcome these challenges, we propose CSI2Q, a novel CSI fingerprinting sys-tem that achieves comparable performance to IQ-based approaches. Instead of ex-tracting fingerprints directly from raw CSI measurements, CSI2Q first transforms them into time-domain signals that share the same feature space with IQ samples. Then, the distinct advantages of an IQ fingerprinting model in feature extraction are transferred to its CSI counterpart via an auxiliary training strategy. Finally, the trained CSI fingerprinting model is used to decide which device the sample under test comes from. We evaluate CSI2Q on both synthetic and real CSI datasets. On the synthetic dataset, our system can improve the recognition accuracy from 76% to 91%. On the real dataset, CSI2Q boosts the accuracy from 67% to 82%. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# 大規模言語モデルに基づく因果エージェント
Causal Agent based on Large Language Model ( http://arxiv.org/abs/2408.06849v1 ) ライセンス: Link先を確認 | Kairong Han, Kun Kuang, Ziyu Zhao, Junjian Ye, Fei Wu, | (参考訳) 大規模言語モデル(LLM)は様々な領域で大きな成功を収めている。
しかし、因果問題や因果論の本質的な複雑さは、それらを自然言語で正確に記述することの難しさを招き、LLMがそれらを理解して効果的に利用することが困難になる。
因果解法は自然言語によって容易に伝達されないため、LLMがそれらを正確に適用できない。
加えて、因果データセットは典型的には表型であるが、LLMは自然言語データを扱うのに優れ、表型データによる効果的な推論を妨げる構造的ミスマッチを生成する。
この因果推論能力の欠如はLLMの開発を制限する。
これらの課題に対処するため、我々はLLMにCausal Agentというエージェントフレームワーク内の因果的ツールを導入し、因果的問題に対処できるようにした。
本発明の因果剤は、ツール、メモリ及び推論モジュールを含む。
ツールモジュールでは、因果的エージェントが、表形式のデータを自然言語に合わせるために因果的手法を適用する。
推論モジュールでは、因果エージェントはReActフレームワークを使用して、ツールを使って複数のイテレーションを通して推論を行う。
メモリモジュールでは、因果エージェントは、キーがユニークな名前で値が因果グラフである辞書インスタンスを保持する。
因果的エージェントの因果的能力を検証するため,変数レベル,エッジレベル,因果的グラフレベル,因果的効果レベルという4段階の因果的問題からなるベンチマークを構築した。
これらの4レベルの問題に対してChatGPT-3.5を用いて1.3Kのテストデータセットを生成し、データセット上で因果エージェントをテストした。
本手法は, 4段階因果問題に対して, 80%以上の精度で顕著な有効性を示す。
さらなる洞察と実装の詳細については、GitHubリポジトリ https://github.com/Kairong-Han/Causal_Agent.comからアクセスできます。
Large language models (LLMs) have achieved significant success across various domains. However, the inherent complexity of causal problems and causal theory poses challenges in accurately describing them in natural language, making it difficult for LLMs to comprehend and use them effectively. Causal methods are not easily conveyed through natural language, which hinders LLMs' ability to apply them accurately. Additionally, causal datasets are typically tabular, while LLMs excel in handling natural language data, creating a structural mismatch that impedes effective reasoning with tabular data. This lack of causal reasoning capability limits the development of LLMs. To address these challenges, we have equipped the LLM with causal tools within an agent framework, named the Causal Agent, enabling it to tackle causal problems. The causal agent comprises tools, memory, and reasoning modules. In the tools module, the causal agent applies causal methods to align tabular data with natural language. In the reasoning module, the causal agent employs the ReAct framework to perform reasoning through multiple iterations with the tools. In the memory module, the causal agent maintains a dictionary instance where the keys are unique names and the values are causal graphs. To verify the causal ability of the causal agent, we established a benchmark consisting of four levels of causal problems: variable level, edge level, causal graph level, and causal effect level. We generated a test dataset of 1.3K using ChatGPT-3.5 for these four levels of issues and tested the causal agent on the datasets. Our methodology demonstrates remarkable efficacy on the four-level causal problems, with accuracy rates all above 80%. For further insights and implementation details, our code is accessible via the GitHub repository https://github.com/Kairong-Han/Causal_Agent. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# BSS-CFFMA:自己監督型埋め込みに基づくクロスドメイン特徴融合とマルチアテンション音声強調ネットワーク
BSS-CFFMA: Cross-Domain Feature Fusion and Multi-Attention Speech Enhancement Network based on Self-Supervised Embedding ( http://arxiv.org/abs/2408.06851v1 ) ライセンス: Link先を確認 | Alimjan Mattursun, Liejun Wang, Yinfeng Yu, | (参考訳) 音声自己教師型学習(SSL)は、複数の下流タスクで最先端(SOTA)のパフォーマンスを達成したことを示す。
しかし、音声強調(SE)タスクへの応用は未熟であり、改善の機会を提供する。
本研究では,BSS-CFFMAと呼ばれる,自己監督型埋め込みを利用した新しいクロスドメイン機能融合とマルチアテンション音声強調ネットワークを提案する。
BSS-CFFMAは、マルチスケールクロスドメイン機能融合(MSCFF)ブロックと、残留ハイブリッドマルチアテンション(RHMA)ブロックからなる。
MSCFFブロックは、クロスドメイン機能を効果的に統合し、リッチな音響情報の抽出を容易にする。
RHMAブロックは、主要な拡張モジュールとして機能し、3つの異なるアテンションモジュールを使用して、多様なアテンション表現をキャプチャし、高品質な音声信号を推定する。
我々は、VoiceBank-DEMANDデータセットの比較およびアブレーションによるBSS-CFFMAモデルの性能評価を行い、SOTA結果を得た。
さらに、音声強調タスク用に特別に設計されたデータセットであるWHAMR!データセットから3種類のデータを選択し、聴取のみ、発声のみ、発声と発声を同時に行うタスクにおけるBSS-CFFMAの能力を評価する。
本研究は, 発声・発声・発声を含む複雑なタスクにおいて, 自己教師型埋め込み型音声強調法の有効性を探求する最初の試みである。
BSS-CFFMAのデモ実装はオンラインで公開されている。
\label{s1}}。
Speech self-supervised learning (SSL) represents has achieved state-of-the-art (SOTA) performance in multiple downstream tasks. However, its application in speech enhancement (SE) tasks remains immature, offering opportunities for improvement. In this study, we introduce a novel cross-domain feature fusion and multi-attention speech enhancement network, termed BSS-CFFMA, which leverages self-supervised embeddings. BSS-CFFMA comprises a multi-scale cross-domain feature fusion (MSCFF) block and a residual hybrid multi-attention (RHMA) block. The MSCFF block effectively integrates cross-domain features, facilitating the extraction of rich acoustic information. The RHMA block, serving as the primary enhancement module, utilizes three distinct attention modules to capture diverse attention representations and estimate high-quality speech signals. We evaluate the performance of the BSS-CFFMA model through comparative and ablation studies on the VoiceBank-DEMAND dataset, achieving SOTA results. Furthermore, we select three types of data from the WHAMR! dataset, a collection specifically designed for speech enhancement tasks, to assess the capabilities of BSS-CFFMA in tasks such as denoising only, dereverberation only, and simultaneous denoising and dereverberation. This study marks the first attempt to explore the effectiveness of self-supervised embedding-based speech enhancement methods in complex tasks encompassing dereverberation and simultaneous denoising and dereverberation. The demo implementation of BSS-CFFMA is available online\footnote[2]{https://github.com/AlimMat/BSS-CFFMA. \label{s1}}. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# 相関雑音を用いたガウスメカニズムの改善
Better Gaussian Mechanism using Correlated Noise ( http://arxiv.org/abs/2408.06853v1 ) ライセンス: Link先を確認 | Christian Janos Lebeda, | (参考訳) 感性空間が特定の共通構造を持つ場合、微分プライベートなクエリに応答するガウス機構の単純な変種を示す。
我々のモチベーション問題は、隣接関係の加算/削除の下でクエリをカウントする$d$に応答する基本的なタスクである。
標準ガウス機構は、各カウントに独立に$d$の分散スケールを持つガウスアンとして分散されたノイズを加えることで、この問題を解く。
分散を$(\sqrt{d} + 1)/4$でスケールしたガウス変数をすべてのカウントに付加することで、独立なガウス雑音サンプルの分散を$(d + \sqrt{d})/4$でしかスケールできないことを示す。
各カウントクエリに付加されるトータルノイズは、標準偏差が$(\sqrt{d} + 1)/2$で、$\sqrt{d}$ではなく$(\sqrt{d} + 1)/2$でスケールされたガウス分布に従う。
私たちのメカニズムの中心的な考え方はシンプルで、そのテクニックは柔軟です。
本手法を他の問題に適用すると、標準ガウス機構よりも同様の改善が得られることを示す。
We present a simple variant of the Gaussian mechanism for answering differentially private queries when the sensitivity space has a certain common structure. Our motivating problem is the fundamental task of answering $d$ counting queries under the add/remove neighboring relation. The standard Gaussian mechanism solves this task by adding noise distributed as a Gaussian with variance scaled by $d$ independently to each count. We show that adding a random variable distributed as a Gaussian with variance scaled by $(\sqrt{d} + 1)/4$ to all counts allows us to reduce the variance of the independent Gaussian noise samples to scale only with $(d + \sqrt{d})/4$. The total noise added to each counting query follows a Gaussian distribution with standard deviation scaled by $(\sqrt{d} + 1)/2$ rather than $\sqrt{d}$. The central idea of our mechanism is simple and the technique is flexible. We show that applying our technique to another problem gives similar improvements over the standard Gaussian mechanism. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# LoRA$^2$ : 大規模言語モデルのためのマルチスケール低ランク近似
LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models ( http://arxiv.org/abs/2408.06854v1 ) ライセンス: Link先を確認 | Jia-Chen Zhang, Yu-Jie Xiong, He-Xi Qiu, Dong-Hai Zhu, Chun-Ming Xia, | (参考訳) 下流タスクのパラメータ効率が高い微調整大型言語モデル(LLM)が新しいパラダイムとなった。
Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。
本稿では,LoRAを複数のスケールに拡張し,LoRA$^2$と呼ぶ。
まず直交射影理論を組み合わせて、2つの直交平面における一組の LoRA を訓練する。
そして、パラメータ感度スコアの計算を約98.5 %削減する重要度スコアアルゴリズムを改良する。
特異値をより重要度の高いスコアでプルーニングすることで、様々な下流タスクへの適応性を向上する。
LoRA$^2$の有効性を検証するために、広く使われている2つの事前訓練モデルに対して大規模な実験を行った。
その結果、トレーニング可能なパラメータの数がフル微調整に比べてわずか0.72倍に大幅に減少する一方で、非常に印象的なパフォーマンスを実現していることがわかった。
パラメータがさらに0.17Mに減少しても、8倍のパラメータを持つベースラインに匹敵する結果が得られる。
私たちのコードはここにある。 https://anonymous.4open.science/r/LoRA-2-5B4C
Fine-tuning large language models (LLMs) with high parameter efficiency for downstream tasks has become a new paradigm. Low-Rank Adaptation (LoRA) significantly reduces the number of trainable parameters for fine-tuning. Although it has demonstrated commendable performance, updating parameters within a single scale may not be the optimal choice for complex downstream tasks.In this paper, we extend the LoRA to multiple scales, dubbed as LoRA$^2$. We first combine orthogonal projection theory to train a set of LoRAs in two mutually orthogonal planes. Then, we improve the importance score algorithm, which reduce parameter sensitivity score calculations by approximately 98.5\%. By pruning singular values with lower importance scores, thereby enhancing adaptability to various downstream tasks. Extensive experiments are conducted on two widely used pre-trained models to validate the effectiveness of LoRA$^2$. Results show that it significantly reduces the number of trainable parameters to just 0.72\% compared to full fine-tuning, while still delivering highly impressive performance. Even when the parameters are further reduced to 0.17M, it still achieves comparable results to the baseline with 8 times more parameters. Our code is available here: https://anonymous.4open.science/r/LoRA-2-5B4C | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# クリロフ空間における速度限界とスクランブル
Speed Limits and Scrambling in Krylov Space ( http://arxiv.org/abs/2408.06855v1 ) ライセンス: Link先を確認 | Ankit Gill, Tapobrata Sarkar, | (参考訳) 我々は,Krylov複雑性と演算子量子速度限界(OQSL)の関係と,ランダム・可積分行列および多体系におけるレベル反発の関係について検討する。
強化されたレベル反発は、ランダム/可積分行列におけるOQSLの増加に対応する。
しかし、多体系ではモデルのテンソル積構造により力学がより複雑になる。
当初、積分可能性破壊パラメータが増加するにつれて、OQSLも増加し、積分可能性の破壊は複雑性演算子のより高速な進化をもたらすことが示唆された。
積分可能性破壊のより大きな値において、OQSLは減少し、演算子の進化速度の減速が示唆される。
また,多体系におけるクリロフ基底作用素のスクランブル,コヒーレンス,絡み合いなどの情報理論的性質についても検討した。
これらの作用素の揺らぎ挙動は、積分可能かつカオス的なケースにおいて異なるパターンを示す。
カオス力学を示す系について、クリロフ基底作用素は、後期の時間発展作用素のこれらの性質の信頼できる測度のままである。
しかし、可積分系では、クリャロフ作用素が絡み合いのダイナミクスを捉える能力は、特に後期において、より効果的ではない。
We investigate the relationship between Krylov complexity and operator quantum speed limits (OQSLs) of the complexity operator and level repulsion in random/integrable matrices and many-body systems. An enhanced level-repulsion corresponds to increased OQSLs in random/integrable matrices. However, in many-body systems, the dynamics is more intricate due to the tensor product structure of the models. Initially, as the integrability-breaking parameter increases, the OQSL also increases, suggesting that breaking integrability allows for faster evolution of the complexity operator. At larger values of integrability-breaking, the OQSL decreases, suggesting a slowdown in the operator's evolution speed. Information-theoretic properties, such as scrambling, coherence and entanglement, of Krylov basis operators in many-body systems, are also investigated. The scrambling behaviour of these operators exhibits distinct patterns in integrable and chaotic cases. For systems exhibiting chaotic dynamics, the Krylov basis operators remain a reliable measure of these properties of the time-evolved operator at late times. However, in integrable systems, the Krylov operator's ability to capture the entanglement dynamics is less effective, especially during late times. | 翻訳日:2024-08-14 17:36:36 公開日:2024-08-13 |
# 高次ボロノイ図を用いた外周部を有するPCAの最適境界
Optimal Bound for PCA with Outliers using Higher-Degree Voronoi Diagrams ( http://arxiv.org/abs/2408.06867v1 ) ライセンス: Link先を確認 | Sajjad Hashemian, Mohammad Saeed Arvenaghi, Ebrahim Ardeshir-Larijani, | (参考訳) 本稿では,主成分分析(PCA)のためのアルゴリズムについて紹介する。
計算幾何学,特に高次ボロノイ図を用いた手法を用いて,外接点が存在する場合でも,PCAの最適部分空間にナビゲートする。
このアプローチは、$n^{d+\mathcal{O}(1)}\text{poly}(n,d)$の時間複雑性を持つ最適解を得る。
さらに,2.^{\mathcal{O}(r(d-r))} \times \text{poly}(n,d)$の複雑性を持つランダム化アルゴリズムを提案する。
このアルゴリズムはグラスマン多様体の項で特徴づけられる部分空間をサンプリングする。
このようなサンプリング手法を用いることで、最適部分空間を捕捉する確率が高く、成功確率は 1 - \delta)^T$ となる。
ここで、$\delta$ は標本化された部分空間が最適解を含まない確率を表し、$T$ は標本化された部分空間の個数であり、これは $2^{r(d-r)}$ に比例する。
我々の高次ボロノイ図とグラスマン型サンプリングの使用は、特に大規模データセットや高次元設定を扱う際に、より明確な概念的経路と実用的な利点をもたらす。
In this paper, we introduce new algorithms for Principal Component Analysis (PCA) with outliers. Utilizing techniques from computational geometry, specifically higher-degree Voronoi diagrams, we navigate to the optimal subspace for PCA even in the presence of outliers. This approach achieves an optimal solution with a time complexity of $n^{d+\mathcal{O}(1)}\text{poly}(n,d)$. Additionally, we present a randomized algorithm with a complexity of $2^{\mathcal{O}(r(d-r))} \times \text{poly}(n, d)$. This algorithm samples subspaces characterized in terms of a Grassmannian manifold. By employing such sampling method, we ensure a high likelihood of capturing the optimal subspace, with the success probability $(1 - \delta)^T$. Where $\delta$ represents the probability that a sampled subspace does not contain the optimal solution, and $T$ is the number of subspaces sampled, proportional to $2^{r(d-r)}$. Our use of higher-degree Voronoi diagrams and Grassmannian based sampling offers a clearer conceptual pathway and practical advantages, particularly in handling large datasets or higher-dimensional settings. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# 合成赤外画像合成に関する総合的研究
A Comprehensive Survey on Synthetic Infrared Image synthesis ( http://arxiv.org/abs/2408.06868v1 ) ライセンス: Link先を確認 | Avinash Upadhyay, Manoj sharma, Prerna Mukherjee, Amit Singhal, Brejesh Lall, | (参考訳) 合成赤外線シーンとターゲット生成は、リモートセンシング、監視、ターゲット認識などの様々なアプリケーションのトレーニングとテストのための現実的な赤外線画像とターゲットの生成を可能にするため、重要なコンピュータビジョン問題である。
また、現実世界の赤外線データ収集に伴うコストとリスクの低減にも役立ちます。
本稿では,従来の数学的モデリングに基づく手法と,合成IRシーンやターゲットを生成するためのディープラーニングに基づく手法の概要を概観することを目的とする。
本稿では、合成赤外線シーンとターゲット生成の重要性を論じ、黒体とグレーの体放射の数学、およびIR画像キャプチャー法について概説する。
合成赤外線シーンとターゲット生成の潜在的な利用事例についても述べ,様々な分野におけるこれらの技術の重要性を強調した。
さらに、合成赤外線シーンとターゲット生成の効率性と効果を高める新しい技術開発の可能性について検討し、さらなる研究の必要性を強調した。
Synthetic infrared (IR) scene and target generation is an important computer vision problem as it allows the generation of realistic IR images and targets for training and testing of various applications, such as remote sensing, surveillance, and target recognition. It also helps reduce the cost and risk associated with collecting real-world IR data. This survey paper aims to provide a comprehensive overview of the conventional mathematical modelling-based methods and deep learning-based methods used for generating synthetic IR scenes and targets. The paper discusses the importance of synthetic IR scene and target generation and briefly covers the mathematics of blackbody and grey body radiations, as well as IR image-capturing methods. The potential use cases of synthetic IR scenes and target generation are also described, highlighting the significance of these techniques in various fields. Additionally, the paper explores possible new ways of developing new techniques to enhance the efficiency and effectiveness of synthetic IR scenes and target generation while highlighting the need for further research to advance this field. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# Garfinkle-Horowitz-Stromingerダイレーション時空におけるフェルミオン場に対する量子肥満と操舵楕円体
Quantum obesity and steering ellipsoids for fermionic fields in Garfinkle-Horowitz-Strominger dilation spacetime ( http://arxiv.org/abs/2408.06869v1 ) ライセンス: Link先を確認 | Samira Elghaayda, M. Y. Abd-Rabbou, Mostafa Mansour, | (参考訳) 本稿では,Garfinkle-Horowitz-Strominger (GHS) による2分割ギシン状態に対する量子肥満(QO),量子不和(QD),および量子ステアリング楕円体(QSE)について検討する。
これら3つの量化器は、絡み合いを超えて量子相関を特徴づけるために導入され、絡み合いの証人としても機能する。
その結果,第2量子ビットの領域I内での拡散パラメータの増加に伴い,QDおよびQOの物理的アクセシビリティは単調に低下することが示された。
逆に、反粒子領域において、QDとQOのアクセシビリティは、パウリの排他原理とフェルミ・ディラック統計の影響により、拡張パラメータの有限値で安定化し、その後徐々に増加する。
特に、領域IにおけるQSEは、ディラック磁場の周波数が上昇し、希釈パラメータが減少するにつれて拡大し、反粒子領域では逆の傾向が観察される。
This paper investigates quantum obesity (QO), quantum discord (QD), and the quantum steering ellipsoid (QSE) for bipartite Gisin states subjected to Garfinkle-Horowitz-Strominger (GHS) dilation of spacetime on the second qubit. These three quantifiers are introduced to characterize quantum correlations beyond entanglement and can also function as entanglement witnesses. Our results demonstrate a monotonic decrease in the physical accessibility of both QD and QO as the dilation parameter increases within the region-I of the second qubit. Conversely, in the anti-particle region, the accessibility of QD and QO stabilizes at finite values of the dilation parameter owing to the influence of the Pauli exclusion principle and Fermi-Dirac statistics, subsequently increasing gradually. Notably, the QSE in the region-I expands as the Dirac field frequency rises and the dilation parameter diminishes, while the opposite trend is observed in the anti-particle region. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# 学術研究におけるジェネレーティブAIツール:質的・定量的研究方法論の応用と意義
Generative AI Tools in Academic Research: Applications and Implications for Qualitative and Quantitative Research Methodologies ( http://arxiv.org/abs/2408.06872v1 ) ライセンス: Link先を確認 | Mike Perkins, Jasper Roe, | (参考訳) 本研究では,生成人工知能(GenAI)が学術研究に与える影響について検討し,質的,定量的なデータ分析への応用に焦点をあてる。
GenAIツールは急速に進化するにつれて、研究の生産性を高め、複雑な分析プロセスを民主化するための新たな可能性を提供する。
しかし、学術的実践への統合は、研究の完全性、セキュリティ、著作家精神、そして学術作品の変化する性質に関する重要な疑問を提起する。
この研究は、現在の能力と将来的な応用の検証を通じて、研究者がどのようにGenAIツールを責任と倫理的に活用するかについての洞察を提供する。
本稿では,GenAIの様々な研究方法論への応用を実証し,AI支援研究における複製性と一貫性の課題について議論し,学術におけるAI統合の増大による倫理的意味について考察する。
本研究は,GenAIの質的・定量的な応用と,転写,コーディング,主題解析,視覚分析,統計解析のツールの強調について検討する。
これらの課題に対処することで、学術研究の未来を形作る上でAIの役割について現在進行中の談話に貢献し、AI支援研究ツールや研究の急速な発展を探求する研究者にガイダンスを提供することを目指している。
This study examines the impact of Generative Artificial Intelligence (GenAI) on academic research, focusing on its application to qualitative and quantitative data analysis. As GenAI tools evolve rapidly, they offer new possibilities for enhancing research productivity and democratising complex analytical processes. However, their integration into academic practice raises significant questions regarding research integrity and security, authorship, and the changing nature of scholarly work. Through an examination of current capabilities and potential future applications, this study provides insights into how researchers may utilise GenAI tools responsibly and ethically. We present case studies that demonstrate the application of GenAI in various research methodologies, discuss the challenges of replicability and consistency in AI-assisted research, and consider the ethical implications of increased AI integration in academia. This study explores both qualitative and quantitative applications of GenAI, highlighting tools for transcription, coding, thematic analysis, visual analytics, and statistical analysis. By addressing these issues, we aim to contribute to the ongoing discourse on the role of AI in shaping the future of academic research and provide guidance for researchers exploring the rapidly evolving landscape of AI-assisted research tools and research. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# 教育における感情・行動分析のための言語モデルの導入
Leveraging Language Models for Emotion and Behavior Analysis in Education ( http://arxiv.org/abs/2408.06874v1 ) ライセンス: Link先を確認 | Kaito Tanaka, Benjamin Tan, Brian Wong, | (参考訳) 学生の感情や行動の分析は、学習成果の向上と教育経験のパーソナライズに不可欠である。
従来の手法は、しばしば侵入的な視覚的および生理的データ収集に依存し、プライバシーの懸念やスケーラビリティの問題を引き起こす。
本稿では,大規模言語モデル(LLM)を活用した新しい手法を提案する。
提案手法では, 感情的, エンゲージメント状態の検出において, LLMを誘導するプロンプトを用いて, 非侵襲的でスケーラブルなソリューションを提供する。
我々は,Qwen,ChatGPT,Claude2,GPT-4を用いて,ベースラインモデルとチェーン・オブ・シークレット(CoT)プロンプトとの比較実験を行った。
その結果,本手法は精度と文脈的理解の両方において,ベースラインを著しく上回ることがわかった。
本研究は、教育的感情や行動分析のための実用的で効果的なツールを提供するために、LLMと迅速な工学の組み合わせの可能性を強調した。
The analysis of students' emotions and behaviors is crucial for enhancing learning outcomes and personalizing educational experiences. Traditional methods often rely on intrusive visual and physiological data collection, posing privacy concerns and scalability issues. This paper proposes a novel method leveraging large language models (LLMs) and prompt engineering to analyze textual data from students. Our approach utilizes tailored prompts to guide LLMs in detecting emotional and engagement states, providing a non-intrusive and scalable solution. We conducted experiments using Qwen, ChatGPT, Claude2, and GPT-4, comparing our method against baseline models and chain-of-thought (CoT) prompting. Results demonstrate that our method significantly outperforms the baselines in both accuracy and contextual understanding. This study highlights the potential of LLMs combined with prompt engineering to offer practical and effective tools for educational emotion and behavior analysis. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# 信念変化理論による対話型説明可能なAIの進化
Advancing Interactive Explainable AI via Belief Change Theory ( http://arxiv.org/abs/2408.06875v1 ) ライセンス: Link先を確認 | Antonio Rago, Maria Vanina Martinez, | (参考訳) AIモデルがより複雑になり、人間の日常生活に絡み合うようになるにつれ、説明可能なAI(XAI)メソッドの相互作用のレベルがさらに高くなる。
本稿では,データ駆動型分類器の論理的表現に新たな情報,すなわち対話型XAIにおけるユーザフィードバックをモデル化する演算子の形式的基礎として,信念変化理論を用いることを提案する。
我々は,このような形式化は,対話的説明を原則的に発展させる枠組みと方法論を提供し,保証された行動を提供し,そのような相互作用の透明性と説明責任を優先するものである,と論じる。
具体的には、まず、人間と機械間で共有される説明情報を表す、論理に基づく新しい形式を定義します。
次に、対話型XAIの現実シナリオについて検討し、新しい知識と既存の知識の優先順位が異なり、フォーマリズムがインスタンス化される可能性がある。
最後に、信念の変化の仮定のコアセットを分析し、実世界の設定に適合する可能性について議論し、既存の演算子を基盤とする理論的な仮定の緩和や再解釈を必要とする可能性のある特定の課題を指摘した。
As AI models become ever more complex and intertwined in humans' daily lives, greater levels of interactivity of explainable AI (XAI) methods are needed. In this paper, we propose the use of belief change theory as a formal foundation for operators that model the incorporation of new information, i.e. user feedback in interactive XAI, to logical representations of data-driven classifiers. We argue that this type of formalisation provides a framework and a methodology to develop interactive explanations in a principled manner, providing warranted behaviour and favouring transparency and accountability of such interactions. Concretely, we first define a novel, logic-based formalism to represent explanatory information shared between humans and machines. We then consider real world scenarios for interactive XAI, with different prioritisations of new and existing knowledge, where our formalism may be instantiated. Finally, we analyse a core set of belief change postulates, discussing their suitability for our real world settings and pointing to particular challenges that may require the relaxation or reinterpretation of some of the theoretical assumptions underlying existing operators. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# 計画における行動コスト予測のための意思決定型学習
Decision-Focused Learning to Predict Action Costs for Planning ( http://arxiv.org/abs/2408.06876v1 ) ライセンス: Link先を確認 | Jayanta Mandi, Marco Foschini, Daniel Holler, Sylvie Thiebaux, Jorg Hoffmann, Tias Guns, | (参考訳) 多くの自動計画アプリケーションでは、アクションコストを特定するのは難しい。
例えば、ある道路区間を移動するのに必要な時間は、現在の気象条件など、多くの要因に依存する。
この問題に対処するための自然な方法は、入力特徴(例えば天気予報)に基づいてこれらのパラメータを予測し、その後に予測されたアクションコストを自動計画に使用することである。
DFL(Decision-Focused Learning)は、組合せ最適化問題のパラメータを、予測品質よりも解品質を最適化する方法で予測する学習に成功している。
このアプローチは、予測と最適化を別のタスクとして扱うよりも、よりよい結果をもたらす。
本稿では,DFLを自動計画に導入する際の課題を初めて考察し,アクションコストの予測について考察する。
1) 計画において支持されない負の行動コストを伴う計画問題の解決を目的として, 勾配降下学習中に計画システムを呼び出す。
本稿では,この問題を回避するために,勾配計算の新しい手法を提案する。
2) DFLは、トレーニング中に繰り返しプランナーコールを必要とするため、メソッドのスケーラビリティを制限できる。
本研究では,学習過程を高速化するキャッシング機構とともに,最適計画の近似方法を試行する。
自動計画のためのDFLに対処する最初の研究として、提案した勾配計算が予測誤差の最小化を目的とした予測よりもずっと優れた計画を生成することを示し、キャッシングが計算要求を抑えることを示した。
In many automated planning applications, action costs can be hard to specify. An example is the time needed to travel through a certain road segment, which depends on many factors, such as the current weather conditions. A natural way to address this issue is to learn to predict these parameters based on input features (e.g., weather forecasts) and use the predicted action costs in automated planning afterward. Decision-Focused Learning (DFL) has been successful in learning to predict the parameters of combinatorial optimization problems in a way that optimizes solution quality rather than prediction quality. This approach yields better results than treating prediction and optimization as separate tasks. In this paper, we investigate for the first time the challenges of implementing DFL for automated planning in order to learn to predict the action costs. There are two main challenges to overcome: (1) planning systems are called during gradient descent learning, to solve planning problems with negative action costs, which are not supported in planning. We propose novel methods for gradient computation to avoid this issue. (2) DFL requires repeated planner calls during training, which can limit the scalability of the method. We experiment with different methods approximating the optimal plan as well as an easy-to-implement caching mechanism to speed up the learning process. As the first work that addresses DFL for automated planning, we demonstrate that the proposed gradient computation consistently yields significantly better plans than predictions aimed at minimizing prediction error; and that caching can temper the computation requirements. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# PBIR-NIE:非距離照明下での光沢物体捕獲
PBIR-NIE: Glossy Object Capture under Non-Distant Lighting ( http://arxiv.org/abs/2408.06878v1 ) ライセンス: Link先を確認 | Guangyan Cai, Fujun Luan, Miloš Hašan, Kai Zhang, Sai Bi, Zexiang Xu, Iliyan Georgiev, Shuang Zhao, | (参考訳) グロッシーオブジェクトは自然光下での多視点入力画像から3次元再構成を行う上で重要な課題となる。
本稿では, PBIR-NIEについて紹介する。PBIR-NIEは, 物体の形状, 材料特性, 周囲の照明を均一に捉えるために設計された逆レンダリングフレームワークである。
現実の撮影装置でよく見られるシーンの近距離場背景を正確にモデル化し,軽量で効率的な照明表現として,新しいパララックス対応非距離環境マップを提案する。
この機能により、標準の無限距離環境マップの能力を超える複雑なパララックス効果に対応できる。
本手法は, トライアングルメッシュとSDFの表面勾配をニューラル暗黙的進化(NIE)によりシームレスに接続し, 物理に基づく微分可能レンダリングにより, 基礎となる符号距離場(SDF)を最適化する。
微分可能レンダリングにおける高光沢BRDFの複雑さに対処するため,モンテカルロ勾配推定器の分散を緩和するために,アンチセティックサンプリングアルゴリズムを統合する。
その結果,光沢のある物体の復元処理,幾何学的品質の向上,リライティング,材料推定などにおいて,頑健な能力を示した。
Glossy objects present a significant challenge for 3D reconstruction from multi-view input images under natural lighting. In this paper, we introduce PBIR-NIE, an inverse rendering framework designed to holistically capture the geometry, material attributes, and surrounding illumination of such objects. We propose a novel parallax-aware non-distant environment map as a lightweight and efficient lighting representation, accurately modeling the near-field background of the scene, which is commonly encountered in real-world capture setups. This feature allows our framework to accommodate complex parallax effects beyond the capabilities of standard infinite-distance environment maps. Our method optimizes an underlying signed distance field (SDF) through physics-based differentiable rendering, seamlessly connecting surface gradients between a triangle mesh and the SDF via neural implicit evolution (NIE). To address the intricacies of highly glossy BRDFs in differentiable rendering, we integrate the antithetic sampling algorithm to mitigate variance in the Monte Carlo gradient estimator. Consequently, our framework exhibits robust capabilities in handling glossy object reconstruction, showcasing superior quality in geometry, relighting, and material estimation. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# Slate Recommendationのための拡散モデル
Diffusion Model for Slate Recommendation ( http://arxiv.org/abs/2408.06883v1 ) ライセンス: Link先を確認 | Federico Tomasi, Francesco Fabbri, Mounia Lalmas, Zhenwen Dai, | (参考訳) スレートレコメンデーション(スレートレコメンデーション)は、ストリーミングプラットフォームやeコマースサイトで、複数のアイテムをまとめて提示するテクニックである。
スレートレコメンデーションにおける重要な課題は、複雑な組合せ選択空間を管理することである。
従来の手法では、ユーザが一度に1つのアイテムだけをエンゲージすると仮定することで、この問題を単純化することが多い。
しかし、この単純化は、ユーザが複数のアイテムを同時にやりとりすることが多いため、現実を反映していない。
本稿では,複数項目の同時エンゲージメントを考慮した一般的なスレートレコメンデーション問題に対処する。
本研究では,高次元データから構造を学習する能力を活かした拡散モデルを用いた生成手法を提案する。
本モデルは,組合せ選択空間の課題を克服し,ユーザの満足度を最大化する高品質スレートを生成する。
さらに,提案手法はレコメンデーションの多様性を高める。
音楽プレイリスト生成やeコマースバンドルレコメンデーションなどのアプリケーションに対する大規模なオフライン評価は、我々のモデルは、関連性と多様性の両方において最先端のベースラインを上回っていることを示している。
Slate recommendation is a technique commonly used on streaming platforms and e-commerce sites to present multiple items together. A significant challenge with slate recommendation is managing the complex combinatorial choice space. Traditional methods often simplify this problem by assuming users engage with only one item at a time. However, this simplification does not reflect the reality, as users often interact with multiple items simultaneously. In this paper, we address the general slate recommendation problem, which accounts for simultaneous engagement with multiple items. We propose a generative approach using Diffusion Models, leveraging their ability to learn structures in high-dimensional data. Our model generates high-quality slates that maximize user satisfaction by overcoming the challenges of the combinatorial choice space. Furthermore, our approach enhances the diversity of recommendations. Extensive offline evaluations on applications such as music playlist generation and e-commerce bundle recommendations show that our model outperforms state-of-the-art baselines in both relevance and diversity. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# Voltran: 分散学習集団における信頼と信頼の解き放つ
Voltran: Unlocking Trust and Confidentiality in Decentralized Federated Learning Aggregation ( http://arxiv.org/abs/2408.06885v1 ) ライセンス: Link先を確認 | Hao Wang, Yichen Cai, Jun Wang, Chuan Ma, Chunpeng Ge, Xiangmou Qu, Lu Zhou, | (参考訳) ブロックチェーンアーキテクチャ上に構築された分散型フェデレートラーニング(FL)パラダイムは、分散ノードクラスタを活用して、FLモデルアグリゲーションを実行するための単一のサーバを置き換える。
このパラダイムは、バニラFLにおける集中的な悪意のあるサーバの脆弱性に対処し、ブロックチェーンが提供する信頼性と堅牢性を継承する。
しかし、既存のブロックチェーン対応スキームは、大規模なFL計算を実行するために、モデルの機密性やブロックチェーンの限られた計算リソースの欠如に関連する課題に直面している。
本稿では,Trusted Execution Environment(TEE)とブロックチェーン技術を組み合わせたFLの信頼性,機密性,堅牢性を実現するために設計された,革新的なハイブリッドプラットフォームであるVoltranを紹介する。
FLアグリゲーション計算をTEEにオフロードして、分離され、信頼され、カスタマイズ可能なオフチェーン実行を提供し、ブロックチェーン上でのアグリゲーション結果の信頼性と妥当性を保証する。
さらに、大規模FLワークロードを減らし、マルチSGX並列実行戦略を導入することで、複数のFLシナリオに強力なスケーラビリティを提供する。
我々はVoltranのプロトタイプを実装し、総合的な性能評価を行う。
大規模な実験結果から、Voltranは信頼性、機密性、信頼性を保証しながら、最小限の追加オーバーヘッドを発生させ、最先端の暗号文アグリゲーションよりも大幅にスピードアップすることが示された。
The decentralized Federated Learning (FL) paradigm built upon blockchain architectures leverages distributed node clusters to replace the single server for executing FL model aggregation. This paradigm tackles the vulnerability of the centralized malicious server in vanilla FL and inherits the trustfulness and robustness offered by blockchain. However, existing blockchain-enabled schemes face challenges related to inadequate confidentiality on models and limited computational resources of blockchains to perform large-scale FL computations. In this paper, we present Voltran, an innovative hybrid platform designed to achieve trust, confidentiality, and robustness for FL based on the combination of the Trusted Execution Environment (TEE) and blockchain technology. We offload the FL aggregation computation into TEE to provide an isolated, trusted and customizable off-chain execution, and then guarantee the authenticity and verifiability of aggregation results on the blockchain. Moreover, we provide strong scalability on multiple FL scenarios by introducing a multi-SGX parallel execution strategy to amortize the large-scale FL workload. We implement a prototype of Voltran and conduct a comprehensive performance evaluation. Extensive experimental results demonstrate that Voltran incurs minimal additional overhead while guaranteeing trust, confidentiality, and authenticity, and it significantly brings a significant speed-up compared to state-of-the-art ciphertext aggregation schemes. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# 境界駆動量子系の定常状態:いくつかの正確な結果
Stationary states of boundary driven quantum systems: some exact results ( http://arxiv.org/abs/2408.06887v1 ) ライセンス: Link先を確認 | Eric A. Carlen, David a. Huse, Joel L. Lebowitz, | (参考訳) 密度行列がリンドブラディアンの=-i[H,\rho]+{\mathcal D}\rho$を介して進化する有限次元開量子系について検討する。
ここで、$H$は孤立系のハミルトニアンであり、${\mathcal D}$は散逸子である。
そこで、${\mathcal D}={\mathcal D}_A\otimes{\mathcal I}_B$、${\mathcal D}_A$がpart $A$、${\mathcal I}_B$がpart $B$である。
例えば、${\mathcal D}_A$ をエルゴードとすると、${\mathcal D}_A\hat{\rho}_A=0$ は 1 つの一意密度行列 $\hat{\rho}_A$ に対してのみである。
任意の定常密度行列 $\bar{\rho}$ がフルシステム上で$H$ と可換であることは、ある$\rho_B$ に対して $\bar{\rho}=\hat{\rho}_A\otimes\rho_B$ の積形式でなければならないことを示す。
これにより、Gibs測度が $\rho_\beta\sim e^{-\beta H}$ を $\beta\neq 0$ の定常状態として持つ${\mathcal D}_A$ を見つけることができる。
A$ と $B$ の相互作用を持つシステムに対して、定常状態 $\bar{\rho}$ の特異性の基準を与える。
非エルゴードケースの関連結果についても論じる。
We study finite-dimensional open quantum systems whose density matrix evolves via a Lindbladian, $\dot{\rho}=-i[H,\rho]+{\mathcal D}\rho$. Here $H$ is the Hamiltonian of the isolated system and ${\mathcal D}$ is the dissipator. We consider the case where the system consists of two parts, the "boundary'' $A$ and the ``bulk'' $B$, and ${\mathcal D}$ acts only on $A$, so ${\mathcal D}={\mathcal D}_A\otimes{\mathcal I}_B$, where ${\mathcal D}_A$ acts only on part $A$, while ${\mathcal I}_B$ is the identity superoperator on part $B$. Let ${\mathcal D}_A$ be ergodic, so ${\mathcal D}_A\hat{\rho}_A=0$ only for one unique density matrix $\hat{\rho}_A$. We show that any stationary density matrix $\bar{\rho}$ on the full system which commutes with $H$ must be of the product form $\bar{\rho}=\hat{\rho}_A\otimes\rho_B$ for some $\rho_B$. This rules out finding any ${\mathcal D}_A$ that has the Gibbs measure $\rho_\beta\sim e^{-\beta H}$ as a stationary state with $\beta\neq 0$, unless there is no interaction between parts $A$ and $B$. We give criteria for the uniqueness of the stationary state $\bar{\rho}$ for systems with interactions between $A$ and $B$. Related results for non-ergodic cases are also discussed. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# BMFT:バイアスをベースとした軽量マスキングによるフェアネス達成
BMFT: Achieving Fairness via Bias-based Weight Masking Fine-tuning ( http://arxiv.org/abs/2408.06890v1 ) ライセンス: Link先を確認 | Yuyang Xue, Junyu Yan, Raman Dutt, Fasih Haider, Jingshuai Liu, Steven McDonagh, Sotirios A. Tsaftaris, | (参考訳) 堅牢なグループフェアネス特性を持つモデルを開発することは、特に医学的診断のような倫理的に敏感な領域において最重要である。
機械学習における公平性を達成するための最近のアプローチは、かなりの量のトレーニングデータを必要とし、実際のシナリオでは実用的でないかもしれないモデル再トレーニングに依存している。
これらの課題を緩和するために,本研究では,トレーニングデータへのアクセスを必要とせずに,トレーニングモデルの公正性を極めて少ないエポックで向上する,新しいポストプロセッシング手法であるBias-based Weight Masking Fine-Tuning (BMFT)を提案する。
BMFTはモデルパラメータの上にマスクを生成し、偏りのある予測に最も寄与する重みを効率的に識別する。
さらに,特徴抽出器が同定したバイアス影響重みを初期微調整し,再初期化分類層上で微調整を行い,識別性能を向上する2段階の脱バイアス戦略を提案する。
4つの皮膚科学データセットと2つの感度属性にわたる広範囲な実験により、BMFTは診断精度と公平度の両方で既存の最先端技術(SOTA)よりも優れていることが示された。
以上の結果から, BMFTの様々なアウト・オブ・ディストリビューション(OOD)設定における公正性向上効果とロバスト性について考察した。
私たちのコードは、https://github.com/vios-s/BMFTで利用可能です。
Developing models with robust group fairness properties is paramount, particularly in ethically sensitive domains such as medical diagnosis. Recent approaches to achieving fairness in machine learning require a substantial amount of training data and depend on model retraining, which may not be practical in real-world scenarios. To mitigate these challenges, we propose Bias-based Weight Masking Fine-Tuning (BMFT), a novel post-processing method that enhances the fairness of a trained model in significantly fewer epochs without requiring access to the original training data. BMFT produces a mask over model parameters, which efficiently identifies the weights contributing the most towards biased predictions. Furthermore, we propose a two-step debiasing strategy, wherein the feature extractor undergoes initial fine-tuning on the identified bias-influenced weights, succeeded by a fine-tuning phase on a reinitialised classification layer to uphold discriminative performance. Extensive experiments across four dermatological datasets and two sensitive attributes demonstrate that BMFT outperforms existing state-of-the-art (SOTA) techniques in both diagnostic accuracy and fairness metrics. Our findings underscore the efficacy and robustness of BMFT in advancing fairness across various out-of-distribution (OOD) settings. Our code is available at: https://github.com/vios-s/BMFT | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# ハイブリッド添加物製造のためのCADモデルからの特徴認識と次元属性の自動抽出
Automatic Feature Recognition and Dimensional Attributes Extraction From CAD Models for Hybrid Additive-Subtractive Manufacturing ( http://arxiv.org/abs/2408.06891v1 ) ライセンス: Link先を確認 | Muhammad Tayyab Khan, Wenhe Feng, Lequn Chen, Ye Han Ng, Nicholas Yew Jin Tan, Seung Ki Moon, | (参考訳) CAD(Computer-Aided Design)、CAPP(Computer-Aided Process Planning)、CAM(Computer-Aided Manufacturing)の統合は、デジタルデザインから物理製品へのシームレスな移行を促進するため、現代の製造業において重要な役割を果たす。
しかし、この統合における重要な課題はCADモデルの自動特徴認識(AFR)であり、特に減算的および加法的製造プロセスを組み合わせたハイブリッド製造の文脈においてである。
伝統的なAFR法は、主に穴、フィレット、シャンファー、ポケット、スロットを含む減算的(機械化された)特徴の識別に重点を置いていたが、添加物の製造に関係する特徴を認識できなかった。
さらに, 従来の手法は, 形状や方向を正確に抽出するに足りず, 効率的な製造工程計画の鍵となる要素でもある。
本稿では,Python Open Cascadeによる付加的および減算的加工に関連する特徴を含む合成CADデータセットを作成するための新しいアプローチを提案する。
The Hierarchical Graph Convolutional Neural Network (HGCNN) model is implemented to correct identified the Composite additive-subtractive features in the synthetic CAD dataset。
提案手法の重要な新規性と貢献は、幅広い製造特徴を認識し、その寸法、配向、ストックサイズを正確に抽出する能力にある。
提案モデルでは,特徴認識精度が97%を超え,特徴抽出精度が100%以上であることを示す。
そこで本提案手法は, CAD, CAPP, CAMのハイブリッド製造における統合性を高め, 正確な特徴認識と次元抽出を実現する。
より情報のある意思決定を可能にすることにより、製造プロセスの計画の改善を促進する。
The integration of Computer-Aided Design (CAD), Computer-Aided Process Planning (CAPP), and Computer-Aided Manufacturing (CAM) plays a crucial role in modern manufacturing, facilitating seamless transitions from digital designs to physical products. However, a significant challenge within this integration is the Automatic Feature Recognition (AFR) of CAD models, especially in the context of hybrid manufacturing that combines subtractive and additive manufacturing processes. Traditional AFR methods, focused mainly on the identification of subtractive (machined) features including holes, fillets, chamfers, pockets, and slots, fail to recognize features pertinent to additive manufacturing. Furthermore, the traditional methods fall short in accurately extracting geometric dimensions and orientations, which are also key factors for effective manufacturing process planning. This paper presents a novel approach for creating a synthetic CAD dataset that encompasses features relevant to both additive and subtractive machining through Python Open Cascade. The Hierarchical Graph Convolutional Neural Network (HGCNN) model is implemented to accurately identify the composite additive-subtractive features within the synthetic CAD dataset. The key novelty and contribution of the proposed methodology lie in its ability to recognize a wide range of manufacturing features, and precisely extracting their dimensions, orientations, and stock sizes. The proposed model demonstrates remarkable feature recognition accuracy exceeding 97% and a dimension extraction accuracy of 100% for identified features. Therefore, the proposed methodology enhances the integration of CAD, CAPP, and CAM within hybrid manufacturing by providing precise feature recognition and dimension extraction. It facilitates improved manufacturing process planning, by enabling more informed decision-making. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# EE3P3D:3次元相関による周期現象周波数のイベントベース推定
EE3P3D: Event-based Estimation of Periodic Phenomena Frequency using 3D Correlation ( http://arxiv.org/abs/2408.06899v1 ) ライセンス: Link先を確認 | Jakub Kolář, Radim Špetlík, Jiří Matas, | (参考訳) 本稿では,イベントカメラによる周期現象,例えば回転,フリッカ,振動の頻度を,時間分解能の高い独立動作画素の輝度変化を非同期に報告する装置で測定する。
この手法は、周期現象に対して、その現象の周期に対応する時間差において、特定の時空間窓内で非常に類似した事象の集合が生成されると仮定する。
類似イベントの集合は、イベントストリーム空間における3次元時空間相関によって検出される。
提案手法であるEE3P3Dは,3.2Hzから2kHz(約192~12000RPM)の周期運動,すなわち点滅光と振動,および周期運動の12つの周期現象のデータセットを用いて評価した。
EE3P3Dは、このデータセットで公表されたメソッドよりも大幅に優れており、平均相対誤差は0.1%である。
We present a novel method for measuring the frequency of periodic phenomena, e.g., rotation, flicker and vibration, by an event camera, a device asynchronously reporting brightness changes at independently operating pixels with high temporal resolution. The approach assumes that for a periodic phenomenon, a highly similar set of events is generated within a specific spatio-temporal window at a time difference corresponding to the phenomenon's period. The sets of similar events are detected by 3D spatio-temporal correlation in the event stream space. The proposed method, EE3P3D, is evaluated on a dataset of 12 sequences of periodic phenomena, i.e. flashing light and vibration, and periodic motion, e.g., rotation, ranging from 3.2 Hz to 2 kHz (equivalent to 192 - 120 000 RPM). EE3P3D significantly outperforms published methods on this dataset, achieving a mean relative error of 0.1%. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# ニッチ、フランジ、エクストリームソーシャルメディアのためのソーシャルボット検出ツールEntendre
Entendre, a Social Bot Detection Tool for Niche, Fringe, and Extreme Social Media ( http://arxiv.org/abs/2408.06900v1 ) ライセンス: Link先を確認 | Pranav Venkatesh, Kami Vinton, Dhiraj Murthy, Kellen Sharp, Akaash Kolluri, | (参考訳) ソーシャルメディア上でコンテンツを生成して拡散するソーシャルボット自動化アカウントは、これらのプラットフォームの脆弱性を利用して、大衆の認識を操り、偽情報を広める。
これにより、公開ボット検出サービスの開発が進められたが、これらのサービスのほとんどはTwitterに重点を置いており、ニッチなプラットフォームを脆弱にしている。
Parler、Gab、Gettrといったソーシャルメディアプラットフォームは、しばしば最小限のモデレーションを持ち、ヘイトスピーチや誤報の拡散を促進する。
このギャップに対処するために、オープンアクセス、スケーラブル、プラットフォームに依存しないボット検出フレームワークであるEntendreを紹介します。
Entendreは、任意のソーシャルプラットフォームからラベル付きデータセットを処理して、ランダムな森林分類アプローチを使用してカスタマイズされたボット検出モデルを生成し、堅牢なソーシャルボット検出を保証する。
多くのソーシャルプラットフォームが一般的なテンプレートを共有しており、ユーザーはコンテンツを投稿し、コンテンツを承認し、バイオ(一般的なデータ機能)を提供することができる。
プラットフォーム固有の機能よりも一般的なデータ機能を強調することで、Entendreはある程度の精度を犠牲にして、迅速な拡張性を提供します。
Entendreの有効性を示すために、私たちは、現在定義されている右翼プラットフォームであるParlerに人種差別的コンテンツを投稿するアカウントの中で、ボットの存在を調査するために使用しました。
我々は38,379人のユニークなユーザーから233,000の投稿を調査し、1916人のユニークなユーザー(4.99%)がボットのような行動を示した。
可視化技術により、これらのボットがネットワークに大きな影響を与え、影響力のあるレトリックやハッシュタグ(例えば、#qanon、#trump、#antilgbt)が増幅された。
これらの予備的な発見は、さまざまなプラットフォームにわたるボットの活動を監視し評価するEntendreのようなツールの必要性を強調している。
Social bots-automated accounts that generate and spread content on social media-are exploiting vulnerabilities in these platforms to manipulate public perception and disseminate disinformation. This has prompted the development of public bot detection services; however, most of these services focus primarily on Twitter, leaving niche platforms vulnerable. Fringe social media platforms such as Parler, Gab, and Gettr often have minimal moderation, which facilitates the spread of hate speech and misinformation. To address this gap, we introduce Entendre, an open-access, scalable, and platform-agnostic bot detection framework. Entendre can process a labeled dataset from any social platform to produce a tailored bot detection model using a random forest classification approach, ensuring robust social bot detection. We exploit the idea that most social platforms share a generic template, where users can post content, approve content, and provide a bio (common data features). By emphasizing general data features over platform-specific ones, Entendre offers rapid extensibility at the expense of some accuracy. To demonstrate Entendre's effectiveness, we used it to explore the presence of bots among accounts posting racist content on the now-defunct right-wing platform Parler. We examined 233,000 posts from 38,379 unique users and found that 1,916 unique users (4.99%) exhibited bot-like behavior. Visualization techniques further revealed that these bots significantly impacted the network, amplifying influential rhetoric and hashtags (e.g., #qanon, #trump, #antilgbt). These preliminary findings underscore the need for tools like Entendre to monitor and assess bot activity across diverse platforms. | 翻訳日:2024-08-14 17:26:52 公開日:2024-08-13 |
# Divide and Conquer: 2次元セマンティックディープスプリミティブと入力依存クエリによるマルチカメラ3D知覚の改善
Divide and Conquer: Improving Multi-Camera 3D Perception with 2D Semantic-Depth Priors and Input-Dependent Queries ( http://arxiv.org/abs/2408.06901v1 ) ライセンス: Link先を確認 | Qi Song, Qingyong Hu, Chi Zhang, Yongquan Chen, Rui Huang, | (参考訳) 近年,マルチカメラ画像を用いた3次元物体検出やBird's-Eye-View (BEV)セグメンテーションなどの3次元認識タスクが注目されている。
セマンティックレイアウトと3次元シーンレイアウトの両方を正確に推定することがこの作業に不可欠であるにもかかわらず、既存の手法は意味と深さの相乗効果を無視し、分類と位置推定の誤差が発生する。
さらに、初期クエリの入力非依存性は、Transformerベースのモデルの学習能力を制限する。
これらの課題に対処するために,SemanticsとDepthを先行として活用する入力対応トランスフォーマーフレームワーク(SDTR)を提案する。
提案手法では,S-Dエンコーダを用いてセマンティクスと深度を明示的にモデル化し,オブジェクト分類と位置推定の学習プロセスを阻害する。
さらに,Transformerの初期クエリに先行するセマンティクスを組み込んだ事前ガイダンスクエリビルダーを導入し,より効果的なインプット・アウェア・クエリを実現する。
nuScenesとLyftベンチマークに関する大規模な実験は、3Dオブジェクト検出とBEVセグメンテーションタスクの両方において、我々の手法の最先端のパフォーマンスを実証している。
3D perception tasks, such as 3D object detection and Bird's-Eye-View (BEV) segmentation using multi-camera images, have drawn significant attention recently. Despite the fact that accurately estimating both semantic and 3D scene layouts are crucial for this task, existing techniques often neglect the synergistic effects of semantic and depth cues, leading to the occurrence of classification and position estimation errors. Additionally, the input-independent nature of initial queries also limits the learning capacity of Transformer-based models. To tackle these challenges, we propose an input-aware Transformer framework that leverages Semantics and Depth as priors (named SDTR). Our approach involves the use of an S-D Encoder that explicitly models semantic and depth priors, thereby disentangling the learning process of object categorization and position estimation. Moreover, we introduce a Prior-guided Query Builder that incorporates the semantic prior into the initial queries of the Transformer, resulting in more effective input-aware queries. Extensive experiments on the nuScenes and Lyft benchmarks demonstrate the state-of-the-art performance of our method in both 3D object detection and BEV segmentation tasks. | 翻訳日:2024-08-14 17:16:53 公開日:2024-08-13 |
# Heterogeneity:フェデレーションオンボード機械学習のオープンチャレンジ
Heterogeneity: An Open Challenge for Federated On-board Machine Learning ( http://arxiv.org/abs/2408.06903v1 ) ライセンス: Link先を確認 | Maria Hartmann, Grégoire Danoy, Pascal Bouvry, | (参考訳) 衛星ミッションの設計は現在、個別化されたモノリシック衛星の歴史的アプローチから、複数の小さな衛星からなる分散ミッション構成へのパラダイムシフトを受けている。
衛星の数は急速に増加しており、それぞれが大量のデータを集めているため、軌道上のエッジコンピューティングへの関心が高まっている。
Federated Learningはこの文脈で有望な分散コンピューティングアプローチであり、複数の衛星がオンボード機械学習モデルのトレーニングで効率的に協力することができる。
軌道エッジコンピューティングにおけるフェデレート・ラーニングの使用に関する最近の研究は、主に同質の衛星コンステレーションに焦点を当てているが、フェデレート・ラーニングは異種衛星が異なるプロバイダによって運用される通信衛星の場合のように、アドホックなコラボレーションを形成することを可能にするためにも用いられる。
このようなアプリケーションは、そのようなシステムの異質性から主に生じるフェデレートラーニングパラダイムに、さらなる課題を提示します。
本稿では,これらの課題をクロスプロジェクタ・ユース・ケースの文脈で体系的に検討し,それぞれの現状を概観し,各課題を深く探求するためのエントリポイントを提供する。
The design of satellite missions is currently undergoing a paradigm shift from the historical approach of individualised monolithic satellites towards distributed mission configurations, consisting of multiple small satellites. With a rapidly growing number of such satellites now deployed in orbit, each collecting large amounts of data, interest in on-board orbital edge computing is rising. Federated Learning is a promising distributed computing approach in this context, allowing multiple satellites to collaborate efficiently in training on-board machine learning models. Though recent works on the use of Federated Learning in orbital edge computing have focused largely on homogeneous satellite constellations, Federated Learning could also be employed to allow heterogeneous satellites to form ad-hoc collaborations, e.g. in the case of communications satellites operated by different providers. Such an application presents additional challenges to the Federated Learning paradigm, arising largely from the heterogeneity of such a system. In this position paper, we offer a systematic review of these challenges in the context of the cross-provider use case, giving a brief overview of the state-of-the-art for each, and providing an entry point for deeper exploration of each issue. | 翻訳日:2024-08-14 17:16:53 公開日:2024-08-13 |
# Re-TASK: LLMタスクの能力、スキル、知識の観点からの再考
Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives ( http://arxiv.org/abs/2408.06904v1 ) ライセンス: Link先を確認 | Zhihu Wang, Shiwan Zhao, Yu Wang, Heyuan Huang, Jiaxin Shi, Sitao Xie, Zhixing Wang, Yubo Zhang, Hongyan Li, Junchi Yan, | (参考訳) 大規模言語モデル(LLM)のスケールが続くにつれて、その性能向上はドメイン固有のタスクを解くのに不十分であることがしばしば証明される。
システム的に障害を分析し、パフォーマンスを効果的に向上することは、依然として大きな課題である。
本稿では,LLMタスクをcApability, Skill, Knowledgeの視点から再考する新しい理論モデルであるRe-TASKフレームワークを紹介し,ブルームの分類学と知識空間理論の原理を導いた。
Re-TASKフレームワークは、ドメイン固有のタスクに対するLLMの理解、評価、強化を行うための体系的な方法論を提供する。
LLMの能力、その処理する知識、それが適用するスキルの相互作用を調べ、これらの要素がどのように相互接続され、タスクのパフォーマンスに影響を与えるかを解明する。
Re-TASKフレームワークの適用により、ドメイン固有のタスクにおける多くの失敗は、知識不足やスキル適応の不十分に起因することが判明した。
そこで本研究では,目標とする知識注入とスキル適応によるLLMの強化のための構造化戦略を提案する。
具体的には、タスクに関連する重要な機能項目を特定し、タスク性能を向上させるために意図的に設計されたプロンプト戦略を用いて、広範囲な微調整の必要性を減らす。
あるいは、機能固有の命令を使ってLLMを微調整し、フレームワークの有効性をさらに検証する。
実験により, LLMの性能と適用性の両方において, 本フレームワークの有効性が確認された。
As large language models (LLMs) continue to scale, their enhanced performance often proves insufficient for solving domain-specific tasks. Systematically analyzing their failures and effectively enhancing their performance remain significant challenges. This paper introduces the Re-TASK framework, a novel theoretical model that Revisits LLM Tasks from cApability, Skill, Knowledge perspectives, guided by the principles of Bloom's Taxonomy and Knowledge Space Theory. The Re-TASK framework provides a systematic methodology to deepen our understanding, evaluation, and enhancement of LLMs for domain-specific tasks. It explores the interplay among an LLM's capabilities, the knowledge it processes, and the skills it applies, elucidating how these elements are interconnected and impact task performance. Our application of the Re-TASK framework reveals that many failures in domain-specific tasks can be attributed to insufficient knowledge or inadequate skill adaptation. With this insight, we propose structured strategies for enhancing LLMs through targeted knowledge injection and skill adaptation. Specifically, we identify key capability items associated with tasks and employ a deliberately designed prompting strategy to enhance task performance, thereby reducing the need for extensive fine-tuning. Alternatively, we fine-tune the LLM using capability-specific instructions, further validating the efficacy of our framework. Experimental results confirm the framework's effectiveness, demonstrating substantial improvements in both the performance and applicability of LLMs. | 翻訳日:2024-08-14 17:16:53 公開日:2024-08-13 |
# H-原子の2P-1S遷移の非指数崩壊則
Nonexponential decay law of the 2P-1S transition of the H-atom ( http://arxiv.org/abs/2408.06905v1 ) ライセンス: Link先を確認 | Francesco Giacosa, Krzysztof Kyzioł, | (参考訳) 水素原子の不安定な2P励起状態に対する生存確率$P(t)$は、1つの光子(\tau \sim 1.595$ ns)を放出する基底状態1Sに崩壊する。
この目的のために、不安定状態のスペクトル関数の解析式を最初に決定し、$P(t)$の正確な評価を可能にする。
予想通り、短くて長い時間に$P(t)$は指数法からの逸脱を示す: ‘Zeno' 領域は極端に短時間(最大$\sim 0.3$ attosec、続く 'anti-Zeno' ドメインはより長い(最大$\sim 50$ attosec)。
We evaluate numerically the survival probability $P(t)$ for the unstable 2P excited state of the hydrogen atom, which decays into the ground-state 1S emitting one photon ($\tau \sim 1.595$ ns), thus extending the analytic study of Facchi and Pascazio, Physics Letters A 241 (1998). To this end, we first determine the analytic expression of the spectral function of the unstable state, which allows for an accurate evaluation of $P(t)$. As expected, for short and long times $P(t)$ shows deviations from the exponential law: a `Zeno' region occurs at extremely short times (up to $\sim 0.3$ attosec, followed by a longer `anti-Zeno' domain (up to $\sim 50$ attosec); at long times above $125 \tau$, the decay law scales as $t^{-4}$. | 翻訳日:2024-08-14 17:16:53 公開日:2024-08-13 |
# VNet:音声合成ヴォコーダのためのGANに基づくマルチティア識別ネットワーク
VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders ( http://arxiv.org/abs/2408.06906v1 ) ライセンス: Link先を確認 | Yubing Cao, Yongming Li, Liejun Wang, Yinfeng Yu, | (参考訳) 音声合成におけるGAN(Generative Adversarial Networks)の導入以降,顕著な成果が得られた。
ボコーダの徹底的な探索において,GANモデルを用いて高忠実度を維持しながら,リアルタイム以上の速度で音声波形を生成できることが判明した。
通常、ヴォコーダへの入力は帯域制限スペクトル情報から成り、必然的に高周波の詳細を犠牲にする。
そこで本研究では,全帯域のMelスペクトログラム情報を入力として採用し,ボコーダに可能な限り包括的な情報を提供することを目的としている。
しかし、従来の研究では、入力としてフルバンドスペクトル情報を使用することで、合成音声の自然性を損なうような過度な平滑化が生じることが示されている。
この課題に対処するため、広帯域スペクトル情報を組み込んだGANベースのニューラルボコーダネットワークであるVNetを提案し、高分解能信号を生成するために複数のサブ識別器からなるマルチティア識別器(MTD)を提案する。
さらに, 発電機と判別器の対向損失を補正し, 訓練過程の安定性を向上させる漸近的に制約された手法を導入する。
厳密な実験により、VNetモデルは高忠実度音声を生成し、ボコーダの性能を大幅に向上させることができることを示した。
Since the introduction of Generative Adversarial Networks (GANs) in speech synthesis, remarkable achievements have been attained. In a thorough exploration of vocoders, it has been discovered that audio waveforms can be generated at speeds exceeding real-time while maintaining high fidelity, achieved through the utilization of GAN-based models. Typically, the inputs to the vocoder consist of band-limited spectral information, which inevitably sacrifices high-frequency details. To address this, we adopt the full-band Mel spectrogram information as input, aiming to provide the vocoder with the most comprehensive information possible. However, previous studies have revealed that the use of full-band spectral information as input can result in the issue of over-smoothing, compromising the naturalness of the synthesized speech. To tackle this challenge, we propose VNet, a GAN-based neural vocoder network that incorporates full-band spectral information and introduces a Multi-Tier Discriminator (MTD) comprising multiple sub-discriminators to generate high-resolution signals. Additionally, we introduce an asymptotically constrained method that modifies the adversarial loss of the generator and discriminator, enhancing the stability of the training process. Through rigorous experiments, we demonstrate that the VNet model is capable of generating high-fidelity speech and significantly improving the performance of the vocoder. | 翻訳日:2024-08-14 17:16:53 公開日:2024-08-13 |
# 異種宇宙融合と二重次元注意:音声強調のための新しいパラダイム
Heterogeneous Space Fusion and Dual-Dimension Attention: A New Paradigm for Speech Enhancement ( http://arxiv.org/abs/2408.06911v1 ) ライセンス: Link先を確認 | Tao Zheng, Liejun Wang, Yinfeng Yu, | (参考訳) 自己指導型学習は、音声タスクにおいて印象的なパフォーマンスを示してきたが、音声強調研究の領域ではまだまだ進歩の機会が残されている。
音声課題に対処する際、時間次元のみに注意を集中させることは、重要な音声特徴に効果的に焦点を絞る際の限界を生じさせる。
以上の問題を考慮し,不均一な空間的特徴を巧みに統合し,雑音環境における音声の明瞭度と品質を著しく向上する2次元アテンション機構を組み込んだ,新しい音声強調フレームワークであるHFSDAを導入する。
短時間フーリエ変換(STFT)スペクトルを用いた自己教師型学習埋め込みを利用して,高レベルな意味情報と詳細なスペクトルデータの両方を抽出し,音声信号のより詳細な分析と改善を可能にする。
さらに,新しいOmni-dimensional Dynamic Convolution(ODConv)技術を用いて,複数次元にわたる重要な情報の抽出と統合を可能にする。
さらに、時間次元だけでなくスペクトル領域にわたって特徴抽出能力を高めることで、コンフォーマーモデルを洗練する。
VCTK-DEMANDデータセットの大規模な実験により、HFSDAは既存の最先端モデルに匹敵し、我々のアプローチの有効性を確認した。
Self-supervised learning has demonstrated impressive performance in speech tasks, yet there remains ample opportunity for advancement in the realm of speech enhancement research. In addressing speech tasks, confining the attention mechanism solely to the temporal dimension poses limitations in effectively focusing on critical speech features. Considering the aforementioned issues, our study introduces a novel speech enhancement framework, HFSDA, which skillfully integrates heterogeneous spatial features and incorporates a dual-dimension attention mechanism to significantly enhance speech clarity and quality in noisy environments. By leveraging self-supervised learning embeddings in tandem with Short-Time Fourier Transform (STFT) spectrogram features, our model excels at capturing both high-level semantic information and detailed spectral data, enabling a more thorough analysis and refinement of speech signals. Furthermore, we employ the innovative Omni-dimensional Dynamic Convolution (ODConv) technology within the spectrogram input branch, enabling enhanced extraction and integration of crucial information across multiple dimensions. Additionally, we refine the Conformer model by enhancing its feature extraction capabilities not only in the temporal dimension but also across the spectral domain. Extensive experiments on the VCTK-DEMAND dataset show that HFSDA is comparable to existing state-of-the-art models, confirming the validity of our approach. | 翻訳日:2024-08-14 17:16:53 公開日:2024-08-13 |
# マルコフ決定過程によるアタックフォールト木の定量的解析
Quantitative analysis of attack-fault trees via Markov decision processes ( http://arxiv.org/abs/2408.06914v1 ) ライセンス: Link先を確認 | Milan Lopuhaä-Zwakenberg, | (参考訳) 安全クリティカルシステムの適切なリスク評価には、安全性と安全性、およびそれらの相互作用を考慮する必要がある。
安全性とセキュリティをモデル化するための重要な方法論は、よく確立されたフォールトツリーと、安全性とセキュリティのためのアタックツリー方法論を組み合わせたアタックフォールトツリー(AFT)である。
AFTは、安全性とセキュリティのメトリクス間の相互作用をキャプチャし、定量分析にも使用することができる。
しかし、既存のアプローチは、ATTを価格設定されたオートマトンとしてモデル化することに基づいている。
これは幅広い分析を可能にするが、パレート・アナリシスはいまだに欠如しており、存在する分析は計算的に高価である。
本稿では,安全性とセキュリティ分析技術を組み合わせて,マルコフ決定プロセスを用いて,メトリクスの信頼性(安全性)と攻撃コスト(セキュリティ)の間にパレートフロントを見つける新しい手法を提案する。
これにより、安全とセキュリティの完全な相互運用が可能になると同時に、オートマトンアプローチよりもはるかに軽量で高速になります。
我々は,石油管路におけるサイバー攻撃の事例研究に対して,我々のアプローチを検証した。
Adequate risk assessment of safety critical systems needs to take both safety and security into account, as well as their interaction. A prominent methodology for modeling safety and security are attack-fault trees (AFTs), which combine the well-established fault tree and attack tree methodologies for safety and security, respectively. AFTs can be used for quantitative analysis as well, capturing the interplay between safety and security metrics. However, existing approaches are based on modeling the AFT as a priced-timed automaton. This allows for a wide range of analyses, but Pareto analsis is still lacking, and analyses that exist are computationally expensive. In this paper, we combine safety and security analysis techniques to introduce a novel method to find the Pareto front between the metrics reliability (safety) and attack cost (security) using Markov decision processes. This gives us the full interplay between safety and security while being considerably more lightweight and faster than the automaton approach. We validate our approach on a case study of cyberattacks on an oil pipe line. | 翻訳日:2024-08-14 17:16:52 公開日:2024-08-13 |
# 生成フローネットワークを用いたマルチエージェント連続制御
Multi-Agent Continuous Control with Generative Flow Networks ( http://arxiv.org/abs/2408.06920v1 ) ライセンス: Link先を確認 | Shuang Luo, Yinchuan Li, Shunyu Liu, Xu Zhang, Yunfeng Shao, Chao Wu, | (参考訳) Generative Flow Networks (GFlowNets) は、探索制御タスクにおける強化学習の強力な代替手段として、軌道の最終状態が報酬に比例する分布から多様な軌道を生成することを目的としている。
しかし、GFlowNetsにおける個別フローマッチング制約は、マルチエージェントシステム、特に連続的な共同制御問題に対する適用を制限する。
本稿では,複数エージェントによる多成分連続物体の協調探索を実現するための多エージェント生成型連続流れネットワーク(MACFN)を提案する。
技術的には、MACFNは個別フローベースのポリシーを中央集権的なグローバルフローベースのマッチング方式で訓練する。
集中トレーニング中、MACFNは、グローバルな報酬のみが存在する場合、各エージェントのフローコントリビューションを推論する継続的フロー分解ネットワークを導入している。
そして、エージェントは割り当てられたローカルフローにのみ依存したアクションを分散的に提供し、報酬に比例した共同ポリシー分布を形成する。
連続的な流れの分解の表現性を保証するため、理論的には分解ネットワーク上での一貫性条件を導出する。
実験結果から,提案手法は最先端の手法よりも優れ,探査能力も向上していることがわかった。
私たちのコードはhttps://github.com/isluoshuang/MACFN.comで公開されています。
Generative Flow Networks (GFlowNets) aim to generate diverse trajectories from a distribution in which the final states of the trajectories are proportional to the reward, serving as a powerful alternative to reinforcement learning for exploratory control tasks. However, the individual-flow matching constraint in GFlowNets limits their applications for multi-agent systems, especially continuous joint-control problems. In this paper, we propose a novel Multi-Agent generative Continuous Flow Networks (MACFN) method to enable multiple agents to perform cooperative exploration for various compositional continuous objects. Technically, MACFN trains decentralized individual-flow-based policies in a centralized global-flow-based matching fashion. During centralized training, MACFN introduces a continuous flow decomposition network to deduce the flow contributions of each agent in the presence of only global rewards. Then agents can deliver actions solely based on their assigned local flow in a decentralized way, forming a joint policy distribution proportional to the rewards. To guarantee the expressiveness of continuous flow decomposition, we theoretically derive a consistency condition on the decomposition network. Experimental results demonstrate that the proposed method yields results superior to the state-of-the-art counterparts and better exploration capability. Our code is available at https://github.com/isluoshuang/MACFN. | 翻訳日:2024-08-14 17:16:52 公開日:2024-08-13 |
# ASVspoof5 Deepfake Challengeに取り組むための時間変動と多視点自己監督表現
Temporal Variability and Multi-Viewed Self-Supervised Representations to Tackle the ASVspoof5 Deepfake Challenge ( http://arxiv.org/abs/2408.06922v1 ) ライセンス: Link先を確認 | Yuankun Xie, Xiaopeng Wang, Zhiyong Wang, Ruibo Fu, Zhengqi Wen, Haonan Cheng, Long Ye, | (参考訳) ASVspoofシリーズの第5版であるASVspoof5は、世界的なオーディオセキュリティの最大の課題の一つである。
本研究の目的は、ボナフィドとスプーフ音声を識別する対策(CM)の開発を進めることである。
本稿では,ASVspoof5 Track1のオープン条件に対応するオープンドメインオーディオディープフェイク検出の問題に焦点をあてる。
まず,データ拡張,データ拡張,自己教師型学習(SSL)機能など,ASVspoof5上の様々なCMを包括的に検討する。
ASVspoof5データセットの特徴である高周波ギャップのため、特定の周波数帯域をマスクしてCMロバスト性を向上させるデータ拡張法である Frequency Mask を導入する。
ASVspoof 5 Track 1 評価の進歩セットでは,様々な時間的情報と複数のSSL特徴を組み合わせることで,minDCF 0.0158 と EER 0.55% を達成できた。
ASVspoof5, the fifth edition of the ASVspoof series, is one of the largest global audio security challenges. It aims to advance the development of countermeasure (CM) to discriminate bonafide and spoofed speech utterances. In this paper, we focus on addressing the problem of open-domain audio deepfake detection, which corresponds directly to the ASVspoof5 Track1 open condition. At first, we comprehensively investigate various CM on ASVspoof5, including data expansion, data augmentation, and self-supervised learning (SSL) features. Due to the high-frequency gaps characteristic of the ASVspoof5 dataset, we introduce Frequency Mask, a data augmentation method that masks specific frequency bands to improve CM robustness. Combining various scale of temporal information with multiple SSL features, our experiments achieved a minDCF of 0.0158 and an EER of 0.55% on the ASVspoof 5 Track 1 evaluation progress set. | 翻訳日:2024-08-14 17:16:52 公開日:2024-08-13 |
# SceneGPT:3次元シーン理解のための言語モデル
SceneGPT: A Language Model for 3D Scene Understanding ( http://arxiv.org/abs/2408.06926v1 ) ライセンス: Link先を確認 | Shivam Chandhok, | (参考訳) 3Dシーンの理解と推論が可能なモデルの構築は、3D教師付きトレーニングと大規模トレーニング体制のためのデータソースが不足しているため難しい。
トレーニング済みの言語モデルにおける知識は、3D事前トレーニングなしで3Dシーン理解にどのように活用できるのか?
本研究の目的は, 3次元空間における推論に必要となる事前知識と, 汎用空間推論や3次元物体理解にどのように活用できるかを明らかにすることである。
そこで本研究では,LLMを用いた3次元空間推論システムであるSceneGPTを提案する。
1)シーン表現として機能し、シーン内のオブジェクトとその空間的関係を符号化する3次元シーングラフである。
2)3次元空間推論のための文脈学習に適応可能な事前学習型LLM。
本フレームワークは,オブジェクトの意味,物理的特性,余裕(オブジェクトレベル),空間的理解(シーンレベル)など,オブジェクトとシーンの理解タスクを質的に評価する。
Building models that can understand and reason about 3D scenes is difficult owing to the lack of data sources for 3D supervised training and large-scale training regimes. In this work we ask - How can the knowledge in a pre-trained language model be leveraged for 3D scene understanding without any 3D pre-training. The aim of this work is to establish whether pre-trained LLMs possess priors/knowledge required for reasoning in 3D space and how can we prompt them such that they can be used for general purpose spatial reasoning and object understanding in 3D. To this end, we present SceneGPT, an LLM based scene understanding system which can perform 3D spatial reasoning without training or explicit 3D supervision. The key components of our framework are - 1) a 3D scene graph, that serves as scene representation, encoding the objects in the scene and their spatial relationships 2) a pre-trained LLM that can be adapted with in context learning for 3D spatial reasoning. We evaluate our framework qualitatively on object and scene understanding tasks including object semantics, physical properties and affordances (object-level) and spatial understanding (scene-level). | 翻訳日:2024-08-14 17:16:52 公開日:2024-08-13 |
# クラスバリアを壊す:クラス間特徴補償器による効率的なデータセット蒸留
Breaking Class Barriers: Efficient Dataset Distillation via Inter-Class Feature Compensator ( http://arxiv.org/abs/2408.06927v1 ) ライセンス: Link先を確認 | Xin Zhang, Jiawei Du, Ping Liu, Joey Tianyi Zhou, | (参考訳) データセット蒸留は、大規模で自然なデータセットから情報的特徴をコンパクトで合成的な形式に凝縮する技術として登場した。
近年の進歩により、この技術は洗練されているが、その性能は一般的なクラス固有の合成パラダイムによってボトルネックになっている。
このパラダイムの下では、合成データは事前に割り当てられた1ホットラベルにのみ最適化され、特徴凝縮における暗黙のクラスバリアを生成する。
このことは, 蒸留予算の非効率利用, クラス間特徴分布の監視につながり, 最終的に有効性と効率を損なう結果となった。
これらの制約を克服するために,本論文では,現在のデータセット蒸留法で広く利用されているクラス固有のデータラベルフレームワークを超越した,革新的な蒸留手法であるInter-class Feature Compensator (INFER)を提案する。
特に、INFERはUniversal Feature Compensator (UFC)を活用して、クラス間の機能統合を強化し、単一のUFC入力から複数の合成インスタンスを生成する。
これにより蒸留予算の効率が大幅に向上する。
さらに、INFERは、蒸留中のクラス間相互作用を強化し、蒸留データの有効性と一般化性を高める。
従来のデータセットと同様のラベルの線形補間を可能にすることにより、INFERは、合成データを厳密に最適化し、合成データセットのソフトラベルのサイズをほぼゼロに減らし、データセットの蒸留における効率と有効性のための新しいベンチマークを確立する。
Dataset distillation has emerged as a technique aiming to condense informative features from large, natural datasets into a compact and synthetic form. While recent advancements have refined this technique, its performance is bottlenecked by the prevailing class-specific synthesis paradigm. Under this paradigm, synthetic data is optimized exclusively for a pre-assigned one-hot label, creating an implicit class barrier in feature condensation. This leads to inefficient utilization of the distillation budget and oversight of inter-class feature distributions, which ultimately limits the effectiveness and efficiency, as demonstrated in our analysis. To overcome these constraints, this paper presents the Inter-class Feature Compensator (INFER), an innovative distillation approach that transcends the class-specific data-label framework widely utilized in current dataset distillation methods. Specifically, INFER leverages a Universal Feature Compensator (UFC) to enhance feature integration across classes, enabling the generation of multiple additional synthetic instances from a single UFC input. This significantly improves the efficiency of the distillation budget. Moreover, INFER enriches inter-class interactions during the distillation, thereby enhancing the effectiveness and generalizability of the distilled data. By allowing for the linear interpolation of labels similar to those in the original dataset, INFER meticulously optimizes the synthetic data and dramatically reduces the size of soft labels in the synthetic dataset to almost zero, establishing a new benchmark for efficiency and effectiveness in dataset distillation. | 翻訳日:2024-08-14 17:16:52 公開日:2024-08-13 |
# 合成ペルソナのシミュレーションによる大規模言語モデルの文化的適応性の評価
Evaluating Cultural Adaptability of a Large Language Model via Simulation of Synthetic Personas ( http://arxiv.org/abs/2408.06929v1 ) ライセンス: Link先を確認 | Louis Kwok, Michal Bravansky, Lewis D. Griffin, | (参考訳) 多文化環境における大規模言語モデル(LLM)の成功は、ユーザの多様な文化的背景を理解する能力に依存している。
質問紙型心理実験の範囲内で,LLMが様々な国籍を表す人物プロファイルをシミュレートすることで,この能力を計測する。
具体的には、GPT-3.5を用いて、15カ国7,286人の参加者の説得的なニュース記事に対する反応を再現し、その結果を、同じ人口統計学的特徴を共有する実際の参加者のデータセットと比較する。
対象者の居住国を特定することで,GPT-3.5の対応性の向上が期待できる。
対照的に、ネイティブ言語プロンプトの使用は、全体的なアライメントを著しく減少させるシフトを導入し、一部の言語は特にパフォーマンスを損なう。
これらの結果は,直接的国籍情報によってモデルの文化的適応性が向上する一方で,母国語の手がかりはシミュレーションの忠実さを確実に改善せず,モデルの有効性を損なう可能性があることを示唆している。
The success of Large Language Models (LLMs) in multicultural environments hinges on their ability to understand users' diverse cultural backgrounds. We measure this capability by having an LLM simulate human profiles representing various nationalities within the scope of a questionnaire-style psychological experiment. Specifically, we employ GPT-3.5 to reproduce reactions to persuasive news articles of 7,286 participants from 15 countries; comparing the results with a dataset of real participants sharing the same demographic traits. Our analysis shows that specifying a person's country of residence improves GPT-3.5's alignment with their responses. In contrast, using native language prompting introduces shifts that significantly reduce overall alignment, with some languages particularly impairing performance. These findings suggest that while direct nationality information enhances the model's cultural adaptability, native language cues do not reliably improve simulation fidelity and can detract from the model's effectiveness. | 翻訳日:2024-08-14 17:16:52 公開日:2024-08-13 |
# スパンおよび文書レベルの特徴分類を用いた非構造化オランダ心エコー図からの診断抽出
Diagnosis extraction from unstructured Dutch echocardiogram reports using span- and document-level characteristic classification ( http://arxiv.org/abs/2408.06930v1 ) ライセンス: Link先を確認 | Bauke Arends, Melle Vessies, Dirk van Osch, Arco Teske, Pim van der Harst, René van Es, Bram van Es, | (参考訳) 臨床機械学習研究とAIによる臨床決定支援モデルは、臨床的に正確なラベルに依存している。
臨床専門家の助けを借りてこれらのラベルを手作業で抽出することは、しばしば時間がかかり高価である。
本研究は,非構造オランダ心エコー図による自動スパンレベル診断と文書レベル診断の有用性について検討した。
オランダの大学病院UMCUの非構造心エコー図115,692例を報告する。
ランダムに選択したサブセットを手動でアノテートした。
本研究では,重み付きおよびマクロF1スコア,精度,性能評価のためのリコールを用いて,スパンレベルと文書レベルの両方で自動ラベリング手法を開発し,試験した。
本研究では,文書分類結果に依存する直接文書分類器と間接文書分類器の両方を含む文書分類法に対して,スパン分類の性能を比較した。
SpanCategorizerとMedRoBERTa.nlモデルは、他のすべてのスパンと文書分類器よりも優れていた。
重み付きF1スコアは、SpanCategorizerの0.60から0.93まで、MedRoBERTa.nlの0.96から0.98まで様々である。
直接文書分類はスパン分類器を用いた間接文書分類よりも優れている。
SetFitはトレーニングデータの10%しか使用せず、競争力のある文書分類性能を達成した。
ラベルセットの削減を利用すれば、ほぼ完璧な文書分類結果が得られる。
SpanCategorizer と MedRoBERTa.nl モデルを用いて,オランダの心エコーレポートからスパンレベルおよび文書レベルの診断を抽出することを推奨する。
限られたトレーニングデータを持つ設定の場合、SetFitはドキュメント分類の有望な代替になるかもしれない。
Clinical machine learning research and AI driven clinical decision support models rely on clinically accurate labels. Manually extracting these labels with the help of clinical specialists is often time-consuming and expensive. This study tests the feasibility of automatic span- and document-level diagnosis extraction from unstructured Dutch echocardiogram reports. We included 115,692 unstructured echocardiogram reports from the UMCU a large university hospital in the Netherlands. A randomly selected subset was manually annotated for the occurrence and severity of eleven commonly described cardiac characteristics. We developed and tested several automatic labelling techniques at both span and document levels, using weighted and macro F1-score, precision, and recall for performance evaluation. We compared the performance of span labelling against document labelling methods, which included both direct document classifiers and indirect document classifiers that rely on span classification results. The SpanCategorizer and MedRoBERTa.nl models outperformed all other span and document classifiers, respectively. The weighted F1-score varied between characteristics, ranging from 0.60 to 0.93 in SpanCategorizer and 0.96 to 0.98 in MedRoBERTa.nl. Direct document classification was superior to indirect document classification using span classifiers. SetFit achieved competitive document classification performance using only 10\% of the training data. Utilizing a reduced label set yielded near-perfect document classification results. We recommend using our published SpanCategorizer and MedRoBERTa.nl models for span- and document-level diagnosis extraction from Dutch echocardiography reports. For settings with limited training data, SetFit may be a promising alternative for document classification. | 翻訳日:2024-08-14 17:16:52 公開日:2024-08-13 |
# 文脈特化言語モデルの利点--エラスミアン言語モデルの場合
The advantages of context specific language models: the case of the Erasmian Language Model ( http://arxiv.org/abs/2408.06931v1 ) ライセンス: Link先を確認 | João Gonçalves, Nick Jelicic, Michele Murgia, Evert Stamhuis, | (参考訳) 言語モデルのパフォーマンスを改善する現在の傾向は、パラメータの数(例えば、最先端のGPT4モデルはおよそ1.7兆のパラメータを持つ)や、モデルに入力されたトレーニングデータの量に応じてスケールアップされているように思われる。
しかしこれは、AIソリューションの持続可能性を損なう計算リソースとエネルギーコスト、およびプライバシと誤用に関連するリスクの観点から、かなりのコストがかかる。
本稿では,Erasmian Language Model (ELM) について,エラスムス大学ロッテルダム校(Erasmus University Rotterdam) による事前学習および微調整を行った,9億のパラメータモデルを提案する。
本研究は,エッセイ執筆の授業コンテキストにおいてモデルがどのように適切に機能するか,その文脈の一部である課題において優れたパフォーマンスを達成するかを示す。
これは幅広い機関や組織に影響を与えており、コンテキスト特化言語モデルがリソースに制約のあるプライバシーに敏感なユースケースの代替となる可能性があることを示している。
The current trend to improve language model performance seems to be based on scaling up with the number of parameters (e.g. the state of the art GPT4 model has approximately 1.7 trillion parameters) or the amount of training data fed into the model. However this comes at significant costs in terms of computational resources and energy costs that compromise the sustainability of AI solutions, as well as risk relating to privacy and misuse. In this paper we present the Erasmian Language Model (ELM) a small context specific, 900 million parameter model, pre-trained and fine-tuned by and for Erasmus University Rotterdam. We show how the model performs adequately in a classroom context for essay writing, and how it achieves superior performance in subjects that are part of its context. This has implications for a wide range of institutions and organizations, showing that context specific language models may be a viable alternative for resource constrained, privacy sensitive use cases. | 翻訳日:2024-08-14 17:16:52 公開日:2024-08-13 |
# 走査トンネル顕微鏡による磁性原子鎖の量子状態移動
Quantum State Transfer in a Magnetic Atoms Chain Using a Scanning Tunneling Microscope ( http://arxiv.org/abs/2408.06936v1 ) ライセンス: Link先を確認 | Diego Acosta Coden, Omar Osenda, Alejandro Ferrón, | (参考訳) 量子スピンチェーンの電気的制御は、量子情報処理に関連する技術での可能性から、ここ数年で際立った目標となった。
本研究では,STM(Scanning Tunneling Microscope)による電場を用いたS=1/2$のチタン原子鎖において,制御量子状態伝達を行うために必要な異なるステップの実現可能性を示す。
その結果,単一励起状態の初期化と伝達は短時間で達成でき,忠実度が高いことがわかった。
本研究では、スピンハミルトニアンを用いて、磁気原子鎖、STMの先端、それと原子鎖の相互作用、および先端で印加された磁場に対する電子応答をモデル化し、最新の実験と互換性のあるパラメータセットとアブ初期計算を用いてモデル化した。
フルヒルベルト空間では時間的動的進化が考慮され、顕微鏡の先端によって生じる制御パルス周波数は現在の技術の範囲内にある。
The electric control of quantum spin chains has been an outstanding goal for the few last years due to its potential use in technologies related to quantum information processing. In this work, we show the feasibility of the different steps necessary to perform controlled quantum state transfer in a $S=1/2$ titanium atoms chain employing the electric field produced by a Scanning Tunneling Microscope (STM). Our results show that the initialization and transmission of a single excitation state is achievable in short times, and with high fidelity. Our study uses spin Hamiltonians to model the magnetic atoms chain, the tip of the STM, the interaction between it and the atoms chain and the electronic response to the fields applied by the tip, employing sets of parameters compatible with the latest experiments and ab initio calculations. The time dynamical evolution is considered in the full Hilbert space and the control pulses frequencies exerted by the tip of the microscope are within the reach of present day technology. | 翻訳日:2024-08-14 17:16:52 公開日:2024-08-13 |
# 小言語モデルを用いたホロスティックな疾患リスク予測に向けて
Towards Holistic Disease Risk Prediction using Small Language Models ( http://arxiv.org/abs/2408.06943v1 ) ライセンス: Link先を確認 | Liv Björkdahl, Oskar Pauli, Johan Östman, Chiara Ceccobello, Sara Lundell, Magnus Kjellberg, | (参考訳) 医療領域のデータは、X線画像、連続測定、臨床ノートなど、様々なソースやモダリティから生まれる。
医療従事者は、これらの多様なデータタイプを毎日統合して、情報と正確な意思決定を行う。
マルチモーダルデータを扱う言語モデルの最近の進歩により、これらのモデルを医療分野に適用することは論理的な進歩である。
本研究では,様々な病気のリスクを同時に予測することを目的とした,小言語モデルを複数のデータソースに接続するフレームワークを提案する。
本実験では,12種類のタスクをマルチタスク学習装置に組み込んだ。
このアプローチは単一タスクに特化した最先端の手法を超えないが、競合性能を示し、医療におけるマルチモーダル推論のための小さな言語モデルの可能性を強調している。
Data in the healthcare domain arise from a variety of sources and modalities, such as x-ray images, continuous measurements, and clinical notes. Medical practitioners integrate these diverse data types daily to make informed and accurate decisions. With recent advancements in language models capable of handling multimodal data, it is a logical progression to apply these models to the healthcare sector. In this work, we introduce a framework that connects small language models to multiple data sources, aiming to predict the risk of various diseases simultaneously. Our experiments encompass 12 different tasks within a multitask learning setup. Although our approach does not surpass state-of-the-art methods specialized for single tasks, it demonstrates competitive performance and underscores the potential of small language models for multimodal reasoning in healthcare. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# ファンクション近似を用いたヘビーボールモーメント加速アクタークリティカル
Heavy-Ball Momentum Accelerated Actor-Critic With Function Approximation ( http://arxiv.org/abs/2408.06945v1 ) ライセンス: Link先を確認 | Yanjie Dong, Haijun Zhang, Gang Wang, Shisheng Cui, Xiping Hu, | (参考訳) パラメータ値関数を用いて、モンテカルロロールアウトを値推定に置き換えることで、アクタークリティカル(AC)アルゴリズムは確率的ポリシー勾配の分散を低減し、収束率を改善することができる。
既存の研究は主にマルコフ雑音下でのACアルゴリズムの収束速度の分析に重点を置いているが、ACアルゴリズムに対する運動量の影響は未解明のままである。
本研究では,まず,重ボールモーメントを線形関数でパラメータ化した批判再帰に組み込むことにより,重ボールモーメントに基づくベネフィット・アクター・クリティック(\mbox{HB-A2C})アルゴリズムを提案する。
サンプル軌道がマルコフ決定過程に従うと、提案したHB-A2Cアルゴリズムの加速能力を定量的に証明する。
提案したHB-A2Cは,マルコフ雑音による強化学習タスクに対して,$\epsilon$-approximate stationary point with $\oo{\epsilon^{-2}}$ iterations を求める。
また,学習速度が標本軌跡の長さに依存することも明らかにした。
批判再帰のモーメント係数を慎重に選択することにより、提案したHB-A2Cは、初期化と確率近似によって生じる誤差のバランスをとることができる。
By using an parametric value function to replace the Monte-Carlo rollouts for value estimation, the actor-critic (AC) algorithms can reduce the variance of stochastic policy gradient so that to improve the convergence rate. While existing works mainly focus on analyzing convergence rate of AC algorithms under Markovian noise, the impacts of momentum on AC algorithms remain largely unexplored. In this work, we first propose a heavy-ball momentum based advantage actor-critic (\mbox{HB-A2C}) algorithm by integrating the heavy-ball momentum into the critic recursion that is parameterized by a linear function. When the sample trajectory follows a Markov decision process, we quantitatively certify the acceleration capability of the proposed HB-A2C algorithm. Our theoretical results demonstrate that the proposed HB-A2C finds an $\epsilon$-approximate stationary point with $\oo{\epsilon^{-2}}$ iterations for reinforcement learning tasks with Markovian noise. Moreover, we also reveal the dependence of learning rates on the length of the sample trajectory. By carefully selecting the momentum factor of the critic recursion, the proposed HB-A2C can balance the errors introduced by the initialization and the stoschastic approximation. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# ニューラル音声と音声符号化
Neural Speech and Audio Coding ( http://arxiv.org/abs/2408.06954v1 ) ライセンス: Link先を確認 | Minje Kim, Jan Skoglund, | (参考訳) 本稿では,ニューラル音声および音声符号化システムの領域におけるモデルベースおよびデータ駆動型アプローチの統合について検討する。
これは、音声と音声コーデックの主観的評価プロセスがもたらす課題を強調し、モデルベースの手法の性能に匹敵する非効率なアーキテクチャを必要とする純粋にデータ駆動アプローチの限界について議論する。
提案するハイブリッドシステムは,厳密に選択された設計の強化を通じて,従来のコーデックの性能を大幅に向上する。
具体的には、既存のコーデックの出力を後処理するように設計されたニューラルネットワークベースの信号エンハンサーと、線形予測符号化(LPC)とニューラルネットワークを組み合わせたオートエンコーダベースのエンドツーエンドモデルとLPCNetハイブリッドシステムを導入する。
さらに, カスタム特徴空間 (TF-Codec) や事前定義された変換領域 (MDCTNet) 内で動作する予測モデルについて検討し, エンドツーエンドのニューラルオーディオコーデックを訓練するために, 精神音響学的に校正された損失関数を用いて検討した。
これらの研究を通じて,従来のモデルベースアプローチと現代データ駆動手法のギャップを埋めることで,ハイブリッドシステムによる音声と音声の符号化の分野を前進させる可能性を示す。
This paper explores the integration of model-based and data-driven approaches within the realm of neural speech and audio coding systems. It highlights the challenges posed by the subjective evaluation processes of speech and audio codecs and discusses the limitations of purely data-driven approaches, which often require inefficiently large architectures to match the performance of model-based methods. The study presents hybrid systems as a viable solution, offering significant improvements to the performance of conventional codecs through meticulously chosen design enhancements. Specifically, it introduces a neural network-based signal enhancer designed to post-process existing codecs' output, along with the autoencoder-based end-to-end models and LPCNet--hybrid systems that combine linear predictive coding (LPC) with neural networks. Furthermore, the paper delves into predictive models operating within custom feature spaces (TF-Codec) or predefined transform domains (MDCTNet) and examines the use of psychoacoustically calibrated loss functions to train end-to-end neural audio codecs. Through these investigations, the paper demonstrates the potential of hybrid systems to advance the field of speech and audio coding by bridging the gap between traditional model-based approaches and modern data-driven techniques. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# クラウドソーシング: ユーザビリティ評価のためのフレームワーク
Crowdsourcing: A Framework for Usability Evaluation ( http://arxiv.org/abs/2408.06955v1 ) ライセンス: Link先を確認 | Muhammad Nasir, | (参考訳) 目的:本研究では,クラウドソーシングによるソフトウェアユーザビリティ評価について検討する。
背景: ユーザフレンドリなソフトウェア設計にはユーザビリティスタディが不可欠ですが、従来の手法はコストがかかり、時間がかかります。
クラウドソーシングは、リモートユーザビリティ評価のための、より迅速で費用効果の高い代替手段を提供するが、品質フィードバックの確保は依然として課題である。
方法:現在のユーザビリティ評価研究をレビューするために,系統地図調査を行った。
その後,複数実験を行い,初級観衆ユーザビリティインスペクタと専門家のヒューリスティック評価をベンチマークとして比較した。
これらの結果は, クラウド・ユーザビリティ・インスペクションの枠組みの作成と検証に利用された。
結果:本研究は,専門的ヒューリスティック評価を,特にWebサイトにおいて有意な方法として同定した。
実験結果から,初級観衆のユーザビリティ検査は,コンテンツ,品質,重度,時間効率などのユーザビリティの問題を特定する専門家と一致していることがわかった。
このケーススタディは、このフレームワークが効果的なユーザビリティ検査を可能にし、ソフトウェアの再設計に成功したことを実証した。
3~5回の初級検査を繰り返し、3サイクルで重要なユーザビリティの問題を効果的に解決した。
結論: クラウドソーシングは、ユーザビリティ評価のエキスパートヒューリスティック評価の効果的な代替手段である。
クラウドユーザビリティ検査のための提案されたフレームワークは、予算に制約のあるソフトウェア企業にとって実行可能なソリューションである。
キーワード:クラウドソーシング、クラウドユーザビリティ評価、エキスパートヒューリスティック評価、フレームワーク。
Objective: This research explores using crowdsourcing for software usability evaluation. Background: Usability studies are essential for designing user-friendly software, but traditional methods are often costly and time-consuming. Crowdsourcing offers a quicker, cost-effective alternative for remote usability evaluation, though ensuring quality feedback remains a challenge. Method: A systematic mapping study was conducted to review current usability evaluation research. Subsequently, multi-experiments were performed, comparing novice crowd usability inspectors to experts using expert heuristic evaluation as a benchmark. These results were used to create and validate a framework for crowd usability inspection through a case study. Results: The mapping study identified expert heuristic evaluation as a prevalent method, especially for websites. Experimental findings showed that novice crowd usability inspections, guided by expert heuristics, can match experts in identifying usability issues in content, quality, severity, and time efficiency. The case study demonstrated that the framework allows effective usability inspections, leading to successful software redesigns. Iterations of 3-5 novice inspections effectively resolved key usability issues within three cycles. Conclusion: Crowdsourcing is an effective alternative to expert heuristic evaluation for usability assessment. The proposed framework for crowd usability inspection is a viable solution for budget-constrained software companies. Keywords: crowdsourcing, crowd usability evaluation, expert heuristic evaluation, framework. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# PayOff: プライベートオフライン支払いを備えた中央銀行のデジタル通貨規制
PayOff: A Regulated Central Bank Digital Currency with Private Offline Payments ( http://arxiv.org/abs/2408.06956v1 ) ライセンス: Link先を確認 | Carolin Beer, Sheila Zingg, Kari Kostiainen, Karl Wüst, Vedran Capkun, Srdjan Capkun, | (参考訳) 欧州中央銀行(ECB)は、中央銀行のデジタル通貨(CBDC)の発行の可能性に備えている。
欧州委員会による最近の規制提案は、オンラインとオフラインの両方の支払いのサポートなど、デジタルユーロのいくつかの要件を定義している。
オフライン支払いは、キャッシュライクなプライバシ、地元の決済決済、持株制限の実施を可能にすることが期待されている。
他の中央銀行も同様に望ましい機能を示してきたが、このようなオフライン支払いを達成することは、新たな技術的課題となる。
オフラインのEキャッシュスキームを含む既存の研究ソリューションは、いずれも完全に準拠していない。
セキュアな要素に基づく提案されたソリューションは、妥協時に保証を提供しないため、大きな支払い詐欺につながる可能性がある。
本論文の主な貢献は、オフライン支払いに焦点を当てたデジタルユーロ規制によって動機付けられたCBDCデザインであるPayOffである。
我々は、地方決済決済のセキュリティへの影響を分析し、新しいセキュリティ目的を特定する。
PayOffはユーザのプライバシを保護し、保持制限などの複雑な規制をサポートし、セキュアな要素障害に対する堅牢性を高めるための保護機能を実装している。
私たちの分析によると、PayOffは強力なプライバシを提供し、現実世界のデプロイメントで発生する余分なリークを識別する。
我々の評価では、オフライン支払いは高速であり、中央銀行は、適度な計算資源で高い支払い負荷を処理できることが示されている。
しかし、PayOffの主な制限は、オフラインの支払いメッセージとストレージ要件が、送信側がオンラインに移行することなく、受信する支払い数の増加である。
The European Central Bank is preparing for the potential issuance of a central bank digital currency (CBDC), called the digital euro. A recent regulatory proposal by the European Commission defines several requirements for the digital euro, such as support for both online and offline payments. Offline payments are expected to enable cash-like privacy, local payment settlement, and the enforcement of holding limits. While other central banks have expressed similar desired functionality, achieving such offline payments poses a novel technical challenge. We observe that none of the existing research solutions, including offline E-cash schemes, are fully compliant. Proposed solutions based on secure elements offer no guarantees in case of compromise and can therefore lead to significant payment fraud. The main contribution of this paper is PayOff, a novel CBDC design motivated by the digital euro regulation, which focuses on offline payments. We analyze the security implications of local payment settlement and identify new security objectives. PayOff protects user privacy, supports complex regulations such as holding limits, and implements safeguards to increase robustness against secure element failure. Our analysis shows that PayOff provides strong privacy and identifies residual leakages that may arise in real-world deployments. Our evaluation shows that offline payments can be fast and that the central bank can handle high payment loads with moderate computing resources. However, the main limitation of PayOff is that offline payment messages and storage requirements grow in the number of payments that the sender makes or receives without going online in between. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# AuToMATo:パラメータフリーパーシステンスクラスタリングアルゴリズム
AuToMATo: A Parameter-Free Persistence-Based Clustering Algorithm ( http://arxiv.org/abs/2408.06958v1 ) ライセンス: Link先を確認 | Marius Huber, Sara Kalisnik, Patrick Schnider, | (参考訳) 永続的ホモロジーに基づく新しいパラメータフリークラスタリングアルゴリズムであるAuToMAToを提案する。
AuToMAToは既存のToMAToクラスタリングアルゴリズムとブートストラップ処理を組み合わせて、推定密度関数の有意なピークを重要でないものから分離する。
我々は,AuToMAToを,他の最先端クラスタリングアルゴリズムと比較した。
AuToMAToが他のパラメータフリークラスタリングアルゴリズムと好意的に比較するだけでなく、多くのケースでは、他のアルゴリズムで最適なパラメータの選択よりもはるかに優れています。
AuToMAToは、トポロジカルデータ解析、特にMapperアルゴリズムのアプリケーションによって動機付けられており、パラメータフリーのクラスタリングアルゴリズムで作業することが望ましい。
実際、Mapperで使用する場合、AuToMAToがうまく機能することを示す証拠を提供する。
最後に、PythonでAuToMAToのオープンソース実装を提供し、標準シキトラーンアーキテクチャと完全に互換性がある。
We present AuToMATo, a novel parameter-free clustering algorithm based on persistent homology. AuToMATo combines the existing ToMATo clustering algorithm with a bootstrapping procedure in order to separate significant peaks of an estimated density function from non-significant ones. We perform a thorough comparison of AuToMATo against many other state-of-the-art clustering algorithms. We find that not only that AuToMATo compares favorably against other parameter-free clustering algorithms, but in many instances also significantly outperforms even the best selection of parameters for other algorithms. AuToMATo is motivated by applications in topological data analysis, in particular the Mapper algorithm, where it is desirable to work with a parameter-free clustering algorithm. Indeed, we provide evidence that AuToMATo performs well when used with Mapper. Finally, we provide an open-source implementation of AuToMATo in Python that is fully compatible with the standardscikit-learn architecture. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# 対話型XAIシステムにおけるユーザ理解の測定
Measuring User Understanding in Dialogue-based XAI Systems ( http://arxiv.org/abs/2408.06960v1 ) ライセンス: Link先を確認 | Dimitry Mindlin, Amelie Sophie Robrecht, Michael Morasch, Philipp Cimiano, | (参考訳) eXplainable Artificial Intelligence(XAI)の分野は、ユーザーの説明要求をよりよく反映するために、説明をパーソナライズおよび/またはインタラクティブに適応する必要性を認識している。
XAIへの対話に基づくアプローチは近年提案されているが、XAIの最先端技術は、我々が「ワンショット、非個人化、片道説明」と呼ぶものによってまだ特徴付けられている。
対照的に、ユーザとの対話を通じて説明を適応できる対話ベースのシステムは、より直感的な情報要求方法を提供するため、GUIベースの説明やダッシュボードの説明よりも優れていると約束する。
一般に、対話型XAIシステムはユーザ満足度の観点から評価されることが多いが、ユーザの客観的モデル理解にアクセスする研究は限られている。
これは特に対話ベースのXAIアプローチの場合です。
本稿では,ユーザが学習しているモデルの予測をシミュレートして,3段階のユーザ理解を計測する対話フレームワーク内で,制御された実験を行うことにより,このギャップを埋める。
これにより、モデルがどのように機能するかを(改善された)理解するレベルを定量化し、相互作用の前と後の状態を比較できる。
さらにデータを分析し、高い理解率と低い理解率の集団間の相互作用がどのように異なるかを明らかにする。
全体として、私たちの研究は、XAIアプローチの有効性についての理解に寄与します。
The field of eXplainable Artificial Intelligence (XAI) is increasingly recognizing the need to personalize and/or interactively adapt the explanation to better reflect users' explanation needs. While dialogue-based approaches to XAI have been proposed recently, the state-of-the-art in XAI is still characterized by what we call one-shot, non-personalized and one-way explanations. In contrast, dialogue-based systems that can adapt explanations through interaction with a user promise to be superior to GUI-based or dashboard explanations as they offer a more intuitive way of requesting information. In general, while interactive XAI systems are often evaluated in terms of user satisfaction, there are limited studies that access user's objective model understanding. This is in particular the case for dialogue-based XAI approaches. In this paper, we close this gap by carrying out controlled experiments within a dialogue framework in which we measure understanding of users in three phases by asking them to simulate the predictions of the model they are learning about. By this, we can quantify the level of (improved) understanding w.r.t. how the model works, comparing the state prior, and after the interaction. We further analyze the data to reveal patterns of how the interaction between groups with high vs. low understanding gain differ. Overall, our work thus contributes to our understanding about the effectiveness of XAI approaches. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# 多層セキュリティシステム:量子鍵分布と古典暗号の統合による電子セキュリティの強化
Multi-Layered Security System: Integrating Quantum Key Distribution with Classical Cryptography to Enhance Steganographic Security ( http://arxiv.org/abs/2408.06964v1 ) ライセンス: Link先を確認 | Arman Sykot, Md Shawmoon Azad, Wahida Rahman Tanha, BM Monjur Morshed, Syed Emad Uddin Shubha, M. R. C. Mahdy, | (参考訳) 本稿では,量子鍵分布(QKD)と古典的暗号技術を統合して,ステガノグラフ画像のセキュア化を実現する新しい暗号システムを提案する。
我々のアプローチでは、E91 QKDプロトコルを活用して、通信相手間で共有秘密鍵を生成し、量子力学の原理による盗聴に対する最高レベルのセキュリティを確保する。
この鍵はSecure Hash Algorithm (SHA) を用いてハッシュされ、固定長の高エントロピー鍵を提供する。
我々は,デジタル画像に機密情報を隠蔽し,不明瞭性を通じてセキュリティを付加するAES(Advanced Encryption Standard)アルゴリズムについて検討する。
QKD、ハッシュ、対称暗号化の組み合わせは、様々な攻撃ベクトルを緩和し、送信されたデータの機密性と整合性を向上する堅牢なセキュリティフレームワークを提供する。
提案システムの有効性と効率を実証し,鍵生成速度,暗号化/復号化速度,ハッシュ・ステガノグラフィプロセスによって導入された計算オーバーヘッドの観点から,その性能を強調した。
量子暗号と古典暗号をステガノグラフィーに統合することにより、この研究は、量子攻撃と古典攻撃の両方に高い耐性を持つ包括的なセキュリティソリューションを提供し、厳密なセキュリティ対策を必要とするアプリケーションに適している。
本稿では,暗号システムの継続的な研究に寄与し,ハイブリッド量子古典セキュリティプロトコルの実践的実装と潜在的なメリットについて考察する。
In this paper, we present a novel cryptographic system that integrates Quantum Key Distribution (QKD) with classical encryption techniques to secure steganographic images. Our approach leverages the E91 QKD protocol to generate a shared secret key between communicating parties, ensuring the highest level of security against eavesdropping through the principles of quantum mechanics. This key is then hashed using the Secure Hash Algorithm (SHA) to provide a fixedlength, high-entropy key, which is subsequently utilized in symmetric encryption. We explore the use of AES (Advanced Encryption Standard) algorithms for encrypting steganographic images, which hide sensitive information within digital images to provide an additional layer of security through obscurity. The combination of QKD, hashing, and symmetric encryption offers a robust security framework that mitigates various attack vectors, enhancing the confidentiality and integrity of the transmitted data. Our experimental results demonstrate the feasibility and efficiency of the proposed system, highlighting its performance in terms of key generation rates, encryption/decryption speeds, and the computational overhead introduced by the hashing and steganographic processes. By integrating quantum and classical cryptographic methods with steganography, this work provides a comprehensive security solution that is highly resistant to both quantum and classical attacks, making it suitable for applications requiring stringent security measures. This paper contributes to the ongoing research in cryptographic systems, offering insights into the practical implementation and potential benefits of hybrid quantumclassical security protocols. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# DyG-Mamba:動的グラフ上の連続状態空間モデリング
DyG-Mamba: Continuous State Space Modeling on Dynamic Graphs ( http://arxiv.org/abs/2408.06966v1 ) ライセンス: Link先を確認 | Dongyuan Li, Shiyin Tan, Ying Zhang, Ming Jin, Shirui Pan, Manabu Okumura, Renhe Jiang, | (参考訳) 動的グラフ学習は、現実世界のシステムにおける進化の法則を明らかにすることを目的としており、正確な社会的レコメンデーション(リンク予測)や、がん細胞の早期検出(分類)を可能にする。
言語モデリングにおける長期依存性を効率的に把握する状態空間モデルであるMambaの成功に触発されて,動的グラフ学習のための新しい連続状態空間モデルDyG-Mambaを提案する。
具体的には、SSMの制御信号として入力を使用することは、不規則なサンプリング間隔を持つ連続時間動的ネットワークデータには適さないことを発見し、その結果、時間情報に敏感で一般化性に欠けるモデルが得られた。
Ebbinghaus forgetting curveからインスピレーションを得て、過去の出来事の記憶はイベント自体の特定の詳細ではなく時間間隔と強く相関していることを示唆し、不規則な時間空間をSSMの制御信号として直接利用して、大きな堅牢性と一般化を実現している。
動的リンク予測と動的ノード分類タスクのための12のデータセットに対する徹底的な実験により、DyG-Mambaは、ほとんどのデータセットで最先端のパフォーマンスを実現し、計算とメモリ効率を著しく改善した。
Dynamic graph learning aims to uncover evolutionary laws in real-world systems, enabling accurate social recommendation (link prediction) or early detection of cancer cells (classification). Inspired by the success of state space models, e.g., Mamba, for efficiently capturing long-term dependencies in language modeling, we propose DyG-Mamba, a new continuous state space model (SSM) for dynamic graph learning. Specifically, we first found that using inputs as control signals for SSM is not suitable for continuous-time dynamic network data with irregular sampling intervals, resulting in models being insensitive to time information and lacking generalization properties. Drawing inspiration from the Ebbinghaus forgetting curve, which suggests that memory of past events is strongly correlated with time intervals rather than specific details of the events themselves, we directly utilize irregular time spans as control signals for SSM to achieve significant robustness and generalization. Through exhaustive experiments on 12 datasets for dynamic link prediction and dynamic node classification tasks, we found that DyG-Mamba achieves state-of-the-art performance on most of the datasets, while also demonstrating significantly improved computation and memory efficiency. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# Stabilizer bootstrapping: 効率的な非依存トモグラフィーとマジック推定のためのレシピ
Stabilizer bootstrapping: A recipe for efficient agnostic tomography and magic estimation ( http://arxiv.org/abs/2408.06967v1 ) ライセンス: Link先を確認 | Sitan Chen, Weiyuan Gong, Qi Ye, Zhihan Zhang, | (参考訳) 未知の$n$-qubit 状態 $\rho$ のコピーが与えられたとき、与えられたクラス $C$ のある状態を持つ$\tau$ が与えられたとき、その状態が fidelity $\ge \tau - \epsilon$ が $\rho$ である。
安定化状態: 時間で実行されるプロトコルを$\mathrm{poly}(n,1/\epsilon)\cdot (1/\tau)^{O(\log(1/\tau))}$で提供し、Grewal, Iyer, Kretschmer, Liang [40] と Anshu と Arunachalam [6] が提案したオープンな質問に答える。
以前は$\mathrm{exp}(\Theta(n))$か$\tau>\cos^2(\pi/8)$が必要だった。
安定化器次元が $n - t$: 時間で実行されるプロトコルを$n^3\cdot(2^t/\tau)^{O(\log(1/\epsilon))}$で提供し、非クリフォードゲートを持つ回路で準備された量子状態の学習に関する最近の研究を拡張し、$\tau = 1$ [30, 37, 46, 61] という実現可能な設定でのみ適用する。
C = K^{\otimes n}$ for some $\mu$-separated discrete set $K$ of single-qubit states, we give a protocol that run in time $(n/\mu)^{O((1 + \log (1/\tau))/\mu)}/\epsilon^2$。
これは、安定化した積状態 [39] に適用される事前保証を厳密に一般化する。
安定な積状態に対して、時間$(n^2/\epsilon^2)\cdot (1/\tau)^{O(\log(1/\tau))}$で実行されるさらなる改善されたプロトコルを与える。
結論として、量子状態の標準的なマジック尺度である安定化器の忠実度を推定するための最初のプロトコルとして、$\epsilon$ in $n^3 \mathrm{quasipoly}(1/\epsilon)$ time を誤差化する。
We study the task of agnostic tomography: given copies of an unknown $n$-qubit state $\rho$ which has fidelity $\tau$ with some state in a given class $C$, find a state which has fidelity $\ge \tau - \epsilon$ with $\rho$. We give a new framework, stabilizer bootstrapping, for designing computationally efficient protocols for this task, and use this to get new agnostic tomography protocols for the following classes: Stabilizer states: We give a protocol that runs in time $\mathrm{poly}(n,1/\epsilon)\cdot (1/\tau)^{O(\log(1/\tau))}$, answering an open question posed by Grewal, Iyer, Kretschmer, Liang [40] and Anshu and Arunachalam [6]. Previous protocols ran in time $\mathrm{exp}(\Theta(n))$ or required $\tau>\cos^2(\pi/8)$. States with stabilizer dimension $n - t$: We give a protocol that runs in time $n^3\cdot(2^t/\tau)^{O(\log(1/\epsilon))}$, extending recent work on learning quantum states prepared by circuits with few non-Clifford gates, which only applied in the realizable setting where $\tau = 1$ [30, 37, 46, 61]. Discrete product states: If $C = K^{\otimes n}$ for some $\mu$-separated discrete set $K$ of single-qubit states, we give a protocol that runs in time $(n/\mu)^{O((1 + \log (1/\tau))/\mu)}/\epsilon^2$. This strictly generalizes a prior guarantee which applied to stabilizer product states [39]. For stabilizer product states, we give a further improved protocol that runs in time $(n^2/\epsilon^2)\cdot (1/\tau)^{O(\log(1/\tau))}$. As a corollary, we give the first protocol for estimating stabilizer fidelity, a standard measure of magic for quantum states, to error $\epsilon$ in $n^3 \mathrm{quasipoly}(1/\epsilon)$ time. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# Sigma-Delta Neural Network を用いたイベントストリーム超解像
Event-Stream Super Resolution using Sigma-Delta Neural Network ( http://arxiv.org/abs/2408.06968v1 ) ライセンス: Link先を確認 | Waseem Shariff, Joe Lemley, Peter Corcoran, | (参考訳) 本研究では,イベントカメラが捉えた輝度変化に基づいて,時間変動画素の時空間分解能を高める新しい手法を提案する。
これらのカメラは、低解像度で、収集したデータの疎かで非同期な性質のため、ユニークな課題を示す。
現在のイベント超解像アルゴリズムは、イベントカメラによって生成された異なるデータ構造に対して完全に最適化されていないため、計算複雑性を改善した完全なダイナミズムと視覚シーンの詳細をキャプチャする非効率性が生じる。
このギャップを埋めるために,イベントストリームの空間的および時間的分布を同時に学習するための時空間制約学習機構を活用し,二分スパイクをSigma Delta Neural Networks (SDNNs)と統合する手法を提案する。
提案ネットワークは,N-MNIST, CIFAR10-DVS, ASL-DVS, Event-NFSなど,広く知られているベンチマークデータセットを用いて評価される。
根元平均二乗誤差(RMSE)とモデルの計算効率の両面を総合的に評価する枠組みが採用された。
提案手法は,従来のニューラルネットワークよりも17.04倍,32.28倍のシナプス演算効率向上を実現し,スパイクニューラルネットワークよりも2倍の性能向上を実現した。
This study introduces a novel approach to enhance the spatial-temporal resolution of time-event pixels based on luminance changes captured by event cameras. These cameras present unique challenges due to their low resolution and the sparse, asynchronous nature of the data they collect. Current event super-resolution algorithms are not fully optimized for the distinct data structure produced by event cameras, resulting in inefficiencies in capturing the full dynamism and detail of visual scenes with improved computational complexity. To bridge this gap, our research proposes a method that integrates binary spikes with Sigma Delta Neural Networks (SDNNs), leveraging spatiotemporal constraint learning mechanism designed to simultaneously learn the spatial and temporal distributions of the event stream. The proposed network is evaluated using widely recognized benchmark datasets, including N-MNIST, CIFAR10-DVS, ASL-DVS, and Event-NFS. A comprehensive evaluation framework is employed, assessing both the accuracy, through root mean square error (RMSE), and the computational efficiency of our model. The findings demonstrate significant improvements over existing state-of-the-art methods, specifically, the proposed method outperforms state-of-the-art performance in computational efficiency, achieving a 17.04-fold improvement in event sparsity and a 32.28-fold increase in synaptic operation efficiency over traditional artificial neural networks, alongside a two-fold better performance over spiking neural networks. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# IRS-Assisted Lossy Communications under Correlated Rayleigh Fading: Outage Probability Analysis and Optimization
IRS-Assisted Lossy Communications Under Correlated Rayleigh Fading: Outage Probability Analysis and Optimization ( http://arxiv.org/abs/2408.06969v1 ) ライセンス: Link先を確認 | Guanchang Li, Wensheng Lin, Lixin Li, Yixuan He, Fucheng Yang, Zhu Han, | (参考訳) 本稿では,レイリーフェーディングを用いたインテリジェント反射面(IRS)を用いた損失通信システムについて述べる。
相関チャネルモデルを分析し,システム停止確率を導出する。
そして、受信信号パワーを最大化するために、IRSの位相シフトを最適化する深層強化学習法(DRL)を設計する。
さらに,DRL法の性能評価のためのシミュレーション結果について述べる。
シミュレーションの結果, より相関の深いチャネル係数では, システム停止確率が有意に増加することが示唆された。
さらに、DRLと理論限界の間の性能ギャップは、高い送信電力および/またはより大きい歪み要求によって増大する。
This paper focuses on an intelligent reflecting surface (IRS)-assisted lossy communication system with correlated Rayleigh fading. We analyze the correlated channel model and derive the outage probability of the system. Then, we design a deep reinforce learning (DRL) method to optimize the phase shift of IRS, in order to maximize the received signal power. Moreover, this paper presents results of the simulations conducted to evaluate the performance of the DRL-based method. The simulation results indicate that the outage probability of the considered system increases significantly with more correlated channel coefficients. Moreover, the performance gap between DRL and theoretical limit increases with higher transmit power and/or larger distortion requirement. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# セグメンテーションモデル2を用いた複数解像度・照明条件でのプロンプトベースセグメンテーション
Prompt-Based Segmentation at Multiple Resolutions and Lighting Conditions using Segment Anything Model 2 ( http://arxiv.org/abs/2408.06970v1 ) ライセンス: Link先を確認 | Osher Rafaeli, Tal Svoray, Ariel Nahlieli, | (参考訳) 本稿では,ゼロショット型,プロンプト型,セグメント型,セグメント型,セグメント型モデル(SAM)とその更新版であるSAM 2と,太陽電池のセグメンテーション,RGB空中画像におけるセグメンテーション,照明条件,空間解像度,プロンプト戦略における従来の畳み込みネットワーク(CNN)の有効性について考察する。
SAM 2はSAMよりも改善され、特に点によって誘導される場合の準最適照明条件において顕著である。
SAMは、ユーザーボックスによって誘導され、すべてのシナリオでCNNを上回った。
さらに、YOLOv9はパフォーマンスのよいユーザーポイントをプロンプトする。
高解像度画像では、最適照明条件と準最適照明条件の両方において、Eff-UNetはYOLOv9ボックスによって誘導されるSAMモデルよりも優れており、高解像度データにおける自動セグメンテーションの適切なモデルとして位置づけられている。
低解像度のデータでは、ユーザボックスプロンプトが合理的なパフォーマンスを達成するために不可欠であることが判明した。
本稿では,各モデルの長所と短所について詳述し,ユーザによる画像分割モデルの無矛盾な解像度およびリモートセンシングデータの照明条件における堅牢性について概説する。
This paper provides insight into the effectiveness of zero-shot, prompt-based, Segment Anything Model (SAM), and its updated version, SAM 2, and the non-promptable, conventional convolutional network (CNN), in segmenting solar panels, in RGB aerial imagery, across lighting conditions, spatial resolutions, and prompt strategies. SAM 2 demonstrates improvements over SAM, particularly in sub-optimal lighting conditions when prompted by points. Both SAMs, prompted by user-box, outperformed CNN, in all scenarios. Additionally, YOLOv9 prompting outperformed user points prompting. In high-resolution imagery, both in optimal and sub-optimal lighting conditions, Eff-UNet outperformed both SAM models prompted by YOLOv9 boxes, positioning Eff-UNet as the appropriate model for automatic segmentation in high-resolution data. In low-resolution data, user box prompts were found crucial to achieve a reasonable performance. This paper provides details on strengths and limitations of each model and outlines robustness of user prompted image segmentation models in inconsistent resolution and lighting conditions of remotely sensed data. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# ローレンツ-共変ラグランジアンフレームワークによるド・ブログリの二重解法パイロット波理論の再検討
Revisiting de Broglie's Double-Solution Pilot-Wave Theory with a Lorentz-Covariant Lagrangian Framework ( http://arxiv.org/abs/2408.06972v1 ) ライセンス: Link先を確認 | David Darrow, John W. M. Bush, | (参考訳) デ・ブロイの量子力学に対する二重解法と流体力学のパイロット波系との関係は、デ・ブロイの理論の最近の再検討と拡張を動機付けている。
これらの最近の発展を基盤として、古典場理論の現代言語におけるド・ブロイの二重解法プログラムの改革と研究をめざして、パイロット波システムの豊富なファミリーを紹介する。
特に、全族は局所的かつローレンツ不変であり、変分原理から従い、時間不変で、粒子とパイロット波動場の双方向結合を示す。
まず、ネーター電流の粒子-波交換の導出を含む、一般的なパイロット-波系の変分フレームワークを導入する。
次に、粒子がパイロット波の局所勾配によって推進されるシステムの特定の限界に焦点を当てる。
この場合、デブロリーが提唱したコンプトンスケールの振動は、粒子振動の形で自然に現れ、振動モードは粒子の残りのフレームのコンプトン周波数に合わせるように動的に調整される。
基礎となる磁場は、粒子の運動量$p$が変化しても、粒子の位置におけるド・ブロイの関係$p=\hbar k$を満たすために、その放射パターンを動的に変化させる。
したがって、波の形状と周波数は、不安定な粒子運動であってもデ・ブログリの「位相の調和」に適合するように進化する。
粒子は、常にコンプトンスケールの湯川波束を装い、その軌道から独立し、関連するエネルギーが粒子の慣性質量を一定に増加させることを示す。
最後に、粒子の波によるコンプトンスケールの振動が、ハイゼンベルクの不確実性原理の古典的なバージョンを生み出すことが分かる。
The relation between de Broglie's double-solution approach to quantum dynamics and the hydrodynamic pilot-wave system has motivated a number of recent revisitations and extensions of de Broglie's theory. Building upon these recent developments, we here introduce a rich family of pilot-wave systems, with a view to reformulating and studying de Broglie's double-solution program in the modern language of classical field theory. Notably, the entire family is local and Lorentz-invariant, follows from a variational principle, and exhibits time-invariant, two-way coupling between particle and pilot-wave field. We first introduce a variational framework for generic pilot-wave systems, including a derivation of particle-wave exchange of Noether currents. We then focus on a particular limit of our system, in which the particle is propelled by the local gradient of its pilot wave. In this case, we see that the Compton-scale oscillations proposed by de Broglie emerge naturally in the form of particle vibrations, and that the vibration modes dynamically adjust to match the Compton frequency in the rest frame of the particle. The underlying field dynamically changes its radiation patterns in order to satisfy the de Broglie relation $p=\hbar k$ at the particle's position, even as the particle momentum $p$ changes. The wave form and frequency thus evolve so as to conform to de Broglie's "harmony of phases", even for unsteady particle motion. We show that the particle is always dressed with a Compton-scale Yukawa wavepacket, independent of its trajectory, and that the associated energy imparts a constant increase to the particle's inertial mass. Finally, we see that the particle's wave-induced Compton-scale oscillation gives rise to a classical version of the Heisenberg uncertainty principle. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# スペクトルガウス:多スペクトルシーン表現・可視化・解析のためのセマンティック・スペクトル3次元ガウススプラッティング
SpectralGaussians: Semantic, spectral 3D Gaussian splatting for multi-spectral scene representation, visualization and analysis ( http://arxiv.org/abs/2408.06975v1 ) ライセンス: Link先を確認 | Saptarshi Neil Sinha, Holger Graf, Michael Weinmann, | (参考訳) 登録されたマルチビュースペクトルとセグメンテーションマップから現実的で意味のあるスプラットを生成する3Dガウススプラッティング(3DGS)に基づく新しいクロススペクトルレンダリングフレームワークを提案する。
この拡張は、複数のスペクトルを持つシーンの表現を強化し、基礎となる材料とセグメンテーションに関する洞察を提供する。
本稿では,ガウススプレートの物理的レンダリング手法を改良し,スペクトル毎の反射率と照度を推定し,精度とリアリズムを向上する。
包括的定量的・質的評価では、近年の学習に基づくスペクトルシーン表現アプローチ(XNeRFとSpectralNeRF)や、その他の非スペクトル学習に基づくアプローチと比較して、我々のアプローチの優れた性能を示す。
また,本研究は,スタイル伝達やインペイント,除去といった正確なシーン編集技術に対するスペクトルシーン理解の可能性も示している。
これにより、マルチスペクトルシーン表現、レンダリング、編集における課題に対処し、多様なアプリケーションに新たな可能性を提供します。
We propose a novel cross-spectral rendering framework based on 3D Gaussian Splatting (3DGS) that generates realistic and semantically meaningful splats from registered multi-view spectrum and segmentation maps. This extension enhances the representation of scenes with multiple spectra, providing insights into the underlying materials and segmentation. We introduce an improved physically-based rendering approach for Gaussian splats, estimating reflectance and lights per spectra, thereby enhancing accuracy and realism. In a comprehensive quantitative and qualitative evaluation, we demonstrate the superior performance of our approach with respect to other recent learning-based spectral scene representation approaches (i.e., XNeRF and SpectralNeRF) as well as other non-spectral state-of-the-art learning-based approaches. Our work also demonstrates the potential of spectral scene understanding for precise scene editing techniques like style transfer, inpainting, and removal. Thereby, our contributions address challenges in multi-spectral scene representation, rendering, and editing, offering new possibilities for diverse applications. | 翻訳日:2024-08-14 17:06:48 公開日:2024-08-13 |
# LLMはスケジュールできる
LLMs can Schedule ( http://arxiv.org/abs/2408.06993v1 ) ライセンス: Link先を確認 | Henrik Abgaryan, Ararat Harutyunyan, Tristan Cazenave, | (参考訳) ジョブショップスケジューリング問題(JSSP)は、生産プロセスの最適化において重要なハードルであり続けている。
この課題には、ジョブを限られた数のマシンに効率的に割り当てると同時に、処理時間やジョブ遅延などの要因を最小限に抑えることが含まれる。
近年の人工知能の進歩は、強化学習やグラフニューラルネットワークといった有望なソリューションを生み出しているが、本稿では、JSSPのためのLarge Language Models(LLM)の可能性を探る。
JSSPのためのLSMをトレーニングするために特別に設計された、初めての教師付き120kデータセットを紹介します。
驚くべきことに,LLMに基づくスケジューリングは,他のニューラルアプローチに匹敵する性能を達成できることを示した。
さらに,JSSP 処理における LLM の有効性を高めるサンプリング手法を提案する。
The job shop scheduling problem (JSSP) remains a significant hurdle in optimizing production processes. This challenge involves efficiently allocating jobs to a limited number of machines while minimizing factors like total processing time or job delays. While recent advancements in artificial intelligence have yielded promising solutions, such as reinforcement learning and graph neural networks, this paper explores the potential of Large Language Models (LLMs) for JSSP. We introduce the very first supervised 120k dataset specifically designed to train LLMs for JSSP. Surprisingly, our findings demonstrate that LLM-based scheduling can achieve performance comparable to other neural approaches. Furthermore, we propose a sampling method that enhances the effectiveness of LLMs in tackling JSSP. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-13 |
# 効率的な高次拡散モデルのための低ビット幅浮動小数点量子化
Low-Bitwidth Floating Point Quantization for Efficient High-Quality Diffusion Models ( http://arxiv.org/abs/2408.06995v1 ) ライセンス: Link先を確認 | Cheng Chen, Christina Giannoula, Andreas Moshovos, | (参考訳) 拡散モデルは、ディープニューラルネットワークを用いてランダムガウスノイズを反復的に復調することで画像を生成する新興モデルである。
これらのモデルは通常、高い計算とメモリ要求を示し、高性能な推論のために効果的なトレーニング後の量子化を必要とする。
近年の研究では、拡散モデルに対する低ビット幅(例えば、8ビットまたは4ビット)の量子化が提案されているが、4ビットの整数量子化は、通常、低品質の画像をもたらす。
いくつかの広く使われているハードウェアプラットフォームでは、同じビット幅の浮動小数点演算と整数演算(例:8ビット、または4ビット)の計算能力に差はほとんど、あるいは全くない。
そこで本研究では,拡散モデルの効率的な浮動小数点量子化法を提案する。
本研究では,他の処理タスク,特にコンピュータビジョンや自然言語タスクに有効な浮動小数点量子化法を採用し,量子化過程における量子化値への全精度値のマッピング中に重み付け学習を統合することで拡散モデルの調整を行う。
我々は、最先端拡散モデルにおける整数および浮動小数点量子化法を包括的に研究する。
我々の浮動小数点量子化法は、整数量子化法よりも高品質な画像を生成するだけでなく、重みとアクティベーションの両方が8ビット浮動小数点値に量子化され、かつ4ビットの重みと8ビットのアクティベーションによる最小の劣化は、フル精度モデル(32ビット浮動小数点)と比較しても顕著な劣化を示す。
Diffusion models are emerging models that generate images by iteratively denoising random Gaussian noise using deep neural networks. These models typically exhibit high computational and memory demands, necessitating effective post-training quantization for high-performance inference. Recent works propose low-bitwidth (e.g., 8-bit or 4-bit) quantization for diffusion models, however 4-bit integer quantization typically results in low-quality images. We observe that on several widely used hardware platforms, there is little or no difference in compute capability between floating-point and integer arithmetic operations of the same bitwidth (e.g., 8-bit or 4-bit). Therefore, we propose an effective floating-point quantization method for diffusion models that provides better image quality compared to integer quantization methods. We employ a floating-point quantization method that was effective for other processing tasks, specifically computer vision and natural language tasks, and tailor it for diffusion models by integrating weight rounding learning during the mapping of the full-precision values to the quantized values in the quantization process. We comprehensively study integer and floating-point quantization methods in state-of-the-art diffusion models. Our floating-point quantization method not only generates higher-quality images than that of integer quantization methods, but also shows no noticeable degradation compared to full-precision models (32-bit floating-point), when both weights and activations are quantized to 8-bit floating-point values, while has minimal degradation with 4-bit weights and 8-bit activations. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-13 |
# 多様体上のソボレフ類を近似するための次元の祝福
Blessing of Dimensionality for Approximating Sobolev Classes on Manifolds ( http://arxiv.org/abs/2408.06996v1 ) ライセンス: Link先を確認 | Hong Ye Tan, Subhadip Mukherjee, Junqi Tang, Carola-Bibiane Schönlieb, | (参考訳) 多様体仮説は、自然の高次元データは、実際は低次元多様体またはその周辺で支えられていると述べる。
統計的および学習に基づく手法の最近の成功は、非常に高い次元における古典的な統計的直観よりも優れているため、この仮説を実証的に支持している。
したがって、解析の自然なステップは、多様体の仮説を仮定し、どんな埋め込み空間にも依存しない境界を導出することである。
この方向の理論的含意は、最近、ReLUネットワークの一般化とランゲヴィン法の収束の観点から研究されている。
我々は、一般化特性に直接関係する理論的な統計的複雑さの結果を提供することで、既存の結果を補完する。
特に、コンパクト多様体上の有界ソボレフ函数の類を近似するために必要な統計複雑性が下から有界であること、さらに、この有界が多様体の内在的性質にのみ依存していることが示される。
これらは、多様体上のReLUネットワークに対する既存の近似結果に対する相補的境界を与え、一般化能力の上限を与える。
The manifold hypothesis says that natural high-dimensional data is actually supported on or around a low-dimensional manifold. Recent success of statistical and learning-based methods empirically supports this hypothesis, due to outperforming classical statistical intuition in very high dimensions. A natural step for analysis is thus to assume the manifold hypothesis and derive bounds that are independent of any embedding space. Theoretical implications in this direction have recently been explored in terms of generalization of ReLU networks and convergence of Langevin methods. We complement existing results by providing theoretical statistical complexity results, which directly relates to generalization properties. In particular, we demonstrate that the statistical complexity required to approximate a class of bounded Sobolev functions on a compact manifold is bounded from below, and moreover that this bound is dependent only on the intrinsic properties of the manifold. These provide complementary bounds for existing approximation results for ReLU networks on manifolds, which give upper bounds on generalization capacity. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-13 |
# より高速なプライベート最小スパンニングツリー
Faster Private Minimum Spanning Trees ( http://arxiv.org/abs/2408.06997v1 ) ライセンス: Link先を確認 | Rasmus Pagh, Lukas Retschmeier, | (参考訳) クラスタリングや合成データ生成のアプリケーションによって動機付けられ、グラフトポロジーが$G=(V,E)$と$m$ edgeがパブリックで、重量行列が$\vec{W}\in \mathbb{R}^{n \times n}$がプライベートである場合、エッジウェイトな差分プライバシー制約の下で最小スパンニングツリー(MST)をリリースする問題を考える。
ウェイト行列は、各エントリにおいて少なくとも$\Delta_\infty$で異なる場合、すなわち、$\ell_\infty$隣り合う関係を考えると、隣人と見なされる。
既存のプライベートMSTアルゴリズムは、$\vec{W}$で各エントリにノイズを付加し、後処理によってMSTを推定するか、特定のMSTアルゴリズムの実行中に重みにノイズを付加する。
効率的なMSTアルゴリズムを用いた後処理アプローチでは、高密度グラフ上では$O(n^2)$時間を要するが、MSTの重みの加算誤差は$O(n^2\log n)$になる。
インプレースアルゴリズムは漸近的に優れているが、既存のインプレースアルゴリズムの実行時間は密度グラフに対して$O(n^3)$である。
我々の主な成果は、固定プライバシパラメータ$\rho$に対して、時間$O(m + n^{3/2}\log n)$を実行しながら、既存のインプレースメソッドのユーティリティにマッチする新しい微分プライベートMSTアルゴリズムです。
我々のアルゴリズムの技術的コアは、全てのエッジ重みを$\Delta_\infty$の倍数に離散化し、同じ重みを持つエッジのグループを形成する、Report-Noisy-Maxの効率的なサブ線形時間シミュレーションである。
具体的には、少なくとも$O(n^2)$のカットエッジを$O(\sqrt{n} \log n)$の時間でサンプリングすることのできるデータ構造を示す。
実験による評価は,本アルゴリズムが実用性や実行時間において,従来のアルゴリズムを大幅に改善することを示すものである。
Motivated by applications in clustering and synthetic data generation, we consider the problem of releasing a minimum spanning tree (MST) under edge-weight differential privacy constraints where a graph topology $G=(V,E)$ with $n$ vertices and $m$ edges is public, the weight matrix $\vec{W}\in \mathbb{R}^{n \times n}$ is private, and we wish to release an approximate MST under $\rho$-zero-concentrated differential privacy. Weight matrices are considered neighboring if they differ by at most $\Delta_\infty$ in each entry, i.e., we consider an $\ell_\infty$ neighboring relationship. Existing private MST algorithms either add noise to each entry in $\vec{W}$ and estimate the MST by post-processing or add noise to weights in-place during the execution of a specific MST algorithm. Using the post-processing approach with an efficient MST algorithm takes $O(n^2)$ time on dense graphs but results in an additive error on the weight of the MST of magnitude $O(n^2\log n)$. In-place algorithms give asymptotically better utility, but the running time of existing in-place algorithms is $O(n^3)$ for dense graphs. Our main result is a new differentially private MST algorithm that matches the utility of existing in-place methods while running in time $O(m + n^{3/2}\log n)$ for fixed privacy parameter $\rho$. The technical core of our algorithm is an efficient sublinear time simulation of Report-Noisy-Max that works by discretizing all edge weights to a multiple of $\Delta_\infty$ and forming groups of edges with identical weights. Specifically, we present a data structure that allows us to sample a noisy minimum weight edge among at most $O(n^2)$ cut edges in $O(\sqrt{n} \log n)$ time. Experimental evaluations support our claims that our algorithm significantly improves previous algorithms either in utility or running time. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-13 |
# トンネル結合凝縮体の量子制限一般化測定
Quantum-limited generalized measurement for tunnel-coupled condensates ( http://arxiv.org/abs/2408.07002v1 ) ライセンス: Link先を確認 | Maximilian Prüfer, Yuri Minoguchi, Tiantian Zhang, Yevhenii Kuriatnikov, Venkat Marupaka, Jörg Schmiedmayer, | (参考訳) 関連する情報の効率的な読み出しは、量子シミュレーション実験において重要である。
標準的な射影測定を行うことで、観測可能なものは1つしかアクセスできないことが多い。
本研究では、制御された原子の外部結合に基づく一般化された測定手法を実装した。
これにより、2つのトンネル結合した1次元ボース気体系における数不均衡と相対位相への同時アクセスが可能となり、正弦-ゴードン場理論の量子シミュレータが実現される。
実測値が量子的に制限されていることを実演し、一般化された測定値を用いてジョセフソン振動ダイナミクスを追跡できることを証明した。
最後に,システムのコヒーレントダイナミクスを維持しつつ,原子の抽出が可能であることを示し,マルチ時間相関関数へのアクセスへの扉を開く。
このスキームは、正弦-ゴードン場の理論の量子的性質にアクセスするためのステップを構成し、将来、連続的な監視の下で空間的に拡張されたシステムを研究する。
The efficient readout of the relevant information is pivotal for quantum simulation experiments. Often only single observables are accessed by performing standard projective measurements. In this work, we implement a generalized measurement scheme based on controlled outcoupling of atoms. This gives us simultaneous access to number imbalance and relative phase in a system of two tunnel-coupled 1D Bose gases, which realize a quantum simulator of the sine-Gordon field theory. We demonstrate that our measurement is quantum limited by accessing number squeezing and show that we can track Josephson oscillation dynamics with the generalized measurements. Finally, we show that the scheme allows the extraction of atoms while maintaining the system's coherent dynamics, which opens up the door to accessing multi-time correlation functions. Our scheme constitutes a step towards accessing quantum properties of the sine-Gordon field theory and, in the future, studying spatially extended systems under continuous monitoring. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-13 |
# トピックの自動ラベリングのための生成AI
Generative AI for automatic topic labelling ( http://arxiv.org/abs/2408.07003v1 ) ライセンス: Link先を確認 | Diego Kozlowski, Carolina Pradier, Pierre Benz, | (参考訳) トピックモデリングは、研究トレンドの大規模な解釈を可能にするため、科学分野の研究において顕著なツールとなっている。
それでも、これらのモデルの出力は、ラベル付けのマニュアル解釈を必要とするキーワードのリストとして構成されている。
本稿では,トピックラベリングのための3つのLPM(Flan, GPT-4o, GPT-4 mini)の信頼性を評価することを提案する。
BERTopicを利用した以前の研究に基づいて、2008年から2020年にかけてスイスの全生物学教授(n=465)が作成したすべての科学論文(n=34,797)のデータセットからトピックを生成し、Web of Scienceデータベースに記録した。
まず、GPTモデルがモデルの出力キーワードからトピックを正確に正確にラベル付けできることを示す。
第二に、3ワードラベルは研究トピックの複雑さを理解するのに好ましい。
Topic Modeling has become a prominent tool for the study of scientific fields, as they allow for a large scale interpretation of research trends. Nevertheless, the output of these models is structured as a list of keywords which requires a manual interpretation for the labelling. This paper proposes to assess the reliability of three LLMs, namely flan, GPT-4o, and GPT-4 mini for topic labelling. Drawing on previous research leveraging BERTopic, we generate topics from a dataset of all the scientific articles (n=34,797) authored by all biology professors in Switzerland (n=465) between 2008 and 2020, as recorded in the Web of Science database. We assess the output of the three models both quantitatively and qualitatively and find that, first, both GPT models are capable of accurately and precisely label topics from the models' output keywords. Second, 3-word labels are preferable to grasp the complexity of research topics. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-13 |
# Casper: Webベースの大規模言語モデルにおけるユーザプライバシ保護のためのプロンプト衛生
Casper: Prompt Sanitization for Protecting User Privacy in Web-Based Large Language Models ( http://arxiv.org/abs/2408.07004v1 ) ライセンス: Link先を確認 | Chun Jie Chong, Chenxi Hou, Zhihao Yao, Seyed Mohammadjavad Seyed Talebi, | (参考訳) WebベースのLarge Language Model (LLM) サービスが広く採用され、インターネットエクスペリエンスの不可欠な部分となっている。
サードパーティプラグインは、現実のデータやサービスへのアクセスを可能にすることで、LLMの機能を高める。
しかし、これらのサービスとそのサードパーティプラグインに関連するプライバシー上の影響はよく理解されていない。
センシティブなプロンプトデータは、クラウドベースのLLMプロバイダとサードパーティのプラグインによって保存、処理、共有される。
本稿では,LCMサービスに送信する前にユーザの入力から機密情報を検出・削除することで,ユーザのプライバシ保護を目的とした迅速な衛生手法であるCasperを提案する。
Casperは、完全にユーザのデバイス上でブラウザ拡張として動作し、オンラインLLMサービスを変更する必要はない。
Casperのコアには、ルールベースのフィルタ、機械学習(ML)ベースの名前付きエンティティ認識器、ブラウザベースのローカルLLMトピック識別子からなる3層化機構がある。
我々は,4000個の合成プロンプトのデータセット上でCasperを評価し,PII(Personal Identible Information)とプライバシーに敏感なトピックを,それぞれ98.5%,89.9%の精度で効果的にフィルタリングできることを示した。
Web-based Large Language Model (LLM) services have been widely adopted and have become an integral part of our Internet experience. Third-party plugins enhance the functionalities of LLM by enabling access to real-world data and services. However, the privacy consequences associated with these services and their third-party plugins are not well understood. Sensitive prompt data are stored, processed, and shared by cloud-based LLM providers and third-party plugins. In this paper, we propose Casper, a prompt sanitization technique that aims to protect user privacy by detecting and removing sensitive information from user inputs before sending them to LLM services. Casper runs entirely on the user's device as a browser extension and does not require any changes to the online LLM services. At the core of Casper is a three-layered sanitization mechanism consisting of a rule-based filter, a Machine Learning (ML)-based named entity recognizer, and a browser-based local LLM topic identifier. We evaluate Casper on a dataset of 4000 synthesized prompts and show that it can effectively filter out Personal Identifiable Information (PII) and privacy-sensitive topics with high accuracy, at 98.5% and 89.9%, respectively. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-13 |
# サーベイデータにおける差分プライバシーの複雑さ
The Complexities of Differential Privacy for Survey Data ( http://arxiv.org/abs/2408.07006v1 ) ライセンス: Link先を確認 | Jörg Drechsler, James Bailie, | (参考訳) ディファレンシャル・プライバシ(DP)の概念は近年注目されており、特にアメリカ合衆国国勢調査局が2020年12月の国勢調査でこの概念の採用を発表して以来、注目されている。
しかし、その魅力的な理論的特性にもかかわらず、特に調査データに関して、実際にDPを実装することは困難である。
本稿では,調査データに対するDPの可能性と限界を探求する,米国国勢調査局による進行中のプロジェクトの結果について述べる。
具体的には、データ生産の多段階的な性質、複雑なサンプリング設計によるプライバシー増幅の制限、調査重み付け推定の影響、非応答性やその他のデータ不足に対する重み付け調整、欠落値の計算という、調査文脈でDPを採用する際に考慮すべき5つの側面を識別する。
それぞれの側面について,プロジェクトの重要な成果を要約するとともに,DPが統計機関で新たなデータ保護基準となる前に解決すべき課題について論じる。
The concept of differential privacy (DP) has gained substantial attention in recent years, most notably since the U.S. Census Bureau announced the adoption of the concept for its 2020 Decennial Census. However, despite its attractive theoretical properties, implementing DP in practice remains challenging, especially when it comes to survey data. In this paper we present some results from an ongoing project funded by the U.S. Census Bureau that is exploring the possibilities and limitations of DP for survey data. Specifically, we identify five aspects that need to be considered when adopting DP in the survey context: the multi-staged nature of data production; the limited privacy amplification from complex sampling designs; the implications of survey-weighted estimates; the weighting adjustments for nonresponse and other data deficiencies, and the imputation of missing values. We summarize the project's key findings with respect to each of these aspects and also discuss some of the challenges that still need to be addressed before DP could become the new data protection standard at statistical agencies. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-13 |
# 画像3
Imagen 3 ( http://arxiv.org/abs/2408.07009v1 ) ライセンス: Link先を確認 | Imagen-Team-Google, :, Jason Baldridge, Jakob Bauer, Mukul Bhutani, Nicole Brichtova, Andrew Bunner, Kelvin Chan, Yichang Chen, Sander Dieleman, Yuqing Du, Zach Eaton-Rosen, Hongliang Fei, Nando de Freitas, Yilin Gao, Evgeny Gladchenko, Sergio Gómez Colmenarejo, Mandy Guo, Alex Haig, Will Hawkins, Hexiang Hu, Huilian Huang, Tobenna Peter Igwe, Christos Kaplanis, Siavash Khodadadeh, Yelin Kim, Ksenia Konyushkova, Karol Langner, Eric Lau, Shixin Luo, Soňa Mokrá, Henna Nandwani, Yasumasa Onoe, Aäron van den Oord, Zarana Parekh, Jordi Pont-Tuset, Hang Qi, Rui Qian, Deepak Ramachandran, Poorva Rane, Abdullah Rashwan, Ali Razavi, Robert Riachi, Hansa Srinivasan, Srivatsan Srinivasan, Robin Strudel, Benigno Uria, Oliver Wang, Su Wang, Austin Waters, Chris Wolff, Auriel Wright, Zhisheng Xiao, Hao Xiong, Keyang Xu, Marc van Zee, Junlin Zhang, Katie Zhang, Wenlei Zhou, Konrad Zolna, Ola Aboubakar, Canfer Akbulut, Oscar Akerlund, Isabela Albuquerque, Nina Anderson, Marco Andreetto, Lora Aroyo, Ben Bariach, David Barker, Sherry Ben, Dana Berman, Courtney Biles, Irina Blok, Pankil Botadra, Jenny Brennan, Karla Brown, John Buckley, Rudy Bunel, Elie Bursztein, Christina Butterfield, Ben Caine, Viral Carpenter, Norman Casagrande, Ming-Wei Chang, Solomon Chang, Shamik Chaudhuri, Tony Chen, John Choi, Dmitry Churbanau, Nathan Clement, Matan Cohen, Forrester Cole, Mikhail Dektiarev, Vincent Du, Praneet Dutta, Tom Eccles, Ndidi Elue, Ashley Feden, Shlomi Fruchter, Frankie Garcia, Roopal Garg, Weina Ge, Ahmed Ghazy, Bryant Gipson, Andrew Goodman, Dawid Górny, Sven Gowal, Khyatti Gupta, Yoni Halpern, Yena Han, Susan Hao, Jamie Hayes, Amir Hertz, Ed Hirst, Tingbo Hou, Heidi Howard, Mohamed Ibrahim, Dirichi Ike-Njoku, Joana Iljazi, Vlad Ionescu, William Isaac, Reena Jana, Gemma Jennings, Donovon Jenson, Xuhui Jia, Kerry Jones, Xiaoen Ju, Ivana Kajic, Christos Kaplanis, Burcu Karagol Ayan, Jacob Kelly, Suraj Kothawade, Christina Kouridi, Ira Ktena, Jolanda Kumakaw, Dana Kurniawan, Dmitry Lagun, Lily Lavitas, Jason Lee, Tao Li, Marco Liang, Maggie Li-Calis, Yuchi Liu, Javier Lopez Alberca, Peggy Lu, Kristian Lum, Yukun Ma, Chase Malik, John Mellor, Inbar Mosseri, Tom Murray, Aida Nematzadeh, Paul Nicholas, João Gabriel Oliveira, Guillermo Ortiz-Jimenez, Michela Paganini, Tom Le Paine, Roni Paiss, Alicia Parrish, Anne Peckham, Vikas Peswani, Igor Petrovski, Tobias Pfaff, Alex Pirozhenko, Ryan Poplin, Utsav Prabhu, Yuan Qi, Matthew Rahtz, Cyrus Rashtchian, Charvi Rastogi, Amit Raul, Ali Razavi, Sylvestre-Alvise Rebuffi, Susanna Ricco, Felix Riedel, Dirk Robinson, Pankaj Rohatgi, Bill Rosgen, Sarah Rumbley, Moonkyung Ryu, Anthony Salgado, Sahil Singla, Florian Schroff, Candice Schumann, Tanmay Shah, Brendan Shillingford, Kaushik Shivakumar, Dennis Shtatnov, Zach Singer, Evgeny Sluzhaev, Valerii Sokolov, Thibault Sottiaux, Florian Stimberg, Brad Stone, David Stutz, Yu-Chuan Su, Eric Tabellion, Shuai Tang, David Tao, Kurt Thomas, Gregory Thornton, Andeep Toor, Cristian Udrescu, Aayush Upadhyay, Cristina Vasconcelos, Alex Vasiloff, Andrey Voynov, Amanda Walker, Luyu Wang, Miaosen Wang, Simon Wang, Stanley Wang, Qifei Wang, Yuxiao Wang, Ágoston Weisz, Olivia Wiles, Chenxia Wu, Xingyu Federico Xu, Andrew Xue, Jianbo Yang, Luo Yu, Mete Yurtoglu, Ali Zand, Han Zhang, Jiageng Zhang, Catherine Zhao, Adilet Zhaxybay, Miao Zhou, Shengqi Zhu, Zhenkai Zhu, Dawn Bloxwich, Mahyar Bordbar, Luis C. Cobo, Eli Collins, Shengyang Dai, Tulsee Doshi, Anca Dragan, Douglas Eck, Demis Hassabis, Sissie Hsiao, Tom Hume, Koray Kavukcuoglu, Helen King, Jack Krawczyk, Yeqing Li, Kathy Meier-Hellstern, Andras Orban, Yury Pinsky, Amar Subramanya, Oriol Vinyals, Ting Yu, Yori Zwols, | (参考訳) 本稿では,テキストプロンプトから高品質な画像を生成する潜時拡散モデルであるImagen 3を紹介する。
品質評価と責任評価について説明する。
画像3は、評価時に他の最先端(SOTA)モデルよりも好まれる。
さらに、安全と表現に関する問題や、モデルの潜在的損害を最小限に抑えるために使用した手法についても論じる。
We introduce Imagen 3, a latent diffusion model that generates high quality images from text prompts. We describe our quality and responsibility evaluations. Imagen 3 is preferred over other state-of-the-art (SOTA) models at the time of evaluation. In addition, we discuss issues around safety and representation, as well as methods we used to minimize the potential harm of our models. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-13 |
# 変分非独立因子の歪みの定義と測定
Defining and Measuring Disentanglement for non-Independent Factors of Variation ( http://arxiv.org/abs/2408.07016v1 ) ライセンス: Link先を確認 | Antonio Almudévar, Alfonso Ortega, Luis Vicente, Antonio Miguel, Eduardo Lleida, | (参考訳) 表現学習(representation learning)は、データから変化の要因を発見し、抽出する手法である。
直感的には、表現が人間にとって理解可能な方法で変化の異なる要因を分離するならば、切り離されると言われる。
遠絡と測度の定義は、通常、変動の要因が互いに独立していると仮定する。
しかし、これは現実の世界では一般的に誤りであり、これらの定義とメトリクスの使用を非常に具体的で非現実的なシナリオに制限する。
本稿では,変化の要因が独立していない場合にも有効である情報理論に基づく絡み合いの定義を提案する。
さらに、この定義をInformation Bottleneck Methodに関連付ける。
最後に、変動要因が独立でない場合に作用する所定の定義から乱れ度を測定する方法を提案する。
本稿では,本手法が非独立要因のばらつきを正確に測定するのに対して,他の手法では失敗することを示す。
Representation learning is an approach that allows to discover and extract the factors of variation from the data. Intuitively, a representation is said to be disentangled if it separates the different factors of variation in a way that is understandable to humans. Definitions of disentanglement and metrics to measure it usually assume that the factors of variation are independent of each other. However, this is generally false in the real world, which limits the use of these definitions and metrics to very specific and unrealistic scenarios. In this paper we give a definition of disentanglement based on information theory that is also valid when the factors of variation are not independent. Furthermore, we relate this definition to the Information Bottleneck Method. Finally, we propose a method to measure the degree of disentanglement from the given definition that works when the factors of variation are not independent. We show through different experiments that the method proposed in this paper correctly measures disentanglement with non-independent factors of variation, while other methods fail in this scenario. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-13 |
# 対話ラベル符号化と条件決定による効率的なヒューマン・オブジェクト・インタラクション(EHOI)検出
Efficient Human-Object-Interaction (EHOI) Detection via Interaction Label Coding and Conditional Decision ( http://arxiv.org/abs/2408.07018v1 ) ライセンス: Link先を確認 | Tsung-Shan Yang, Yun-Cheng Wang, Chengwei Wei, Suya You, C. -C. Jay Kuo, | (参考訳) ヒューマン・オブジェクト・インタラクション(HOI)検出は画像理解の基本的な課題である。
ディープラーニングに基づくHOI法は平均平均精度(mAP)の点で高い性能を提供するが、これらは計算コストが高く、トレーニングや推論プロセスでは不透明である。
本研究では, 検出性能, 推論複雑性, 数学的透明性のバランスを良くするために, 効率の良いHOI検出器を提案する。
EHOIは二段階法である。
最初の段階では、凍った物体検出器を利用して物体を局在させ、中間出力として様々な特徴を抽出する。
第2段階では、第1段階の出力はXGBoost分類器を用いて相互作用タイプを予測する。
我々の貢献は、稀な相互作用のケースを符号化するためにエラー訂正符号(ECC)を適用することを含み、これは第2段階におけるXGBoost分類器のモデルサイズと複雑さを減少させる。
また,決定過程の数学的定式化も行う。
アーキテクチャとは別に、フィードフォワードモジュールの機能を説明する定性的な結果を示す。
実験により,ECC符号化対話ラベルの利点と検出性能とEHOI法の複雑さのバランスが良好であることが示された。
Human-Object Interaction (HOI) detection is a fundamental task in image understanding. While deep-learning-based HOI methods provide high performance in terms of mean Average Precision (mAP), they are computationally expensive and opaque in training and inference processes. An Efficient HOI (EHOI) detector is proposed in this work to strike a good balance between detection performance, inference complexity, and mathematical transparency. EHOI is a two-stage method. In the first stage, it leverages a frozen object detector to localize the objects and extract various features as intermediate outputs. In the second stage, the first-stage outputs predict the interaction type using the XGBoost classifier. Our contributions include the application of error correction codes (ECCs) to encode rare interaction cases, which reduces the model size and the complexity of the XGBoost classifier in the second stage. Additionally, we provide a mathematical formulation of the relabeling and decision-making process. Apart from the architecture, we present qualitative results to explain the functionalities of the feedforward modules. Experimental results demonstrate the advantages of ECC-coded interaction labels and the excellent balance of detection performance and complexity of the proposed EHOI method. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-13 |
# 純微分プライバシーによる連続観測によるカウントの改善
Improved Counting under Continual Observation with Pure Differential Privacy ( http://arxiv.org/abs/2408.07021v1 ) ライセンス: Link先を確認 | Joel Daniel Andersson, Rasmus Pagh, Sahel Torkamani, | (参考訳) 連続観察下でのカウントは、差分プライバシーの分野でよく研究されている問題である。
x_1,x_2,\dots,x_T \in \{0,1\}$の更新ストリームが与えられた場合、問題は、ストリーム内の各入力$x_i$を差分プライバシで保護しながら、プレフィックスの和$\sum_{i=1}^t x_i$ for $t=1,\dots,T$の見積もりを継続的にリリースすることである。
最近、この問題の理解において、$\textit{approximate}$differential privacy, aka という大きな飛躍があった。
$(\varepsilon,\delta)$$\textit{-differential privacy}$.$(\varepsilon,\delta)$
しかし、古典的な$\varepsilon$-differential privacyのケースでは、Honaker(TPDP 2015)の作業以来、平均2乗誤差の改善を意識していません。
本稿では, 平均二乗誤差を約4倍に減らし, 漸近的に改善する。
鍵となるテクニックは、プライバシーと精度のトレードオフを改善するために$$k$-ary number system with $\textit{ negative digits}$を使用するバイナリツリー機構の新たな一般化である。
我々のメカニズムは、すべての「最適」$(\varepsilon,\delta)$-differentially private factorization mechanismに対して平均2乗誤差を改善する。
具体的には、$k=19$ を用いて、$\delta = O(T^{-0.92})$ のとき、ヘンジンガー、ウパディー、そして Upadhyay (SODA 2023) によって与えられる境界に対する漸近的な改善が得られる。
Counting under continual observation is a well-studied problem in the area of differential privacy. Given a stream of updates $x_1,x_2,\dots,x_T \in \{0,1\}$ the problem is to continuously release estimates of the prefix sums $\sum_{i=1}^t x_i$ for $t=1,\dots,T$ while protecting each input $x_i$ in the stream with differential privacy. Recently, significant leaps have been made in our understanding of this problem under $\textit{approximate}$ differential privacy, aka. $(\varepsilon,\delta)$$\textit{-differential privacy}$. However, for the classical case of $\varepsilon$-differential privacy, we are not aware of any improvement in mean squared error since the work of Honaker (TPDP 2015). In this paper we present such an improvement, reducing the mean squared error by a factor of about 4, asymptotically. The key technique is a new generalization of the binary tree mechanism that uses a $k$-ary number system with $\textit{negative digits}$ to improve the privacy-accuracy trade-off. Our mechanism improves the mean squared error over all 'optimal' $(\varepsilon,\delta)$-differentially private factorization mechanisms based on Gaussian noise whenever $\delta$ is sufficiently small. Specifically, using $k=19$ we get an asymptotic improvement over the bound given in the work by Henzinger, Upadhyay and Upadhyay (SODA 2023) when $\delta = O(T^{-0.92})$. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-13 |
# QIris: レインボーテーブル攻撃の量子化
QIris: Quantum Implementation of Rainbow Table Attacks ( http://arxiv.org/abs/2408.07032v1 ) ライセンス: Link先を確認 | Lee Jun Quan, Tan Jia Ye, Goh Geok Ling, Vivek Balachandran, | (参考訳) 本稿では,古典的なレインボーテーブルにおけるGroverのアルゴリズムの利用について検討し,量子コンピューティング技術を従来の暗号手法と統合し,量子レインボーテーブルのコンセプト証明を開発する可能性を明らかにする。
これは量子の概念とアルゴリズムを活用し、キュービット重ね合わせ、絡み合い、テレポーテーションの原理と、グローバーのアルゴリズムと組み合わせることで、より効率的な虹色のテーブルによる探索を可能にする。
実装段階において、ハードウェアの制約とより良い結果を生み出すための作業についても詳述する。
この作業を通じて、量子虹テーブルの動作プロトタイプを開発し、量子コンピューティングがパスワードクラッカーなどのサイバーツールの速度を大幅に改善し、それによってサイバーセキュリティの展望に影響を及ぼすことを示す。
This paper explores the use of Grover's Algorithm in the classical rainbow table, uncovering the potential of integrating quantum computing techniques with conventional cryptographic methods to develop a Quantum Rainbow Table Proof-of-Concept. This leverages on Quantum concepts and algorithms which includes the principle of qubit superposition, entanglement and teleportation, coupled with Grover's Algorithm to enable a more efficient search through the rainbow table. The paper also details on the hardware constraints and the work around to produce better results in the implementation stages. Through this work we develop a working prototype of quantum rainbow table and demonstrate how quantum computing could significantly improve the speed of cyber tools such as password crackers and thus impact the cyber security landscape. | 翻訳日:2024-08-14 16:55:31 公開日:2024-08-13 |
# PathInsight: マルチモーダルデータセットのインストラクションチューニングと病理診断支援モデル
PathInsight: Instruction Tuning of Multimodal Datasets and Models for Intelligence Assisted Diagnosis in Histopathology ( http://arxiv.org/abs/2408.07037v1 ) ライセンス: Link先を確認 | Xiaomin Wu, Rui Xu, Pengchen Wei, Wenkang Qin, Peixiang Huang, Ziheng Li, Lin Luo, | (参考訳) 病理診断は腫瘍の同定における決定的な基準である。
マルチモーダルな大規模モデルの台頭は、画像解析とテキスト記述の統合プロセスを単純化した。
この進歩にもかかわらず、これらの複雑なマルチモーダルモデルのトレーニングとデプロイに関連するかなりのコストと、高品質なトレーニングデータセットの不足は、最先端技術と臨床現場におけるその応用の間に大きな隔たりを生み出している。
臓器組織の分類,病理報告記述の生成,病理関連質問や回答など,約45,000件のデータセットを慎重に収集した。
特にLLaVA, Qwen-VL, InternLMを微調整したマルチモーダル大規模モデルで, このデータセットを用いて命令ベースの性能を向上させる。
画像キャプションと分類タスクを特定のデータセット上で行う際に,ベースモデルと微調整モデルの有効性を定性的に評価した。
評価の結果, 微調整モデルでは, 典型的な病理学的な問題に対処する能力を示すことがわかった。
私たちのモデルとデータセットの両方を公開することによって、医療と研究のコミュニティにとって価値のあるものになり得ることを願っています。
Pathological diagnosis remains the definitive standard for identifying tumors. The rise of multimodal large models has simplified the process of integrating image analysis with textual descriptions. Despite this advancement, the substantial costs associated with training and deploying these complex multimodal models, together with a scarcity of high-quality training datasets, create a significant divide between cutting-edge technology and its application in the clinical setting. We had meticulously compiled a dataset of approximately 45,000 cases, covering over 6 different tasks, including the classification of organ tissues, generating pathology report descriptions, and addressing pathology-related questions and answers. We have fine-tuned multimodal large models, specifically LLaVA, Qwen-VL, InternLM, with this dataset to enhance instruction-based performance. We conducted a qualitative assessment of the capabilities of the base model and the fine-tuned model in performing image captioning and classification tasks on the specific dataset. The evaluation results demonstrate that the fine-tuned model exhibits proficiency in addressing typical pathological questions. We hope that by making both our models and datasets publicly available, they can be valuable to the medical and research communities. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# QLDPCコードのスケーラブルデコードのための機械学習メッセージパッシング
Machine Learning Message-Passing for the Scalable Decoding of QLDPC Codes ( http://arxiv.org/abs/2408.07038v1 ) ライセンス: Link先を確認 | Arshpreet Singh Maan, Alexandru Paler, | (参考訳) 本稿では,グラフニューラルネットワークを用いた新規でスケーラブルなデコーダであるAstraを紹介する。
我々のデコーダは、タナーグラフで表される制約のスドゥークパズルを解くのと同様に機能する。
一般に、QLDPC復号法は信念伝播(BP)に基づいており、順序付き統計復号法(OSD)のような時間を要する。
後処理を一切使わずに、AstraはBP+OSDよりも高いしきい値とより良い論理誤差率を達成する。
さらに、より低い距離で訓練されたデコーダを用いて、高い距離をデコードする。
Astra+OSDはBP+OSDより速い。
物理誤り率の低下に伴い,Astra+OSDは外挿復号の文脈においても,BP+OSDと比較してOSDへの呼び出しを徐々に少なくすることを示す。
Astra(+OSD)は、BP(+OSD)と比較してBB符号の論理誤り率を桁違いに低くする。
ソースコードは \url{https://github.com/arshpreetmaan/astra} でオープンソース化されている。
We present Astra, a novel and scalable decoder using graph neural networks. Our decoder works similarly to solving a Sudoku puzzle of constraints represented by the Tanner graph. In general, QLDPC decoding is based on belief propagation (BP, a variant of message-passing) and requires time intensive post-processing methods such as ordered statistics decoding (OSD). Without using any post-processing, Astra achieves higher thresholds and better logical error rates when compared to BP+OSD, both for surface codes trained up to distance 11 and Bivariate Bicycle (BB) codes trained up to distance 18. Moreover, we can successfully extrapolate the decoding functionality: we decode high distances by using decoders trained on lower distances. Astra+OSD is faster than BP+OSD. We show that with decreasing physical error rates, Astra+OSD makes progressively fewer calls to OSD when compared to BP+OSD, even in the context of extrapolated decoding. Astra(+OSD) achieves orders of magnitude lower logical error rates for BB codes compared to BP(+OSD). The source code is open-sourced at \url{https://github.com/arshpreetmaan/astra}. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# Kan you see it? Kans and Sentinel for Effective and Explainable Crop Field Segmentation
KAN You See It? KANs and Sentinel for Effective and Explainable Crop Field Segmentation ( http://arxiv.org/abs/2408.07040v1 ) ライセンス: Link先を確認 | Daniele Rege Cambrin, Eleonora Poeta, Eliana Pastor, Tania Cerquitelli, Elena Baralis, Paolo Garza, | (参考訳) 作物の分断は、農業生産性の向上、作物の健康の監視、持続可能な慣行の促進に不可欠である。
このタスクに採用されたディープラーニングモデルは、経済的損失や環境への影響を避けるために、正確で信頼性の高い予測を保証する必要がある。
新たに提案されたコルモゴロフ・アルノルドネットワーク(KAN)は、ニューラルネットワークの性能を有望に向上させる。
本稿では,Sentinel-2 と Sentinel-1 の衛星画像を用いて,Kan 層を U-Net アーキテクチャ (U-KAN) に統合して作物畑を分割し,それらのネットワークの性能と説明可能性について分析する。
以上の結果から,従来の完全畳み込み型U-Netモデルに比べて,GFLOPが2倍改善したことが示唆された。
さらに、勾配に基づく説明手法により、U-KAN予測は極めて信頼性が高く、ネットワークは耕作地自体よりも耕作地の境界に注目する能力が高いことを示す。
チャネルごとの関連性分析は、いくつかのチャネルがこのタスクに無関係であることを示す。
Segmentation of crop fields is essential for enhancing agricultural productivity, monitoring crop health, and promoting sustainable practices. Deep learning models adopted for this task must ensure accurate and reliable predictions to avoid economic losses and environmental impact. The newly proposed Kolmogorov-Arnold networks (KANs) offer promising advancements in the performance of neural networks. This paper analyzes the integration of KAN layers into the U-Net architecture (U-KAN) to segment crop fields using Sentinel-2 and Sentinel-1 satellite images and provides an analysis of the performance and explainability of these networks. Our findings indicate a 2\% improvement in IoU compared to the traditional full-convolutional U-Net model in fewer GFLOPs. Furthermore, gradient-based explanation techniques show that U-KAN predictions are highly plausible and that the network has a very high ability to focus on the boundaries of cultivated areas rather than on the areas themselves. The per-channel relevance analysis also reveals that some channels are irrelevant to this task. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# TableGuard -- 構造化および非構造化データのセキュア化
TableGuard -- Securing Structured & Unstructured Data ( http://arxiv.org/abs/2408.07045v1 ) ライセンス: Link先を確認 | Anantha Sharma, Ajinkya Deshmukh, | (参考訳) プラットフォームや組織間でのデータ共有の需要が高まる中、機密情報のプライバシーとセキュリティの確保が重要な課題となっている。
本稿では,「TableGuard」を紹介する。
リレーショナルデータベースに適したデータ難読化に対する革新的なアプローチ。
コンテキストに敏感な難読化に関する以前の作業で開発された原則とテクニックに基づいて、TableGuardはこれらの手法を適用して、API呼び出しが難読化データのみを返すことを保証し、サードパーティとデータを共有する際のプライバシを保護する。
TableGuardは、先進的なコンテキスト依存の難読化技術を活用して、センシティブなデータ要素をコンテキスト的に適切な代替品に置き換える。
データのリレーショナル整合性とコヒーレンスを維持することにより,認知的不協和とデータ漏洩のリスクを軽減する。
本研究では,リレーショナルテーブル内のセンシティブなエンティティを識別・難読化するBERTトランスフォーマーモデルを用いてTableGuardの実装を実演する。
評価の結果、TableGuardはプライバシー保護とデータユーティリティのバランスを効果的に保ち、情報損失を最小限に抑えつつ、難読化されたデータが下流アプリケーションで機能的に有用であることを保証している。
その結果、データ整合性を維持する上で、ドメイン固有の難読化戦略の重要性とコンテキスト長の役割を強調した。
この研究の意義は、外部とデータを安全に共有する必要がある組織にとって重要である。
TableGuardは、プライバシを保存するデータ共有メカニズムを実装するための堅牢なフレームワークを提供する。
With the increasing demand for data sharing across platforms and organizations, ensuring the privacy and security of sensitive information has become a critical challenge. This paper introduces "TableGuard". An innovative approach to data obfuscation tailored for relational databases. Building on the principles and techniques developed in prior work on context-sensitive obfuscation, TableGuard applies these methods to ensure that API calls return only obfuscated data, thereby safeguarding privacy when sharing data with third parties. TableGuard leverages advanced context-sensitive obfuscation techniques to replace sensitive data elements with contextually appropriate alternatives. By maintaining the relational integrity and coherence of the data, our approach mitigates the risks of cognitive dissonance and data leakage. We demonstrate the implementation of TableGuard using a BERT based transformer model, which identifies and obfuscates sensitive entities within relational tables. Our evaluation shows that TableGuard effectively balances privacy protection with data utility, minimizing information loss while ensuring that the obfuscated data remains functionally useful for downstream applications. The results highlight the importance of domain-specific obfuscation strategies and the role of context length in preserving data integrity. The implications of this research are significant for organizations that need to share data securely with external parties. TableGuard offers a robust framework for implementing privacy-preserving data sharing mechanisms, thereby contributing to the broader field of data privacy and security. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# PSM:マルチスケールゼロショットサウンドスケープマッピングのための確率的埋め込み学習
PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape Mapping ( http://arxiv.org/abs/2408.07050v1 ) ライセンス: Link先を確認 | Subash Khanal, Eric Xing, Srikumar Sastry, Aayush Dhakal, Zhexiao Xiong, Adeel Ahmad, Nathan Jacobs, | (参考訳) サウンドスケープは、ある場所で知覚される音響環境によって定義される。
本研究では,地球上の音環境をマッピングする枠組みを提案する。
音環境は空間スケールの異なる音の分布を含むため、マルチスケールの衛星画像で位置を表現し、この画像、音声、テキストの合同表現を学習する。
位置の音環境に固有の不確かさを捉えるため,確率的な表現空間を設計する。
また、ユビキタスなメタデータ(位置情報、時間、データソースを含む)を融合して、空間的および時間的に変化する音環境の表現を学習する。
音声とテキストを時間的制御と統合した大規模サウンドスケープマップを作成することで,我々のフレームワークの有用性を実証する。
この課題の今後の研究を容易にするために,低解像度・高解像度の衛星画像と組み合わせた3万ドル以上のジオタグ付きオーディオサンプルを含む大規模データセットGeoSoundも導入した。
提案手法は,GeoSoundと既存のSoundingEarthデータセットの両方において,既存の最先端技術よりも優れていることを示す。
私たちのデータセットとコードはhttps://github.com/mvrl/PSM.orgで公開されています。
A soundscape is defined by the acoustic environment a person perceives at a location. In this work, we propose a framework for mapping soundscapes across the Earth. Since soundscapes involve sound distributions that span varying spatial scales, we represent locations with multi-scale satellite imagery and learn a joint representation among this imagery, audio, and text. To capture the inherent uncertainty in the soundscape of a location, we design the representation space to be probabilistic. We also fuse ubiquitous metadata (including geolocation, time, and data source) to enable learning of spatially and temporally dynamic representations of soundscapes. We demonstrate the utility of our framework by creating large-scale soundscape maps integrating both audio and text with temporal control. To facilitate future research on this task, we also introduce a large-scale dataset, GeoSound, containing over $300k$ geotagged audio samples paired with both low- and high-resolution satellite imagery. We demonstrate that our method outperforms the existing state-of-the-art on both GeoSound and the existing SoundingEarth dataset. Our dataset and code is available at https://github.com/mvrl/PSM. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# オンラインフォーラムにおけるニュースコメントのギャップとアルゴリズムのアジェンダ設定
The News Comment Gap and Algorithmic Agenda Setting in Online Forums ( http://arxiv.org/abs/2408.07052v1 ) ライセンス: Link先を確認 | Flora Böwing, Patrick Gildersleve, | (参考訳) ジャーナリストが評価するニュース記事と「ニューズギャップ」として知られる読者が好むニュース記事の相違はよく文書化されている。
しかし、ニュース関連ユーザ生成コンテンツに対する期待の相違については、あまり研究されていない。
ニュースサイトが主催するコメントセクションは読者のエンゲージメントに人気があるが、それでも編集決定の対象となっている。
したがって、ジャーナリストと読者のコメント好みを理解することは重要である。
我々はオーストリアの新聞Der Standardから120万件のコメントを分析し、"News Comment Gap"と異なるランキングアルゴリズムの効果を理解する。
ジャーナリストはポジティブで、タイムリーで、複雑で、直感的な反応を好むのに対し、読者は、エリート作家の記事に類似したコメントを好む。
多様なランク付けアルゴリズムの影響を評価するために,多機能な特徴指向ランク付けユーティリティメトリクス(FORUM)を導入し,感情や話題の関連性,語彙の多様性,可読性などによるコメントの表示の優先順位付け方法に劇的な差異を見出した。
ジャーナリストは、カリキュラムとアルゴリズムの両方の手段を通じて、議論に多大な影響を及ぼすことができる。
これらの選択の意味を理解することは、特にオンライン談話における法的精査と社会的重要性の増大を考えると、ジャーナリストの目的と整合しながら、エンゲージメントと市民の議論を促進する上で不可欠である。
The disparity between news stories valued by journalists and those preferred by readers, known as the "News Gap", is well-documented. However, the difference in expectations regarding news related user-generated content is less studied. Comment sections, hosted by news websites, are popular venues for reader engagement, yet still subject to editorial decisions. It is thus important to understand journalist vs reader comment preferences and how these are served by various comment ranking algorithms that represent discussions differently. We analyse 1.2 million comments from Austrian newspaper Der Standard to understand the "News Comment Gap" and the effects of different ranking algorithms. We find that journalists prefer positive, timely, complex, direct responses, while readers favour comments similar to article content from elite authors. We introduce the versatile Feature-Oriented Ranking Utility Metric (FORUM) to assess the impact of different ranking algorithms and find dramatic differences in how they prioritise the display of comments by sentiment, topical relevance, lexical diversity, and readability. Journalists can exert substantial influence over the discourse through both curatorial and algorithmic means. Understanding these choices' implications is vital in fostering engaging and civil discussions while aligning with journalistic objectives, especially given the increasing legal scrutiny and societal importance of online discourse. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# インジェクションアタックによるパスワードマネージャの漏洩爆発
Exploiting Leakage in Password Managers via Injection Attacks ( http://arxiv.org/abs/2408.07054v1 ) ライセンス: Link先を確認 | Andrés Fábrega, Armin Namavari, Rachit Agarwal, Ben Nassi, Thomas Ristenpart, | (参考訳) 本研究では,パスワードマネージャに対するインジェクション攻撃について検討する。
この設定では、敵(のみ)が自身のアプリケーションクライアントを制御し、例えば資格情報を共有するなどして、選択したペイロードを被害者のクライアントに"注入"するために使用する。
インジェクションは、何らかの形で保護された状態(暗号化されたVaultエクスポートやアプリケーションサーバが受信したネットワークトラフィックなど)の敵の観測とインターリーブされ、敵が機密情報をバックアウトする。
人気のあるパスワードマネージャには、パスワード、URL、ユーザー名、アタッチメントを効率よくリカバリできる脆弱性につながる一連の一般的なデザインパターンが見つかりました。
我々は,これらの設計パターンを活用する汎用攻撃テンプレートを開発し,その実用性を10種類のパスワード管理アプリケーションを用いて実験的に示す。
当社の調査結果をこれらのベンダに公開しました。
This work explores injection attacks against password managers. In this setting, the adversary (only) controls their own application client, which they use to "inject" chosen payloads to a victim's client via, for example, sharing credentials with them. The injections are interleaved with adversarial observations of some form of protected state (such as encrypted vault exports or the network traffic received by the application servers), from which the adversary backs out confidential information. We uncover a series of general design patterns in popular password managers that lead to vulnerabilities allowing an adversary to efficiently recover passwords, URLs, usernames, and attachments. We develop general attack templates to exploit these design patterns and experimentally showcase their practical efficacy via analysis of ten distinct password manager applications. We disclosed our findings to these vendors, many of which deployed mitigations. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# LongWriter:Long Context LLMから1万以上の単語を生成する
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs ( http://arxiv.org/abs/2408.07055v1 ) ライセンス: Link先を確認 | Yushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li, | (参考訳) 現在のロングコンテキストの大規模言語モデル(LLM)は、最大10万個のトークンを処理できるが、2000ワードを超える出力を生成するのに苦労している。
制御実験により、モデルの有効性生成長は、教師付き微調整(SFT)中に見られたサンプルによって本質的に境界づけられていることが判明した。
言い換えれば、それらの出力制限は、既存のSFTデータセットにおける長い出力例の不足によるものである。
そこで我々は,超長大なタスクをサブタスクに分解するエージェントベースのパイプラインであるAgentWriteを紹介した。
AgentWriteを活用することで、2kから32kまでの出力長を持つ6000のSFTデータを含むデータセットであるLongWriter-6kを構築する。
このデータセットをモデルトレーニングに組み込むことで、既存のモデルの出力長を1万ワード以上に拡大し、出力品質を維持できる。
また,超長寿命能力評価のための総合ベンチマークであるLongBench-Writeを開発した。
DPOによってさらに改善された我々の9Bパラメータモデルは、このベンチマークで最先端のパフォーマンスを実現し、さらに大きなプロプライエタリモデルを上回っています。
一般的に、我々の研究は、既存の長いコンテキスト LLM が既により大きな出力ウインドウの可能性を秘めていることを示している。
私たちのコードとモデルは以下のとおりです。
Current long context large language models (LLMs) can process inputs up to 100,000 tokens, yet struggle to generate outputs exceeding even a modest length of 2,000 words. Through controlled experiments, we find that the model's effective generation length is inherently bounded by the sample it has seen during supervised fine-tuning (SFT). In other words, their output limitation is due to the scarcity of long-output examples in existing SFT datasets. To address this, we introduce AgentWrite, an agent-based pipeline that decomposes ultra-long generation tasks into subtasks, enabling off-the-shelf LLMs to generate coherent outputs exceeding 20,000 words. Leveraging AgentWrite, we construct LongWriter-6k, a dataset containing 6,000 SFT data with output lengths ranging from 2k to 32k words. By incorporating this dataset into model training, we successfully scale the output length of existing models to over 10,000 words while maintaining output quality. We also develop LongBench-Write, a comprehensive benchmark for evaluating ultra-long generation capabilities. Our 9B parameter model, further improved through DPO, achieves state-of-the-art performance on this benchmark, surpassing even much larger proprietary models. In general, our work demonstrates that existing long context LLM already possesses the potential for a larger output window--all you need is data with extended output during model alignment to unlock this capability. Our code & models are at: https://github.com/THUDM/LongWriter. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# モデルモエリングに関する調査研究:協調学習の専門家のリサイクリングとルーティング
A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning ( http://arxiv.org/abs/2408.07057v1 ) ライセンス: Link先を確認 | Prateek Yadav, Colin Raffel, Mohammed Muqeeth, Lucas Caccia, Haokun Liu, Tianlong Chen, Mohit Bansal, Leshem Choshen, Alessandro Sordoni, | (参考訳) 性能訓練済みのモデルが利用可能になったことで、特定のドメインやタスクに特化して調整されたエキスパートモデルが急増した。
Model MoErgingメソッドは、専門家のモデルをリサイクルして、パフォーマンスや一般化を改善した集約システムを構築することを目的としている。
MoErgingメソッドの重要なコンポーネントは、特定の入力やアプリケーションに使用する専門家モデルを決定するルータの作成である。
MoErgingの約束、有効性、そして大きなデザイン空間は、過去数年間に多くの新しい方法の開発を刺激してきた。
この急速な開発ペースは、異なるMoErgingメソッドの比較を困難にしている。
このようなギャップを解消するために,キーデザインの選択をカタログ化し,各手法に適した適用方法を明確にするための新しい分類法を含むMoErging法を包括的に調査する。
MoErgingの調査とは別に、MoErgingを利用するソフトウェアツールやアプリケーションを目録化しています。
また、モデルマージ、マルチタスク学習、ミックス・オブ・エキスパートモデルなど、関連する研究分野についても論じる。
総じて、我々の調査は既存のMoErging手法の統一的な概要を提供し、この急成長する分野における今後の研究の確かな基盤をつくりだす。
The availability of performant pre-trained models has led to a proliferation of fine-tuned expert models that are specialized to a particular domain or task. Model MoErging methods aim to recycle expert models to create an aggregate system with improved performance or generalization. A key component of MoErging methods is the creation of a router that decides which expert model(s) to use for a particular input or application. The promise, effectiveness, and large design space of MoErging has spurred the development of many new methods over the past few years. This rapid pace of development has made it challenging to compare different MoErging methods, which are rarely compared to one another and are often validated in different experimental setups. To remedy such gaps, we present a comprehensive survey of MoErging methods that includes a novel taxonomy for cataloging key design choices and clarifying suitable applications for each method. Apart from surveying MoErging research, we inventory software tools and applications that make use of MoErging. We additionally discuss related fields of study such as model merging, multitask learning, and mixture-of-experts models. Taken as a whole, our survey provides a unified overview of existing MoErging methods and creates a solid foundation for future work in this burgeoning field. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# 野生におけるモデルカウント
Model Counting in the Wild ( http://arxiv.org/abs/2408.07059v1 ) ライセンス: Link先を確認 | Arijit Shaw, Kuldeep S. Meel, | (参考訳) モデルカウントは、確率的推論、ネットワーク信頼性、ニューラルネットワーク検証などの応用における、自動推論の基本的な問題である。
モデルカウントは、#P完全性のために理論的観点から計算的に難解であるが、過去10年間、スケーラビリティの課題に対処する最先端のモデルカウンタの開発において大きな進歩を遂げてきた。
本研究では,本研究におけるモデルカウンタのスケーラビリティの厳密な評価を行う。
この目的のために、11のアプリケーションドメインを調査し、これらのドメインから2262のベンチマークを収集しました。
次に、これらのインスタンス上で6つの最先端モデルカウンタを評価し、スケーラビリティと実行時のパフォーマンスを評価しました。
我々の経験的評価は、モデルカウンタの性能が異なるアプリケーション領域で大きく異なることを示し、エンドユーザーによる慎重な選択の必要性を強調している。
さらに,モデルカウントコミュニティが提案する2つのパラメータに対して異なるカウンタの挙動を検討した。
私たちの分析は、モデルカウントにおけるポートフォリオベースのアプローチの課題と機会を強調します。
Model counting is a fundamental problem in automated reasoning with applications in probabilistic inference, network reliability, neural network verification, and more. Although model counting is computationally intractable from a theoretical perspective due to its #P-completeness, the past decade has seen significant progress in developing state-of-the-art model counters to address scalability challenges. In this work, we conduct a rigorous assessment of the scalability of model counters in the wild. To this end, we surveyed 11 application domains and collected an aggregate of 2262 benchmarks from these domains. We then evaluated six state-of-the-art model counters on these instances to assess scalability and runtime performance. Our empirical evaluation demonstrates that the performance of model counters varies significantly across different application domains, underscoring the need for careful selection by the end user. Additionally, we investigated the behavior of different counters with respect to two parameters suggested by the model counting community, finding only a weak correlation. Our analysis highlights the challenges and opportunities for portfolio-based approaches in model counting. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# 多様性がインテリジェンスを強力にする - ソフトウェアエンジニアリングエージェントの専門知識を統合する
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents ( http://arxiv.org/abs/2408.07060v1 ) ライセンス: Link先を確認 | Kexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong, | (参考訳) 大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。
最も高度なオープンソースSWEエージェントは、SWE-Bench Liteの実際のGitHub問題の27%以上を解決できる。
しかし、これらの高度なエージェント・フレームワークは様々な強みを示し、特定のタスクにおいて優れ、他のタスクでは性能が劣る。
これらのエージェントの多様性をフル活用するために,それらのユニークな専門知識を活用するフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。
DEIは既存のSWEエージェントフレームワーク上のメタモジュールとして機能し、問題解決のためのエージェント集合を管理する。
実験の結果, エージェントのDEI指導委員会が, 最高のエージェントのパフォーマンスを大きなマージンで上回ることができた。
例えば、SWE-Bench Lite上で最大27.3%の解答率を持つオープンソースSWEエージェントのグループは、DeIで34.3%の解答率を達成でき、25%の改善と、最もクローズドソースソリューションの打ち負かすことができる。
ベストパフォーマンスグループは55%のリゾルフレートで優れており、SWE-Bench Liteの最高ランクを確保しています。
我々の発見は、協調型AIシステムの研究の活発化と、複雑なソフトウェア工学の課題を解決する可能性に寄与する。
Large language model (LLM) agents have shown great potential in solving real-world software engineering (SWE) problems. The most advanced open-source SWE agent can resolve over 27% of real GitHub issues in SWE-Bench Lite. However, these sophisticated agent frameworks exhibit varying strengths, excelling in certain tasks while underperforming in others. To fully harness the diversity of these agents, we propose DEI (Diversity Empowered Intelligence), a framework that leverages their unique expertise. DEI functions as a meta-module atop existing SWE agent frameworks, managing agent collectives for enhanced problem-solving. Experimental results show that a DEI-guided committee of agents is able to surpass the best individual agent's performance by a large margin. For instance, a group of open-source SWE agents, with a maximum individual resolve rate of 27.3% on SWE-Bench Lite, can achieve a 34.3% resolve rate with DEI, making a 25% improvement and beating most closed-source solutions. Our best-performing group excels with a 55% resolve rate, securing the highest ranking on SWE-Bench Lite. Our findings contribute to the growing body of research on collaborative AI systems and their potential to solve complex software engineering challenges. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# 手話翻訳におけるフィンガースペル
Fingerspelling within Sign Language Translation ( http://arxiv.org/abs/2408.07065v1 ) ライセンス: Link先を確認 | Garrett Tanzer, | (参考訳) Fingerspellingは、その高周波動作とオープン語彙語の使用により、手話処理の課題を提起する。
これまでの研究では、指のスペル認識について研究してきたが、手話翻訳モデルが文全体の文脈で指スペルを理解するのにいかに優れているかを評価することはほとんどなかった。
FLEURS-ASLでは手動で指スペルの例を注釈し,これらを用いて,アメリカ手話の英語翻訳における指スペル認識を改善するための2つの簡単な手段の効果を評価する。
1)サブワードレベルのトークン化ではなく,文字付きモデルファミリ(ByT5)を使用する。
2) 指先認識データを翻訳訓練用混合物に混合する。
私たちはそれを見つける。
1)指遣いの理解を大幅に改善する(したがって、全体的な翻訳品質)が、その効果
2)混合。
Fingerspelling poses challenges for sign language processing due to its high-frequency motion and use for open-vocabulary terms. While prior work has studied fingerspelling recognition, there has been little attention to evaluating how well sign language translation models understand fingerspelling in the context of entire sentences -- and improving this capability. We manually annotate instances of fingerspelling within FLEURS-ASL and use them to evaluate the effect of two simple measures to improve fingerspelling recognition within American Sign Language to English translation: 1) use a model family (ByT5) with character- rather than subword-level tokenization, and 2) mix fingerspelling recognition data into the translation training mixture. We find that 1) substantially improves understanding of fingerspelling (and therefore translation quality overall), but the effect of 2) is mixed. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# 単一複写による絡み合いの漸近的定量化
Asymptotic quantification of entanglement with a single copy ( http://arxiv.org/abs/2408.07067v1 ) ライセンス: Link先を確認 | Ludovico Lami, Mario Berta, Bartosz Regula, | (参考訳) 多くの量子技術を燃やすことにおける量子絡み合いの重要さにもかかわらず、それを利用するための最適な方法を理解することは、まだ我々の手の届かないところにあり、運用上意味のある方法での絡み合いの計測でさえ、違法に困難である。
これは、絡み合い処理のための多くのコピー、漸近的プロトコルを正確に特徴付ける必要があるためである。
ここでは, その漸近的収量を測定する代わりに, 達成可能な最良の誤差に焦点をあてる, エンタングルメント蒸留の基本プロトコル(精製)をベンチマークする新たな手法を導入することにより, これらの課題を克服する。
我々は、このタスクの定式化と、一般化されたサノフの定理として知られる複合量子仮説テストにおける情報理論問題とを結びつける。
古典的情報理論においても既知解が得られなかった後者の問題を解くことで、エンタングルメント蒸留の最適漸近誤差指数を計算する。
この漸近解は, エンタングルメントの逆相対エントロピー, 量子状態の単一コピーのみを用いて評価できる単一文字量によって与えられることを示す。
そこで,本研究では,単一文字の論理式を楽しみながら,重要な絡み合い操作プロトコルの最適漸近率として直接操作解釈を許容する絡み合いの尺度を提示する。
Despite the central importance of quantum entanglement in fueling many quantum technologies, the understanding of the optimal ways to exploit it is still beyond our reach, and even measuring entanglement in an operationally meaningful way is prohibitively difficult. This is due to the need to precisely characterise many-copy, asymptotic protocols for entanglement processing. Here we overcome these issues by introducing a new way of benchmarking the fundamental protocol of entanglement distillation (purification), where instead of measuring its asymptotic yield, we focus on the best achievable error. We connect this formulation of the task with an information-theoretic problem in composite quantum hypothesis testing known as generalised Sanov's theorem. By solving the latter problem -- which had no previously known solution even in classical information theory -- we thus compute the optimal asymptotic error exponent of entanglement distillation. We show this asymptotic solution to be given by the reverse relative entropy of entanglement, a single-letter quantity that can be evaluated using only a single copy of a quantum state, which is a unique feature among operational measures of entanglement. Altogether, we thus demonstrate a measure of entanglement that admits a direct operational interpretation as the optimal asymptotic rate of an important entanglement manipulation protocol while enjoying an exact, single-letter formula. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# 平面フォトニックデバイスへの原子蛍光集積
Atomic fluorescence collection into planar photonic devices ( http://arxiv.org/abs/2408.07068v1 ) ライセンス: Link先を確認 | Orion Smedley, Vighnesh Natarajan, Oscar Jaramillo, Hamim Mahmud Rivy, Karan K. Mehta, | (参考訳) 個々のエミッタからの蛍光収集は、多くの量子プラットフォームにおける基本機能である状態検出とリモート絡み合い生成において重要な役割を果たす。
平面フォトニクスは、閉じ込められたイオン系の堅牢でスケーラブルな対処のために実証されており、光子コレクションの相補的課題に対する類似した要素の考慮を動機付けている。
ここでは、相互性原理からの議論を用いて、遠距離場光子収集効率は、エミッタ位置のみでの収集光学に関連するフィールドで簡単に表現できることを示す。
我々は, 集束効率を, 焦点幅のパラメータでパラメータ化した理想の同軸および全ベクトル集束ガウスモードに算定し, さらに, より一般的なビームプロファイルを用いて, モデスト拡張の定量化を行い, 効率的な集束のための設計要件を確立する。
実用的な実装に向けて、我々は1つの導波路モードに0.25\%のコレクション効率を提供するよう予測された$\lambda=397$ nmの回折コレクション要素を設計し、製造し、特徴付ける。
より効率的な設計では、より要求の多い製造要求で1.14\%の価格が提供され、理想的なビームの予測限界に近づく改良されたデバイスへの道を示す。
本稿では,特に単純な集積導波路構成を,集積収集によって可能となる偏極型リモート絡み合わせ生成に用いていることを指摘する。
Fluorescence collection from individual emitters plays a key role in state detection and remote entanglement generation, fundamental functionalities in many quantum platforms. Planar photonics have been demonstrated for robust and scalable addressing of trapped-ion systems, motivating consideration of similar elements for the complementary challenge of photon collection. Here, using an argument from the reciprocity principle, we show that far-field photon collection efficiency can be simply expressed in terms of the fields associated with the collection optic at the emitter position alone. We calculate collection efficiencies into ideal paraxial and fully vectorial focused Gaussian modes parameterized in terms of focal waist, and further quantify the modest enhancements possible with more general beam profiles, establishing design requirements for efficient collection. Towards practical implementation, we design, fabricate, and characterize a diffractive collection element operating at $\lambda=397$ nm predicted to offer a total 0.25\% collection efficiency into a single waveguide mode. A more efficient design with more demanding fabrication requirements would offer $1.14\%$, and we indicate avenues to improved devices approaching the limits predicted for ideal beams. We point out a particularly simple integrated waveguide configuration for polarization-based remote entanglement generation enabled by integrated collection. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# 水文学におけるプロセスベースおよびデータ駆動モデルにおける外挿可能性向上へのアプローチ
Approaches for enhancing extrapolability in process-based and data-driven models in hydrology ( http://arxiv.org/abs/2408.07071v1 ) ライセンス: Link先を確認 | Haiyang Shi, | (参考訳) プロセスベースおよびデータ駆動型水文科学モデルの応用は、特に流出、蒸発散(ET)、土壌水分といった主要な水循環の変動を予測するために、現代の水文科学研究において重要である。
これらのモデルは、水資源管理、洪水予報、生態保護のための科学的基盤を提供する。
プロセスベースのモデルは流域の水文プロセスの物理的メカニズムをシミュレートし、データ駆動モデルは大規模なデータセットと高度な機械学習アルゴリズムを活用する。
本稿では,両モデルタイプの外挿可能性の評価・向上手法について検討・比較し,その可能性と限界について論じる。
主要な戦略は、未ゲージ領域におけるモデルパフォーマンスを評価するために、残余のクロスバリデーションと類似性に基づく手法の使用である。
ディープラーニング、トランスファーラーニング、ドメイン適応技術も、データスパースおよび極端な条件下でモデル予測を改善する可能性を約束している。
学際的な協調と連続的なアルゴリズムの進歩は、水文学モデルのグローバルな適用性と信頼性を高めるためにも重要である。
The application of process-based and data-driven hydrological models is crucial in modern hydrological research, especially for predicting key water cycle variables such as runoff, evapotranspiration (ET), and soil moisture. These models provide a scientific basis for water resource management, flood forecasting, and ecological protection. Process-based models simulate the physical mechanisms of watershed hydrological processes, while data-driven models leverage large datasets and advanced machine learning algorithms. This paper reviewed and compared methods for assessing and enhancing the extrapolability of both model types, discussing their prospects and limitations. Key strategies include the use of leave-one-out cross-validation and similarity-based methods to evaluate model performance in ungauged regions. Deep learning, transfer learning, and domain adaptation techniques are also promising in their potential to improve model predictions in data-sparse and extreme conditions. Interdisciplinary collaboration and continuous algorithmic advancements are also important to strengthen the global applicability and reliability of hydrological models. | 翻訳日:2024-08-14 16:45:31 公開日:2024-08-13 |
# 金属メッシュ欠陥検出のための長距離携帯型スマートフォン顕微鏡
Long working distance portable smartphone microscopy for metallic mesh defect detection ( http://arxiv.org/abs/2408.05518v2 ) ライセンス: Link先を確認 | Zhengang Lu, Hongsheng Qin, Jing Li, Ming Sun, Jiubin Tan, | (参考訳) 金属メッシュは、微細な金属線構造を持つ透明な電磁シールド膜である。
しかし、製造準備中であっても実際の使用中であっても、光電子性能に影響を与える欠陥を発生させることができる。
金属メッシュ用非破壊試験装置(NDT)の開発には、長い作業距離、反射光路設計、小型化が必要である。
産業用インサイトインスペクションのための作業距離の短い既存のスマートフォン顕微鏡の限界に対処するため,新しい長距離反射型スマートフォン顕微鏡システム(LD-RSM)を提案する。
LD-RSMは、外部光学部品とスマートフォンを備えた4f光イメージングシステムを構築し、ビームスプリッタを使用して、試料の一方の照明システムと撮像システムで反射撮像を行う。
光学分解能は4.92$\mu$m、加工距離は22.23mmである。
さらに、欠陥検出のための二重重み付きロバスト主成分分析(DW-RPCA)を導入する。
このアプローチはスペクトルフィルタ融合とハフ変換を利用して異なる欠陥タイプをモデル化し、欠陥識別の精度と効率を高める。
最適化しきい値分割アルゴリズムと組み合わせて、DW-RPCA法は84.8%のピクセルレベルの精度を実現する。
本研究は,産業製品のオンライン検査分野における成長の可能性を示すものである。
Metallic mesh is a transparent electromagnetic shielding film with a fine metal line structure. However, it can develop defects that affect the optoelectronic performance whether in the production preparation or in actual use. The development of in-situ non-destructive testing (NDT) devices for metallic mesh requires long working distances, reflective optical path design, and miniaturization. To address the limitations of existing smartphone microscopes, which feature short working distances and inadequate transmission imaging for industrial in-situ inspection, we propose a novel long-working distance reflective smartphone microscopy system (LD-RSM). LD-RSM builds a 4f optical imaging system with external optical components and a smartphone, utilizing a beam splitter to achieve reflective imaging with the illumination system and imaging system on the same side of the sample. It achieves an optical resolution of 4.92$\mu$m and a working distance of up to 22.23 mm. Additionally, we introduce a dual prior weighted Robust Principal Component Analysis (DW-RPCA) for defect detection. This approach leverages spectral filter fusion and Hough transform to model different defect types, enhancing the accuracy and efficiency of defect identification. Coupled with an optimized threshold segmentation algorithm, DW-RPCA method achieves a pixel-level accuracy of 84.8%. Our work showcases strong potential for growth in the field of in-situ on-line inspection of industrial products. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# 非凸ペナルティを有する量子回帰のための拡散平滑化近似勾配
Federated Smoothing Proximal Gradient for Quantile Regression with Non-Convex Penalties ( http://arxiv.org/abs/2408.05640v2 ) ライセンス: Link先を確認 | Reza Mirzaeifard, Diyako Ghaderyan, Stefan Werner, | (参考訳) IoT(Internet-of-Things)の分散センサーは、大量のスパースデータを生成する。
この高次元データを解析し、関連する予測器を特定することは、特にデータの整合性、通信帯域幅、プライバシなどの理由で収集されたデバイスに留まることが望ましい場合、重大な課題となる。
本稿では,これらの課題に対処するフェデレーション付き量子レグレッションアルゴリズムを提案する。
量子回帰は、平均回帰モデルよりも変数間の関係に関するより包括的な見解を提供する。
しかしながら、従来のアプローチは、非凸のスパースペナルティと損失関数の固有の非滑らかさを扱う際に困難に直面している。
そこで本研究では, 近似勾配フレームワークとスムージング機構を統合し, 精度と計算速度の両立を図ったFSPGアルゴリズムを提案する。
この統合はデバイスネットワーク上で最適化処理を行い、それぞれがローカルデータサンプルを保持することにより、フェデレートされた学習シナリオに特に有効である。
FSPGアルゴリズムは、目的関数の値の維持または縮小により、各イテレーションにおける安定した進捗と信頼性の高い収束を保証する。
ミニマックス・コンケーブペナルティ (MCP) やスムーズクリッピング絶対偏差 (SCAD) などの非凸ペナルティを利用して, スパースモデル内のキー予測器を同定し, 保存することができる。
総合シミュレーションは,提案アルゴリズムの頑健な理論的基礎を検証し,推定精度と信頼度の向上を実証する。
Distributed sensors in the internet-of-things (IoT) generate vast amounts of sparse data. Analyzing this high-dimensional data and identifying relevant predictors pose substantial challenges, especially when data is preferred to remain on the device where it was collected for reasons such as data integrity, communication bandwidth, and privacy. This paper introduces a federated quantile regression algorithm to address these challenges. Quantile regression provides a more comprehensive view of the relationship between variables than mean regression models. However, traditional approaches face difficulties when dealing with nonconvex sparse penalties and the inherent non-smoothness of the loss function. For this purpose, we propose a federated smoothing proximal gradient (FSPG) algorithm that integrates a smoothing mechanism with the proximal gradient framework, thereby enhancing both precision and computational speed. This integration adeptly handles optimization over a network of devices, each holding local data samples, making it particularly effective in federated learning scenarios. The FSPG algorithm ensures steady progress and reliable convergence in each iteration by maintaining or reducing the value of the objective function. By leveraging nonconvex penalties, such as the minimax concave penalty (MCP) and smoothly clipped absolute deviation (SCAD), the proposed method can identify and preserve key predictors within sparse models. Comprehensive simulations validate the robust theoretical foundations of the proposed algorithm and demonstrate improved estimation precision and reliable convergence. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# オープンフィールド環境におけるイチゴ果実開発段階のインスタンスセグメンテーションのためのYOLOv8モデル構成の性能評価
Performance Evaluation of YOLOv8 Model Configurations, for Instance Segmentation of Strawberry Fruit Development Stages in an Open Field Environment ( http://arxiv.org/abs/2408.05661v2 ) ライセンス: Link先を確認 | Abdul-Razak Alhassan Gamani, Ibrahim Arhin, Adrena Kyeremateng Asamoah, | (参考訳) イチゴの熟成段階の正確な識別は、収量管理と害虫管理を最適化し、収穫と収穫後の物流に関する情報的決定を行うために重要である。
本研究では, オープンフィールド環境下でイチゴを熟成・未熟成段階に分割するためのYOLOv8モデル構成の性能評価を行った。
YOLOv8n モデルでは,平均精度 80.9\% でセグメント化精度が向上し,他の YOLOv8 構成よりも優れていた。
推論速度に関しては、YOLOv8nは12.9ミリ秒で画像を処理し、YOLOv8sは22.2ミリ秒で処理した。
348の接地真理ラベルを持つ86以上の試験画像で、YOLOv8nは、251の接地真理理実のうち235の熟した果実クラスと51の未熟の果実クラスをそれぞれ検出し、97の未熟の接地真理実ラベルを検出した。
一方、YOLOv8sは204個の熟した果実と37個の未熟な果実を検出。
YOLOv8nは24.2ミリ秒で、YOLOv8s、YOLOv8m、YOLOv8l、YOLOv8xを上回り、それぞれ33.0ミリ秒、44.3ミリ秒、53.6ミリ秒、62.5ミリ秒で画像を処理した。
これらの結果は、オープンフィールド農業における複雑な視覚認識タスクに効果的に対処し、オープンフィールド農業における複雑な視覚認識タスクに効果的に対処する高度なオブジェクトセグメンテーションアルゴリズムの可能性を明らかにする。
Accurate identification of strawberries during their maturing stages is crucial for optimizing yield management, and pest control, and making informed decisions related to harvest and post-harvest logistics. This study evaluates the performance of YOLOv8 model configurations for instance segmentation of strawberries into ripe and unripe stages in an open field environment. The YOLOv8n model demonstrated superior segmentation accuracy with a mean Average Precision (mAP) of 80.9\%, outperforming other YOLOv8 configurations. In terms of inference speed, YOLOv8n processed images at 12.9 milliseconds, while YOLOv8s, the least-performing model, processed at 22.2 milliseconds. Over 86 test images with 348 ground truth labels, YOLOv8n detected 235 ripe fruit classes and 51 unripe fruit classes out of 251 ground truth ripe fruits and 97 unripe ground truth labels, respectively. In comparison, YOLOv8s detected 204 ripe fruits and 37 unripe fruits. Overall, YOLOv8n achieved the fastest inference speed of 24.2 milliseconds, outperforming YOLOv8s, YOLOv8m, YOLOv8l, and YOLOv8x, which processed images at 33.0 milliseconds, 44.3 milliseconds, 53.6 milliseconds, and 62.5 milliseconds, respectively. These results underscore the potential of advanced object segmentation algorithms to address complex visual recognition tasks in open-field agriculture effectively to address complex visual recognition tasks in open-field agriculture effectively. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# 持続可能な量子コンピューティング - 量子コンピューティングライフサイクルにおける炭素のベンチマークの可能性と課題
Sustainable Quantum Computing: Opportunities and Challenges of Benchmarking Carbon in the Quantum Computing Lifecycle ( http://arxiv.org/abs/2408.05679v2 ) ライセンス: Link先を確認 | Nivedita Arora, Prem Kumar, | (参考訳) 産業と学術の両方の研究者が量子コンピューティング(QC)プラットフォームを実効性のある性能と機能で構築しようと競っているが、炭素フットプリント、e-waste生成、ミネラル利用、水とエネルギー消費など、この取り組みの環境への影響はほとんど分かっていない。
同様の監視は半導体革命の間に行われ、地球の健康に惨めな結果をもたらし続けている。
量子コンピューティングスタックをゼロから構築する際、そのライフサイクル全体、すなわち生産、使用、廃棄のための環境持続性レンズを通じて、それを包括的に評価することが重要です。
本稿では,QCサステナビリティベンチマークの確立の必要性と課題を強調する。
本稿では,QCプラットフォームの全ライフサイクル炭素フットプリントを計算するための基礎方法論とオープンな研究課題を提供する,炭素対応量子コンピューティング(CQC)フレームワークを提案する。
我々の研究コミュニティに対する行動の呼びかけは、持続可能性指向のアプリケーションのための量子コンピューティングと、量子コンピューティングの持続可能性の両方を促進する、持続可能な量子コンピューティングとして知られる新しい研究方向の確立である。
While researchers in both industry and academia are racing to build Quantum Computing (QC) platforms with viable performance and functionality, the environmental impacts of this endeavor, such as its carbon footprint, e-waste generation, mineral use, and water and energy consumption, remain largely unknown. A similar oversight occurred during the semiconductor revolution and continues to have disastrous consequences for the health of our planet. As we build the quantum computing stack from the ground up, it is crucial to comprehensively assess it through an environmental sustainability lens for its entire life-cycle: production, use, and disposal. In this paper, we highlight the need and challenges in establishing a QC sustainability benchmark that enables researchers to make informed architectural design decisions and celebrate the potential quantum environmental advantage. We propose a carbon-aware quantum computing (CQC) framework that provides the foundational methodology and open research questions for calculating the total life-cycle carbon footprint of a QC platform. Our call to action to the research community is the establishment of a new research direction known as, sustainable quantum computing that promotes both quantum computing for sustainability-oriented applications and the sustainability of quantum computing. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# ニューラルアーキテクチャ検索に基づくパームベイン認識のためのグローバルローカルビジョンマンバ
Neural Architecture Search based Global-local Vision Mamba for Palm-Vein Recognition ( http://arxiv.org/abs/2408.05743v2 ) ライセンス: Link先を確認 | Huafeng Qin, Yuming Fu, Jing Chen, Mounim A. El-Yacoubi, Xinbo Gao, Jun Wang, | (参考訳) 高セキュリティ,高プライバシ,活力認識などの利点により,近年は静脈認識がますます注目されている。
近年のディープラーニングモデル,例えば,Mambaは線形計算複雑性を持つ頑健な特徴表現を示し,視覚タスクにうまく適用されている。
しかし、Vision Manbaは長距離機能依存関係をキャプチャできるが、残念ながらローカル機能の詳細は劣化している。
加えて、人間の事前知識に基づくMambaアーキテクチャを手動で設計することは、非常に時間がかかり、エラーが発生しやすい。
本稿ではまず,画像の局所的相関と静脈特徴表現のためのトークン間のグローバルな依存関係を明示的に学習するための,GLVM(Global-local Vision Mamba)というハイブリッドネットワーク構造を提案する。
第2に,視覚的マンバの特徴表現能力を向上させるために,異なる方向に沿った依存関係を学習するためのマルチヘッドマンバを設計する。
第3に,MHM(Multi-head Mamba branch),FIU(Feature Iteration Unit branch),CNN(Convolutional Neural Network)という3つのブランチからなるConvMambaブロックを提案する。
最後に,Global Local Alternate Neural Architecture Search (GLNAS)法を提案し,GLVMの最適アーキテクチャを進化的アルゴリズムと交互に探索し,静脈認識タスクの認識性能を向上させる。
我々は3つの公開パームベインデータベース上で厳密な実験を行い、その性能を推定する。
実験の結果,提案手法は代表的手法よりも優れ,最先端の認識精度が得られた。
Due to the advantages such as high security, high privacy, and liveness recognition, vein recognition has been received more and more attention in past years. Recently, deep learning models, e.g., Mamba has shown robust feature representation with linear computational complexity and successfully applied for visual tasks. However, vision Manba can capture long-distance feature dependencies but unfortunately deteriorate local feature details. Besides, manually designing a Mamba architecture based on human priori knowledge is very time-consuming and error-prone. In this paper, first, we propose a hybrid network structure named Global-local Vision Mamba (GLVM), to learn the local correlations in images explicitly and global dependencies among tokens for vein feature representation. Secondly, we design a Multi-head Mamba to learn the dependencies along different directions, so as to improve the feature representation ability of vision Mamba. Thirdly, to learn the complementary features, we propose a ConvMamba block consisting of three branches, named Multi-head Mamba branch (MHMamba), Feature Iteration Unit branch (FIU), and Convolutional Neural Network (CNN) branch, where the Feature Iteration Unit branch aims to fuse convolutional local features with Mamba-based global representations. Finally, a Globallocal Alternate Neural Architecture Search (GLNAS) method is proposed to search the optimal architecture of GLVM alternately with the evolutionary algorithm, thereby improving the recognition performance for vein recognition tasks. We conduct rigorous experiments on three public palm-vein databases to estimate the performance. The experimental results demonstrate that the proposed method outperforms the representative approaches and achieves state-of-the-art recognition accuracy. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# 圧力検出のためのマルチ閾値戦略を用いたユニバーサルフレキシブルニアセンサニューロモルフィック触覚システム
A Universal Flexible Near-sensor Neuromorphic Tactile System with Multi-threshold strategy for Pressure Characteristic Detection ( http://arxiv.org/abs/2408.05846v2 ) ライセンス: Link先を確認 | Jialin Liu, Diansheng Liao, | (参考訳) 生体神経系を模倣して新しい世代情報処理システムを構築することは、高能率インテリジェントセンシングデバイスとバイオニックロボットを実装するための実現可能な方法である。
しかし、ほとんどの生物学的神経系、特に触覚系は様々な強力な機能を持っている。
これは、バイオニックシステム設計における大きな課題である。
本稿では,強い互換性とマルチスレッショルド信号処理戦略を備えた,広汎でフレキシブルなニューロモルフィックな触覚認識システムについて報告する。
神経系と同様に、我々の系内の信号はパルスとして送信され、閾値情報として処理される。
実現可能性検証には、3種類の異なる圧力信号(連続変化信号、モールス符号信号、シンボルパターン)をそれぞれ認識する。
本システムは,シンボルパターンやモース符号の認識において,これらの信号の傾向を正確に出力することができ,精度が高い。
従来のシステムと比較して,同一の認識タスクにおいて,システム消費は著しく減少する。
一方,システムの普遍性について,より詳細な紹介と実演を行う。
Constructing the new generation information processing system by mimicking biological nervous system is a feasible way for implement of high-efficient intelligent sensing device and bionic robot. However, most biological nervous system, especially the tactile system, have various powerful functions. This is a big challenge for bionic system design. Here we report a universal fully flexible neuromorphic tactile perception system with strong compatibility and a multithreshold signal processing strategy. Like nervous system, signal in our system is transmitted as pulses and processed as threshold information. For feasibility verification, recognition of three different type pressure signals (continuous changing signal, Morse code signal and symbol pattern) is tested respectively. Our system can output trend of these signals accurately and have a high accuracy in the recognition of symbol pattern and Morse code. Comparing to conventional system, consumption of our system significantly decreases in a same recognition task. Meanwhile, we give the detail introduction and demonstration of our system universality. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# HcNet:熱伝導方程式を用いた画像モデリング
HcNet: Image Modeling with Heat Conduction Equation ( http://arxiv.org/abs/2408.05901v2 ) ライセンス: Link先を確認 | Zhemin Zhang, Xun Gong, | (参考訳) CNNやViTのような基礎的なモデルは、画像モデリングの開発に力を入れている。
しかし、モデルアーキテクチャ設計に関する一般的なガイダンスはいまだに欠けている。
残差構造、乗算ゲーティング信号、フィードフォワードネットワークなど、現代の多くのモデルアーキテクチャの設計は、熱伝導方程式の観点から解釈できる。
この発見は、熱伝導方程式による画像のモデル化にインスピレーションを与え、そこでは、画像の特徴を温度として概念化し、その情報相互作用を熱エネルギーの拡散としてモデル化する。
熱伝導方程式の豊富な知識を利用して、新しいより解釈可能なモデルの設計を導くことができる。
一例として, 有限差分法とフーリエ級数を用いた熱伝導方程式の解法に着想を得た熱伝導層とRefine Approximation Layerを提案する。
本論文は, 最先端モデルを提示することではなく, その代わりに, モデル全体のアーキテクチャ設計を熱伝導理論の枠組みに統合することを目的としている。
それでも、私たちのHeat Conduction Network(HcNet)は競争力のあるパフォーマンスを示しています。
コードは \url{https://github.com/ZheminZhang1/HcNet} で公開されている。
Foundation models, such as CNNs and ViTs, have powered the development of image modeling. However, general guidance to model architecture design is still missing. The design of many modern model architectures, such as residual structures, multiplicative gating signal, and feed-forward networks, can be interpreted in terms of the heat conduction equation. This finding inspired us to model images by the heat conduction equation, where the essential idea is to conceptualize image features as temperatures and model their information interaction as the diffusion of thermal energy. We can take advantage of the rich knowledge in the heat conduction equation to guide us in designing new and more interpretable models. As an example, we propose Heat Conduction Layer and Refine Approximation Layer inspired by solving the heat conduction equation using Finite Difference Method and Fourier series, respectively. This paper does not aim to present a state-of-the-art model; instead, it seeks to integrate the overall architectural design of the model into the heat conduction theory framework. Nevertheless, our Heat Conduction Network (HcNet) still shows competitive performance. Code available at \url{https://github.com/ZheminZhang1/HcNet}. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# 時空間プロンプトによる映像異常検出と位置推定の弱さ
Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts ( http://arxiv.org/abs/2408.05905v2 ) ライセンス: Link先を確認 | Peng Wu, Xuerong Zhou, Guansong Pang, Zhiwei Yang, Qingsen Yan, Peng Wang, Yanning Zhang, | (参考訳) 現在、弱教師付きビデオ異常検出(WSVAD)タスクは、粗いビデオレベルのアノテーションのみを使用してフレームレベルの異常イベント検出を実現することを目的としている。
既存の作業は通常、フル解像度のビデオフレームからグローバルな特徴を抽出し、時間次元の異常を検出するためにフレームレベルの分類器を訓練する。
しかし、ほとんどの異常事象は、ビデオフレーム全体ではなく、局所的な空間領域で発生しがちであり、既存のフレームレベルの特徴に基づく作業は、支配的な背景情報によって誤解され、検出された異常の解釈が欠如している可能性がある。
本稿では,このジレンマに対処するために,事前学習された視覚言語モデル(VLM)に基づいて,弱教師付きビデオ異常検出・局所化(WSVADL)のための時空間埋め込みを学習するSTPromptという新しい手法を提案する。
提案手法は2ストリームのネットワーク構造を用いており、一方のストリームは時間次元に、もう一方は空間次元に重点を置いている。
トレーニング済みのVLMから学んだ知識を活用し,生動画からの自然な動きを取り入れることで,ビデオの時空間(例えば個々のフレームのパッチ)に合わせた迅速な埋め込みを学習し,背景情報の影響を緩和しながら,正確な映像異常検出を可能にする。
詳細な時空間アノテーションや補助オブジェクト検出/追跡に頼ることなく、WSVADLタスクの3つの公開ベンチマークで最先端のパフォーマンスを実現する。
Current weakly supervised video anomaly detection (WSVAD) task aims to achieve frame-level anomalous event detection with only coarse video-level annotations available. Existing works typically involve extracting global features from full-resolution video frames and training frame-level classifiers to detect anomalies in the temporal dimension. However, most anomalous events tend to occur in localized spatial regions rather than the entire video frames, which implies existing frame-level feature based works may be misled by the dominant background information and lack the interpretation of the detected anomalies. To address this dilemma, this paper introduces a novel method called STPrompt that learns spatio-temporal prompt embeddings for weakly supervised video anomaly detection and localization (WSVADL) based on pre-trained vision-language models (VLMs). Our proposed method employs a two-stream network structure, with one stream focusing on the temporal dimension and the other primarily on the spatial dimension. By leveraging the learned knowledge from pre-trained VLMs and incorporating natural motion priors from raw videos, our model learns prompt embeddings that are aligned with spatio-temporal regions of videos (e.g., patches of individual frames) for identify specific local regions of anomalies, enabling accurate video anomaly detection while mitigating the influence of background information. Without relying on detailed spatio-temporal annotations or auxiliary object detection/tracking, our method achieves state-of-the-art performance on three public benchmarks for the WSVADL task. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# Spb3DTracker: ノイズの多い環境のためのロバストなLiDARベースの人トラッカー
Spb3DTracker: A Robust LiDAR-Based Person Tracker for Noisy Environment ( http://arxiv.org/abs/2408.05940v2 ) ライセンス: Link先を確認 | Eunsoo Im, Changhyun Jee, Jung Kwon Lee, | (参考訳) 人検出と追跡(PDT)は、自動運転車分野における2Dカメラベースのシステムによって大幅に進歩し、これらのアルゴリズムが広く採用されている。
しかし、プライバシー問題の増加が大きな問題として浮上し、LiDARベースのPDTへの移行が実現可能な代替手段となっている。
この領域内では、"Tracking-by-Detection"(TBD)が顕著な方法論となっている。
その効果にもかかわらず、LiDARベースのPDTはカメラベースのPDTと同等の性能を達成していない。
本稿では,LiDAR ベースの PDT フレームワークの重要なコンポーネントとして,後処理の検出,データアソシエーション,モーションモデリング,ライフサイクル管理について検討する。
これらの知見に基づいて,多様な環境向けに設計されたロバストな人物トラッカーであるSpbTrackを紹介した。
提案手法は,LiDARをベースとしたトラッカー間における,ノイズの多いデータセットと,KITTIデータセットベンチマークおよびオフィス内カスタムデータセットの最先端性を実現する。
Person detection and tracking (PDT) has seen significant advancements with 2D camera-based systems in the autonomous vehicle field, leading to widespread adoption of these algorithms. However, growing privacy concerns have recently emerged as a major issue, prompting a shift towards LiDAR-based PDT as a viable alternative. Within this domain, "Tracking-by-Detection" (TBD) has become a prominent methodology. Despite its effectiveness, LiDAR-based PDT has not yet achieved the same level of performance as camera-based PDT. This paper examines key components of the LiDAR-based PDT framework, including detection post-processing, data association, motion modeling, and lifecycle management. Building upon these insights, we introduce SpbTrack, a robust person tracker designed for diverse environments. Our method achieves superior performance on noisy datasets and state-of-the-art results on KITTI Dataset benchmarks and custom office indoor dataset among LiDAR-based trackers. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# ClickAttention: Click Region similarity Guided Interactive Segmentation
ClickAttention: Click Region Similarity Guided Interactive Segmentation ( http://arxiv.org/abs/2408.06021v2 ) ライセンス: Link先を確認 | Long Xu, Shanghong Li, Yongquan Chen, Junkang Chen, Rui Huang, Feng Wu, | (参考訳) 近年,クリックポイントに基づく対話的セグメンテーションアルゴリズムが研究者の注目を集めている。
しかし、既存の研究では、モデル入力としてスパース・クリック・マップを使用して特定の対象オブジェクトをセグメント化するのが一般的であり、これは主に地域に影響し、対象オブジェクト全体に集中する能力に制限があるため、クリック時間の増大につながる。
さらに、既存のアルゴリズムのほとんどは、高性能と効率のバランスが取れない。
この問題に対処するため,正クリック領域と全入力との類似性に基づいて,正クリックの影響範囲を拡大するクリックアテンションアルゴリズムを提案する。
また、正と負のクリック間の相互干渉による精度低下を回避するために、正と負のクリック領域間の注意結合を低減するための識別親和性損失を提案する。
大規模な実験により,本手法は既存手法よりも優れ,より少ないパラメータで最先端性能を実現することが示された。
インタラクティブなデモと再現可能なコードはすべてhttps://github.com/hahamyt/ClickAttentionで公開される。
Interactive segmentation algorithms based on click points have garnered significant attention from researchers in recent years. However, existing studies typically use sparse click maps as model inputs to segment specific target objects, which primarily affect local regions and have limited abilities to focus on the whole target object, leading to increased times of clicks. In addition, most existing algorithms can not balance well between high performance and efficiency. To address this issue, we propose a click attention algorithm that expands the influence range of positive clicks based on the similarity between positively-clicked regions and the whole input. We also propose a discriminative affinity loss to reduce the attention coupling between positive and negative click regions to avoid an accuracy decrease caused by mutual interference between positive and negative clicks. Extensive experiments demonstrate that our approach is superior to existing methods and achieves cutting-edge performance in fewer parameters. An interactive demo and all reproducible codes will be released at https://github.com/hahamyt/ClickAttention. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# 脳波に基づく感情認識に関する総合的調査:グラフに基づく視点
A Comprehensive Survey on EEG-Based Emotion Recognition: A Graph-Based Perspective ( http://arxiv.org/abs/2408.06027v2 ) ライセンス: Link先を確認 | Chenyu Liu, Xinliang Zhou, Yihao Wu, Yi Ding, Liming Zhai, Kun Wang, Ziyu Jia, Yang Liu, | (参考訳) 他のモダリティと比較すると、脳波に基づく感情認識は人間の脳の感情パターンに直感的に反応し、感情コンピューティングにおいて最も焦点を絞ったタスクの1つとなっている。
感情の性質は、脳領域の接続性に対する生理的、心理的な状態の変化であり、感情認識は特定の脳領域ではなく、脳領域間の依存性に焦点を当てる。
重要なトレンドは、時間次元と空間次元をまたいだノード間の動的機能的接続のような依存をカプセル化するグラフの適用である。
同時に、この依存の背後にある神経科学的な基盤は、この分野におけるグラフの適用を顕著な意味を持つものにしている。
しかし、脳波に基づく感情認識に感情関連グラフを構築するための総合的なレビューやチュートリアルは存在しない。
本稿では,これらの研究を包括的に調査し,方法論的観点から,この分野におけるグラフ関連手法の体系的レビューを行う。
本稿では,この分野におけるグラフアプリケーション統合フレームワークを提案し,これらの手法を分類する。
最後に, 過去の研究に基づいて, この分野におけるいくつかのオープン課題と今後の方向性を示す。
Compared to other modalities, electroencephalogram (EEG) based emotion recognition can intuitively respond to emotional patterns in the human brain and, therefore, has become one of the most focused tasks in affective computing. The nature of emotions is a physiological and psychological state change in response to brain region connectivity, making emotion recognition focus more on the dependency between brain regions instead of specific brain regions. A significant trend is the application of graphs to encapsulate such dependency as dynamic functional connections between nodes across temporal and spatial dimensions. Concurrently, the neuroscientific underpinnings behind this dependency endow the application of graphs in this field with a distinctive significance. However, there is neither a comprehensive review nor a tutorial for constructing emotion-relevant graphs in EEG-based emotion recognition. In this paper, we present a comprehensive survey of these studies, delivering a systematic review of graph-related methods in this field from a methodological perspective. We propose a unified framework for graph applications in this field and categorize these methods on this basis. Finally, based on previous studies, we also present several open challenges and future directions in this field. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# セキュリティのための120のドメイン特化言語
120 Domain-Specific Languages for Security ( http://arxiv.org/abs/2408.06219v2 ) ライセンス: Link先を確認 | Markus Krausz, Sven Peldszus, Francesco Regazzoni, Thorsten Berger, Tim Güneysu, | (参考訳) セキュリティエンジニアリングは、セキュリティ要件エンジニアリングから暗号プロトコルの実装まで、しばしばドメイン固有言語(DSL)によってサポートされます。
残念ながら、これらのDSLに関する知識の欠如、例えば、どのセキュリティ面に対処され、いつ、その効果的な利用を妨げるか、さらに調査する。
本稿では,セキュリティ面と目標,言語固有の特徴,ソフトウェア開発ライフサイクルへの統合(SDLC),DSLの有効性に関する6つの調査質問に基づいて,120のセキュリティ指向DSLについて検討する。
高度な断片化を観察することで、統合の機会が得られます。
また、セキュリティDSLのユーザビリティと評価も改善する必要があります。
Security engineering, from security requirements engineering to the implementation of cryptographic protocols, is often supported by domain-specific languages (DSLs). Unfortunately, a lack of knowledge about these DSLs, such as which security aspects are addressed and when, hinders their effective use and further research. This systematic literature review examines 120 security-oriented DSLs based on six research questions concerning security aspects and goals, language-specific characteristics, integration into the software development lifecycle (SDLC), and effectiveness of the DSLs. We observe a high degree of fragmentation, which leads to opportunities for integration. We also need to improve the usability and evaluation of security DSLs. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# 分散インテリジェンスヘルスネットワーク(DIHN)
Decentralized Intelligence Health Network (DIHN) ( http://arxiv.org/abs/2408.06240v2 ) ライセンス: Link先を確認 | Abraham Nash, | (参考訳) 分散ヘルスインテリジェンスネットワーク(Decentralized Health Intelligence Network, DHIN)は、医療における医療データの主権とAI利用に関する重要な課題に対処する理論フレームワークである。
そして、多様な医療データソースにアクセスする障壁を克服することで、効果的なAI利用を促進する。
この包括的なフレームワークは下記の通りである。
1) 健康データ主権の前提条件として、自己主権のアイデンティティ・アーキテクチャと個人健康記録(PHR)を併用すること。
2)医療における分散AIトレーニングのためのパブリックブロックチェーン上に実装されたスケーラブルなフェデレーションラーニング(FL)プロトコル。
3) 参加のインセンティブを与え、公平な報酬配分を確保するための、スケーラブルで信頼できない報酬メカニズム。
このフレームワークは、参加者が提供した健康データに対するトレーニングの防止や制御、あるいは金銭的利益の決定を可能にする。
医療における効果的なAIトレーニングをサポートし、患者が健康データをコントロールし、経済的に利益を享受し、集団AIを活用して有益な医療アルゴリズムを開発する分散型でスケーラブルなエコシステムに貢献できるようにする。
患者はFLプロトコルにオプトインするためのインセンティブとしてデジタルウォレットに報酬を受け取る。
このアプローチは、個人のニーズに適応し、既存のシステムを補完し、普遍的なカバレッジを再定義する、新しい自己完結型医療モデルを導入します。
患者を力づけながら、医療データ管理とAI利用を変革する可能性を強調している。
Decentralized Health Intelligence Network (DHIN) is a theoretical framework addressing significant challenges of health data sovereignty and AI utilization in healthcare caused by data fragmentation across providers and institutions. It establishes a sovereign architecture for healthcare provision as a prerequisite to a sovereign health network, then facilitates effective AI utilization by overcoming barriers to accessing diverse medical data sources. This comprehensive framework leverages: 1) self-sovereign identity architecture coupled with a personal health record (PHR) as a prerequisite for health data sovereignty; 2) a scalable federated learning (FL) protocol implemented on a public blockchain for decentralized AI training in healthcare, where health data remains with participants and only model parameter updates are shared; and 3) a scalable, trustless rewards mechanism to incentivize participation and ensure fair reward distribution. This framework ensures that no entity can prevent or control access to training on health data offered by participants or determine financial benefits, as these processes operate on a public blockchain with an immutable record and without a third party. It supports effective AI training in healthcare, allowing patients to maintain control over their health data, benefit financially, and contribute to a decentralized, scalable ecosystem that leverages collective AI to develop beneficial healthcare algorithms. Patients receive rewards into their digital wallets as an incentive to opt-in to the FL protocol, with a long-term roadmap to funding decentralized insurance solutions. This approach introduces a novel, self-financed healthcare model that adapts to individual needs, complements existing systems, and redefines universal coverage. It highlights the potential to transform healthcare data management and AI utilization while empowering patients. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# FuxiTranyu: バランスデータでトレーニングされた多言語大言語モデル
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data ( http://arxiv.org/abs/2408.06273v2 ) ライセンス: Link先を確認 | Haoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong, | (参考訳) 大規模言語モデル (LLM) は様々なタスクに長けている。
しかし、多くのLLMは、ハイソース言語と低リソース言語の間に大きな性能差がある。
この課題を軽減するため,オープンソースの多言語LLMであるFuxiTranyuを紹介した。
80億のパラメータを持つベースモデルであるFuxiTranyu-8Bは、43の自然言語と16のプログラミング言語をカバーする600億のトークンを含む、厳密にバランスの取れた多言語データリポジトリ上で、ゼロからトレーニングされている。
ベースモデルに加えて,多言語命令データセットを微調整したFuxiTranyu-8B-SFTと,アライメント能力を高めるためにDPOでさらに改良したFuxiTranyu-8B-DPOという2つの命令チューニングモデルも開発している。
広範囲にわたる多言語ベンチマーク実験により、既存の多言語LLM(例えば、BLOOM-7B、PolyLM-13B、Llama-2-Chat-7B、Mistral-7B-Instruct)に対するFuxiTranyuの競合性能が示された。
ニューロンと表現レベルでの解釈可能性の解析は、フキシトラユが異なる言語で一貫した多言語表現を学習できることを示している。
多言語LLMとその動作機構のさらなる研究を促進するために,HuggingFaceとGithubの58の事前学習チェックポイントとともに,ベースモデルと命令指定のFuxiTranyuモデルの両方をリリースする。
Large language models (LLMs) have demonstrated prowess in a wide range of tasks. However, many LLMs exhibit significant performance discrepancies between high- and low-resource languages. To mitigate this challenge, we present FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the need of the research community for balanced and high-performing multilingual capabilities. FuxiTranyu-8B, the base model with 8 billion parameters, is trained from scratch on a meticulously balanced multilingual data repository that contains 600 billion tokens covering 43 natural languages and 16 programming languages. In addition to the base model, we also develop two instruction-tuned models: FuxiTranyu-8B-SFT that is fine-tuned on a diverse multilingual instruction dataset, and FuxiTranyu-8B-DPO that is further refined with DPO on a preference dataset for enhanced alignment ability. Extensive experiments on a wide range of multilingual benchmarks demonstrate the competitive performance of FuxiTranyu against existing multilingual LLMs, e.g., BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B and Mistral-7B-Instruct. Interpretability analyses at both the neuron and representation level suggest that FuxiTranyu is able to learn consistent multilingual representations across different languages. To promote further research into multilingual LLMs and their working mechanisms, we release both the base and instruction-tuned FuxiTranyu models together with 58 pretraining checkpoints at HuggingFace and Github. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |
# 推薦のための大規模言語モデルを用いたレビュー駆動パーソナライズされた選好推論
Review-driven Personalized Preference Reasoning with Large Language Models for Recommendation ( http://arxiv.org/abs/2408.06276v2 ) ライセンス: Link先を確認 | Jieyong Kim, Hyunseo Kim, Hyunjin Cho, SeongKu Kang, Buru Chang, Jinyoung Yeo, Dongha Lee, | (参考訳) 近年のLarge Language Models (LLM) の進歩は、幅広いタスクにまたがって例外的な性能を示し、レコメンデーションシステムへの応用に大きな関心を惹き付けている。
しかし、既存の手法は LLM の可能性に完全には乗じておらず、しばしば入力情報の制限や高度な推論能力の活用に失敗している。
これらの制約に対処するために,ユーザおよび項目レビューに含まれるリッチな嗜好情報を活用するために,LLMをベースとした新しいレコメンデーションであるEXP3RTを紹介する。
EXP3RTは、教師のLLMから蒸留して3つの重要なタスクを順に実行する。 EXP3RTは、まず、生のレビューから重要な主観的嗜好を抽出し、カプセル化し、それらを特定の基準に従って集約し、ユーザとアイテムプロファイルを作成する。
そして、ユーザ/イデムプロファイルと項目記述からの主観的情報と客観的情報の両方を考慮することにより、詳細なステップバイステップの推論と予測された評価、すなわち推論強化された評価予測を生成する。
EXP3RTからのパーソナライズされた選好推論は、評価予測の精度を高め、また、推奨のために忠実で合理的な説明を提供する。
総合実験の結果,EXP3RTは評価予測と候補項目の再評価において既存手法よりも優れており,推薦システムの説明可能性も著しく向上していることがわかった。
Recent advancements in Large Language Models (LLMs) have demonstrated exceptional performance across a wide range of tasks, generating significant interest in their application to recommendation systems. However, existing methods have not fully capitalized on the potential of LLMs, often constrained by limited input information or failing to fully utilize their advanced reasoning capabilities. To address these limitations, we introduce EXP3RT, a novel LLM-based recommender designed to leverage rich preference information contained in user and item reviews. EXP3RT is basically fine-tuned through distillation from a teacher LLM to perform three key tasks in order: EXP3RT first extracts and encapsulates essential subjective preferences from raw reviews, aggregates and summarizes them according to specific criteria to create user and item profiles. It then generates detailed step-by-step reasoning followed by predicted rating, i.e., reasoning-enhanced rating prediction, by considering both subjective and objective information from user/item profiles and item descriptions. This personalized preference reasoning from EXP3RT enhances rating prediction accuracy and also provides faithful and reasonable explanations for recommendation. Extensive experiments show that EXP3RT outperforms existing methods on both rating prediction and candidate item reranking for top-k recommendation, while significantly enhancing the explainability of recommendation systems. | 翻訳日:2024-08-14 14:16:02 公開日:2024-08-13 |