このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240323となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 新しい神としてのAIS:テクノクラテス神学
ASI as the New God: Technocratic Theocracy ( http://arxiv.org/abs/2406.08492v1 ) ライセンス: Link先を確認 | Tevfik Uyar, | (参考訳) Artificial General Intelligenceが現実に近づくにつれ、Artificial Superintelligence(人工超知能)も実現している。
本稿は、AIIの非例外的能力は、人々が神のような誤りを犯す原因になりうると論じ、その結果、その決定を不審に受け入れる認知バイアスが生じる。
この分析は、AIIと全知性、全知性、全知性といった神的属性の類似性を引き出すことにより、技術的進歩を道徳的・倫理的優越性と融合させるリスクを浮き彫りにしている。
このようなダイナミクスは、AISに意思決定を譲歩させ、人事や批判的思考を損なう、技術官僚的神学を後押しする可能性がある。
As Artificial General Intelligence edges closer to reality, Artificial Superintelligence does too. This paper argues that ASI's unparalleled capabilities might lead people to attribute godlike infallibility to it, resulting in a cognitive bias toward unquestioning acceptance of its decisions. By drawing parallels between ASI and divine attributes such as omnipotence, omniscience, and omnipresence, this analysis highlights the risks of conflating technological advancement with moral and ethical superiority. Such dynamics could engender a technocratic theocracy, where decision-making is abdicated to ASI, undermining human agency and critical thinking. | 翻訳日:2024-07-01 07:50:27 公開日:2024-03-23 |
# 企業向けファインチューニング LLM:実践的ガイドラインと勧告
Fine Tuning LLM for Enterprise: Practical Guidelines and Recommendations ( http://arxiv.org/abs/2404.10779v1 ) ライセンス: Link先を確認 | Mathav Raj J, Kushala VM, Harikrishna Warrier, Yogesh Gupta, | (参考訳) LLM(Large Language Models)を微調整するためには、企業にとって魅力的な必要性があります。
課題は、最も最適なリソースとコストと可能な限りの時間で、LLMにドメイン固有の知識を付与することである。
多くの企業は、LLMを内部で調整する必要のないRAG(Retrieval Augmented Generation)に依存しているが、それらはLLM自体の本質的な能力ではなく、ベクトルデータベースの品質と検索能力によって制限されている。
現在の作業では、企業リポジトリのプロプライエタリなドキュメントとコードを使用したオープンソースのLLMであるLLaMAの微調整に重点を置いています。
この作業の一環として、我々は、GPUのサイズとデータのフォーマットに利用可能なオプションについて、教育的な推測をすることで、ドキュメントとコードのためのLLMを微調整することから始める方法について初心者をガイドすることを目的としています。
また、さまざまなフォーマットでデータセットを作成するために、ドキュメンテーションとコードの両方に事前処理のレシピを提案する。
提案した文書データセットのデータ作成手法は, 問合せと解答のペアを形成し, キーワードと問合せのペアを形成する。
コードデータセットでは、生成サマリと関数ペアを提案する。
さらに,ドメイン固有クエリのモデルの結果を質的に評価する。
最後に,LLMの微調整に関する実践的ガイドラインと勧告を提案する。
There is a compelling necessity from enterprises for fine tuning LLMs (Large Language Models) o get them trained on proprietary domain knowledge. The challenge is to imbibe the LLMs with domain specific knowledge using the most optimial resource and cost and in the best possible time. Many enterprises rely on RAG (Retrieval Augmented Generation) which does not need LLMs to be ine-tuned but they are limited by the quality of vector databases and their retrieval capabilities rather than the intrinsic capabilities of the LLMs themselves. In our current work we focus on fine tuning LLaMA, an open source LLM using proprietary documents and code from an enterprise repository and use the fine tuned models to evaluate the quality of responses. As part of this work, we aim to guide beginners on how to start with fine tuning an LLM for documentation and code by making educated guesses on size of GPU required and options that are available for formatting the data. We also propose pre processing recipes for both documentation and code to prepare dataset in different formats. The proposed methods of data preparation for document datasets are forming paragraph chunks, forming question and answer pairs and forming keyword and paragraph chunk pairs. For code dataset we propose forming summary and function pairs. Further, we qualitatively evaluate the results of the models for domain specific queries. Finally, we also propose practical guidelines and recommendations for fine tuning LLMs. | 翻訳日:2024-04-21 19:45:03 公開日:2024-03-23 |
# 財務文書におけるRAGに基づく質問応答モデルの検索改善
Improving Retrieval for RAG based Question Answering Models on Financial Documents ( http://arxiv.org/abs/2404.07221v1 ) ライセンス: Link先を確認 | Spurthi Setty, Katherine Jijo, Eden Chung, Natan Vidra, | (参考訳) 大言語モデル(LLM)による正確な応答生成の有効性は、特に検索拡張生成(RAG)技術を用いる場合、提供される入力の品質に大きく依存する。
RAGは、最も関連性の高いテキストチャンクをベースクエリにソーシングすることで、LLMを強化します。
近年LLMの応答品質が著しく向上しているにもかかわらず、利用者はいまだに不正確さや無関係な回答に遭遇することがある。
LLMの有効性を高めるためには、RAGプロセスの洗練が不可欠である。
本稿では,RAGパイプラインの既存の制約について検討し,テキスト検索の方法を紹介する。
高度なチャンキングテクニック、クエリ拡張、メタデータアノテーションの組み込み、再ランク付けアルゴリズムの適用、埋め込みアルゴリズムの微調整などの戦略を練っている。
これらのアプローチを実装することで、検索品質が大幅に向上し、クエリの処理および応答におけるLCMの全体的なパフォーマンスと信頼性が向上する。
The effectiveness of Large Language Models (LLMs) in generating accurate responses relies heavily on the quality of input provided, particularly when employing Retrieval Augmented Generation (RAG) techniques. RAG enhances LLMs by sourcing the most relevant text chunk(s) to base queries upon. Despite the significant advancements in LLMs' response quality in recent years, users may still encounter inaccuracies or irrelevant answers; these issues often stem from suboptimal text chunk retrieval by RAG rather than the inherent capabilities of LLMs. To augment the efficacy of LLMs, it is crucial to refine the RAG process. This paper explores the existing constraints of RAG pipelines and introduces methodologies for enhancing text retrieval. It delves into strategies such as sophisticated chunking techniques, query expansion, the incorporation of metadata annotations, the application of re-ranking algorithms, and the fine-tuning of embedding algorithms. Implementing these approaches can substantially improve the retrieval quality, thereby elevating the overall performance and reliability of LLMs in processing and responding to queries. | 翻訳日:2024-04-14 13:13:23 公開日:2024-03-23 |
# Live and Learn: インクリメンタルビューによる継続的なアクションクラスタリング
Live and Learn: Continual Action Clustering with Incremental Views ( http://arxiv.org/abs/2404.07962v1 ) ライセンス: Link先を確認 | Xiaoqiang Yan, Yingtao Gan, Yiqiao Mao, Yangdong Ye, Hui Yu, | (参考訳) マルチビューアクションクラスタリングは、異なるカメラビューからの補完情報を活用して、クラスタリング性能を向上させる。
既存のアプローチは大きな進歩を遂げているが、カメラビューはすべて事前に利用可能であり、カメラビューが経時的にインクリメンタルになる場合には現実的ではないと仮定している。
さらに、複数のカメラビュー間で不変情報を学習することは、特に連続的な学習シナリオにおいて依然として難しい問題である。
そこで本研究では,動作カテゴリを連続的な学習方法で学習可能な,新しい連続的行動クラスタリング(CAC)手法を提案する。
具体的には、まず、学習したカテゴリを歴史的視点からキャプチャし、保存するカテゴリ記憶ライブラリを考案する。
そして、新しいカメラビューが到着すると、すべてのカメラビューを保持するのではなく、新しいカメラビューを活用することで更新できるコンセンサスパーティションマトリックスを維持する必要がある。
最後に,カテゴリメモリライブラリとコンセンサス分割行列を最適化した3段階の代替最適化を提案する。
CACのクラスタリング性能と時間/空間効率は,6つのリアルなマルチビューアクションコレクションの実証実験により向上した。
Multi-view action clustering leverages the complementary information from different camera views to enhance the clustering performance. Although existing approaches have achieved significant progress, they assume all camera views are available in advance, which is impractical when the camera view is incremental over time. Besides, learning the invariant information among multiple camera views is still a challenging issue, especially in continual learning scenario. Aiming at these problems, we propose a novel continual action clustering (CAC) method, which is capable of learning action categories in a continual learning manner. To be specific, we first devise a category memory library, which captures and stores the learned categories from historical views. Then, as a new camera view arrives, we only need to maintain a consensus partition matrix, which can be updated by leveraging the incoming new camera view rather than keeping all of them. Finally, a three-step alternate optimization is proposed, in which the category memory library and consensus partition matrix are optimized. The empirical experimental results on 6 realistic multi-view action collections demonstrate the excellent clustering performance and time/space efficiency of the CAC compared with 15 state-of-the-art baselines. | 翻訳日:2024-04-14 13:03:36 公開日:2024-03-23 |
# EduAgent: 学習における創発的学生エージェント
EduAgent: Generative Student Agents in Learning ( http://arxiv.org/abs/2404.07963v1 ) ライセンス: Link先を確認 | Songlin Xu, Xinyu Zhang, Lianhui Qin, | (参考訳) オンライン教育における学生シミュレーションは,様々な背景を持つ学生の動的学習行動に対処するために重要である。
ディープラーニングに基づく既存のシミュレーションモデルでは、教育的文脈における事前知識が欠如しているため、大規模なトレーニングデータが必要である。
大規模言語モデル(LLM)は、大きなコーパスから事前訓練されているため、そのような事前知識を含むことができる。
しかし,学生の行動には個人差が伴って動的かつ多面的であるため,LLMを直接的に促すことは,多様な学生の人格,学習行動,学習成果間のきめ細かい相互作用を捉えるのに十分な堅牢性や正確性は得られない。
この研究は、新たな注釈付き大規模データセットを提示し、認知的事前知識(認知科学で明らかになった理論的知見)を取り入れた新しい生成エージェントフレームワークであるEduAgentを提案し、LSMを様々な行動の相関を第一に推論し、シミュレーションを行うことによって、この問題に対処する。
我々の2つの実験は、EduAgentが実際の学生の学習行動を模倣し予測するだけでなく、実際のデータのないバーチャル学生の現実的な学習行動を生成できることを示した。
Student simulation in online education is important to address dynamic learning behaviors of students with diverse backgrounds. Existing simulation models based on deep learning usually need massive training data, lacking prior knowledge in educational contexts. Large language models (LLMs) may contain such prior knowledge since they are pre-trained from a large corpus. However, because student behaviors are dynamic and multifaceted with individual differences, directly prompting LLMs is not robust nor accurate enough to capture fine-grained interactions among diverse student personas, learning behaviors, and learning outcomes. This work tackles this problem by presenting a newly annotated fine-grained large-scale dataset and proposing EduAgent, a novel generative agent framework incorporating cognitive prior knowledge (i.e., theoretical findings revealed in cognitive science) to guide LLMs to first reason correlations among various behaviors and then make simulations. Our two experiments show that EduAgent could not only mimic and predict learning behaviors of real students but also generate realistic learning behaviors of virtual students without real data. | 翻訳日:2024-04-14 13:03:36 公開日:2024-03-23 |
# AttentionStore: 大規模言語モデルにおけるマルチターン会話における費用対効果の回避
AttentionStore: Cost-effective Attention Reuse across Multi-turn Conversations in Large Language Model Serving ( http://arxiv.org/abs/2403.19708v1 ) ライセンス: Link先を確認 | Bin Gao, Zhuomin He, Puru Sharma, Qingxuan Kang, Djordje Jevdjic, Junbo Deng, Xingkun Yang, Zhou Yu, Pengfei Zuo, | (参考訳) マルチターン会話を通して人間と対話することは、大きな言語モデル(LLM)の基本的特徴である。
しかし、過去のトークンのキー値(KV)キャッシュを何度も計算する必要があるため、マルチターン会話を実行するための既存のLLMサービスエンジンは非効率である。
本稿では,マルチターン会話におけるKVキャッシュの再利用を可能にする新しいアテンション機構であるAttentionStoreを提案する。
AttentionStoreは、コスト効率のよいメモリ/ストレージ媒体を活用して、すべてのリクエストにKVキャッシュを保存する階層的なKVキャッシュシステムを維持している。
遅い媒体からKVキャッシュアクセスのオーバーヘッドを低減するため、AttentionStoreでは、KVキャッシュアクセスとGPU計算を重複させるために、レイヤワイズプレロードと非同期保存スキームを採用している。
アクセスすべきKVキャッシュを最速階層に配置するために、AttentionStoreでは、スケジューラ対応のフェッチとエビクションスキームを使用して、推論ジョブスケジューラのヒントに基づいて、KVキャッシュを異なるレイヤに意識的に配置する。
コンテキストウィンドウオーバーフローによって発生する保存されたKVキャッシュの無効化を回避するため、AttentionStoreは、保存されたKVキャッシュを位置エンコーディングを分離し、KVキャッシュを効果的に停止することで有効にすることができる。
大規模な実験結果から, AttentionStoreは第1トークン(TTFT)までの時間を最大88%削減し, マルチターン会話のスループットを8.2$\times$で改善し, エンドツーエンドの推論コストを最大56%削減した。
長いシーケンス推論のために、AttentionStoreはTTFTを最大95%削減し、プロンプトプリフィルのスループットを22$\times$で改善する。
Interacting with humans through multi-turn conversations is a fundamental feature of large language models (LLMs). However, existing LLM serving engines for executing multi-turn conversations are inefficient due to the need to repeatedly compute the key-value (KV) caches of historical tokens, incurring high serving costs. To address the problem, this paper proposes AttentionStore, a new attention mechanism that enables the reuse of KV caches (i.e., attention reuse) across multi-turn conversations, significantly reducing the repetitive computation overheads. AttentionStore maintains a hierarchical KV caching system that leverages cost-effective memory/storage mediums to save KV caches for all requests. To reduce KV cache access overheads from slow mediums, AttentionStore employs layer-wise pre-loading and asynchronous saving schemes to overlap the KV cache access with the GPU computation. To ensure that the KV caches to be accessed are placed in the fastest hierarchy, AttentionStore employs scheduler-aware fetching and eviction schemes to consciously place the KV caches in different layers based on the hints from the inference job scheduler. To avoid the invalidation of the saved KV caches incurred by context window overflow, AttentionStore enables the saved KV caches to remain valid via decoupling the positional encoding and effectively truncating the KV caches. Extensive experimental results demonstrate that AttentionStore significantly decreases the time to the first token (TTFT) by up to 88%, improves the prompt prefilling throughput by 8.2$\times$ for multi-turn conversations, and reduces the end-to-end inference cost by up to 56%. For long sequence inference, AttentionStore reduces the TTFT by up to 95% and improves the prompt prefilling throughput by 22$\times$. | 翻訳日:2024-04-07 23:24:36 公開日:2024-03-23 |
# 分散型金融(DeFi)サービスにおける類似性の調査
Investigating Similarities Across Decentralized Financial (DeFi) Services ( http://arxiv.org/abs/2404.00034v1 ) ライセンス: Link先を確認 | Junliang Luo, Stefan Kitzler, Pietro Saggese, | (参考訳) 分散ファイナンス(DeFi)プロトコルによって提供されるサービス間の類似性を調べるため,グラフ表現学習(GRL)アルゴリズムの採用について検討する。
既存の文献に従って、Ethereumトランザクションデータを使用してDeFiビルディングブロックを特定します。
これらは、単一のトランザクション内で組み合わせて使用されるプロトコル固有のスマートコントラクトのセットであり、ロジックをカプセル化して、スワップや暗号通貨の貸出といった特定の金融サービスを実行する。
本稿では,これらのブロックをスマートコントラクト属性とスマートコントラクト呼び出しのグラフ構造に基づいてクラスタに分類する手法を提案する。
我々はGRLを用いて、ビルディングブロックから埋め込みベクターを作成し、それらをクラスタリングするための凝集モデルを作成します。
類似機能のクラスタに効果的にグループ化されているかどうかを評価するため、金融機能カテゴリを8つ関連付け、この情報をターゲットラベルとして使用する。
最良のシナリオでは、純度は.888に達する。
我々は、ビルディングブロックとプロトコル固有のターゲットラベルを関連付けるために追加情報を使用し、同等の純度 (.864) を得るが、より高いV-Measure (.571) を得る。
要約すると、この方法は、DeFiプロトコルが提供する既存の金融商品を分類し、特にプロトコル内で、類似のDeFiサービスの検出を効果的に自動化するのに役立つ。
We explore the adoption of graph representation learning (GRL) algorithms to investigate similarities across services offered by Decentralized Finance (DeFi) protocols. Following existing literature, we use Ethereum transaction data to identify the DeFi building blocks. These are sets of protocol-specific smart contracts that are utilized in combination within single transactions and encapsulate the logic to conduct specific financial services such as swapping or lending cryptoassets. We propose a method to categorize these blocks into clusters based on their smart contract attributes and the graph structure of their smart contract calls. We employ GRL to create embedding vectors from building blocks and agglomerative models for clustering them. To evaluate whether they are effectively grouped in clusters of similar functionalities, we associate them with eight financial functionality categories and use this information as the target label. We find that in the best-case scenario purity reaches .888. We use additional information to associate the building blocks with protocol-specific target labels, obtaining comparable purity (.864) but higher V-Measure (.571); we discuss plausible explanations for this difference. In summary, this method helps categorize existing financial products offered by DeFi protocols, and can effectively automatize the detection of similar DeFi services, especially within protocols. | 翻訳日:2024-04-07 23:07:46 公開日:2024-03-23 |
# 分散化されたマルチArmed Banditは、古典的アッパー信頼境界を上回り得る: 強い連結グラフ上の均一なケース
Decentralized Multi-Armed Bandit Can Outperform Classic Upper Confidence Bound: A Homogeneous Case over Strongly Connected Graphs ( http://arxiv.org/abs/2111.10933v3 ) ライセンス: Link先を確認 | Jingxuan Zhu, Ji Liu, | (参考訳) 本稿では,複数のエージェントのネットワークが同一のアームの集合に直面し,各エージェントが自身の後悔を最小限に抑える,均質な分散化されたマルチアームバンディット問題について検討する。
隣接関係を有向グラフで記述したマルチエージェントネットワークに対して, 完全分散上信頼境界(UCB)アルゴリズムを提案する。
この分散化アルゴリズムは, 隣接するグラフが強く連結されている場合, 従来のUTBアルゴリズムと比較して, 各エージェントが対数漸近的不一致を達成することを保証している。
改善された漸近的後悔の上界は、ネットワーク内の局所的近傍の最大サイズと相互に関連している。
グラフ接続,最大局所次数,ネットワークサイズの役割は,後悔の表現において解析的に解明される。
This paper studies a homogeneous decentralized multi-armed bandit problem, in which a network of multiple agents faces the same set of arms, and each agent aims to minimize its own regret. A fully decentralized upper confidence bound (UCB) algorithm is proposed for a multi-agent network whose neighbor relations are described by a directed graph. It is shown that the decentralized algorithm guarantees each agent to achieve a lower logarithmic asymptotic regret compared to the classic UCB algorithm, provided the neighbor graph is strongly connected. The improved asymptotic regret upper bound is reciprocally related to the maximal size of a local neighborhood within the network. The roles of graph connectivity, maximum local degree, and network size are analytically elucidated in the expression of regret. | 翻訳日:2024-03-28 23:39:03 公開日:2024-03-23 |
# マルウェア検出における長距離予測タスクのためのホログラフィックグローバル畳み込みネットワーク
Holographic Global Convolutional Networks for Long-Range Prediction Tasks in Malware Detection ( http://arxiv.org/abs/2403.17978v1 ) ライセンス: Link先を確認 | Mohammad Mahmudul Alam, Edward Raff, Stella Biderman, Tim Oates, James Holt, | (参考訳) マルウェア検出は、実世界の大きな影響とユニークな機械学習の課題があるため、興味深く価値のある分野である。
既存の長距離技術とベンチマークを調査し、この問題領域にはあまり適していないことを発見した。
本稿では,ホログラフィック・グローバル・コンボリューション・ネットワーク(HGConv)を提案する。
他のグローバルな畳み込み法とは異なり、我々の手法は複雑なカーネル計算や人工カーネル設計を必要としない。
HGConvカーネルはバックプロパゲーションによって学習された単純なパラメータとして定義される。
提案手法は,Microsoft Malware Classification Challenge, Drebin, EMBERのマルウェアベンチマークで新たなSOTA結果を得た。
シーケンス長の対数線形複雑性により,HGConvによる実行時間は,シーケンス長が$\geq 10000$の場合でも,はるかに効率的なスケーリングを実現する他の方法と比較して,はるかに高速であることが実証された。
Malware detection is an interesting and valuable domain to work in because it has significant real-world impact and unique machine-learning challenges. We investigate existing long-range techniques and benchmarks and find that they're not very suitable in this problem area. In this paper, we introduce Holographic Global Convolutional Networks (HGConv) that utilize the properties of Holographic Reduced Representations (HRR) to encode and decode features from sequence elements. Unlike other global convolutional methods, our method does not require any intricate kernel computation or crafted kernel design. HGConv kernels are defined as simple parameters learned through backpropagation. The proposed method has achieved new SOTA results on Microsoft Malware Classification Challenge, Drebin, and EMBER malware benchmarks. With log-linear complexity in sequence length, the empirical results demonstrate substantially faster run-time by HGConv compared to other methods achieving far more efficient scaling even with sequence length $\geq 100,000$. | 翻訳日:2024-03-28 21:34:33 公開日:2024-03-23 |
# ゼロショットトピック同定と発見のためのベイズ多言語文書モデル
A Bayesian Multilingual Document Model for Zero-shot Topic Identification and Discovery ( http://arxiv.org/abs/2007.01359v3 ) ライセンス: Link先を確認 | Santosh Kesiraju, Sangeet Sagar, Ondřej Glembek, Lukáš Burget, Ján Černocký, Suryakanth V Gangashetty, | (参考訳) 本稿では,言語に依存しない文書埋め込み学習のためのベイズ多言語文書モデルを提案する。
モデルは多言語シナリオへの BaySMM [Kesiraju et al 2020] の拡張である。
文書の埋め込みをガウス分布の形で表現することを学び、その結果、その共分散の不確かさを符号化する。
学習した不確実性を線形分類器で伝達し、ゼロショットの言語間話題識別に役立てる。
17言語を対象とした実験により,提案した多言語ベイズ文書モデルは,大規模ニューラルネットワーク(LASER, XLM-R, mUSE)をベースとした8つの高リソース言語における他のシステムと比較して競合的に動作し,9つの中間リソース言語上でこれらのシステムを上回る性能を示した。
我々は、現在のデータセット、ベースラインシステム、カバーされている言語を深く掘り下げることで、ゼロショット設定での言語間トピックの識別を再考する。
既存の評価プロトコル(MLDocデータセット)の欠点を特定し,頑健な代替スキームを提案するとともに,言語間実験を17言語に拡張する。
最後に、我々は、すべての実験から観測を集約し、言語間移動に依存するアプリケーションにおける将来の研究に利益をもたらす可能性のある点について議論する。
In this paper, we present a Bayesian multilingual document model for learning language-independent document embeddings. The model is an extension of BaySMM [Kesiraju et al 2020] to the multilingual scenario. It learns to represent the document embeddings in the form of Gaussian distributions, thereby encoding the uncertainty in its covariance. We propagate the learned uncertainties through linear classifiers that benefit zero-shot cross-lingual topic identification. Our experiments on 17 languages show that the proposed multilingual Bayesian document model performs competitively, when compared to other systems based on large-scale neural networks (LASER, XLM-R, mUSE) on 8 high-resource languages, and outperforms these systems on 9 mid-resource languages. We revisit cross-lingual topic identification in zero-shot settings by taking a deeper dive into current datasets, baseline systems and the languages covered. We identify shortcomings in the existing evaluation protocol (MLDoc dataset), and propose a robust alternative scheme, while also extending the cross-lingual experimental setup to 17 languages. Finally, we consolidate the observations from all our experiments, and discuss points that can potentially benefit the future research works in applications relying on cross-lingual transfers. | 翻訳日:2024-03-28 02:25:02 公開日:2024-03-23 |
# 共同起業型知識プロンプトによる視覚言語モデル推論支援
Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt ( http://arxiv.org/abs/2205.11100v2 ) ライセンス: Link先を確認 | Jiangmeng Li, Wenyi Mo, Wenwen Qiang, Bing Su, Changwen Zheng, Hui Xiong, Ji-Rong Wen, | (参考訳) 視覚言語モデルは、オープンセットの視覚概念を扱うために、画像とテキストのペアを共通の空間に整列させることで事前訓練される。
事前訓練されたモデルの伝達性を高めるため、近年の研究では、タスク関連カテゴリを記述する自然言語から分類重量を合成して、トレーニングとテストフェーズにおけるタスク間のギャップを減らし、固定または学習可能なプロンプトが採用されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは、まだ不明である。
本稿では,テキストラベルのセマンティック情報を探索することなく,既存のプロンプト手法がプロンプトを生成するのに対して,セマンティック情報をプロンプトに含めることの重要性を明確にする。
リッチなセマンティクスで手動でプロンプトを構築するにはドメインの専門知識が必要で、非常に時間がかかる。
この問題に対処するために,テキストラベルをクエリとして扱い,タスク関連セマンティック情報を抽出してオントロジ知識グラフを検索する意味認識型プロンプト学習手法CPKPを提案する。
CPKPはさらに、派生したセマンティック情報を洗練するための二重層共同設立手順を導入している。
グラフ層の共同創設者は、Granger因果性の原則に着想を得て、徐々に特定され、段階的に退去する。
特徴層の共同設立者は、情報理論の最大エントロピー原理に従って取り壊される。
実験により、CPKPは2ショットで、CPKPは手動プロンプト法を4.64%、学習可能プロンプト法を1.09%上回った。
実装はhttps://github.com/Mowenyii/CPKP.comで公開しています。
Vision-language models are pre-trained by aligning image-text pairs in a common space to deal with open-set visual concepts. To boost the transferability of the pre-trained models, recent works adopt fixed or learnable prompts, i.e., classification weights are synthesized from natural language describing task-relevant categories, to reduce the gap between tasks in the training and test phases. However, how and what prompts can improve inference performance remains unclear. In this paper, we explicitly clarify the importance of including semantic information in prompts, while existing prompting methods generate prompts without exploring the semantic information of textual labels. Manually constructing prompts with rich semantics requires domain expertise and is extremely time-consuming. To cope with this issue, we propose a semantic-aware prompt learning method, namely CPKP, which retrieves an ontological knowledge graph by treating the textual label as a query to extract task-relevant semantic information. CPKP further introduces a double-tier confounder-pruning procedure to refine the derived semantic information. The graph-tier confounders are gradually identified and phased out, inspired by the principle of Granger causality. The feature-tier confounders are demolished by following the maximum entropy principle in information theory. Empirically, the evaluations demonstrate the effectiveness of CPKP, e.g., with two shots, CPKP outperforms the manual-prompt method by 4.64% and the learnable-prompt method by 1.09% on average, and the superiority of CPKP in domain generalization compared to benchmark approaches. Our implementation is available at https://github.com/Mowenyii/CPKP. | 翻訳日:2024-03-28 02:09:26 公開日:2024-03-23 |
# 注意的特徴正規化によるファウショット学習の促進
Boosting Few-Shot Learning via Attentive Feature Regularization ( http://arxiv.org/abs/2403.17025v1 ) ライセンス: Link先を確認 | Xingyu Zhu, Shuo Wang, Jinda Lu, Yanbin Hao, Haifeng Liu, Xiangnan He, | (参考訳) 多様体正規化に基づくFSL(Few-shot Learning)は、異なるカテゴリの2つのサンプルとブレンディング係数を混合することにより、限られたトレーニングサンプルで新規物体の認識能力を向上させることを目的としている。
しかし, この混合操作は, 線形補間による特徴表現の弱化と, 特定のチャネルの重要性を見落としている。
そこで本研究では,特徴適応性と識別性の向上を目的とした注意的特徴正規化(AFR)を提案する。
提案手法では,まずセマンティックラベルのカテゴリ間の関係を計算し,レギュラー化に使用する特徴を抽出する。
そこで我々は,インスタンスレベルとチャネルレベルの両方で注意に基づく2つの計算を設計する。
これらの計算により、正規化手順は、関連カテゴリの適応補間による特徴補間と、特定の特徴チャネルの強調の2つの重要な側面に焦点を合わせることができる。
最後に、これらの正規化戦略を組み合わせて、分類器の性能を大幅に改善する。
いくつかの人気のあるFSLベンチマークに関する実証研究は、特に1ショット設定において、特徴抽出器を再訓練することなく、新しいカテゴリの認識精度を向上させるAFRの有効性を示す。
さらに、提案するAFRは、他のFSL手法とシームレスに統合することで、分類性能を向上させることができる。
Few-shot learning (FSL) based on manifold regularization aims to improve the recognition capacity of novel objects with limited training samples by mixing two samples from different categories with a blending factor. However, this mixing operation weakens the feature representation due to the linear interpolation and the overlooking of the importance of specific channels. To solve these issues, this paper proposes attentive feature regularization (AFR) which aims to improve the feature representativeness and discriminability. In our approach, we first calculate the relations between different categories of semantic labels to pick out the related features used for regularization. Then, we design two attention-based calculations at both the instance and channel levels. These calculations enable the regularization procedure to focus on two crucial aspects: the feature complementarity through adaptive interpolation in related categories and the emphasis on specific feature channels. Finally, we combine these regularization strategies to significantly improve the classifier performance. Empirical studies on several popular FSL benchmarks demonstrate the effectiveness of AFR, which improves the recognition accuracy of novel categories without the need to retrain any feature extractor, especially in the 1-shot setting. Furthermore, the proposed AFR can seamlessly integrate into other FSL methods to improve classification performance. | 翻訳日:2024-03-27 20:05:20 公開日:2024-03-23 |
# 相対論的指数型スピノル軌道とその多電子ディラック方程式解への応用
Relativistic exponential-type spinor orbitals and their use in many-electron Dirac equation solution ( http://arxiv.org/abs/2403.17029v1 ) ライセンス: Link先を確認 | Ali Bagci, | (参考訳) ディラック・クーロン型微分方程式とその解相対論的指数型スピノル軌道を導入する。
これらは作用素不変量、すなわちディラック不変量に対する修正形式を提供し、多電子系の計算における角成分の扱いを単純化する。
相対論的クーロンエネルギーは、不完全ガンマ関数を含む放射関数で表される1$-$電子ポテンシャルに対するポアソン方程式のスペクトル解を用いて決定される。
不完全ガンマ関数の計算は、それらの級数表現に付随する緩やかな収束率に起因する問題に対処する。
このような困難は、双方向法と超放射関数を用いることで解消される。
クーロンエネルギー計算の効率を向上させる相対論的補助関数の新しい定式化について述べる。
これらの定式化はまた、非整数主量子数を持つ指数軌道の完全正則な直交集合を用いて、ポアソン方程式の解に対する直交展開を求めることにも寄与する。
それらは有意義な代替級数表現を提供するかもしれない。
Dirac-Coulomb type differential equation and its solution relativistic exponential-type spinor orbitals are introduced. They provide a revised form for operator invariants, namely Dirac invariants, simplifying the treatment of the angular components in calculation of many-electron systems. The relativistic Coulomb energy is determined by employing a spectral solution to Poisson's equation for the one$-$electron potential, which is expressed in terms of radial functions involving incomplete gamma functions. The computation for incomplete gamma functions posses challenges due to slow convergence rate associated with their series representation. Such difficulties are eliminated through use of the bi-directional method along with hyper-radial functions. A new formulation for relativistic auxiliary functions that improve the efficiency in Coulomb energy calculations is presented. These formulations also contribute to inquiring into orthogonal expansions for solutions to Poisson's equation using complete orthonormal sets of exponential orbitals with non-integer principal quantum numbers. They may provide a meaningful alternative series representations. | 翻訳日:2024-03-27 20:05:20 公開日:2024-03-23 |
# カウントを考慮した一階述語論理で定義可能な学習概念
Learning Concepts Definable in First-Order Logic with Counting ( http://arxiv.org/abs/1909.03820v2 ) ライセンス: Link先を確認 | Steffen van Bergerem, | (参考訳) 本稿では,Grohe と Tur\an (TOCS 2004) が導入した論理フレームワークにおける関係背景構造に対するブール分類問題について検討する。
Grohe and Ritzert, LICS 2017) は、多対数次数の構造上の一階述語論理で定義可能な分類器は、構造と実行時間の度合いをその構造の大きさの点で測るサブ線形時間で学べることが知られている。
FOCNは Kuske と Schweikardt (licS 2017) によって導入されたもので、様々な数え上げ論理を一般化した表現論理である。
具体的には,FOCNで定義可能な分類器が,線形時間で連続的に学習できることを証明した。
これは、機械学習の数値的な側面を含むように学習フレームワークを拡張するための第一歩と見なすことができる。
結果は、ある定数$c$に対して少なくとも$(\log \log n)^c$の次数の構造のクラスについて、ほぼ正しい(PAC)学習にまで拡張する。
さらに,次数境界は線形時間学習アルゴリズムの獲得に不可欠であることを示す。
すなわち,非有界次数構造では,一階述語論理で定義可能な分類器であっても,サブ線形時間では学習が不可能であることを示す。
We study Boolean classification problems over relational background structures in the logical framework introduced by Grohe and Tur\'an (TOCS 2004). It is known (Grohe and Ritzert, LICS 2017) that classifiers definable in first-order logic over structures of polylogarithmic degree can be learned in sublinear time, where the degree of the structure and the running time are measured in terms of the size of the structure. We generalise the results to the first-order logic with counting FOCN, which was introduced by Kuske and Schweikardt (LICS 2017) as an expressive logic generalising various other counting logics. Specifically, we prove that classifiers definable in FOCN over classes of structures of polylogarithmic degree can be consistently learned in sublinear time. This can be seen as a first step towards extending the learning framework to include numerical aspects of machine learning. We extend the result to agnostic probably approximately correct (PAC) learning for classes of structures of degree at most $(\log \log n)^c$ for some constant $c$. Moreover, we show that bounding the degree is crucial to obtain sublinear-time learning algorithms. That is, we prove that, for structures of unbounded degree, learning is not possible in sublinear time, even for classifiers definable in plain first-order logic. | 翻訳日:2024-03-27 06:12:57 公開日:2024-03-23 |
# 高次元におけるオンライン行動学習 : 保守的視点
Online Action Learning in High Dimensions: A Conservative Perspective ( http://arxiv.org/abs/2009.13961v4 ) ライセンス: Link先を確認 | Claudio Cardoso Flores, Marcelo Cunha Medeiros, | (参考訳) シーケンシャル・ラーニングの問題は、いくつかの研究と実践の分野で一般的である。
例えば、動的価格や品揃え、オークションの設計、インセンティブなどがあり、多くのシーケンシャルな治療実験に浸透している。
本稿では,最もポピュラーな学習ソリューションである$\epsilon_t$-greedy Heuristicsを,保守的指示性を考慮した高次元文脈に拡張する。
私たちは、オリジナルルールが完全に新しいアクションを採用するために使用している時間の一部を、将来性のあるアクションの制限されたセットでより焦点を絞った検索に割り当てることで、これを実現しています。
結果のルールは、サプライズを価値付けする実用的なアプリケーションには有用かもしれないが、不規則なアクションの採用にも制限がある。
高い確率で、保守的な高次元の崩壊する $\epsilon_t$-greedy 則の累積的後悔に対する妥当な境界が見つかる。
また、保存的でないものと比較して、保守的バージョンに対する後悔の限界が改善したことを意味する、実行可能な行動の集合の濃度を低くする。
さらに, エンドユーザは, 理論的特性に影響を与えずに調整できるので, どの程度の安全性が期待できるかを判断する上で, 十分な柔軟性を有することを示す。
本提案では,シミュレーション演習と実際のデータセットの利用について解説する。
Sequential learning problems are common in several fields of research and practical applications. Examples include dynamic pricing and assortment, design of auctions and incentives and permeate a large number of sequential treatment experiments. In this paper, we extend one of the most popular learning solutions, the $\epsilon_t$-greedy heuristics, to high-dimensional contexts considering a conservative directive. We do this by allocating part of the time the original rule uses to adopt completely new actions to a more focused search in a restrictive set of promising actions. The resulting rule might be useful for practical applications that still values surprises, although at a decreasing rate, while also has restrictions on the adoption of unusual actions. With high probability, we find reasonable bounds for the cumulative regret of a conservative high-dimensional decaying $\epsilon_t$-greedy rule. Also, we provide a lower bound for the cardinality of the set of viable actions that implies in an improved regret bound for the conservative version when compared to its non-conservative counterpart. Additionally, we show that end-users have sufficient flexibility when establishing how much safety they want, since it can be tuned without impacting theoretical properties. We illustrate our proposal both in a simulation exercise and using a real dataset. | 翻訳日:2024-03-27 06:12:57 公開日:2024-03-23 |
# mForms : 質問応答によるマルチモーダルフォームフィリング
mForms : Multimodal Form-Filling with Question Answering ( http://arxiv.org/abs/2011.12340v4 ) ライセンス: Link先を確認 | Larry Heck, Simon Heck, Anirudh Sundar, | (参考訳) 本稿では,マルチモーダルな自然言語質問回答 (QA) としてタスクを再構築し,フォームフィリングへの新たなアプローチを提案する。
GUI形式の要素(テキストフィールド、ボタン、アイコンなど)を自然言語の質問に翻訳し、これらの質問が要素のマルチモーダルなセマンティクスをキャプチャする。
フォーム要素(クエスト)とユーザ発話(アンサー)との一致が決定されると、予め訓練された抽出QAシステムを介してフォーム要素を充填する。
事前訓練されたQAモデルを活用し、フォーム固有のトレーニングを必要としないことで、フォームフィリングへのアプローチはゼロショットである。
また, マルチタスク学習を用いて, 多くのタスクを組み込むことにより, フォームフィリングをさらに洗練する手法を提案する。
最後に,Multimodal natural language form-filling dataset Multimodal Forms (mForms)を紹介するとともに,今後の研究と実験を支援するために,一般的なATISデータセットのマルチモーダル拡張を提案する。
その結果, この手法は, スパーストレーニング条件に対する堅牢な精度を維持するだけでなく, トレーニングデータの約10分の1をATIS上で0.97の最先端F1を達成することができた。
This paper presents a new approach to form-filling by reformulating the task as multimodal natural language Question Answering (QA). The reformulation is achieved by first translating the elements on the GUI form (text fields, buttons, icons, etc.) to natural language questions, where these questions capture the element's multimodal semantics. After a match is determined between the form element (Question) and the user utterance (Answer), the form element is filled through a pre-trained extractive QA system. By leveraging pre-trained QA models and not requiring form-specific training, this approach to form-filling is zero-shot. The paper also presents an approach to further refine the form-filling by using multi-task training to incorporate a potentially large number of successive tasks. Finally, the paper introduces a multimodal natural language form-filling dataset Multimodal Forms (mForms), as well as a multimodal extension of the popular ATIS dataset to support future research and experimentation. Results show the new approach not only maintains robust accuracy for sparse training conditions but achieves state-of-the-art F1 of 0.97 on ATIS with approximately 1/10th of the training data. | 翻訳日:2024-03-27 06:12:57 公開日:2024-03-23 |
# トリプルト学習による深部クラウド正規化推定
Deep Point Cloud Normal Estimation via Triplet Learning ( http://arxiv.org/abs/2110.10494v2 ) ライセンス: Link先を確認 | Weijia Wang, Xuequan Lu, Dasith de Silva Edirimuni, Xiao Liu, Antonio Robles-Kelly, | (参考訳) 3Dポイントクラウドの正規推定は、3Dビジョンとグラフィックスの基本的な問題である。
現在の手法では、シャープな特徴(例えば、エッジやコーナー)で正常を予測できる精度が限られており、ノイズに対するロバスト性が低い。
本稿では,点雲の新しい正規推定法を提案する。
2つの段階から構成される。
(a)局所パッチの表現を学習する特徴符号化、及び
b) 学習した表現を入力として取り、正規ベクトルを回帰する正規推定。
等方性面と異方性面の局所パッチは、類似または異なる正規性を持ち、分離可能な特徴や表現を学習して、正常な推定を容易にすることを動機としている。
これを実現するために,まず3次元点クラウドデータ上に局所パッチのトリプルレットを構築し,特徴符号化のために三重項損失を持つ三重項ネットワークを設計する。
次に、複数のMLPと損失関数を持つ単純なネットワークを設計し、通常のベクトルを回帰する。
他のほとんどの方法と比較してネットワークサイズが小さいにもかかわらず,実験結果から,シャープな特徴を保ち,CADのような形状の正常な推定結果を得ることができた。
Normal estimation on 3D point clouds is a fundamental problem in 3D vision and graphics. Current methods often show limited accuracy in predicting normals at sharp features (e.g., edges and corners) and less robustness to noise. In this paper, we propose a novel normal estimation method for point clouds. It consists of two phases: (a) feature encoding which learns representations of local patches, and (b) normal estimation that takes the learned representation as input and regresses the normal vector. We are motivated that local patches on isotropic and anisotropic surfaces have similar or distinct normals, and that separable features or representations can be learned to facilitate normal estimation. To realise this, we first construct triplets of local patches on 3D point cloud data, and design a triplet network with a triplet loss for feature encoding. We then design a simple network with several MLPs and a loss function to regress the normal vector. Despite having a smaller network size compared to most other methods, experimental results show that our method preserves sharp features and achieves better normal estimation results on CAD-like shapes. | 翻訳日:2024-03-27 06:12:57 公開日:2024-03-23 |
# 欠陥予測シナリオの違いによる一級支援ベクトルマシンの有効性について
On The Effectiveness of One-Class Support Vector Machine in Different Defect Prediction Scenarios ( http://arxiv.org/abs/2202.12074v2 ) ライセンス: Link先を確認 | Rebecca Moussa, Danielle Azar, Federica Sarro, | (参考訳) 欠陥予測は、ソフトウェアがエンドユーザに提供される前に障害を引き起こす可能性のあるソフトウェアコンポーネントを特定することを目的としている。
現在までに、このタスクは2クラス分類問題としてモデル化されているが、その性質は1クラス分類タスクとして定式化することもできる。
以前の研究では、ワンクラスサポートベクトルマシン(OCSVM)は、プロジェクト内の欠陥予測のために2クラス分類器より優れていることが示されているが、より細かい粒度(すなわちコミットレベルの欠陥予測)で使用する場合には有効ではない。
本稿では,他の2つのシナリオ (すなわち粒度) ,すなわちクロスバージョンおよびクロスプロジェクト欠陥予測モデルにおいて,あるクラスからの学習が有効な欠陥予測モデルを生成するのに十分であるか否か,また,前回の作業が完了のためにプロジェクト内粒度で再現されるかどうかを考察する。
実験の結果,OCSVMの性能は異なる粒度レベルにおいて低いままであり,クロスバージョンとクロスプロジェクトの両方の欠陥予測のための2クラスランダムフォレスト(RF)分類器よりも優れていたことが確認された。
OCSVMが最高の分類器であると結論付けることはできないが、我々の結果はいまだに興味深い結果を示している。
OCSVMはRFより優れているわけではないが、2クラスの分類器(SVM)や他の2クラスの分類器よりも性能が優れている。
また、OCSVMは、プロジェクト内欠陥予測よりも、クロスバージョンとクロスプロジェクト欠陥予測の両方に適しており、異種データの方が優れたことを示唆している。
欠陥モジュールに関するデータが不足している場合や利用できない場合、これらの手法が代替となる可能性があるため、欠陥予測のための一級分類器のさらなる研究を推奨する。
Defect prediction aims at identifying software components that are likely to cause faults before a software is made available to the end-user. To date, this task has been modeled as a two-class classification problem, however its nature also allows it to be formulated as a one-class classification task. Previous studies show that One-Class Support Vector Machine (OCSVM) can outperform two-class classifiers for within-project defect prediction, however it is not effective when employed at a finer granularity (i.e., commit-level defect prediction). In this paper, we further investigate whether learning from one class only is sufficient to produce effective defect prediction model in two other different scenarios (i.e., granularity), namely cross-version and cross-project defect prediction models, as well as replicate the previous work at within-project granularity for completeness. Our empirical results confirm that OCSVM performance remain low at different granularity levels, that is, it is outperformed by the two-class Random Forest (RF) classifier for both cross-version and cross-project defect prediction. While, we cannot conclude that OCSVM is the best classifier, our results still show interesting findings. While OCSVM does not outperform RF, it still achieves performance superior to its two-class counterpart (i.e., SVM) as well as other two-class classifiers studied herein. We also observe that OCSVM is more suitable for both cross-version and cross-project defect prediction, rather than for within-project defect prediction, thus suggesting it performs better with heterogeneous data. We encourage further research on one-class classifiers for defect prediction as these techniques may serve as an alternative when data about defective modules is scarce or not available. | 翻訳日:2024-03-27 06:12:57 公開日:2024-03-23 |
# 個人的措置、ランダムウォーク、および合成データ
Private measures, random walks, and synthetic data ( http://arxiv.org/abs/2204.09167v2 ) ライセンス: Link先を確認 | March Boedihardjo, Thomas Strohmer, Roman Vershynin, | (参考訳) 微分プライバシーは、情報理論のセキュリティ保証を提供する数学的概念である。
差分プライバシーは、データ共有におけるプライバシーを保証するデファクトスタンダードとして登場したが、それを実現するための既知のメカニズムには、いくつかの深刻な制限がある。
ユーティリティ保証は、通常、固定された、指定されたクエリのセットに対してのみ提供される。
さらに、クラスタリングや分類といった、より複雑な、しかし非常に一般的な機械学習タスクに対するユーティリティ保証はありません。
本稿ではこれらの制限を克服する。
差分プライバシの強力な一般化であるメトリックプライバシを用いて、データセットからプライベートな測度を生成する多項式時間アルゴリズムを開発する。
このプライベートな測定により、幅広い統計分析ツールで正確であるプライベートな合成データを効率的に構築することができる。
さらに,一般コンパクトな計量空間に対するプライベート測度と合成データに対して漸近的に鋭い min-max 結果を示す。
我々の構築における重要な要素は、新しい超規則ランダムウォークであり、ステップの連立分布は、独立確率変数と同等に規則的であるが、元の対数から緩やかに逸脱する。
Differential privacy is a mathematical concept that provides an information-theoretic security guarantee. While differential privacy has emerged as a de facto standard for guaranteeing privacy in data sharing, the known mechanisms to achieve it come with some serious limitations. Utility guarantees are usually provided only for a fixed, a priori specified set of queries. Moreover, there are no utility guarantees for more complex - but very common - machine learning tasks such as clustering or classification. In this paper we overcome some of these limitations. Working with metric privacy, a powerful generalization of differential privacy, we develop a polynomial-time algorithm that creates a private measure from a data set. This private measure allows us to efficiently construct private synthetic data that are accurate for a wide range of statistical analysis tools. Moreover, we prove an asymptotically sharp min-max result for private measures and synthetic data for general compact metric spaces. A key ingredient in our construction is a new superregular random walk, whose joint distribution of steps is as regular as that of independent random variables, yet which deviates from the origin logarithmicaly slowly. | 翻訳日:2024-03-27 06:12:57 公開日:2024-03-23 |
# SimA:視覚変換器用ソフトマックスフリーアテンション
SimA: Simple Softmax-free Attention for Vision Transformers ( http://arxiv.org/abs/2206.08898v2 ) ライセンス: Link先を確認 | Soroush Abbasi Koohpayegani, Hamed Pirsiavash, | (参考訳) 近年、視覚変換器は非常に人気がある。
しかし、多くのアプリケーションにデプロイするのは、注意ブロックのSoftmax層のために計算コストがかかる。
我々は、Softmaxレイヤの代わりに単純な$\ell_1$-normでクエリとキー行列を正規化する、シンプルで効果的なSoftmaxフリーアテンションブロックSimAを導入する。
次に、SimAのアテンションブロックは3つの行列の単純な乗算であり、SimAはテスト時の計算順序を動的に変更し、トークン数やチャネル数に対する線形計算を実現する。
実験により,SimAが3種類のSOTA変圧器,DeiT,XCiT,CvTに適用されたことにより,SoTAモデルと比較して,ソフトマックス層を必要とせずに精度が低くなることを示した。
興味深いことに、SimAをマルチヘッドからシングルヘッドに変更することは、注意ブロックをさらに単純化する精度に小さな影響しか与えない。
コードはここにある。 https://github.com/UCDvision/sima
Recently, vision transformers have become very popular. However, deploying them in many applications is computationally expensive partly due to the Softmax layer in the attention block. We introduce a simple but effective, Softmax-free attention block, SimA, which normalizes query and key matrices with simple $\ell_1$-norm instead of using Softmax layer. Then, the attention block in SimA is a simple multiplication of three matrices, so SimA can dynamically change the ordering of the computation at the test time to achieve linear computation on the number of tokens or the number of channels. We empirically show that SimA applied to three SOTA variations of transformers, DeiT, XCiT, and CvT, results in on-par accuracy compared to the SOTA models, without any need for Softmax layer. Interestingly, changing SimA from multi-head to single-head has only a small effect on the accuracy, which simplifies the attention block further. The code is available here: https://github.com/UCDvision/sima | 翻訳日:2024-03-27 06:12:57 公開日:2024-03-23 |
# 限られた情報源知識下でのワッサーシュタイン分布ロバスト性をもつ未知領域への一般化
Generalizing to Unseen Domains with Wasserstein Distributional Robustness under Limited Source Knowledge ( http://arxiv.org/abs/2207.04913v2 ) ライセンス: Link先を確認 | Jingge Wang, Liyan Xie, Yao Xie, Shao-Lun Huang, Yang Li, | (参考訳) ドメインの一般化は、目に見えないターゲットドメインでうまく機能する普遍的なモデルを学習することを目的としており、複数のソースドメインからの知識を取り入れている。
本研究では,ドメイン間の異なるクラスの条件分布において,異なるドメインシフトが発生するシナリオについて考察する。
ソースドメイン内のラベル付きサンプルが限定されている場合、既存のアプローチは十分に堅牢ではない。
この問題に対処するために,分散ロバスト領域一般化(Wasserstein Distributionally Robust Domain Generalization, WDRDG)と呼ばれる新しい領域一般化フレームワークを提案する。
クラス固有のワッサーシュタインの不確かさ集合における条件分布に対するロバスト性を促進し、これらの不確かさ集合に対する分類器の最悪の性能を最適化する。
さらに、最適輸送を利用したテスト時間適応モジュールを開発し、未確認のターゲットドメインとソースドメインの関係を定量化し、ターゲットデータに対する適応推論を行う。
回転MNIST,PACSおよびVLCSデータセットを用いた実験により,本手法が一般化シナリオにおけるロバスト性と差別性を効果的にバランスできることを示した。
Domain generalization aims at learning a universal model that performs well on unseen target domains, incorporating knowledge from multiple source domains. In this research, we consider the scenario where different domain shifts occur among conditional distributions of different classes across domains. When labeled samples in the source domains are limited, existing approaches are not sufficiently robust. To address this problem, we propose a novel domain generalization framework called {Wasserstein Distributionally Robust Domain Generalization} (WDRDG), inspired by the concept of distributionally robust optimization. We encourage robustness over conditional distributions within class-specific Wasserstein uncertainty sets and optimize the worst-case performance of a classifier over these uncertainty sets. We further develop a test-time adaptation module leveraging optimal transport to quantify the relationship between the unseen target domain and source domains to make adaptive inference for target data. Experiments on the Rotated MNIST, PACS and the VLCS datasets demonstrate that our method could effectively balance the robustness and discriminability in challenging generalization scenarios. | 翻訳日:2024-03-27 06:12:57 公開日:2024-03-23 |
# 絡み合い対応対称性破壊順序
Entanglement-enabled symmetry-breaking orders ( http://arxiv.org/abs/2207.08828v2 ) ライセンス: Link先を確認 | Cheng-Ju Lin, Liujun Zou, | (参考訳) 自発対称性の破れ順序は、伝統的にいくつかの数体クラスターのテンソル積波動関数によって記述される。
我々は、任意のテンソル積状態では実現できない、絡み付き対称性破れ順序と呼ばれる対称性破れ順序のタイプについて論じる。
対称性破断パターンが与えられた場合,対称性破断順序が絡み合っているかどうかを診断するための基準を提案し,対称性とテンソル積の記述との整合性を検討する。
具体的には、直近の相互作用を持つ1次元格子上に、厳密に解けるギャップ付きモデルの無限族を示し、その基底状態は、離散対称性の破れから絡み合うことができる対称性を破る順序を示す。
さらに、これらの基底状態は、未破壊対称性によって保護される隙間のないエッジモードを持つ。
また,自然破断連続対称性を持つ絡み付き対称性破断順序を実現する構築法を提案する。
未知の対称性の下では、我々の例のいくつかは、従来の分類を超えた対称性で保護された位相状態と見なすことができる。
A spontaneous symmetry-breaking order is conventionally described by a tensor-product wave-function of some few-body clusters. We discuss a type of symmetry-breaking orders, dubbed entanglement-enabled symmetry-breaking orders, which cannot be realized by any tensor-product state. Given a symmetry breaking pattern, we propose a criterion to diagnose if the symmetry-breaking order is entanglement-enabled, by examining the compatibility between the symmetries and the tensor-product description. For concreteness, we present an infinite family of exactly solvable gapped models on one-dimensional lattices with nearest-neighbor interactions, whose ground states exhibit entanglement-enabled symmetry-breaking orders from a discrete symmetry breaking. In addition, these ground states have gapless edge modes protected by the unbroken symmetries. We also propose a construction to realize entanglement-enabled symmetry-breaking orders with spontaneously broken continuous symmetries. Under the unbroken symmetries, some of our examples can be viewed as symmetry-protected topological states that are beyond the conventional classifications. | 翻訳日:2024-03-27 06:12:57 公開日:2024-03-23 |
# 記憶のレンズによるデータ強化のプライバシー効果について
On the Privacy Effect of Data Enhancement via the Lens of Memorization ( http://arxiv.org/abs/2208.08270v4 ) ライセンス: Link先を確認 | Xiao Li, Qiongxiu Li, Zhanhao Hu, Xiaolin Hu, | (参考訳) 機械学習は、学習したモデルがトレーニングデータに関する機密情報を明らかにできることが示されているため、厳しいプライバシー上の懸念を生じさせる。
多くの研究が、機械学習モデルのプライバシー漏洩に対するデータ強化と呼ばれる、広く採用されているデータ強化と敵対的トレーニング技術の効果を調査してきた。
このようなプライバシー効果は、特定のサンプルがトレーニングセットに属しているかどうかを特定することを目的とした、メンバーシップ推論攻撃(MIAs)によってしばしば測定される。
我々は,記憶化という新たな視点からプライバシを調査することを提案する。
記憶のレンズを通して、以前デプロイされたMIAは、プライバシーリスクの低いサンプルに比べて、より高いプライバシーリスクのサンプルをメンバーとして識別する可能性が低いため、誤解を招く結果をもたらすことがわかった。
この問題を解決するために,個々のサンプルの記憶度をキャプチャして評価する最近の攻撃を展開した。
広範な実験を通じて、プライバシ、一般化ギャップ、対向ロバスト性など、機械学習モデルの本質的な3つの性質の関連性に関するいくつかの知見を明らかにした。
一般化ギャップとプライバシリークは, これまでの結果に比べて相関が低いことを示す。
さらに、敵対的堅牢性とプライバシとの間には必ずしもトレードオフがあるわけではない。
Machine learning poses severe privacy concerns as it has been shown that the learned models can reveal sensitive information about their training data. Many works have investigated the effect of widely adopted data augmentation and adversarial training techniques, termed data enhancement in the paper, on the privacy leakage of machine learning models. Such privacy effects are often measured by membership inference attacks (MIAs), which aim to identify whether a particular example belongs to the training set or not. We propose to investigate privacy from a new perspective called memorization. Through the lens of memorization, we find that previously deployed MIAs produce misleading results as they are less likely to identify samples with higher privacy risks as members compared to samples with low privacy risks. To solve this problem, we deploy a recent attack that can capture individual samples' memorization degrees for evaluation. Through extensive experiments, we unveil several findings about the connections between three essential properties of machine learning models, including privacy, generalization gap, and adversarial robustness. We demonstrate that the generalization gap and privacy leakage are less correlated than those of the previous results. Moreover, there is not necessarily a trade-off between adversarial robustness and privacy as stronger adversarial robustness does not make the model more susceptible to privacy attacks. | 翻訳日:2024-03-27 06:02:58 公開日:2024-03-23 |
# 量子LOSRネットワークは高忠実度グラフ状態を生成することができない
Quantum LOSR networks cannot generate graph states with high fidelity ( http://arxiv.org/abs/2208.12100v2 ) ライセンス: Link先を確認 | Yi-Xuan Wang, Zhen-Peng Xu, Otfried Gühne, | (参考訳) 量子ネットワークは、局所性と相関に関する新しい概念を生み出し、重要な問題は、量子状態が与えられたネットワーク構造とデバイスで実験的に準備され、どちらがそうでないかという問題である。
我々は、結合グラフから生じる全てのマルチキュービットグラフ状態が、フィードフォワードや量子メモリが利用できない限り、バイパーティイトソースを持つ任意の量子ネットワークから発生できないことを証明した。
さらに、マルチキュービットグラフ状態と任意のネットワーク状態の忠実度は9/10$を超えない。
同様の結果は、多量子グラフ状態の大規模なクラスに対しても確立することができる。
Quantum networks lead to novel notions of locality and correlations and an important problem concerns the question of which quantum states can be experimentally prepared with a given network structure and devices and which not. We prove that all multi-qubit graph states arising from a connected graph cannot originate from any quantum network with bipartite sources, as long as feed-forward and quantum memories are not available. Moreover, the fidelity of a multi-qubit graph state and any network state cannot exceed $9/10$. Similar results can also be established for a large class of multi-qudit graph states. | 翻訳日:2024-03-27 06:02:58 公開日:2024-03-23 |
# 知識強化型マルチモーダル学習に関する調査研究
A survey on knowledge-enhanced multimodal learning ( http://arxiv.org/abs/2211.12328v3 ) ライセンス: Link先を確認 | Maria Lymperaiou, Giorgos Stamou, | (参考訳) マルチモーダル学習は、単一の関節表現に様々なモダリティを組み合わせることを目的とした、関心の高まりの分野である。
特に視覚言語学(VL)の分野では、画像やテキストを含む様々なタスクを対象とする複数のモデルやテクニックが開発されている。
VLモデルはトランスフォーマーの概念を拡張し、両方のモダリティが互いに学習できるようにし、前例のない性能を達成した。
大規模な事前学習手順により、VLモデルは一定のレベルの現実的理解を得られるが、多くのギャップが特定できる: 常識、事実、時間、その他の日常的な知識の限られた理解は、VLタスクの拡張性に疑問を投げかける。
知識グラフやその他の知識ソースは、不足した情報を明示的に提供し、VLモデルの新機能をアンロックすることで、これらのギャップを埋めることができる。
同時に、知識グラフは、そのような複雑な実装において最も重要な課題である、説明可能性、公正性、意思決定の妥当性を高める。
本調査は,VL表現学習と知識グラフの分野の統合を目標とし,知識強化VLモデルの分類と分析を行う。
Multimodal learning has been a field of increasing interest, aiming to combine various modalities in a single joint representation. Especially in the area of visiolinguistic (VL) learning multiple models and techniques have been developed, targeting a variety of tasks that involve images and text. VL models have reached unprecedented performances by extending the idea of Transformers, so that both modalities can learn from each other. Massive pre-training procedures enable VL models to acquire a certain level of real-world understanding, although many gaps can be identified: the limited comprehension of commonsense, factual, temporal and other everyday knowledge aspects questions the extendability of VL tasks. Knowledge graphs and other knowledge sources can fill those gaps by explicitly providing missing information, unlocking novel capabilities of VL models. In the same time, knowledge graphs enhance explainability, fairness and validity of decision making, issues of outermost importance for such complex implementations. The current survey aims to unify the fields of VL representation learning and knowledge graphs, and provides a taxonomy and analysis of knowledge-enhanced VL models. | 翻訳日:2024-03-27 06:02:58 公開日:2024-03-23 |
# 時間的平坦な測定に基づく量子計算における量子優位性
Quantum advantage in temporally flat measurement-based quantum computation ( http://arxiv.org/abs/2212.03668v3 ) ライセンス: Link先を確認 | Michael de Oliveira, Luís S. Barbosa, Ernesto F. Galvão, | (参考訳) 量子回路のいくつかのクラスは、特定の仮定の下で量子計算の優位性をもたらすことが示されている。
量子優位性を持つ量子回路のより制限されたクラスの研究は、実験的なデモンストレーションで可能な単純化によって動機づけられる。
本稿では,測度に基づく量子計算の効率性について検討する。
我々は,多ビットグリーンバーガー,ホーン,ゼイリンガー(GHZ)状態に存在する相関関係に基づいて,任意のブール関数を決定論的に計算するための新しい構成を提案する。
我々はクリフォード階層を用いて必要な測定複雑性を特徴づけ、また、概して以前の構成に関して必要となるキュービットの数を減少させる。
特に,非適応MBQCを用いた決定論的評価が可能なブール関数群を同定し,古典回路の幅とゲート数の量子的優位性を特徴とする。
Several classes of quantum circuits have been shown to provide a quantum computational advantage under certain assumptions. The study of ever more restricted classes of quantum circuits capable of quantum advantage is motivated by possible simplifications in experimental demonstrations. In this paper we study the efficiency of measurement-based quantum computation with a completely flat temporal ordering of measurements. We propose new constructions for the deterministic computation of arbitrary Boolean functions, drawing on correlations present in multi-qubit Greenberger, Horne, and Zeilinger (GHZ) states. We characterize the necessary measurement complexity using the Clifford hierarchy, and also generally decrease the number of qubits needed with respect to previous constructions. In particular, we identify a family of Boolean functions for which deterministic evaluation using non-adaptive MBQC is possible, featuring quantum advantage in width and number of gates with respect to classical circuits. | 翻訳日:2024-03-27 06:02:58 公開日:2024-03-23 |
# 大規模言語モデルにおける言語と思考の解離
Dissociating language and thought in large language models ( http://arxiv.org/abs/2301.06627v3 ) ライセンス: Link先を確認 | Kyle Mahowald, Anna A. Ivanova, Idan A. Blank, Nancy Kanwisher, Joshua B. Tenenbaum, Evelina Fedorenko, | (参考訳) 大規模言語モデル(LLM)は、人間の言語を習得する上で今までに最も近いモデルであるが、その言語的・認知的能力に関する意見は相変わらず分かれている。
本稿では,形式言語能力 (言語規則とパターンの知識) と機能言語能力 (機能言語能力) の区別を用いてLLMを評価する。
我々は、この区別を人間の神経科学に根ざし、形式的、機能的な能力は異なる神経機構に依存していることを示した。
LLMの形式的能力は驚くほど優れているが、機能的能力のタスクのパフォーマンスは不明瞭であり、しばしば特別な微調整や外部モジュールとの結合を必要とする。
我々は、言語を人間的な方法で使用するモデルは、これらの能力の型の両方を習得する必要があると仮定し、機能的能力とは別の形式的な言語能力に特化したメカニズムの出現を必要とする可能性があると仮定する。
Large Language Models (LLMs) have come closest among all models to date to mastering human language, yet opinions about their linguistic and cognitive capabilities remain split. Here, we evaluate LLMs using a distinction between formal linguistic competence - knowledge of linguistic rules and patterns - and functional linguistic competence - understanding and using language in the world. We ground this distinction in human neuroscience, which has shown that formal and functional competence rely on different neural mechanisms. Although LLMs are surprisingly good at formal competence, their performance on functional competence tasks remains spotty and often requires specialized fine-tuning and/or coupling with external modules. We posit that models that use language in human-like ways would need to master both of these competence types, which, in turn, could require the emergence of mechanisms specialized for formal linguistic competence, distinct from functional competence. | 翻訳日:2024-03-27 04:08:18 公開日:2024-03-23 |
# グラフニューラルネットワークは、グラフ構造から隠れた特徴を復元できる
Graph Neural Networks can Recover the Hidden Features Solely from the Graph Structure ( http://arxiv.org/abs/2301.10956v4 ) ライセンス: Link先を確認 | Ryoma Sato, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ学習問題の一般的なモデルである。
GNNは、多くの実践的なタスクにおいて、強い経験的パフォーマンスを示す。
しかし、理論的な性質は完全に解明されていない。
本稿では,GNNの表現力の観点から,GNNがグラフ構造を活用できるかどうかを検討する。
本分析では,グラフ構造に関するすべての情報を含む隠れノード特徴(あるいは潜在ノード特徴)によって制御されるグラフ生成プロセスについて考察する。
このフレームワークの典型的な例は、隠れた特徴から構築されたkNNグラフである。
本研究の主目的は,隠れた特徴自身や間接的なヒントを含むすべてのノード特徴が利用できない場合でも,GNNが入力グラフのみから隠れたノード特徴を復元できることである。
GNNはさらに、ダウンストリームタスクのために回収されたノード機能を利用することができる。
これらの結果から、GNNはグラフ構造を自分自身で完全に活用でき、事実上、GNNは下流タスクに隠されたノード機能と明示的なノード機能の両方を利用することができる。
実験では,理論解析に基づいて構築されたGNNアーキテクチャを用いて,GNNが隠れた特徴を正確に復元できることを示し,その妥当性を確認した。
Graph Neural Networks (GNNs) are popular models for graph learning problems. GNNs show strong empirical performance in many practical tasks. However, the theoretical properties have not been completely elucidated. In this paper, we investigate whether GNNs can exploit the graph structure from the perspective of the expressive power of GNNs. In our analysis, we consider graph generation processes that are controlled by hidden (or latent) node features, which contain all information about the graph structure. A typical example of this framework is kNN graphs constructed from the hidden features. In our main results, we show that GNNs can recover the hidden node features from the input graph alone, even when all node features, including the hidden features themselves and any indirect hints, are unavailable. GNNs can further use the recovered node features for downstream tasks. These results show that GNNs can fully exploit the graph structure by themselves, and in effect, GNNs can use both the hidden and explicit node features for downstream tasks. In the experiments, we confirm the validity of our results by showing that GNNs can accurately recover the hidden features using a GNN architecture built based on our theoretical analysis. | 翻訳日:2024-03-27 04:08:18 公開日:2024-03-23 |
# ガウス過程に基づく深部状態空間モデルの逐次推定
Sequential Estimation of Gaussian Process-based Deep State-Space Models ( http://arxiv.org/abs/2301.12528v2 ) ライセンス: Link先を確認 | Yuhao Liu, Marzieh Ajirak, Petar Djuric, | (参考訳) 状態空間モデルと深部状態空間モデルの未知点を逐次推定する問題について考察する。
提案手法は、ランダムな特徴に基づくガウス過程によって実装されるガウス過程とディープガウス過程に依存する。
これらのモデルでは、2つの未知の集合、非常に非線形な未知(潜在過程の値)と条件線型な未知(ランダムな特徴に基づくガウス過程の定数パラメータ)を持つ。
本稿では,ランダムな特徴量に基づくガウス過程のパラメータを,粒子を必要とせず,状態の予測密度を得るために積分する粒子フィルタリング法を提案する。
また,本手法のアンサンブルバージョンを提案し,各アンサンブルメンバーに独自の特徴セットを付与する。
いくつかの実験により,提案手法は潜伏過程をスケールと回転まで追跡できることを示した。
We consider the problem of sequential estimation of the unknowns of state-space and deep state-space models that include estimation of functions and latent processes of the models. The proposed approach relies on Gaussian and deep Gaussian processes that are implemented via random feature-based Gaussian processes. In these models, we have two sets of unknowns, highly nonlinear unknowns (the values of the latent processes) and conditionally linear unknowns (the constant parameters of the random feature-based Gaussian processes). We present a method based on particle filtering where the parameters of the random feature-based Gaussian processes are integrated out in obtaining the predictive density of the states and do not need particles. We also propose an ensemble version of the method, with each member of the ensemble having its own set of features. With several experiments, we show that the method can track the latent processes up to a scale and rotation. | 翻訳日:2024-03-27 04:08:18 公開日:2024-03-23 |
# 市民のためのプライバシーダッシュボードと小データ保有者のためのGDPRサービス:文献レビュー
Privacy Dashboards for Citizens and corresponding GDPR Services for Small Data Holders: A Literature Review ( http://arxiv.org/abs/2302.00325v4 ) ライセンス: Link先を確認 | Nico Puhlmann, Alex Wiesmaier, Patrick Weber, Andreas Heinemann, | (参考訳) 市民はGDPRで多くの権利を得ており、例えば個人データのコピーを取得する権利がある。
しかし実際には、これは市民と小さなデータ保有者にとって問題に直面している。
我々は、市民のためのプライバシーダッシュボードと小データ保有者のためのGDPRサービスという形で救済を約束するソリューションに関する文献レビューを行う。
カバーされたトピックは分析され、分類され、比較されます。
これは、市民がGDPRの権利を行使し、小さなデータ保有者がGDPRの義務を遵守できるようにするためのステップである。
Citizens have gained many rights with the GDPR, e.g. the right to get a copy of their personal data. In practice, however, this is fraught with problems for citizens and small data holders. We present a literature review on solutions promising relief in the form of privacy dashboards for citizens and GDPR services for small data holders. Covered topics are analyzed, categorized and compared. This is ought to be a step towards both enabling citizens to exercise their GDPR rights and supporting small data holders to comply with their GDPR duties. | 翻訳日:2024-03-27 04:08:18 公開日:2024-03-23 |
# LMC: 予測収束を用いたサブグラフサンプリングによるGNNの高速トレーニング
LMC: Fast Training of GNNs via Subgraph Sampling with Provable Convergence ( http://arxiv.org/abs/2302.00924v3 ) ライセンス: Link先を確認 | Zhihao Shi, Xize Liang, Jie Wang, | (参考訳) メッセージパッシングベースのグラフニューラルネットワーク(GNN)は多くの現実世界のアプリケーションで大きな成功を収めている。
しかし、大規模グラフ上でのGNNのトレーニングは、よく知られた隣り合う爆発的問題、すなわち、メッセージパッシング層の数が指数関数的に増加するノードの依存関係に悩まされる。
サブグラフワイズサンプリング手法(ミニバッチトレーニング技術の有望なクラス)は、勾配推定精度を犠牲にして隣の爆発問題を避けるために、後方のミニバッチの外でメッセージを破棄する。
これは収束解析と収束速度に大きな課題をもたらし、現実の信頼性を著しく制限する。
この課題に対処するために,収束保証,すなわちローカルメッセージ補償(LMC)を備えた新しいサブグラフワイズサンプリング手法を提案する。
我々の知る限りでは、LCCは証明可能な収束性を持つ部分グラフワイドサンプリング法である。
LMCの鍵となる考え方は、後方パスのメッセージパスの定式化に基づいて、破棄されたメッセージを後方パスで取り出すことである。
前と後の両方で破棄されたメッセージの効率よく効果的な補償によって、LCCは正確なミニバッチ勾配を計算し、収束を加速する。
さらに,LCCはGNNの1次定常点に収束することを示す。
大規模ベンチマークタスクの実験では、LCCは効率の点で最先端のサブグラフワイドサンプリング手法よりも大幅に優れていた。
The message passing-based graph neural networks (GNNs) have achieved great success in many real-world applications. However, training GNNs on large-scale graphs suffers from the well-known neighbor explosion problem, i.e., the exponentially increasing dependencies of nodes with the number of message passing layers. Subgraph-wise sampling methods -- a promising class of mini-batch training techniques -- discard messages outside the mini-batches in backward passes to avoid the neighbor explosion problem at the expense of gradient estimation accuracy. This poses significant challenges to their convergence analysis and convergence speeds, which seriously limits their reliable real-world applications. To address this challenge, we propose a novel subgraph-wise sampling method with a convergence guarantee, namely Local Message Compensation (LMC). To the best of our knowledge, LMC is the {\it first} subgraph-wise sampling method with provable convergence. The key idea of LMC is to retrieve the discarded messages in backward passes based on a message passing formulation of backward passes. By efficient and effective compensations for the discarded messages in both forward and backward passes, LMC computes accurate mini-batch gradients and thus accelerates convergence. We further show that LMC converges to first-order stationary points of GNNs. Experiments on large-scale benchmark tasks demonstrate that LMC significantly outperforms state-of-the-art subgraph-wise sampling methods in terms of efficiency. | 翻訳日:2024-03-27 04:08:18 公開日:2024-03-23 |
# 動的デカップリング配列による欠陥核スピン系の真の全方向絡み合いの生成
Generation of genuine all-way entanglement in defect-nuclear spin systems through dynamical decoupling sequences ( http://arxiv.org/abs/2302.05580v3 ) ライセンス: Link先を確認 | Evangelia Takou, Edwin Barnes, Sophia E. Economou, | (参考訳) マルチパーティの絡み合った状態は、検知、量子エラー補正、暗号に欠かせない資源である。
固体中の色中心は、動的デカップリング配列を通じて光学活性電子スピンと絡み合うことができる核スピンメモリが利用可能なため、量子ネットワークの先駆的なプラットフォームの一つである。
これらの系で電子核の絡み合った状態を作り出すことは、常にオンの超微細な相互作用が望ましくないスピン浴からターゲットのダイナミクスを完全に分離することを禁止しているため、難しい課題である。
この突発的なクロストークは絡み合いの発生を延長することで緩和できるが、ゲート持続時間はコヒーレンス時間を超える。
ここでは、最小のクロストークで高品質なGHZ$_M$ライクな状態を作成する方法を示す。
我々は進化作用素の$M$-tanglingパワーを導入し、真の全方向相関を検証できる。
炭素13格子スピンに結合したダイヤモンド中のNV中心スピンの超微粒子パラメータを実験的に測定し、GHZ$_M$-like状態の最大$M=10$-qubitsをM$-way相関で飽和する時間制約で生成する方法を示す。
我々は、混合電子核状態の絡み合いを研究し、不要なすべての核スピンから生じる相関関係を捉えるために、M$-Tanglingの非単位のパワーを開発する。
さらに、M$-way相関に対する電子的デファーズエラーの影響を組み込んだ非単位の$M$-tanglingパワーを導出する。
最後に,実験により報告されたパルスエラーの存在下でのプロトコルの性能を検証し,XYデカップリング配列が高忠実度GHZ状態生成に繋がることを示した。
Multipartite entangled states are an essential resource for sensing, quantum error correction, and cryptography. Color centers in solids are one of the leading platforms for quantum networking due to the availability of a nuclear spin memory that can be entangled with the optically active electronic spin through dynamical decoupling sequences. Creating electron-nuclear entangled states in these systems is a difficult task as the always-on hyperfine interactions prohibit complete isolation of the target dynamics from the unwanted spin bath. While this emergent cross-talk can be alleviated by prolonging the entanglement generation, the gate durations quickly exceed coherence times. Here we show how to prepare high-quality GHZ$_M$-like states with minimal cross-talk. We introduce the $M$-tangling power of an evolution operator, which allows us to verify genuine all-way correlations. Using experimentally measured hyperfine parameters of an NV center spin in diamond coupled to carbon-13 lattice spins, we show how to use sequential or single-shot entangling operations to prepare GHZ$_M$-like states of up to $M=10$ qubits within time constraints that saturate bounds on $M$-way correlations. We study the entanglement of mixed electron-nuclear states and develop a non-unitary $M$-tangling power which additionally captures correlations arising from all unwanted nuclear spins. We further derive a non-unitary $M$-tangling power which incorporates the impact of electronic dephasing errors on the $M$-way correlations. Finally, we inspect the performance of our protocols in the presence of experimentally reported pulse errors, finding that XY decoupling sequences can lead to high-fidelity GHZ state preparation. | 翻訳日:2024-03-27 04:08:18 公開日:2024-03-23 |
# FrankenSplit: モバイルエッジコンピューティングのための低変分ボトルネック注入による効率的なニューラル特徴圧縮
FrankenSplit: Efficient Neural Feature Compression with Shallow Variational Bottleneck Injection for Mobile Edge Computing ( http://arxiv.org/abs/2302.10681v4 ) ライセンス: Link先を確認 | Alireza Furutanpey, Philipp Raith, Schahram Dustdar, | (参考訳) モバイルAIアクセラレータの台頭により、レイテンシに敏感なアプリケーションは、クライアント側で軽量なDeep Neural Networks(DNN)を実行することができる。
しかし、重要なアプリケーションはエッジデバイスがホストできない強力なモデルを必要とするため、高次元データが限られた帯域幅で競合する要求をオフロードする必要がある。
この研究は、分割されたDNNの浅い層の実行に焦点を絞ることから脱却することを提案する。
代わりに、機械の解釈可能性に最適化された変分圧縮にローカルリソースを集中させることを提唱している。
本稿では,エッジデバイスとサーバ間の非対称なリソース分布を反映した環境において,リソースを考慮した圧縮モデルのための新しいフレームワークを導入し,その手法を広範に評価する。
提案手法は,最先端のSC法よりも60%低ビットレートを実現し,既存のコーデック標準のオフロードよりも最大16倍高速である。
The rise of mobile AI accelerators allows latency-sensitive applications to execute lightweight Deep Neural Networks (DNNs) on the client side. However, critical applications require powerful models that edge devices cannot host and must therefore offload requests, where the high-dimensional data will compete for limited bandwidth. This work proposes shifting away from focusing on executing shallow layers of partitioned DNNs. Instead, it advocates concentrating the local resources on variational compression optimized for machine interpretability. We introduce a novel framework for resource-conscious compression models and extensively evaluate our method in an environment reflecting the asymmetric resource distribution between edge devices and servers. Our method achieves 60% lower bitrate than a state-of-the-art SC method without decreasing accuracy and is up to 16x faster than offloading with existing codec standards. | 翻訳日:2024-03-27 04:08:18 公開日:2024-03-23 |
# 人物再識別のための特徴補完変換器
Feature Completion Transformer for Occluded Person Re-identification ( http://arxiv.org/abs/2303.01656v2 ) ライセンス: Link先を確認 | Tao Wang, Mengyuan Liu, Hong Liu, Wenhao Li, Miaoju Ban, Tuanyu Guo, Yidi Li, | (参考訳) 咬合者の再同定(Re-ID)は,咬合者の破壊による課題である。
既存の方法の多くは、いくつかの事前情報を通して、目に見える人間の身体の部分に焦点を当てている。
しかし、補完的な閉塞が発生すると、閉塞領域の特徴がマッチングに干渉し、パフォーマンスに深刻な影響を及ぼす。
本稿では, 隠蔽領域を廃棄する従来の作業とは違って, 隠蔽部分の意味情報を暗黙的に補完する特徴補完変換器 (FCFormer) を提案する。
具体的には,Occlusion Instance Augmentation (OIA) を提案する。
これらの拡張画像は、トレーニングセット内のオクルージョンサンプルの量を豊かにするだけでなく、全体像とペアを形成する。
その後、共用エンコーダを用いたデュアルストリームアーキテクチャを提案し、ペア入力からペア識別特徴を学習する。
追加のセマンティック情報がないと、隠蔽された全体的特徴のサンプルラベルペアが自動的に作成される。
次に、学習可能なトークンを用いて、自己生成した排他的特徴から可能な情報を集約することにより、排他的領域の特徴を補完する機能補完デコーダ(FCD)を設計する。
最後に,Cross Hard Triplet (CHT) の損失を補足的特徴と同一のIDで特徴を抽出するギャップを埋めるために提案する。
さらに、生成された完了特徴分布が実際の全体的特徴分布に近づくのを助けるために、FC$^2$(Feature Completion Consistency)の損失を導入する。
5つの挑戦的なデータセットに対する大規模な実験は、提案されたFCFormerが優れたパフォーマンスを達成し、隠蔽されたデータセットに対してかなりのマージンで最先端の手法より優れていることを示している。
Occluded person re-identification (Re-ID) is a challenging problem due to the destruction of occluders. Most existing methods focus on visible human body parts through some prior information. However, when complementary occlusions occur, features in occluded regions can interfere with matching, which affects performance severely. In this paper, different from most previous works that discard the occluded region, we propose a Feature Completion Transformer (FCFormer) to implicitly complement the semantic information of occluded parts in the feature space. Specifically, Occlusion Instance Augmentation (OIA) is proposed to simulates real and diverse occlusion situations on the holistic image. These augmented images not only enrich the amount of occlusion samples in the training set, but also form pairs with the holistic images. Subsequently, a dual-stream architecture with a shared encoder is proposed to learn paired discriminative features from pairs of inputs. Without additional semantic information, an occluded-holistic feature sample-label pair can be automatically created. Then, Feature Completion Decoder (FCD) is designed to complement the features of occluded regions by using learnable tokens to aggregate possible information from self-generated occluded features. Finally, we propose the Cross Hard Triplet (CHT) loss to further bridge the gap between complementing features and extracting features under the same ID. In addition, Feature Completion Consistency (FC$^2$) loss is introduced to help the generated completion feature distribution to be closer to the real holistic feature distribution. Extensive experiments over five challenging datasets demonstrate that the proposed FCFormer achieves superior performance and outperforms the state-of-the-art methods by significant margins on occluded datasets. | 翻訳日:2024-03-27 03:58:21 公開日:2024-03-23 |
# MCMC推定器を用いた確率勾配の収束解析
Convergence Analysis of Stochastic Gradient Descent with MCMC Estimators ( http://arxiv.org/abs/2303.10599v2 ) ライセンス: Link先を確認 | Tianyou Li, Fan Chen, Huajie Chen, Zaiwen Wen, | (参考訳) 確率勾配勾配(SGD)とその変種を理解することは、機械学習に不可欠である。
しかし、上記の分析のほとんどは、非バイアス勾配推定器(英語版)や有界対象関数(英語版)のような可換な条件下で行われ、これは変分モンテカルロ(英語版)、エントロピー規則化強化学習(英語版)、変分推論(英語版)など、多くの高度な応用を包含していない。
本稿では,MCMC-SGDと呼ばれる,マルコフ連鎖モンテカルロ(MCMC)推定器を用いて勾配を計算するSGDアルゴリズムについて考察する。
MCMCはサンプリングの複雑さを著しく低減するため、実際には漸近的に収束するバイアス推定器である。
さらに、非有界関数の一般クラスを組み込むことで、MCMCサンプリング誤差を解析することがより困難になる。
したがって、関数は部分指数関数であると仮定し、非定常マルコフ鎖に対してベルンシュタイン不等式を用いてMCMC推定器の誤差境界を導出する。
したがって、MCMC-SGD は 1次収束率 $O(\log K/\sqrt{n K})$ と $K$ の反復とサンプルサイズ $n$ を持つことが証明されている。
MCMCがSGDの挙動にどのように影響するかを部分的に説明している。
さらに、合理的な仮定の下で相関負曲率条件を検証する。
MCMC-SGDはサドル点から脱出し、$(\epsilon,\epsilon^{1/4})$近似2次定常点または$\epsilon^{1/2}$分散点が少なくとも$O(\epsilon^{-11/2}\log^{2}(1/\epsilon))$ステップに達する。
本稿では, MCMC-SGDの収束パターンを, 確率的最適化問題の幅広いクラスにわたって明らかにし, 実用化における収束現象を解釈する。
Understanding stochastic gradient descent (SGD) and its variants is essential for machine learning. However, most of the preceding analyses are conducted under amenable conditions such as unbiased gradient estimator and bounded objective functions, which does not encompass many sophisticated applications, such as variational Monte Carlo, entropy-regularized reinforcement learning and variational inference. In this paper, we consider the SGD algorithm that employ the Markov Chain Monte Carlo (MCMC) estimator to compute the gradient, called MCMC-SGD. Since MCMC reduces the sampling complexity significantly, it is an asymptotically convergent biased estimator in practice. Moreover, by incorporating a general class of unbounded functions, it is much more difficult to analyze the MCMC sampling error. Therefore, we assume that the function is sub-exponential and use the Bernstein inequality for non-stationary Markov chains to derive error bounds of the MCMC estimator. Consequently, MCMC-SGD is proven to have a first order convergence rate $O(\log K/\sqrt{n K})$ with $K$ iterations and a sample size $n$. It partially explains how MCMC influences the behavior of SGD. Furthermore, we verify the correlated negative curvature condition under reasonable assumptions. It is shown that MCMC-SGD escapes from saddle points and reaches $(\epsilon,\epsilon^{1/4})$ approximate second order stationary points or $\epsilon^{1/2}$-variance points at least $O(\epsilon^{-11/2}\log^{2}(1/\epsilon) )$ steps with high probability. Our analysis unveils the convergence pattern of MCMC-SGD across a broad class of stochastic optimization problems, and interprets the convergence phenomena observed in practical applications. | 翻訳日:2024-03-27 03:58:21 公開日:2024-03-23 |
# 医療用プロンプトエンジニアリングの方法論と応用
Prompt Engineering for Healthcare: Methodologies and Applications ( http://arxiv.org/abs/2304.14670v2 ) ライセンス: Link先を確認 | Jiaqi Wang, Enze Shi, Sigang Yu, Zihao Wu, Chong Ma, Haixing Dai, Qiushi Yang, Yanqing Kang, Jinru Wu, Huawen Hu, Chenxi Yue, Haiyang Zhang, Yiheng Liu, Yi Pan, Zhengliang Liu, Lichao Sun, Xiang Li, Bao Ge, Xi Jiang, Dajiang Zhu, Yixuan Yuan, Dinggang Shen, Tianming Liu, Shu Zhang, | (参考訳) プロンプトエンジニアリング(英: Prompt engineering)は、自然言語処理の分野で重要な技術であり、特定のタスクにおけるパフォーマンスの向上を目的として、モデルへの情報入力に使用されるプロンプトの設計と最適化を行う。
近年の大規模言語モデルの発展に伴い、迅速なエンジニアリングは様々な領域において大きな優位性を示し、医療分野においてますます重要になっている。
しかし、医療分野における迅速な工学に焦点を当てた総合的なレビューは欠如している。
本総説では,医学分野の自然言語処理分野における情報工学の最近の進歩を紹介する。
まず、素早い工学の発展と、質問応答システム、テキスト要約、機械翻訳などの医療自然言語処理アプリケーションへの重要な貢献を強調します。
一般の大規模言語モデルの継続的な改善により、医療分野における迅速なエンジニアリングの重要性がますます高まっている。
本論文の目的は、医療自然言語処理研究者がこの分野における即時工学の応用をよりよく探求するための有用な資源と橋渡しを提供することである。
このレビューは、新しいアイデアを提供し、医学自然言語処理の研究と応用に刺激を与えてくれることを願っている。
Prompt engineering is a critical technique in the field of natural language processing that involves designing and optimizing the prompts used to input information into models, aiming to enhance their performance on specific tasks. With the recent advancements in large language models, prompt engineering has shown significant superiority across various domains and has become increasingly important in the healthcare domain. However, there is a lack of comprehensive reviews specifically focusing on prompt engineering in the medical field. This review will introduce the latest advances in prompt engineering in the field of natural language processing for the medical field. First, we will provide the development of prompt engineering and emphasize its significant contributions to healthcare natural language processing applications such as question-answering systems, text summarization, and machine translation. With the continuous improvement of general large language models, the importance of prompt engineering in the healthcare domain is becoming increasingly prominent. The aim of this article is to provide useful resources and bridges for healthcare natural language processing researchers to better explore the application of prompt engineering in this field. We hope that this review can provide new ideas and inspire for research and application in medical natural language processing. | 翻訳日:2024-03-27 03:48:08 公開日:2024-03-23 |
# LLMパタニティテスト:LLM遺伝的継承を用いたテキスト検出
LLM Paternity Test: Generated Text Detection with LLM Genetic Inheritance ( http://arxiv.org/abs/2305.12519v2 ) ライセンス: Link先を確認 | Xiao Yu, Yuang Qi, Kejiang Chen, Guoqiang Chen, Xi Yang, Pengyuan Zhu, Weiming Zhang, Nenghai Yu, | (参考訳) 大規模な言語モデル(LLM)は、盗用、eコマースプラットフォームへの偽レビューの設置、炎症的な偽ツイートなどの、さまざまな誤用のリスクを負うテキストを生成することができる。
テキストが機械生成であるかどうかを検出することがますます重要になっている。
既存の検出方法は優れた性能を示すが、訓練データに大きく依存するため、一般化性に欠けることが多い。
この問題を軽減するため,LLMパタニティテスト(LLM-Pat)というモデル関連テキスト検出手法を提案する。
具体的には、任意の候補テキスト (\textit{child}) が与えられた場合、LLM-Pat は LLM (\textit{parent}) を使用して、与えられたテキストに対応する \textit{sibling} テキストを再構成し、候補テキストとそれらの兄弟テキストの類似度を測定する。
高い類似性は、候補テキストが遺伝的特性に似た機械生成であることを示している。
我々は,LLM-Patの性能を評価するために,教育環境における学生の反応,ニュース作成,学術論文作成,ソーシャルメディアボットの4つのシナリオを含むデータセットを構築した。
実験の結果, LLM-Patは既存の検出方法よりも優れており, パラフレーズ攻撃や再翻訳攻撃に対してより堅牢であることがわかった。
さらに、LLM-Patは、テキストが生成した大きな言語モデルを追跡するためにも使用できる。
構築されたデータセットとコードは、コミュニティに利益をもたらすためにリリースされます。
Large language models (LLMs) can generate texts that carry the risk of various misuses, including plagiarism, planting fake reviews on e-commerce platforms, or creating inflammatory false tweets. Detecting whether a text is machine-generated has thus become increasingly important. While existing detection methods exhibit superior performance, they often lack generalizability due to their heavy dependence on training data. To alleviate this problem, we propose a model-related generated text detection method, the LLM Paternity Test (LLM-Pat). Specifically, given any candidate text (\textit{child}), LLM-Pat employs an intermediary LLM (\textit{parent}) to reconstruct a \textit{sibling} text corresponding to the given text and then measures the similarity between candidate texts and their sibling texts. High similarity indicates that the candidate text is machine-generated, akin to genetic traits. We have constructed datasets encompassing four scenarios: student responses in educational settings, news creation, academic paper writing, and social media bots to assess the performance of LLM-Pat. The experiments show that LLM-Pat outperforms the existing detection methods and is more robust against paraphrasing attacks and re-translating attacks. Besides, LLM-Pat can also be used to trace which large language model the text was generated by. The constructed dataset and code will be released to benefit the community. | 翻訳日:2024-03-27 03:48:07 公開日:2024-03-23 |
# 文化意識に基づくLLM機械翻訳のベンチマーク
Benchmarking LLM-based Machine Translation on Cultural Awareness ( http://arxiv.org/abs/2305.14328v2 ) ライセンス: Link先を確認 | Binwei Yao, Ming Jiang, Diyi Yang, Junjie Hu, | (参考訳) 文化的内容の翻訳は、効果的な異文化間コミュニケーションに不可欠である。
しかし、多くのMTシステムは、文化的特有物を含む文を正確かつ正確に翻訳するのに依然として苦労している。
インコンテキスト学習の最近の進歩は、機械翻訳タスクにおける大規模言語モデル(LLM)のガイドに軽量なプロンプトを利用する。
しかし、この手法が機械翻訳の文化的意識を高める効果は、いまだに不明である。
このギャップに対処するため,我々は,文化的に関連のある並列コーパスを構築するための新しいデータキュレーションパイプラインを導入する。
さらに, GPT-4を用いて, 翻訳の可読性を評価するための新しい評価指標を考案した。
我々は、データセットを用いて、さまざまなニューラルネットワーク翻訳(NMT)とLLMベースのMTシステムを評価する。
さらに, 翻訳プロセスに外部および内部文化知識を組み込むため, LLM の促進策をいくつか提案する。
以上の結果から,提案する説明書は,特によく知られた翻訳のないものにおいて,文化的特有な実体の理解性を著しく向上させることができることが示唆された。
Translating cultural-specific content is crucial for effective cross-cultural communication. However, many MT systems still struggle to translate sentences containing cultural-specific entities accurately and understandably. Recent advancements in in-context learning utilize lightweight prompts to guide large language models (LLMs) in machine translation tasks. Nevertheless, the effectiveness of this approach in enhancing machine translation with cultural awareness remains uncertain. To address this gap, we introduce a new data curation pipeline to construct a culturally relevant parallel corpus, enriched with annotations of cultural-specific items. Furthermore, we devise a novel evaluation metric to assess the understandability of translations in a reference-free manner by GPT-4. We evaluate a variety of neural machine translation (NMT) and LLM-based MT systems using our dataset. Additionally, we propose several prompting strategies for LLMs to incorporate external and internal cultural knowledge into the translation process. Our results demonstrate that eliciting explanations can significantly enhance the understandability of cultural-specific entities, especially those without well-known translations. | 翻訳日:2024-03-27 03:48:07 公開日:2024-03-23 |
# ドメイン・ジェネリゼーションの評価プロトコルの再考
Rethinking the Evaluation Protocol of Domain Generalization ( http://arxiv.org/abs/2305.15253v2 ) ライセンス: Link先を確認 | Han Yu, Xingxuan Zhang, Renzhe Xu, Jiashuo Liu, Yue He, Peng Cui, | (参考訳) ドメインの一般化は、複数のトレーニングドメインから学んだ共通知識を活用して、不明なテストドメインに一般化することで、アウト・オブ・ディストリビューション(OOD)の一般化の課題を解決することを目的としている。
OOD一般化能力を正確に評価するには、テストデータ情報が利用できない必要がある。
しかし、現在のドメイン一般化プロトコルは、テストデータ情報漏洩の可能性がある。
本稿では,現在の評価プロトコルの2つの側面,すなわち ImageNet と Oracle モデルの選択に対する教師付き事前トレーニングから,テストデータ情報漏洩のリスクについて検討する。
我々は、現在の教師付き事前訓練を使わずに、自己教師付き事前訓練やスクラッチから訓練を行うよう、現在のプロトコルに修正を加え、複数のテストドメインを使用するように提案する。
これらはOOD一般化能力をより正確に評価する結果となる。
また、修正されたプロトコルでアルゴリズムを再実行し、新しいリーダーボードを導入し、より公平な比較でドメインの一般化における将来の研究を促進する。
Domain generalization aims to solve the challenge of Out-of-Distribution (OOD) generalization by leveraging common knowledge learned from multiple training domains to generalize to unseen test domains. To accurately evaluate the OOD generalization ability, it is required that test data information is unavailable. However, the current domain generalization protocol may still have potential test data information leakage. This paper examines the risks of test data information leakage from two aspects of the current evaluation protocol: supervised pretraining on ImageNet and oracle model selection. We propose modifications to the current protocol that we should employ self-supervised pretraining or train from scratch instead of employing the current supervised pretraining, and we should use multiple test domains. These would result in a more precise evaluation of OOD generalization ability. We also rerun the algorithms with the modified protocol and introduce new leaderboards to encourage future research in domain generalization with a fairer comparison. | 翻訳日:2024-03-27 03:48:07 公開日:2024-03-23 |
# 言語モデルにおけるチェーン・オブ・ソートを超えて、効果的なグラフ・オブ・ソート推論
Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models ( http://arxiv.org/abs/2305.16582v2 ) ライセンス: Link先を確認 | Yao Yao, Zuchao Li, Hai Zhao, | (参考訳) NLPタスクに言語モデル(LM)が広く使われるようになると、研究者は中間ステップを生成することで複雑な推論タスクを達成する上で、LMを支援するためのCoT(Chain-of-Thought)の可能性を発見した。
しかしながら、人間の思考過程は、単に連続した思考の連鎖ではなく、しばしば非線形である。
そこで我々は,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
思考単位をノードとして表現し、それら間の接続をエッジとして表現することで、我々のアプローチは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
GoTは、思考グラフ表現のための追加のGoTエンコーダを備えた2段階フレームワークを採用し、ゲート融合機構を通じて元の入力表現とグラフ表現を融合する。
テキストのみの推論タスク(Aqua-RAT)とマルチモーダル推論タスク(ScienceQA)でGoTの性能を評価する。
本研究では,Aqua-RATテストセット上でのCoTベースラインの精度を85.19%から87.59%に向上させるとともに,ScienceQAテストセット上での最先端のMultimodal-CoTよりもT5ベースモデルを用いて精度を向上する。
With the widespread use of language models (LMs) in NLP tasks, researchers have discovered the potential of Chain-of-thought (CoT) to assist LMs in accomplishing complex reasoning tasks by generating intermediate steps. However, human thought processes are often non-linear, rather than simply sequential chains of thoughts. Therefore, we propose Graph-of-Thought (GoT) reasoning, which models human thought processes not only as a chain but also as a graph. By representing thought units as nodes and connections between them as edges, our approach captures the non-sequential nature of human thinking and allows for a more realistic modeling of thought processes. GoT adopts a two-stage framework with an additional GoT encoder for thought graph representation and fuses the graph representation with the original input representation through a gated fusion mechanism. We evaluate GoT's performance on a text-only reasoning task (AQUA-RAT) and a multimodal reasoning task (ScienceQA). Our model achieves significant improvement over the strong CoT baseline on the AQUA-RAT test set and boosts accuracy from 85.19% to 87.59% using the T5-base model over the state-of-the-art Multimodal-CoT on the ScienceQA test set. | 翻訳日:2024-03-27 03:48:07 公開日:2024-03-23 |
# 公正なGNNのためのMigrate Demographic Group
Migrate Demographic Group For Fair GNNs ( http://arxiv.org/abs/2306.04212v2 ) ライセンス: Link先を確認 | YanMing Hu, TianChi Liao, JiaLong Chen, Jing Bian, ZiBin Zheng, Chuan Chen, | (参考訳) グラフニューラルネットワーク(GNN)は,グラフ学習の性能が優れているため,多くのシナリオに適用されている。
しかし、GNNを設計する際には常に公平さは無視される。
その結果、トレーニングデータのバイアスされた情報は、バニラGNNに容易に影響し、特定の人口層グループ(人種や年齢などのセンシティブな属性によって分割される)にバイアスのある結果をもたらす。
公平性の問題に対処する努力が続けられている。
しかし、既存の公正な手法は、一般に人口集団を生の感度特性で分割し、それを固定していると仮定する。
生のセンシティブな属性に関連付けられたバイアスのある情報は、実装された公正な手法にかかわらず、トレーニングプロセスを通して実行される。
公正なGNNの育成には,この問題の解決が急務である。
この問題に対処するため,我々はFairMigrationという新しいフレームワークを提案する。
FairMigrationは2つのトレーニングステージで構成されている。
最初の段階では、GNNは最初、パーソナライズされた自己教師付き学習によって最適化され、人口統計群は動的に調整される。
第2段階では、新しい人口集団は凍結し、新しい人口集団と敵対訓練の制約の下で教師付き学習を行う。
大規模な実験により、FairMigrationはモデル性能とフェアネスのバランスが良好であることが明らかとなった。
Graph Neural networks (GNNs) have been applied in many scenarios due to the superior performance of graph learning. However, fairness is always ignored when designing GNNs. As a consequence, biased information in training data can easily affect vanilla GNNs, causing biased results toward particular demographic groups (divided by sensitive attributes, such as race and age). There have been efforts to address the fairness issue. However, existing fair techniques generally divide the demographic groups by raw sensitive attributes and assume that are fixed. The biased information correlated with raw sensitive attributes will run through the training process regardless of the implemented fair techniques. It is urgent to resolve this problem for training fair GNNs. To tackle this problem, we propose a brand new framework, FairMigration, which can dynamically migrate the demographic groups instead of keeping that fixed with raw sensitive attributes. FairMigration is composed of two training stages. In the first stage, the GNNs are initially optimized by personalized self-supervised learning, and the demographic groups are adjusted dynamically. In the second stage, the new demographic groups are frozen and supervised learning is carried out under the constraints of new demographic groups and adversarial training. Extensive experiments reveal that FairMigration balances model performance and fairness well. | 翻訳日:2024-03-27 03:38:04 公開日:2024-03-23 |
# Sparse Model Soups: モデル平均化によるプルニング改善のためのレシピ
Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging ( http://arxiv.org/abs/2306.16788v3 ) ライセンス: Link先を確認 | Max Zimmer, Christoph Spiegel, Sebastian Pokutta, | (参考訳) ニューラルネットワークはプルーニングによって著しく圧縮され、予測性能を維持しながら、ストレージと計算要求を低減したスパースモデルが得られる。
モデルスープ(Wortsman et al , 2022)は、複数のモデルのパラメータを1つに平均化することで一般化とアウト・オブ・ディストリビューション(OOD)性能を向上させる。
しかし、任意のスパースモデルの平均化がスパース接続性の違いによる全体の疎度を減少させるため、スパース率とパラメータ平均化の両立は困難である。
この研究は、バッチ順序やウェイト崩壊といった様々なハイパーパラメータ構成を持つ反復的マグニチュード・プルーニング(IMP)の単一再トレーニングフェーズを探索することで、平均化に適したモデルが得られ、設計によって同一のスパース接続が共有されることを示すことで、これらの課題に対処する。
これらのモデルの平均化は、個々のモデルよりも一般化とOODパフォーマンスを大幅に向上させる。
これに基づいて,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法であるスパース・モデル・スープ(SMS)を導入する。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
さらに、SMSが最先端のプルーニング・ディチューリング・トレーニング・アプローチに適応できることを実証する。
Neural networks can be significantly compressed by pruning, yielding sparse models with reduced storage and computational demands while preserving predictive performance. Model soups (Wortsman et al., 2022) enhance generalization and out-of-distribution (OOD) performance by averaging the parameters of multiple models into a single one, without increasing inference time. However, achieving both sparsity and parameter averaging is challenging as averaging arbitrary sparse models reduces the overall sparsity due to differing sparse connectivities. This work addresses these challenges by demonstrating that exploring a single retraining phase of Iterative Magnitude Pruning (IMP) with varied hyperparameter configurations such as batch ordering or weight decay yields models suitable for averaging, sharing identical sparse connectivity by design. Averaging these models significantly enhances generalization and OOD performance over their individual counterparts. Building on this, we introduce Sparse Model Soups (SMS), a novel method for merging sparse models by initiating each prune-retrain cycle with the averaged model from the previous phase. SMS preserves sparsity, exploits sparse network benefits, is modular and fully parallelizable, and substantially improves IMP's performance. We further demonstrate that SMS can be adapted to enhance state-of-the-art pruning-during-training approaches. | 翻訳日:2024-03-27 03:38:04 公開日:2024-03-23 |
# ログ解析手法の大規模評価:どこまでの距離か?
A Large-Scale Evaluation for Log Parsing Techniques: How Far Are We? ( http://arxiv.org/abs/2308.10828v2 ) ライセンス: Link先を確認 | Zhihan Jiang, Jinyang Liu, Junjie Huang, Yichen Li, Yintong Huo, Jiazhen Gu, Zhuangbin Chen, Jieming Zhu, Michael R. Lyu, | (参考訳) ログデータは、テスト、デバッグ、診断など、ソフトウェア開発とメンテナンスの様々なタスクを促進してきた。
ログの非構造化の性質のため、ログ解析は通常、ログメッセージを構造化データに変換するために必要となる。
様々な技術を用いたログパーサが豊富にあることから,それらの特性や性能を理解するためのツールの評価が不可欠である。
Loghubは、ログパーザをベンチマークするための一般的なデータセットとして機能するが、スケールと代表性が限られており、既存のログパーサを包括的に評価したり、新しいメソッドを開発するための研究において重大な課題となっている。
この制限は、プロダクション使用のためにこれらのログパーサを評価する際に特に顕著である。
これらの制限に対処するため、我々はLoghub-2.0というアノテーション付きログデータセットのコレクションを提供し、実際のソフトウェアシステムにおけるログデータの特徴をよりよく反映することができる。
Loghub-2.0は14のデータセットで構成され、各データセットに平均360万のログ行がある。
Loghub-2.0に基づいて、より厳密で実践的な環境で15の最先端のログパーサを徹底的に再評価する。
特に,不均衡なデータ分布に対する既存の指標の感度を緩和する新たな評価基準を導入する。
我々はまた、希少なシステムイベントを表すログのログパーサの粒度パフォーマンスを初めて調査し、ソフトウェア診断の詳細な情報を提供している。
このようなログの正確な解析は不可欠だが、それでも課題である。
この作業は、実運用環境でのログパーサの評価と設計に光を当てることによって、運用システムへの展開を容易にする、と私たちは考えています。
Log data have facilitated various tasks of software development and maintenance, such as testing, debugging and diagnosing. Due to the unstructured nature of logs, log parsing is typically required to transform log messages into structured data for automated log analysis. Given the abundance of log parsers that employ various techniques, evaluating these tools to comprehend their characteristics and performance becomes imperative. Loghub serves as a commonly used dataset for benchmarking log parsers, but it suffers from limited scale and representativeness, posing significant challenges for studies to comprehensively evaluate existing log parsers or develop new methods. This limitation is particularly pronounced when assessing these log parsers for production use. To address these limitations, we provide a new collection of annotated log datasets, denoted Loghub-2.0, which can better reflect the characteristics of log data in real-world software systems. Loghub-2.0 comprises 14 datasets with an average of 3.6 million log lines in each dataset. Based on Loghub-2.0, we conduct a thorough re-evaluation of 15 state-of-the-art log parsers in a more rigorous and practical setting. Particularly, we introduce a new evaluation metric to mitigate the sensitivity of existing metrics to imbalanced data distributions. We are also the first to investigate the granular performance of log parsers on logs that represent rare system events, offering in-depth details for software diagnosis. Accurately parsing such logs is essential, yet it remains a challenge. We believe this work could shed light on the evaluation and design of log parsers in practical settings, thereby facilitating their deployment in production systems. | 翻訳日:2024-03-27 03:28:06 公開日:2024-03-23 |
# マルチモーダル分析における因果的断面積と2次元Descenceの二重形態--Hateful Memesを事例として
Causal Intersectionality and Dual Form of Gradient Descent for Multimodal Analysis: a Case Study on Hateful Memes ( http://arxiv.org/abs/2308.11585v2 ) ライセンス: Link先を確認 | Yosuke Miyanishi, Minh Le Nguyen, | (参考訳) 機械学習(ML)と大規模言語モデル(LLM)の急速な拡張の中で、それらのメカニズム内の意味を理解することが不可欠である。
因果解析はセマンティクスを定義し、勾配に基づく手法はeXplainable AI(XAI)に必須であり、モデルの「ブラックボックス」を解釈する。
これらを統合することで,モデルのメカニズムが証拠に基づく意思決定に与える影響を明らかにする。
研究は、個人の人口動態の複合的な影響である交叉性は、平均的治療効果(ATE)として表わすことができることを示している。
本稿では, ハイトフルミーム検出を共通性原理を用いたATE推定とみなすことができ, 3つのトランスフォーマーモデルの異なる挙動を示す勾配に基づく注意スコアを要約した。
さらに、LLM Llama-2は、文脈内学習による検出の交叉面を識別でき、学習過程は、二次的な勾配であるメタグラディエントによって説明できることを明らかにした。
結論として、この研究は因果性とXAIに関する対話をさらに深めている。
私たちのコードはオンラインで利用可能です(外部リソースのセクションを参照)。
Amidst the rapid expansion of Machine Learning (ML) and Large Language Models (LLMs), understanding the semantics within their mechanisms is vital. Causal analyses define semantics, while gradient-based methods are essential to eXplainable AI (XAI), interpreting the model's 'black box'. Integrating these, we investigate how a model's mechanisms reveal its causal effect on evidence-based decision-making. Research indicates intersectionality - the combined impact of an individual's demographics - can be framed as an Average Treatment Effect (ATE). This paper demonstrates that hateful meme detection can be viewed as an ATE estimation using intersectionality principles, and summarized gradient-based attention scores highlight distinct behaviors of three Transformer models. We further reveal that LLM Llama-2 can discern the intersectional aspects of the detection through in-context learning and that the learning process could be explained via meta-gradient, a secondary form of gradient. In conclusion, this work furthers the dialogue on Causality and XAI. Our code is available online (see External Resources section). | 翻訳日:2024-03-27 03:28:06 公開日:2024-03-23 |
# フェデレーション・ラーニング評価に関する調査 : 目標と対策
A Survey for Federated Learning Evaluations: Goals and Measures ( http://arxiv.org/abs/2308.11841v2 ) ライセンス: Link先を確認 | Di Chai, Leye Wang, Liu Yang, Junxue Zhang, Kai Chen, Qiang Yang, | (参考訳) 評価とは、システムが意図した目的をどの程度達成するかを評価するための体系的なアプローチである。
Federated Learning(FL)は、プライバシ保護機械学習のための新しいパラダイムであり、複数のパーティが機密データを共有せずにモデルを協調的にトレーニングすることができる。
しかし、FLの評価は、学際的な性質と、実用性、効率性、セキュリティといった様々な目標のために困難である。
本調査ではまず,既存の研究で採用されている主要な評価目標について概観し,その評価指標について検討する。
我々はまた、FLアルゴリズムの実用性、効率、セキュリティの観点から標準化され包括的な評価フレームワークを提供するオープンソースプラットフォームであるFedEvalを紹介します。
最後に,FL評価の課題と今後の研究方向性について述べる。
Evaluation is a systematic approach to assessing how well a system achieves its intended purpose. Federated learning (FL) is a novel paradigm for privacy-preserving machine learning that allows multiple parties to collaboratively train models without sharing sensitive data. However, evaluating FL is challenging due to its interdisciplinary nature and diverse goals, such as utility, efficiency, and security. In this survey, we first review the major evaluation goals adopted in the existing studies and then explore the evaluation metrics used for each goal. We also introduce FedEval, an open-source platform that provides a standardized and comprehensive evaluation framework for FL algorithms in terms of their utility, efficiency, and security. Finally, we discuss several challenges and future research directions for FL evaluation. | 翻訳日:2024-03-27 03:28:06 公開日:2024-03-23 |
# 量子状態のマヨラナ表現について
A note on Majorana representation of quantum states ( http://arxiv.org/abs/2308.14765v3 ) ライセンス: Link先を確認 | Chi-Kwong Li, Mikio Nakahara, | (参考訳) マヨラナ表現により、任意の$d > 1$に対して、ブロッホ球面の$d-1$点として表される次元$d$と$d-1$ qubitsの量子状態の間の1対1対応が存在する。
テンソルの対称性クラスの理論を用いて、ブロッホ球面上の$d-1$点と対応する$d-1$ qubitsを$d$次元量子状態を表す単純なスキームを示す。
さらに、2つの$d$次元量子状態の内部積が、それらの$(d-1)$-qubit状態表現に関連する行列の永久的に表現できることを示す。
結果の混合状態への拡張も検討されている。
By the Majorana representation, for any $d > 1$ there is a one-one correspondence between a quantum state of dimension $d$ and $d-1$ qubits represented as $d-1$ points in the Bloch sphere. Using the theory of symmetry class of tensors, we present a simple scheme for constructing $d-1$ points on the Bloch sphere and the corresponding $d-1$ qubits representing a $d$-dimensional quantum state. Additionally, we demonstrate how the inner product of two $d$-dimensional quantum states can be expressed as a permanent of a matrix related to their $(d-1)$-qubit state representations. Extension of the result to mixed states is also considered. | 翻訳日:2024-03-27 03:17:47 公開日:2024-03-23 |
# 量子コヒーレンスにより自律熱機械におけるマルチタスクとマルチソースのハイブリッド化が可能に
Quantum coherence enables hybrid multitask and multisource regimes in autonomous thermal machines ( http://arxiv.org/abs/2308.16080v2 ) ライセンス: Link先を確認 | Kenza Hammam, Gonzalo Manzano, Gabriele De Chiara, | (参考訳) 非平衡効果は、冷却やヒートポンプといった熱力学的タスクを行う熱デバイスの性能に重大な影響を与える可能性がある。
量子コヒーレンスによる熱力学的操作の性能向上の可能性は特に興味深いが、熱を適切に評価し、量子レベルでの作業が必要である。
本研究では,三段式機械を駆動する熱貯水池に少量のコヒーレンスが存在することにより,異なる資源を組み合わせて1つの熱力学的タスクを行う,あるいは複数のタスクを同時に実行する,複合およびハイブリッドな動作モードの出現を可能にすることを実証する。
我々は,これらのコヒーレンス対応動作モードの性能を,そのパワーと効率を得るために決定する。
ハイブリッドレジームの場合、高温浴におけるコヒーレンスの存在は、高効率を維持しながら、電力の増大を可能にする。
一方、コントラストのある行動が出現すると、コヒーレンスは出力と効率に有害な影響を及ぼす。
Non-equilibrium effects may have a profound impact on the performance of thermal devices performing thermodynamic tasks such as refrigeration or heat pumping. The possibility of enhancing the performance of thermodynamic operations by means of quantum coherence is of particular interest but requires an adequate characterization of heat and work at the quantum level. In this work, we demonstrate that the presence of even small amounts of coherence in the thermal reservoirs powering a three-terminal machine, enables the appearance of combined and hybrid modes of operation, where either different resources are combined to perform a single thermodynamic task, or more than one task is performed at the same time. We determine the performance of such coherence-enabled modes of operation obtaining their power and efficiency. In the case of hybrid regimes, the presence of coherence in the hot bath allows for an increase in power while maintaining high efficiencies. On the other hand, in combined regimes, a contrasting behavior emerges whereby coherence has a detrimental impact on power output and efficiency. | 翻訳日:2024-03-27 03:17:47 公開日:2024-03-23 |
# ジェネレーティブレコメンデーションのための大規模言語モデル:調査と幻想的考察
Large Language Models for Generative Recommendation: A Survey and Visionary Discussions ( http://arxiv.org/abs/2309.01157v2 ) ライセンス: Link先を確認 | Lei Li, Yongfeng Zhang, Dugang Liu, Li Chen, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)の分野に革命をもたらしただけでなく、他の多くの分野、例えばレコメンダシステム(RS)を再構築する可能性も持っている。
しかしながら、関連する研究の大部分は、LLMを従来のレコメンデーションパイプライン(例えば、特徴抽出器)の構成要素として扱い、LLMの生成力を十分に活用できない可能性がある。
レコメンデーションプロセスをスコア計算や再ランクといった複数のステージに分離する代わりに、このプロセスはLLMで1つのステージに単純化することができる。
本調査は,3つの質問に答えて,LCMによるジェネレーティブレコメンデーションの進展,方法,今後の方向性を概観する。
1) 生成的勧告とは何か
2)なぜRSがジェネレーティブレコメンデーションに進むべきか,そして
3)様々なRSタスクに対してLLMベースの生成レコメンデーションを実装する方法について検討する。
この調査が、この興味深い新しいトピックを探求するために必要なコンテキストとガイダンスを提供することを期待しています。
Large language models (LLM) not only have revolutionized the field of natural language processing (NLP) but also have the potential to reshape many other fields, e.g., recommender systems (RS). However, most of the related work treats an LLM as a component of the conventional recommendation pipeline (e.g., as a feature extractor), which may not be able to fully leverage the generative power of LLM. Instead of separating the recommendation process into multiple stages, such as score computation and re-ranking, this process can be simplified to one stage with LLM: directly generating recommendations from the complete pool of items. This survey reviews the progress, methods, and future directions of LLM-based generative recommendation by examining three questions: 1) What generative recommendation is, 2) Why RS should advance to generative recommendation, and 3) How to implement LLM-based generative recommendation for various RS tasks. We hope that this survey can provide the context and guidance needed to explore this interesting and emerging topic. | 翻訳日:2024-03-27 03:17:47 公開日:2024-03-23 |
# コントラストWSD:メタファー同定法による単語センスの曖昧化によるメタファー検出の促進
ContrastWSD: Enhancing Metaphor Detection with Word Sense Disambiguation Following the Metaphor Identification Procedure ( http://arxiv.org/abs/2309.03103v2 ) ライセンス: Link先を確認 | Mohamad Elzohbi, Richard Zhao, | (参考訳) 本稿では,メタファー識別法(MIP)とワードセンス曖昧化(WSD)を統合したRoBERTaを用いたメタファ検出モデルであるContrastWSDを提案する。
WSDモデルから派生した単語感覚を利用することで、メタファ検出プロセスを強化し、文脈的な埋め込みのみに依存したり、基本的な定義や外部知識のみを統合する他の手法より優れています。
我々は,様々なベンチマークデータセットに対するアプローチを評価し,それを強力なベースラインと比較し,メタファ検出の促進効果を示す。
This paper presents ContrastWSD, a RoBERTa-based metaphor detection model that integrates the Metaphor Identification Procedure (MIP) and Word Sense Disambiguation (WSD) to extract and contrast the contextual meaning with the basic meaning of a word to determine whether it is used metaphorically in a sentence. By utilizing the word senses derived from a WSD model, our model enhances the metaphor detection process and outperforms other methods that rely solely on contextual embeddings or integrate only the basic definitions and other external knowledge. We evaluate our approach on various benchmark datasets and compare it with strong baselines, indicating the effectiveness in advancing metaphor detection. | 翻訳日:2024-03-27 03:17:47 公開日:2024-03-23 |
# InstaFlow: 高品質な拡散ベースのテキスト-画像生成のための一歩
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation ( http://arxiv.org/abs/2309.06380v2 ) ライセンス: Link先を確認 | Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, Qiang Liu, | (参考訳) 拡散モデルは、その例外的な品質と創造性によって、テキストから画像生成に革命をもたらした。
しかし、その多段階サンプリングプロセスは遅く、良好な結果を得るためには数十の推論ステップが必要になることが知られている。
従来の蒸留によるサンプリング速度の向上と計算コスト削減の試みは,機能的なワンステップモデルの実現には成功しなかった。
本稿では,これまで小さなデータセットにのみ適用されてきたRectified Flowという手法について検討する。
Rectified Flowのコアは、確率フローの軌跡を直線化し、ノイズと画像の結合を洗練し、学生モデルによる蒸留プロセスを容易にする、 \emph{reflow} プロセスにある。
安定拡散(SD)を超高速な1ステップモデルに変換するための,新しいテキスト条件付きパイプラインを提案する。
新しいパイプラインを活用して、私たちの知る限り、SDレベルの画質を持つ最初のワンステップ拡散ベースのテキスト・ツー・イメージジェネレータを作り、以前の最先端技術であるプログレッシブ蒸留を抜いて23.3ドルのFID(Frechet Inception Distance)をMS COCO 2017-5kで達成した(Frechet Inception Distance)。
1.7Bパラメータを持つ拡張ネットワークを利用することで、FIDをさらに22.4$に改善する。
当社のワンステップモデルをemph{InstaFlow}と呼びます。
MS COCO 2014-30kでは、InstaFlowのFIDは$13.1$ in just $0.09$ second, the best in $\leq 0.1$ second regime、最近のStyleGAN-T (13.9$ in $0.1$ second)を上回っている。
特に、InstaFlowのトレーニングには199 A100 GPU日しかかからない。
コードと事前訓練されたモデルは \url{github.com/gnobitab/InstaFlow} で入手できる。
Diffusion models have revolutionized text-to-image generation with its exceptional quality and creativity. However, its multi-step sampling process is known to be slow, often requiring tens of inference steps to obtain satisfactory results. Previous attempts to improve its sampling speed and reduce computational costs through distillation have been unsuccessful in achieving a functional one-step model. In this paper, we explore a recent method called Rectified Flow, which, thus far, has only been applied to small datasets. The core of Rectified Flow lies in its \emph{reflow} procedure, which straightens the trajectories of probability flows, refines the coupling between noises and images, and facilitates the distillation process with student models. We propose a novel text-conditioned pipeline to turn Stable Diffusion (SD) into an ultra-fast one-step model, in which we find reflow plays a critical role in improving the assignment between noise and images. Leveraging our new pipeline, we create, to the best of our knowledge, the first one-step diffusion-based text-to-image generator with SD-level image quality, achieving an FID (Frechet Inception Distance) of $23.3$ on MS COCO 2017-5k, surpassing the previous state-of-the-art technique, progressive distillation, by a significant margin ($37.2$ $\rightarrow$ $23.3$ in FID). By utilizing an expanded network with 1.7B parameters, we further improve the FID to $22.4$. We call our one-step models \emph{InstaFlow}. On MS COCO 2014-30k, InstaFlow yields an FID of $13.1$ in just $0.09$ second, the best in $\leq 0.1$ second regime, outperforming the recent StyleGAN-T ($13.9$ in $0.1$ second). Notably, the training of InstaFlow only costs 199 A100 GPU days. Codes and pre-trained models are available at \url{github.com/gnobitab/InstaFlow}. | 翻訳日:2024-03-27 03:17:47 公開日:2024-03-23 |
# Spiking-LEAF: ニューラルネットワークをスパイクするための学習可能な聴覚フロントエンド
Spiking-LEAF: A Learnable Auditory front-end for Spiking Neural Networks ( http://arxiv.org/abs/2309.09469v2 ) ライセンス: Link先を確認 | Zeyang Song, Jibin Wu, Malu Zhang, Mike Zheng Shou, Haizhou Li, | (参考訳) 脳にインスパイアされたスパイクニューラルネットワーク(SNN)は、時間信号処理に大きな可能性を示している。
しかし, 音声処理におけるその性能は, 効果的な聴覚フロントエンドが欠如しているため, 依然として限られている。
この制限に対処するため,SNNに基づく音声処理のための学習可能なフロントエンドであるSpking-LEAFを導入する。
Spiking-LEAFは、学習可能なフィルターバンクと、IHC-LIFと呼ばれる新しい2成分スパイキングニューロンモデルを組み合わせる。
IHC-LIFニューロンは、内毛細胞(IHC)の構造からインスピレーションを受け、分離した樹状体と体細胞複合体を利用して、音声信号のマルチスケール時間的ダイナミクスを効果的に捉える。
さらに、IHC-LIFニューロンは、スパイク符号化効率を高めるために、スパイク正規化損失とともに横方向のフィードバック機構を組み込んでいる。
キーワードスポッティングと話者識別タスクにおいて、提案したSpking-LEAFは、分類精度、ノイズロバスト性、符号化効率の点で、SOTAスパイク聴覚フロントエンドと従来の実数値音響特性の両方に優れる。
Brain-inspired spiking neural networks (SNNs) have demonstrated great potential for temporal signal processing. However, their performance in speech processing remains limited due to the lack of an effective auditory front-end. To address this limitation, we introduce Spiking-LEAF, a learnable auditory front-end meticulously designed for SNN-based speech processing. Spiking-LEAF combines a learnable filter bank with a novel two-compartment spiking neuron model called IHC-LIF. The IHC-LIF neurons draw inspiration from the structure of inner hair cells (IHC) and they leverage segregated dendritic and somatic compartments to effectively capture multi-scale temporal dynamics of speech signals. Additionally, the IHC-LIF neurons incorporate the lateral feedback mechanism along with spike regularization loss to enhance spike encoding efficiency. On keyword spotting and speaker identification tasks, the proposed Spiking-LEAF outperforms both SOTA spiking auditory front-ends and conventional real-valued acoustic features in terms of classification accuracy, noise robustness, and encoding efficiency. | 翻訳日:2024-03-27 03:07:37 公開日:2024-03-23 |
# 未知ダイナミクスのための暗黙的神経表現を用いた潜時同化
Latent assimilation with implicit neural representations for unknown dynamics ( http://arxiv.org/abs/2309.09574v2 ) ライセンス: Link先を確認 | Zhuoyuan Li, Bin Dong, Pingwen Zhang, | (参考訳) データ同化は幅広いアプリケーションにおいて重要であるが、データ次元性による高い計算コストや、基礎となるメカニズムの不完全な理解といった課題に直面していることが多い。
これらの課題に対処するため、本研究では、LAINR(Latent Assimilation with Implicit Neural Representations)と呼ばれる新しい同化フレームワークを提案する。
Spherical Implicit Neural Representation (SINR)とデータ駆動型ニューラルネットワークの不確実性推定器を導入することにより、LAINRは同化過程における効率を向上させる。
実験結果から,LAINRはAutoEncoderをベースとした既存の手法に対して,精度と効率の両面で一定の優位性を持っていることが示唆された。
Data assimilation is crucial in a wide range of applications, but it often faces challenges such as high computational costs due to data dimensionality and incomplete understanding of underlying mechanisms. To address these challenges, this study presents a novel assimilation framework, termed Latent Assimilation with Implicit Neural Representations (LAINR). By introducing Spherical Implicit Neural Representations (SINR) along with a data-driven uncertainty estimator of the trained neural networks, LAINR enhances efficiency in assimilation process. Experimental results indicate that LAINR holds certain advantage over existing methods based on AutoEncoders, both in terms of accuracy and efficiency. | 翻訳日:2024-03-27 03:07:37 公開日:2024-03-23 |
# K-pop Lyric Translation:データセット,解析,ニューラルモデリング
K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling ( http://arxiv.org/abs/2309.11093v3 ) ライセンス: Link先を確認 | Haven Kim, Jongmin Jung, Dasaem Jeong, Juhan Nam, | (参考訳) 歌詞翻訳は1世紀以上にわたって研究されてきた分野であり、現在では計算言語学の研究者を惹きつけている。
我々は以前の研究で2つの限界を特定した。
第一に、歌詞翻訳の研究は西洋のジャンルや言語に重点を置いており、その人気にもかかわらずK-popを中心にした以前の研究は行われていない。
第二に、歌詞翻訳の分野は、公開データセットの欠如に悩まされており、私たちの知る限り、そのようなデータセットは存在しない。
歌詞翻訳研究におけるジャンルや言語の範囲を広げるために,K-popの歌詞からなる歌詞翻訳データセットを新たに導入する。
このデータセットは、韓国語と英語の歌詞を並べて、セクションごとに並べる。
我々は、このデータセットを利用して、K-pop歌詞翻訳の特徴を明らかにし、他の広く研究されているジャンルと区別し、ニューラル・歌詞翻訳モデルを構築し、歌唱可能な歌詞翻訳のための専用のデータセットの重要性を強調した。
Lyric translation, a field studied for over a century, is now attracting computational linguistics researchers. We identified two limitations in previous studies. Firstly, lyric translation studies have predominantly focused on Western genres and languages, with no previous study centering on K-pop despite its popularity. Second, the field of lyric translation suffers from a lack of publicly available datasets; to the best of our knowledge, no such dataset exists. To broaden the scope of genres and languages in lyric translation studies, we introduce a novel singable lyric translation dataset, approximately 89\% of which consists of K-pop song lyrics. This dataset aligns Korean and English lyrics line-by-line and section-by-section. We leveraged this dataset to unveil unique characteristics of K-pop lyric translation, distinguishing it from other extensively studied genres, and to construct a neural lyric translation model, thereby underscoring the importance of a dedicated dataset for singable lyric translations. | 翻訳日:2024-03-27 03:07:37 公開日:2024-03-23 |
# 安定配置のための外部接触パッチの触覚推定
Tactile Estimation of Extrinsic Contact Patch for Stable Placement ( http://arxiv.org/abs/2309.14552v2 ) ライセンス: Link先を確認 | Kei Ota, Devesh K. Jha, Krishna Murthy Jatavallabhula, Asako Kanezaki, Joshua B. Tenenbaum, | (参考訳) ロボットのきめ細かい操作には, 接触の正確な認識が不可欠である。
本稿では,複雑な物体を積み重ねることを学ぶロボットのフィードバックスキルの設計について述べる(図1参照)。
このようなシステムを設計するには、ロボットは、非常に穏やかな接触相互作用から配置の安定性を判断できる必要がある。
その結果,物体と環境との接触形成過程において,触覚情報に基づいて物体配置の安定性を推定できることが示唆された。
特に,把握対象と環境との接触パッチを力と触覚観測を用いて推定し,接触形成時の物体の安定性を推定する。
接触パッチを用いて、グリップの解放時の物体の安定性を推定することができる。
提案手法は,非常に人気のあるボードゲームで使用される様々なオブジェクトのペアで実証される。
Precise perception of contact interactions is essential for fine-grained manipulation skills for robots. In this paper, we present the design of feedback skills for robots that must learn to stack complex-shaped objects on top of each other (see Fig.1). To design such a system, a robot should be able to reason about the stability of placement from very gentle contact interactions. Our results demonstrate that it is possible to infer the stability of object placement based on tactile readings during contact formation between the object and its environment. In particular, we estimate the contact patch between a grasped object and its environment using force and tactile observations to estimate the stability of the object during a contact formation. The contact patch could be used to estimate the stability of the object upon release of the grasp. The proposed method is demonstrated in various pairs of objects that are used in a very popular board game. | 翻訳日:2024-03-27 03:07:37 公開日:2024-03-23 |
# ソフトコア相互作用を持つ2次元フェルミガスの反発からのペアリング
Pairing from repulsion in a two-dimensional Fermi gas with soft-core interactions ( http://arxiv.org/abs/2309.17362v2 ) ライセンス: Link先を確認 | Ahmet Keles, Xiaopeng Li, Erhai Zhao, | (参考訳) 2次元のスピンレスフェルミガスのモデル多体系について検討し, 素体相互作用は反発的であり, ソフトコアディスク電位の形を取る。
数値関数的再正規化群 (FRG) を用いて, このモデルの零温度位相図を得る。
この反発は、例えば$p$-や$h$-waveチャネルの代わりに$f$-や$h$-waveチャネルにおいて、より高い角運動量パーリングを持つ一連の超流動状態へとシステムを駆動する。
これは、非常に大きな角モータと指数的に小さな遷移温度のペアリングが予測された元のコーン・ラッティンガー機構とは対照的である。
我々は、素の相互作用の運動量依存性に遡って、$f$-および$h$-waveペアリングの安定化と強化をたどる。
摂動計算を行い、第2次コーン・ラッティンガー図は様々な超流動相のオンセットの定性的理解を提供するが、FRGによって予測される位相境界を正確に捉えることができないことを示す。
この結果から, 相互作用ポテンシャルの形状の調整は, より強い「対向接着剤」を達成し, 元のコーン・ラッティンガー解析の範囲を超えて, フェルミ気体の非自明な超流動相を実現するための有望な経路となることが示唆された。
We investigate a model many-body system of spinless Fermi gas in two dimensions, where the bare two-body interaction is repulsive and takes the form of a soft-core disk potential. We obtain the zero temperature phase diagram of this model by numerical functional renormalization group (FRG), which retains the effective interaction vertices in all channels to provide a detailed picture of how Cooper pairing emerges under the renormalization flow. The repulsion drives the system to a series of superfluid states with higher angular momentum paring, for example in the $f$- and $h$-wave channels instead of the $p$-wave channel. This is in sharp contrast to the original Kohn-Luttinger mechanism where pairing of very large angular momenta and exponentially small transition temperature was predicted. We trace the stabilization and enhancement of $f$- and $h$-wave pairing back to the momentum dependence of the bare interaction. A perturbative calculation is carried out to show that while the second order Kohn-Luttinger diagrams provide a qualitative understanding of the onsets of the various superfluid phases, they are unable to accurately capture the phase boundaries predicted by FRG. Our findings suggest that tuning the shape of the interaction potential offers a promising route to achieve stronger ``pairing glue" and to realize nontrivial superfluid phases in repulsive Fermi gases beyond the scope of the original Kohn-Luttinger analysis. | 翻訳日:2024-03-27 02:57:27 公開日:2024-03-23 |
# エクアリングによる抽出混合モデル:表現と学習
Subtractive Mixture Models via Squaring: Representation and Learning ( http://arxiv.org/abs/2310.00724v2 ) ライセンス: Link先を確認 | Lorenzo Loconte, Aleksanteri M. Sladek, Stefan Mengel, Martin Trapp, Arno Solin, Nicolas Gillis, Antonio Vergari, | (参考訳) 混合モデルは伝統的に、いくつかの分布をコンポーネントとして追加することによって表現され、学習される。
確率質量や密度を減じるために混合物を与えると、複雑な分布をモデル化するのに必要な成分の数が劇的に減少する。
しかし、そのような減算混合を学習し、非負の関数を符号化し続けることは困難である。
そこで本研究では, 深層抽出混合物の抽出と解析について検討した。
確率回路の枠組みでこれを行えば、テンソル化混合を表現でき、他のいくつかの減算的モデルを一般化できる。
理論的には, 減算が可能な正方形回路のクラスは, 従来の添加剤の混合よりも指数関数的に表現可能であることを証明し, 実世界の分布推定タスクにおいて, この表現性の増加を実証的に示す。
Mixture models are traditionally represented and learned by adding several distributions as components. Allowing mixtures to subtract probability mass or density can drastically reduce the number of components needed to model complex distributions. However, learning such subtractive mixtures while ensuring they still encode a non-negative function is challenging. We investigate how to learn and perform inference on deep subtractive mixtures by squaring them. We do this in the framework of probabilistic circuits, which enable us to represent tensorized mixtures and generalize several other subtractive models. We theoretically prove that the class of squared circuits allowing subtractions can be exponentially more expressive than traditional additive mixtures; and, we empirically show this increased expressiveness on a series of real-world distribution estimation tasks. | 翻訳日:2024-03-27 02:57:27 公開日:2024-03-23 |
# 足ロボットのための完全スパイクニューラルネットワーク
Fully Spiking Neural Network for Legged Robots ( http://arxiv.org/abs/2310.05022v2 ) ライセンス: Link先を確認 | Xiaoyang Jiang, Qiang Zhang, Jingkai Sun, Jiahang Cao, Jingtong Ma, Renjing Xu, | (参考訳) 近年,深層強化学習に基づく脚型ロボットが目覚ましい進歩を遂げている。
四足歩行ロボットは複雑な環境で挑戦的なタスクを完了させる能力を示しており、人間を助けるために現実世界のシナリオに展開されてきた。
同時に、二足歩行ロボットとヒューマノイドロボットは、様々な必要なタスクにおいてブレークスルーを達成した。
現在の強化学習手法は、多様なロボットの身体と過去の情報を活用して行動を起こすことができる。
しかし、以前の研究では、ネットワーク推論の速度とエネルギー消費、およびニューラルネットワーク自体の生物学的意義を強調していなかった。
使用されるネットワークのほとんどは、多層パーセプトロン(MLP)を利用する従来の人工ニューラルネットワークである。
本稿では,足歩行ロボットの処理に新しいスパイキングニューラルネットワーク(SNN)を応用し,シミュレーションされた地形にまたがる優れた結果を得た。
SNNは、推論速度とエネルギー消費の観点から、従来のニューラルネットワークよりも自然な優位性を持ち、身体知覚信号のパルス波形処理により、生物学的解釈性が向上する。
よりバイオミメティックなニューラルネットワークを脚のあるロボットに適用することで、ニューラルネットワークの高消費電力による熱散逸と構造的負担をさらに軽減することができる。
我々の知る限りでは、脚のあるロボットにSNNを実装するのはこれが初めてだ。
In recent years, legged robots based on deep reinforcement learning have made remarkable progress. Quadruped robots have demonstrated the ability to complete challenging tasks in complex environments and have been deployed in real-world scenarios to assist humans. Simultaneously, bipedal and humanoid robots have achieved breakthroughs in various demanding tasks. Current reinforcement learning methods can utilize diverse robot bodies and historical information to perform actions. However, prior research has not emphasized the speed and energy consumption of network inference, as well as the biological significance of the neural networks themselves. Most of the networks employed are traditional artificial neural networks that utilize multilayer perceptrons (MLP). In this paper, we successfully apply a novel Spiking Neural Network (SNN) to process legged robots, achieving outstanding results across a range of simulated terrains. SNN holds a natural advantage over traditional neural networks in terms of inference speed and energy consumption, and their pulse-form processing of body perception signals offers improved biological interpretability. Applying more biomimetic neural networks to legged robots can further reduce the heat dissipation and structural burden caused by the high power consumption of neural networks. To the best of our knowledge, this is the first work to implement SNN in legged robots. | 翻訳日:2024-03-27 02:57:27 公開日:2024-03-23 |
# モデル選択によるロバストなマルチモーダル推論に向けて
Towards Robust Multi-Modal Reasoning via Model Selection ( http://arxiv.org/abs/2310.08446v2 ) ライセンス: Link先を確認 | Xiangyan Liu, Rongxue Li, Wei Ji, Tao Lin, | (参考訳) LLM(Large Language Model)の推論能力は、最近の研究で広く認知されており、ツール学習と自律エージェントの研究を刺激している。
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
簡単なタスクのために電卓や天気予報APIなどのツールを呼び出す方法とは異なり、複雑な課題のために多様なAIモデルを統合することで、マルチモーダルエージェントが優れている。
しかし、現在のマルチモーダルエージェントはモデル選択の重要性を無視しており、主に計画と実行フェーズに重点を置いており、各サブタスクに対して事前に定義されたタスク固有のモデルを起動するだけで、実行が脆弱になる。
一方、他の伝統的なモデル選択手法は、マルチステップの推論によって生じるサブタスク間の依存関係を無視するため、マルチモーダルエージェントのシナリオに不適合または最適である。
この目的のために、主要な課題を特定し、テスト時に無視できるランタイムオーバーヘッドを持つプラグインとして$\textit{M}^3$フレームワークを提案する。
このフレームワークはモデル選択を改善し、マルチステップ推論におけるマルチモーダルエージェントの堅牢性を高める。
適切なベンチマークがなければ、マルチモーダルエージェントのモデル選択課題を調査するための新しいデータセットであるMS-GQAを作成する。
実験の結果,我々のフレームワークはユーザ入力とサブタスク依存の両方を考慮した動的モデル選択が可能であり,全体としての推論プロセスの堅牢化を実現していることがわかった。
私たちのコードとベンチマークは、https://github.com/LINs-lab/M3。
The reasoning capabilities of LLM (Large Language Model) are widely acknowledged in recent research, inspiring studies on tool learning and autonomous agents. LLM serves as the "brain" of the agent, orchestrating multiple tools for collaborative multi-step task solving. Unlike methods invoking tools like calculators or weather APIs for straightforward tasks, multi-modal agents excel by integrating diverse AI models for complex challenges. However, current multi-modal agents neglect the significance of model selection: they primarily focus on the planning and execution phases, and will only invoke predefined task-specific models for each subtask, making the execution fragile. Meanwhile, other traditional model selection methods are either incompatible with or suboptimal for the multi-modal agent scenarios, due to ignorance of dependencies among subtasks arising by multi-step reasoning. To this end, we identify the key challenges therein and propose the $\textit{M}^3$ framework as a plug-in with negligible runtime overhead at test-time. This framework improves model selection and bolsters the robustness of multi-modal agents in multi-step reasoning. In the absence of suitable benchmarks, we create MS-GQA, a new dataset specifically designed to investigate the model selection challenge in multi-modal agents. Our experiments reveal that our framework enables dynamic model selection, considering both user inputs and subtask dependencies, thereby robustifying the overall reasoning process. Our code and benchmark: https://github.com/LINs-lab/M3. | 翻訳日:2024-03-27 02:45:56 公開日:2024-03-23 |
# 分子設計のためのカーネル・弾性オートエンコーダ
Kernel-Elastic Autoencoder for Molecular Design ( http://arxiv.org/abs/2310.08685v2 ) ライセンス: Link先を確認 | Haote Li, Yu Shee, Brandon Allen, Federica Maschietto, Victor Batista, | (参考訳) 本稿では,トランスアーキテクチャに基づく自己教師型生成モデルであるKernel-Elastic Autoencoder (KAE)を紹介する。
KAEは2つの新しい損失関数に基づいて定式化されている。
KAEは、有効な生成と正確な再構築を同時に達成するという長年にわたる課題に対処する。
KAEは、従来の分子生成モデルを超えながら、独立テストデータセット上でほぼ完璧な再構成を維持しながら、分子生成において顕著な多様性を実現している。
KAEは条件付き生成を可能にし、制約付き最適化における最先端性能をもたらすビームサーチに基づく復号を可能にする。
さらに、KAEは、AutoDock VinaとGlideのスコアが確認したように、ドッキングアプリケーションにおいて好ましい結合親和性を示す分子を生成することができ、トレーニングデータセットから既存のすべての候補より優れています。
分子設計以外では、KAEは広範囲の応用で生成することで問題を解決することができると期待している。
We introduce the Kernel-Elastic Autoencoder (KAE), a self-supervised generative model based on the transformer architecture with enhanced performance for molecular design. KAE is formulated based on two novel loss functions: modified maximum mean discrepancy and weighted reconstruction. KAE addresses the long-standing challenge of achieving valid generation and accurate reconstruction at the same time. KAE achieves remarkable diversity in molecule generation while maintaining near-perfect reconstructions on the independent testing dataset, surpassing previous molecule-generating models. KAE enables conditional generation and allows for decoding based on beam search resulting in state-of-the-art performance in constrained optimizations. Furthermore, KAE can generate molecules conditional to favorable binding affinities in docking applications as confirmed by AutoDock Vina and Glide scores, outperforming all existing candidates from the training dataset. Beyond molecular design, we anticipate KAE could be applied to solve problems by generation in a wide range of applications. | 翻訳日:2024-03-27 02:45:56 公開日:2024-03-23 |
# Fast-DiM: 高速拡散モルフを目指して
Fast-DiM: Towards Fast Diffusion Morphs ( http://arxiv.org/abs/2310.09484v2 ) ライセンス: Link先を確認 | Zander W. Blasingame, Chen Liu, | (参考訳) ディフュージョン・モルフ (Diffusion Morphs, DiM) は, 高品質な顔形態を生成するための最近の最先端手法である。
本研究では、確率フローODEの解法に使用されるODEソルバと、顔形態の生成に与える影響について検討する。
さらに、時間経過とともに確率フローODEを解くことにより、拡散モデルの潜在空間に画像を符号化する別の方法を用いる。
MMPMR (Mated Morph Presentation Match Rate) の1.6%しか低下せず, 符号化過程においてNFEを85%以上削減できることを示した。
同様に, 試料中のNFEを最大0.23%のMMPMRで半減し, 半減できることを示した。
Diffusion Morphs (DiM) are a recent state-of-the-art method for creating high quality face morphs; however, they require a high number of network function evaluations (NFE) to create the morphs.We propose a new DiM pipeline, Fast-DiM, which can create morphs of a similar quality but with lower NFE. We investigate the ODE solvers used to solve the Probability Flow ODE and the impact they have on the the creation of face morphs. Additionally, we employ an alternative method for encoding images into the latent space of the Diffusion model by solving the Probability Flow ODE as time runs forwards. Our experiments show that we can reduce the NFE by upwards of 85% in the encoding process while experiencing only 1.6% reduction in Mated Morph Presentation Match Rate (MMPMR). Likewise, we showed we could cut NFE, in the sampling process, in half with only a maximal reduction of 0.23% in MMPMR. | 翻訳日:2024-03-27 02:45:56 公開日:2024-03-23 |
# KGQuiz:大規模言語モデルにおける符号化知識の一般化の評価
KGQuiz: Evaluating the Generalization of Encoded Knowledge in Large Language Models ( http://arxiv.org/abs/2310.09725v3 ) ライセンス: Link先を確認 | Yuyang Bai, Shangbin Feng, Vidhisha Balachandran, Zhaoxuan Tan, Shiqi Lou, Tianxing He, Yulia Tsvetkov, | (参考訳) 大規模言語モデル(LLM)は、知識集約的なタスクにおいて顕著な性能を示し、実世界の知識がモデルパラメータにエンコードされていることを示唆している。
しかし、限られた知識領域におけるいくつかの探索課題の他に、LLMの知識を体系的に評価する方法や、その知識能力がいかに一般化するかは、知識領域と漸進的に複雑なタスク形式でよく理解されていない。
そこで本研究では,LLMの知識一般化能力を総合的に研究するための知識集約型ベンチマークであるKGQuizを提案する。
KGQuizは3つの知識ドメインをカバーするスケーラブルなフレームワークで、複雑さを増す5つのタスクで構成されている。
我々は,LLMの知識能力とその一般化をより深く理解するために,KGQuizベンチマークを用いて,5つの知識集約タスクと知識領域の10個のオープンソースおよびブラックボックスLSMを評価した。
大規模な実験では、LLMは簡単な知識のQAタスクにおいて印象的なパフォーマンスを達成する一方で、より複雑な推論やドメイン固有の事実の活用を必要とする設定やコンテキストは依然として重大な課題を呈している。
我々は、KGQuizを、ドメインやタスクフォーマットにまたがるこのような微妙なパフォーマンスの変化を分析し、最終的には、幅広い知識領域やタスクにわたってLLMの知識能力を理解し、評価し、改善するテストベッドとして想定する。
Large language models (LLMs) demonstrate remarkable performance on knowledge-intensive tasks, suggesting that real-world knowledge is encoded in their model parameters. However, besides explorations on a few probing tasks in limited knowledge domains, it is not well understood how to evaluate LLMs' knowledge systematically and how well their knowledge abilities generalize, across a spectrum of knowledge domains and progressively complex task formats. To this end, we propose KGQuiz, a knowledge-intensive benchmark to comprehensively investigate the knowledge generalization abilities of LLMs. KGQuiz is a scalable framework constructed from triplet-based knowledge, which covers three knowledge domains and consists of five tasks with increasing complexity: true-or-false, multiple-choice QA, blank filling, factual editing, and open-ended knowledge generation. To gain a better understanding of LLMs' knowledge abilities and their generalization, we evaluate 10 open-source and black-box LLMs on the KGQuiz benchmark across the five knowledge-intensive tasks and knowledge domains. Extensive experiments demonstrate that LLMs achieve impressive performance in straightforward knowledge QA tasks, while settings and contexts requiring more complex reasoning or employing domain-specific facts still present significant challenges. We envision KGQuiz as a testbed to analyze such nuanced variations in performance across domains and task formats, and ultimately to understand, evaluate, and improve LLMs' knowledge abilities across a wide spectrum of knowledge domains and tasks. | 翻訳日:2024-03-27 02:45:56 公開日:2024-03-23 |
# 変分量子回路における絡み合いの役割の解明
Calibrating the role of entanglement in variational quantum circuits ( http://arxiv.org/abs/2310.10885v2 ) ライセンス: Link先を確認 | Azar C. Nakhl, Thomas Quella, Muhammad Usman, | (参考訳) 絡み合い(Entanglement)は量子コンピューティングの重要な性質であり、古典的なものと区別するが、量子アルゴリズム、特に変分量子アルゴリズムのパフォーマンスにおけるその正確な役割はよく理解されていない。
本研究では,量子近似最適化アルゴリズム (QAOA) と量子ニューラルネットワーク (QNN) の2つの変分量子アルゴリズムの動作における絡み合いの役割を,制御された絡み合い環境下での原型問題に対して系統的に解析するためにテンソルネットワーク手法を利用する。
QAOAを用いて解いたMAX-CUT問題に対して, 絡み合い関数としての忠実度は, 層数, グラフ内のエッジのレイアウト, エッジ密度に大きく依存しており, 一般に, 絡み合いの切り離しに対する高いレジリエンスを示すことが示されている。
これは、QAOAの忠実度がシステムの量子ビットあたりの絡み合いに関するスケーリング法則に従うことを示す4層以上のQAOA層に基づく以前の研究とは対照的である。
対照的に、QNNの場合、高いテスト精度のトレーニング回路は高い絡み合いによって支えられ、強制的な絡み合いの制限はテスト精度の急激な低下をもたらす。
これは、QAOAとは異なり、QNNは高い絡み合い状態を生成する量子デバイスを必要とすることを示唆する、一貫して高い回路の絡み合いエントロピーによって裏付けられている。
全体として、我々の研究は、変分量子アルゴリズムの作業における絡み合いの役割をより深く理解し、それらのアルゴリズムをNISQ時代の量子ハードウェア上に実装し、それらの精度を最大化するのに役立つかもしれない。
Entanglement is a key property of quantum computing that separates it from its classical counterpart, however, its exact role in the performance of quantum algorithms, especially variational quantum algorithms, is not well understood. In this work, we utilise tensor network methods to systematically probe the role of entanglement in the working of two variational quantum algorithms, the Quantum Approximate Optimisation Algorithm (QAOA) and Quantum Neural Networks (QNNs), on prototypical problems under controlled entanglement environments. We find that for the MAX-CUT problem solved using QAOA, the fidelity as a function of entanglement is highly dependent on the number of layers, layout of edges in the graph, and edge density, generally exhibiting that a high number of layers indicates a higher resilience to truncation of entanglement. This is in contrast to previous studies based on no more than four QAOA layers which show that the fidelity of QAOA follows a scaling law with respect to the entanglement per qubit of the system. Contrarily, in the case of QNNs, trained circuits with high test accuracies are underpinned by higher entanglement, with any enforced limitation in entanglement resulting in a sharp decline in test accuracy. This is corroborated by the entanglement entropy of these circuits which is consistently high suggesting that, unlike QAOA, QNNs may require quantum devices capable of generating highly entangled states. Overall our work provides a deeper understanding of the role of entanglement in the working of variational quantum algorithms which may help to implement these algorithms on NISQ-era quantum hardware in a way that maximises their accuracies. | 翻訳日:2024-03-27 02:45:56 公開日:2024-03-23 |
# EvalCrafter: 大規模なビデオ生成モデルのベンチマークと評価
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models ( http://arxiv.org/abs/2310.11440v3 ) ライセンス: Link先を確認 | Yaofang Liu, Xiaodong Cun, Xuebo Liu, Xintao Wang, Yong Zhang, Haoxin Chen, Yang Liu, Tieyong Zeng, Raymond Chan, Ying Shan, | (参考訳) ビジョンと言語生成モデルは近年過大評価されている。
ビデオ生成のためには、高品質なビデオを生成するために、様々なオープンソースモデルと公開サービスが開発されている。
しかし、これらの手法は性能を評価するのにいくつかの指標(例えば、FVDやIS)を使うことが多い。
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
そこで本研究では,生成されたビデオの性能を徹底的に評価するための新しいフレームワークとパイプラインを提案する。
提案手法では,実世界のユーザデータを分析し,大規模言語モデルの助けを借りて生成する,700件のプロンプトを多種多様かつ包括的に生成する。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
モデルの最終的なリーダーボードを得るために、客観的な指標をユーザの意見に合わせるために、さらに一連の係数を適合させる。
提案手法に基づいて,提案手法の有効性を示した結果,評価値の平均値よりも高い相関性を示した。
The vision and language generative models have been overgrown in recent years. For video generation, various open-sourced models and public-available services have been developed to generate high-quality videos. However, these methods often use a few metrics, e.g., FVD or IS, to evaluate the performance. We argue that it is hard to judge the large conditional generative models from the simple metrics since these models are often trained on very large datasets with multi-aspect abilities. Thus, we propose a novel framework and pipeline for exhaustively evaluating the performance of the generated videos. Our approach involves generating a diverse and comprehensive list of 700 prompts for text-to-video generation, which is based on an analysis of real-world user data and generated with the assistance of a large language model. Then, we evaluate the state-of-the-art video generative models on our carefully designed benchmark, in terms of visual qualities, content qualities, motion qualities, and text-video alignment with 17 well-selected objective metrics. To obtain the final leaderboard of the models, we further fit a series of coefficients to align the objective metrics to the users' opinions. Based on the proposed human alignment method, our final score shows a higher correlation than simply averaging the metrics, showing the effectiveness of the proposed evaluation method. | 翻訳日:2024-03-27 02:45:56 公開日:2024-03-23 |
# 人工知能の不透明法則
The opaque law of artificial intelligence ( http://arxiv.org/abs/2310.13192v2 ) ライセンス: Link先を確認 | Vincenzo Calderonio, | (参考訳) 本研究の目的は、人工知能の因果関係に関するオープンな議論において、アルゴリズムの不透明性を分析することであり、チューリングテストの会話手法を応用した実験的なアプローチにより、生成型AI(Chat-GPT)の最も優れたNLPモデルの1つの性能評価を行い、それが現在どこまで進むことができるのか、また、その法規制の形がどうあるのかを確かめることである。
問題の分析は、AIの使用の問題を理解するための因果関係、意図、欠陥といったイタリアの古典法カテゴリーのコメントによって支援される。
コンピュータ科学の面では、これらのアルゴリズムを構築するのに使用される論理の技術的な観点から、第2章では、AIの機能のいくつかの重要な点を見つけることを目的とした、Chat-GPTの実践的な尋問が提案される。
論文の最後には、この問題に適用可能な既存の法的ソリューションと、EU人工知能法によって提案されたアプローチの簡単な説明に焦点を当てる。
The purpose of this paper is to analyse the opacity of algorithms, contextualized in the open debate on responsibility for artificial intelligence causation; with an experimental approach by which, applying the proposed conversational methodology of the Turing Test, we expect to evaluate the performance of one of the best existing NLP model of generative AI (Chat-GPT) to see how far it can go right now and how the shape of a legal regulation of it could be. The analysis of the problem will be supported by a comment of Italian classical law categories such as causality, intent and fault to understand the problem of the usage of AI, focusing in particular on the human-machine interaction. On the computer science side, for a technical point of view of the logic used to craft these algorithms, in the second chapter will be proposed a practical interrogation of Chat-GPT aimed at finding some critical points of the functioning of AI. The end of the paper will concentrate on some existing legal solutions which can be applied to the problem, plus a brief description of the approach proposed by EU Artificial Intelligence act. | 翻訳日:2024-03-27 02:45:56 公開日:2024-03-23 |
# MuSR: マルチステップソフト推論によるチェーンの限界テスト
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning ( http://arxiv.org/abs/2310.16049v2 ) ライセンス: Link先を確認 | Zayne Sprague, Xi Ye, Kaj Bostrom, Swarat Chaudhuri, Greg Durrett, | (参考訳) 大きな言語モデル(LLM)にはチェーン・オブ・シークレット・プロンプトのような技術が備わっているが、それでも複雑な設定で堅牢に推論できる能力は不足している。
しかし、LLM推論の評価は、論理的推論のようなタスクのベンチマークデータセットが静的のままである間に、システムの能力が成長し続けているため、難しい。
自然言語ナラティブで指定された多段階のソフト推論タスク上で,言語モデルを評価するためのデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。
まず、新しいニューロシンボリック合成-自然生成アルゴリズムを用いて作成され、GPT-4(例えば、およそ1000ワードのミステリー)に挑戦する複雑な推論インスタンスの構築を可能にし、より有能なLSMが放出されるにつれてさらにスケールすることができる。
第二に、私たちのデータセットインスタンスは、実世界の推論のドメインに対応する無料のテキスト物語です。
我々は、このデータセット上で様々なLSMを評価し、堅牢な推論を行うために、チェーンオブ思考のような技術に残るギャップを特徴づける。
While large language models (LLMs) equipped with techniques like chain-of-thought prompting have demonstrated impressive capabilities, they still fall short in their ability to reason robustly in complex settings. However, evaluating LLM reasoning is challenging because system capabilities continue to grow while benchmark datasets for tasks like logical deduction have remained static. We introduce MuSR, a dataset for evaluating language models on multistep soft reasoning tasks specified in a natural language narrative. This dataset has two crucial features. First, it is created through a novel neurosymbolic synthetic-to-natural generation algorithm, enabling the construction of complex reasoning instances that challenge GPT-4 (e.g., murder mysteries roughly 1000 words in length) and which can be scaled further as more capable LLMs are released. Second, our dataset instances are free text narratives corresponding to real-world domains of reasoning; this makes it simultaneously much more challenging than other synthetically-crafted benchmarks while remaining realistic and tractable for human annotators to solve with high accuracy. We evaluate a range of LLMs and prompting techniques on this dataset and characterize the gaps that remain for techniques like chain-of-thought to perform robust reasoning. | 翻訳日:2024-03-27 02:35:50 公開日:2024-03-23 |
# 古典的および量子イジングマシンの一般学習スキーム
A general learning scheme for classical and quantum Ising machines ( http://arxiv.org/abs/2310.18411v2 ) ライセンス: Link先を確認 | Ludwig Schmid, Enrico Zardini, Davide Pastorello, | (参考訳) イジングマシン(Ising Machine)は、アイジングモデルの基底状態を見つけるために特別に設計されたハードウェアである。
関連する例としては、コヒーレントなイジングマシンや量子アニールがある。
本論文では,Ising構造に基づく機械学習モデルを提案する。
偏微分が明示的に計算されるのではなく、Isingマシン自身によって推定される損失関数の最適化に基づいて、トレーニングプロセスの数学的特徴付けを行う。
さらに,提案した学習モデルの訓練と実行に関する実験結果を示す。
これらの結果は、Isingマシンが異なる学習タスクにもたらす新たな可能性を示している。
特に量子領域では、量子リソースはモデルの実行とトレーニングの両方に使用され、量子機械学習において有望な視点を提供する。
An Ising machine is any hardware specifically designed for finding the ground state of the Ising model. Relevant examples are coherent Ising machines and quantum annealers. In this paper, we propose a new machine learning model that is based on the Ising structure and can be efficiently trained using gradient descent. We provide a mathematical characterization of the training process, which is based upon optimizing a loss function whose partial derivatives are not explicitly calculated but estimated by the Ising machine itself. Moreover, we present some experimental results on the training and execution of the proposed learning model. These results point out new possibilities offered by Ising machines for different learning tasks. In particular, in the quantum realm, the quantum resources are used for both the execution and the training of the model, providing a promising perspective in quantum machine learning. | 翻訳日:2024-03-27 02:35:50 公開日:2024-03-23 |
# 視覚ナビゲーションのためのバードアイビューに基づく事前学習世界モデル
Bird's Eye View Based Pretrained World model for Visual Navigation ( http://arxiv.org/abs/2310.18847v2 ) ライセンス: Link先を確認 | Kiran Lekkala, Chen Liu, Laurent Itti, | (参考訳) Sim2Realトランスファーは、安価なシミュレータから現実世界へのトランスファーを支援することで人気を博している。
本稿では,従来の世界モデルにおけるコンポーネントを,ゼロショットが現実の世界へ移行するようにシミュレータ内で完全に訓練されたロバストなシステムに融合するシステムを提案する。
転送を容易にするために, \textit{Bird's Eye View (BEV) 画像に基づく中間表現を用いる。
そこで,本ロボットはまず,複雑な \textit{First-Person View (FPV) をベースとしたRGB 画像から BEV 表現への変換を学習し,その表現を用いてナビゲートを学習する。
その後、実世界でのテストでは、FPVベースのRGBイメージを、FPVからBEVトランスレータに学習した埋め込みに変換し、下流ポリシーで使用できる知覚モデルを使用する。
textit{Anchor image} と Mixture Density LSTM を用いた状態チェックモジュールの組込みは、不確実かつ欠落した観測を補間するだけでなく、実世界のモデルの堅牢性を高める。
CARLAシミュレータで差動駆動ロボットのデータを用いてモデルを訓練した。
本手法の有効性は,実世界の微分駆動ロボットに訓練されたモデルを配置することで示される。
最後に、トレーニングとデプロイメントのための包括的なコードベース、データセット、モデル(\url{https://sites.google.com/view/value-explicit-pretraining})をリリースします。
Sim2Real transfer has gained popularity because it helps transfer from inexpensive simulators to real world. This paper presents a novel system that fuses components in a traditional World Model into a robust system, trained entirely within a simulator, that Zero-Shot transfers to the real world. To facilitate transfer, we use an intermediary representation that is based on \textit{Bird's Eye View (BEV)} images. Thus, our robot learns to navigate in a simulator by first learning to translate from complex \textit{First-Person View (FPV)} based RGB images to BEV representations, then learning to navigate using those representations. Later, when tested in the real world, the robot uses the perception model that translates FPV-based RGB images to embeddings that were learned by the FPV to BEV translator and that can be used by the downstream policy. The incorporation of state-checking modules using \textit{Anchor images} and Mixture Density LSTM not only interpolates uncertain and missing observations but also enhances the robustness of the model in the real-world. We trained the model using data from a Differential drive robot in the CARLA simulator. Our methodology's effectiveness is shown through the deployment of trained models onto a real-world Differential drive robot. Lastly we release a comprehensive codebase, dataset and models for training and deployment (\url{https://sites.google.com/view/value-explicit-pretraining}). | 翻訳日:2024-03-27 02:35:50 公開日:2024-03-23 |
# VT-Former:グラフアイソモーフィズムと変圧器による道路サーベイランスの車両軌道予測に関する探索的研究
VT-Former: An Exploratory Study on Vehicle Trajectory Prediction for Highway Surveillance through Graph Isomorphism and Transformer ( http://arxiv.org/abs/2311.06623v3 ) ライセンス: Link先を確認 | Armin Danesh Pazho, Ghazal Alinezhad Noghre, Vinit Katariya, Hamed Tabkhi, | (参考訳) 道路の安全性を高めることは、インテリジェントトランスポーテーションシステム(ITS)にとって重要なコンピュータビジョン分野となっている。
ITSの一部として、車両軌道予測(VTP)は、過去の動きと現在の動きに基づいて、車両の将来の位置を予測することを目的としている。
VTPは道路安全の重要な要素であり、交通管理、事故防止、ワークゾーン安全性、エネルギー最適化などの応用を支援する。
この分野での作業の多くは自動運転に重点を置いているが、監視カメラの増加とともに、別のサブフィールドが独自の課題を抱えて監視VTPに現れている。
本稿では,高速道路の安全と監視のための新しいトランスフォーマーベースのVTPアプローチであるVT-Formerを紹介する。
長距離時間パターンをキャプチャするためにトランスフォーマーを活用することに加えて、車両間の複雑な社会的相互作用をキャプチャするために、新しいグラフ注意トークン化(GAT)モジュールが提案されている。
本研究は, 変圧器アーキテクチャとVTPのグラフを組み合わせる際の利点と限界について検討する。
我々の調査は、様々な監視の観点から3つのベンチマークデータセットで実施され、車両軌道の予測において、VT-FormerのState-of-the-Art(SotA)または同等の性能を示す。
本研究は,VT-Formerとそのアーキテクチャの可能性を強調し,今後の研究開発への新たな道を開くものである。
Enhancing roadway safety has become an essential computer vision focus area for Intelligent Transportation Systems (ITS). As a part of ITS, Vehicle Trajectory Prediction (VTP) aims to forecast a vehicle's future positions based on its past and current movements. VTP is a pivotal element for road safety, aiding in applications such as traffic management, accident prevention, work-zone safety, and energy optimization. While most works in this field focus on autonomous driving, with the growing number of surveillance cameras, another sub-field emerges for surveillance VTP with its own set of challenges. In this paper, we introduce VT-Former, a novel transformer-based VTP approach for highway safety and surveillance. In addition to utilizing transformers to capture long-range temporal patterns, a new Graph Attentive Tokenization (GAT) module has been proposed to capture intricate social interactions among vehicles. This study seeks to explore both the advantages and the limitations inherent in combining transformer architecture with graphs for VTP. Our investigation, conducted across three benchmark datasets from diverse surveillance viewpoints, showcases the State-of-the-Art (SotA) or comparable performance of VT-Former in predicting vehicle trajectories. This study underscores the potentials of VT-Former and its architecture, opening new avenues for future research and exploration. | 翻訳日:2024-03-27 02:35:50 公開日:2024-03-23 |
# 論理推論における大規模言語モデルの自己検証能力について
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning ( http://arxiv.org/abs/2311.07954v2 ) ライセンス: Link先を確認 | Ruixin Hong, Hongming Zhang, Xinyu Pang, Dong Yu, Changshui Zhang, | (参考訳) 論理的推論は、AIの分野で進行中の追求である。
大きな言語モデル(LLM)による著しい進歩にもかかわらず、複雑な論理的推論問題に苦戦している。
推論性能を高めるために、ある有望な方向性はスケーラブルな監視であり、LSMは自身のエラーを特定し、それ自身で改善する必要がある。
この目的を追求する様々な自己検証手法が提案されている。
それでも、既存のモデルが自身のエラーを十分に理解しているかどうかはまだ調査中である。
本稿では,論理的誤りを正確に識別する能力に着目し,論理的推論の文脈におけるLLMの自己検証能力について詳しく検討する。
階層分類に分類された232種類の推論誤りを含むデータセットFALLACIESを導入する。
FALLACIESに関する徹底的な実験を行うことで、検証能力に関する一連のモデルの包括的かつ詳細な分析が得られる。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
これらの観察結果から,今後の研究と自己検証手法の実用化について提案する。
Logical reasoning has been an ongoing pursuit in the field of AI. Despite significant advancements made by large language models (LLMs), they still struggle with complex logical reasoning problems. To enhance reasoning performance, one promising direction is scalable oversight, which requires LLMs to identify their own errors and then improve by themselves. Various self-verification methods have been proposed in pursuit of this goal. Nevertheless, whether existing models understand their own errors well is still under investigation. In this paper, we take a closer look at the self-verification abilities of LLMs in the context of logical reasoning, focusing on their ability to identify logical fallacies accurately. We introduce a dataset, FALLACIES, containing 232 types of reasoning fallacies categorized in a hierarchical taxonomy. By conducting exhaustive experiments on FALLACIES, we obtain comprehensive and detailed analyses of a series of models on their verification abilities. Our main findings suggest that existing LLMs could struggle to identify fallacious reasoning steps accurately and may fall short of guaranteeing the validity of self-verification methods. Drawing from these observations, we offer suggestions for future research and practical applications of self-verification methods. | 翻訳日:2024-03-27 02:25:46 公開日:2024-03-23 |
# 構造認識型スパースビューX線3次元再構成
Structure-Aware Sparse-View X-ray 3D Reconstruction ( http://arxiv.org/abs/2311.10959v3 ) ライセンス: Link先を確認 | Yuanhao Cai, Jiahao Wang, Alan Yuille, Zongwei Zhou, Angtian Wang, | (参考訳) 物体の内部構造を明らかにする能力で知られているX線は、可視光よりもリッチな3D再構成のための情報を提供すると期待されている。
しかし、既存のニューラル放射場(NeRF)アルゴリズムは、X線の重要な性質を無視し、画像化された物体の構造的内容の取得に制限をもたらす。
本稿では, スパースビューX線3次元再構成のための構造対応X線ニューラルラジオ密度場(SAX-NeRF)を提案する。
まず,SAX-NeRFのバックボーンとしてLineformer(Lineformer)を設計する。
Linefomerは、X線の各線分内の依存関係をモデル化することで、3D空間内のオブジェクトの内部構造をキャプチャする。
次に,Masked Local-Global (MLG) 線サンプリング手法を提案する。
さらに、より広いX線アプリケーションをカバーする大規模なデータセットX3Dを収集する。
X3Dの実験では、SAX-NeRFは、新しいビュー合成とCT再構成において、従来のNeRF法を12.56と2.49dBで上回っている。
コード、モデル、データはhttps://github.com/caiyuanhao1998/SAX-NeRFで公開されている。
X-ray, known for its ability to reveal internal structures of objects, is expected to provide richer information for 3D reconstruction than visible light. Yet, existing neural radiance fields (NeRF) algorithms overlook this important nature of X-ray, leading to their limitations in capturing structural contents of imaged objects. In this paper, we propose a framework, Structure-Aware X-ray Neural Radiodensity Fields (SAX-NeRF), for sparse-view X-ray 3D reconstruction. Firstly, we design a Line Segment-based Transformer (Lineformer) as the backbone of SAX-NeRF. Linefomer captures internal structures of objects in 3D space by modeling the dependencies within each line segment of an X-ray. Secondly, we present a Masked Local-Global (MLG) ray sampling strategy to extract contextual and geometric information in 2D projection. Plus, we collect a larger-scale dataset X3D covering wider X-ray applications. Experiments on X3D show that SAX-NeRF surpasses previous NeRF-based methods by 12.56 and 2.49 dB on novel view synthesis and CT reconstruction. Code, models, and data are released at https://github.com/caiyuanhao1998/SAX-NeRF | 翻訳日:2024-03-27 02:25:46 公開日:2024-03-23 |
# Tactics2D: 意思決定のための生成シナリオを用いた強化学習環境ライブラリ
Tactics2D: A Reinforcement Learning Environment Library with Generative Scenarios for Driving Decision-making ( http://arxiv.org/abs/2311.11058v2 ) ライセンス: Link先を確認 | Yueyuan Li, Songan Zhang, Mingyang Jiang, Xingyuan Chen, Ming Yang, | (参考訳) Tactics2DはオープンソースのReinforcement Learning環境ライブラリで、多様で困難なトラフィックシナリオを自動生成する。
その第一の目的は、研究者が学習に基づく駆動意思決定モデルを調べるためのアウト・オブ・ボックスツールキットを提供することである。
このライブラリは、対話的なトラフィックシナリオを生成するためのルールベースとデータ駆動のアプローチの両方を実装している。
Tactics2Dの注目すべき機能には、現実世界のログやデータフォーマットとの広範な互換性、カスタマイズ可能なトラフィックシナリオコンポーネント、リッチな組み込み機能テンプレートなどがある。
ユーザフレンドリーを念頭に置いて開発されたTactics2Dは、詳細なドキュメントとインタラクティブなオンラインチュートリアルを提供する。
このソフトウェアは信頼性を保ち、90%以上のコードが単体テストに合格する。
ソースコードへのアクセスと議論への参加については、https://github.com/WoodOxen/Tactics2DのTactcis2Dの公式GitHubページを参照してほしい。
Tactics2D is an open-source Reinforcement Learning environment library featured with auto-generation of diverse and challenging traffic scenarios. Its primary goal is to provide an out-of-the-box toolkit for researchers to explore learning-based driving decision-making models. This library implements both rule-based and data-driven approaches to generate interactive traffic scenarios. Noteworthy features of Tactics2D include expansive compatibility with real-world log and data formats, customizable traffic scenario components, and rich built-in functional templates. Developed with user-friendliness in mind, Tactics2D offers detailed documentation and an interactive online tutorial. The software maintains robust reliability, with over 90% code passing unit testing. For access to the source code and participation in discussions, visit the official GitHub page for Tactcis2D at https://github.com/WoodOxen/Tactics2D. | 翻訳日:2024-03-27 02:25:46 公開日:2024-03-23 |
# 逆流モデルのない微動拡散モデルへの人間のフィードバックの利用
Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model ( http://arxiv.org/abs/2311.13231v3 ) ライセンス: Link先を確認 | Kai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Qimai Li, Weihan Shen, Xiaolong Zhu, Xiu Li, | (参考訳) 人間のフィードバックを用いた強化学習(RLHF)は、微調整拡散モデルにおいて大きな可能性を示している。
これまでの方法は、人間の好みに合わせて報酬モデルをトレーニングし、RL技術を利用して基礎となるモデルを微調整することから始まる。
しかし、効率的な報酬モデルを構築するには、広範なデータセット、最適なアーキテクチャ、手動のハイパーパラメータチューニングが必要であり、プロセスは時間とコストの両方に集約される。
大規模言語モデルの微調整に有効な直接選好最適化(DPO)法は,報奨モデルの必要性を排除している。
しかし,拡散モデルのデノナイジングプロセスにおけるGPUメモリの広範な要求は,DPO法の直接適用を妨げる。
この問題に対処するため、直列拡散モデルにD3PO(Denoising Diffusion Policy Optimization)法を導入する。
理論的解析により,D3POは報酬モデルのトレーニングを省略するが,人間のフィードバックデータを用いて学習過程をガイドする最適な報酬モデルとして効果的に機能することが示された。
このアプローチでは、報酬モデルのトレーニングを必要とせず、より直接的でコスト効率が良く、計算オーバーヘッドを最小限に抑えることが証明される。
実験では,目的の相対尺度を人間の嗜好の代名詞として使用し,地道報酬を用いた手法に匹敵する結果を与える。
さらに、D3POは画像歪み率を低減し、より安全な画像を生成する能力を示し、ロバストな報酬モデルに欠ける課題を克服する。
私たちのコードはhttps://github.com/yk7333/D3POで公開されています。
Using reinforcement learning with human feedback (RLHF) has shown significant promise in fine-tuning diffusion models. Previous methods start by training a reward model that aligns with human preferences, then leverage RL techniques to fine-tune the underlying models. However, crafting an efficient reward model demands extensive datasets, optimal architecture, and manual hyperparameter tuning, making the process both time and cost-intensive. The direct preference optimization (DPO) method, effective in fine-tuning large language models, eliminates the necessity for a reward model. However, the extensive GPU memory requirement of the diffusion model's denoising process hinders the direct application of the DPO method. To address this issue, we introduce the Direct Preference for Denoising Diffusion Policy Optimization (D3PO) method to directly fine-tune diffusion models. The theoretical analysis demonstrates that although D3PO omits training a reward model, it effectively functions as the optimal reward model trained using human feedback data to guide the learning process. This approach requires no training of a reward model, proving to be more direct, cost-effective, and minimizing computational overhead. In experiments, our method uses the relative scale of objectives as a proxy for human preference, delivering comparable results to methods using ground-truth rewards. Moreover, D3PO demonstrates the ability to reduce image distortion rates and generate safer images, overcoming challenges lacking robust reward models. Our code is publicly available at https://github.com/yk7333/D3PO. | 翻訳日:2024-03-27 02:25:46 公開日:2024-03-23 |
# ゼロショットオープン語彙3次元視覚グラウンドのためのビジュアルプログラミング
Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding ( http://arxiv.org/abs/2311.15383v2 ) ライセンス: Link先を確認 | Zhihao Yuan, Jinke Ren, Chun-Mei Feng, Hengshuang Zhao, Shuguang Cui, Zhen Li, | (参考訳) 3Dビジュアルグラウンド(3DVG)は,テキスト記述に基づく3Dオブジェクトのローカライズを目的としている。
従来の3DVGの教師付き手法は、しばしば広範囲のアノテーションと事前定義された語彙を必要とする。
この問題に対処するために,大規模言語モデル(LLM)の能力を活かしたゼロショットオープン語彙3DVGのための新しいビジュアルプログラミング手法を提案する。
提案手法は,ゼロショット3DVGの基本的な理解を確立するため,LLMに係わる独特なダイアログベースの手法から始まる。
これに基づいて、ビュー非依存、ビュー依存、機能モジュールという3つのタイプのモジュールからなる視覚プログラムを設計する。
これらのモジュールは、特に3Dシナリオに適したもので、複雑な推論と推論を実行するために協調して動作する。
さらに,既存の3次元オブジェクト検出器の範囲をオープン語彙シナリオに拡張する言語オブジェクト相関モジュールを開発した。
我々のゼロショットアプローチは、いくつかの教師付きベースラインより優れており、効果的な3DVGへの大きな前進を示している。
3D Visual Grounding (3DVG) aims at localizing 3D object based on textual descriptions. Conventional supervised methods for 3DVG often necessitate extensive annotations and a predefined vocabulary, which can be restrictive. To address this issue, we propose a novel visual programming approach for zero-shot open-vocabulary 3DVG, leveraging the capabilities of large language models (LLMs). Our approach begins with a unique dialog-based method, engaging with LLMs to establish a foundational understanding of zero-shot 3DVG. Building on this, we design a visual program that consists of three types of modules, i.e., view-independent, view-dependent, and functional modules. These modules, specifically tailored for 3D scenarios, work collaboratively to perform complex reasoning and inference. Furthermore, we develop an innovative language-object correlation module to extend the scope of existing 3D object detectors into open-vocabulary scenarios. Extensive experiments demonstrate that our zero-shot approach can outperform some supervised baselines, marking a significant stride towards effective 3DVG. | 翻訳日:2024-03-27 02:25:46 公開日:2024-03-23 |
# Surf-D:拡散モデルを用いた任意位相の高品質表面生成
Surf-D: Generating High-Quality Surfaces of Arbitrary Topologies Using Diffusion Models ( http://arxiv.org/abs/2311.17050v2 ) ライセンス: Link先を確認 | Zhengming Yu, Zhiyang Dou, Xiaoxiao Long, Cheng Lin, Zekun Li, Yuan Liu, Norman Müller, Taku Komura, Marc Habermann, Christian Theobalt, Xin Li, Wenping Wang, | (参考訳) 拡散モデルを用いて任意の位相を持つ曲面として高品質な3次元形状を生成する新しい方法であるSurf-Dを提案する。
それまでの手法では、異なる表現を持つ形状の生成を探索し、限られた位相と粗い幾何学的詳細に悩まされていた。
任意のトポロジの高品質な曲面を生成するために、任意のトポロジに対応するために、unsigned Distance Field (UDF) を表わす。
さらに、ポイントベースオートエンコーダを用いてUDFを正確に符号化し、高分解能メッシュ抽出をサポートするコンパクトで連続的な潜在空間を学習する新しいパイプラインを提案する。
さらに、我々の新しいパイプラインは、グリッドベースのAutoEncoderのような、拡張性がなく、正確なUDFを学習できない距離フィールドを学習するための従来のアプローチよりも大幅に優れていることを示す。
さらに,様々な面を効率的に埋め込むためのカリキュラム学習戦略を採用した。
事前学習した形状潜伏空間では,様々な形状の分布を得るために潜伏拡散モデルを用いる。
非条件生成、カテゴリ条件生成、画像条件生成、テキスト・ツー・シェイプタスクにSurf-Dを用いることで、広範囲にわたる実験を行う。
実験では,複数モードの形状生成におけるSurf-Dの優れた性能を条件として示す。
プロジェクトページはhttps://yzmblog.github.io/projects/SurfD/。
We present Surf-D, a novel method for generating high-quality 3D shapes as Surfaces with arbitrary topologies using Diffusion models. Previous methods explored shape generation with different representations and they suffer from limited topologies and poor geometry details. To generate high-quality surfaces of arbitrary topologies, we use the Unsigned Distance Field (UDF) as our surface representation to accommodate arbitrary topologies. Furthermore, we propose a new pipeline that employs a point-based AutoEncoder to learn a compact and continuous latent space for accurately encoding UDF and support high-resolution mesh extraction. We further show that our new pipeline significantly outperforms the prior approaches to learning the distance fields, such as the grid-based AutoEncoder, which is not scalable and incapable of learning accurate UDF. In addition, we adopt a curriculum learning strategy to efficiently embed various surfaces. With the pretrained shape latent space, we employ a latent diffusion model to acquire the distribution of various shapes. Extensive experiments are presented on using Surf-D for unconditional generation, category conditional generation, image conditional generation, and text-to-shape tasks. The experiments demonstrate the superior performance of Surf-D in shape generation across multiple modalities as conditions. Visit our project page at https://yzmblog.github.io/projects/SurfD/. | 翻訳日:2024-03-27 02:25:46 公開日:2024-03-23 |
# Gaussian Avatar: Animatable 3D Gaussianによる単一ビデオからのリアルなヒューマンアバターモデリングを目指して
GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians ( http://arxiv.org/abs/2312.02134v2 ) ライセンス: Link先を確認 | Liangxiao Hu, Hongwen Zhang, Yuxiang Zhang, Boyao Zhou, Boning Liu, Shengping Zhang, Liqiang Nie, | (参考訳) 本稿では,ガウシアン・アバター(Gaussian Avatar)について紹介する。
まずアニマタブルな3Dガウシアンを導入し、さまざまなポーズや服装スタイルで人間を明示的に表現することから始める。
このような明示的でアニマタブルな表現は、より効率的で一貫して2次元観測から3Dの外観を融合させることができる。
我々の表現は、ポーズ依存の外観モデリングをサポートするために、動的特性でさらに強化されており、動的外観ネットワークと最適化可能な特徴テンソルは、モーション・トゥ・アジュアンス・マッピングを学習するために設計されている。
さらに, 異なる動作条件を活用することで, アバターモデリングにおける動作と外観の同時最適化が可能となり, モノクロ環境における不正確な動作推定の長年の問題に対処する上で有効である。
GaussianAvatarの有効性は、公開データセットと収集データセットの両方で検証され、外観品質とレンダリング効率の点で優れた性能を示している。
We present GaussianAvatar, an efficient approach to creating realistic human avatars with dynamic 3D appearances from a single video. We start by introducing animatable 3D Gaussians to explicitly represent humans in various poses and clothing styles. Such an explicit and animatable representation can fuse 3D appearances more efficiently and consistently from 2D observations. Our representation is further augmented with dynamic properties to support pose-dependent appearance modeling, where a dynamic appearance network along with an optimizable feature tensor is designed to learn the motion-to-appearance mapping. Moreover, by leveraging the differentiable motion condition, our method enables a joint optimization of motions and appearances during avatar modeling, which helps to tackle the long-standing issue of inaccurate motion estimation in monocular settings. The efficacy of GaussianAvatar is validated on both the public dataset and our collected dataset, demonstrating its superior performances in terms of appearance quality and rendering efficiency. | 翻訳日:2024-03-27 02:15:55 公開日:2024-03-23 |
# GeNIe: 拡散によるハードネガティブな画像の生成
GeNIe: Generative Hard Negative Images Through Diffusion ( http://arxiv.org/abs/2312.02548v2 ) ライセンス: Link先を確認 | Soroush Abbasi Koohpayegani, Anuj Singh, K L Navaneet, Hadi Jamali-Rad, Hamed Pirsiavash, | (参考訳) データ拡張は、深層モデルのトレーニングにおいて不可欠であり、限られたデータへの過度な適合を防止する。
生成AI(例えば拡散モデル)の最近の進歩により、自然画像に似たデータを生成する、より洗練された拡張技術が実現されている。
本稿では,テキストプロンプトに条件付き潜在拡散モデルを用いて,コントラストデータポイント(ソースカテゴリの画像とターゲットカテゴリからのテキストプロンプト)をマージして,挑戦的なサンプルを生成する新しい拡張手法であるGeNIeを紹介する。
これを実現するために,近年の拡散に基づく画像編集技術に着想を得て,画像の拡散回数を制限し,生成した画像が対象カテゴリを表現しながら,画像から低レベルおよびバックグラウンドの特徴を確実に保持し,その結果,ソースカテゴリに対して強い負のサンプルが得られるようにした。
提案手法は,各画像(GeNIe-Ada)に対して適切な雑音レベルを適応的に検出することにより,さらなる性能向上を実現する。
提案手法の有効性と先行技術よりも優れた性能を実証し,本手法の有効性を実証した。
私たちのコードはこちらで入手可能です。
Data augmentation is crucial in training deep models, preventing them from overfitting to limited data. Recent advances in generative AI, e.g., diffusion models, have enabled more sophisticated augmentation techniques that produce data resembling natural images. We introduce GeNIe a novel augmentation method which leverages a latent diffusion model conditioned on a text prompt to merge contrasting data points (an image from the source category and a text prompt from the target category) to generate challenging samples. To achieve this, inspired by recent diffusion based image editing techniques, we limit the number of diffusion iterations to ensure the generated image retains low-level and background features from the source image while representing the target category, resulting in a hard negative sample for the source category. We further enhance the proposed approach by finding the appropriate noise level adaptively for each image (coined as GeNIe-Ada) leading to further performance improvement. Our extensive experiments, in both few-shot and long-tail distribution settings, demonstrate the effectiveness of our novel augmentation method and its superior performance over the prior art. Our code is available here: https://github.com/UCDvision/GeNIe | 翻訳日:2024-03-27 02:15:55 公開日:2024-03-23 |
# MoSA:視覚効率の高いチューニングのためのスパースアダプタの混合
MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning ( http://arxiv.org/abs/2312.02923v2 ) ライセンス: Link先を確認 | Qizhe Zhang, Bocheng Zou, Ruichuan An, Jiaming Liu, Shanghang Zhang, | (参考訳) 事前学習された基礎モデルの規模が急速に拡大するにつれて、パラメータ効率のよい微調整技術が注目され、その中ではAdapter Tuningが最も広く使われている。
効率性は高いが、完全な微調整がまだ不十分であり、パラメータの増加によって性能が向上する。
近年の取り組みは、モデルのキャパシティを向上させるために複数のアダプタ専門家を訓練することや、パラメータ効率を達成するためにプラニングアダプタに焦点を当てている。
しかし、どちらの手法も元のアダプタよりも多くのパラメータを導入しているため、計算効率は良くない。
そこで本研究では,各パラメータのポテンシャルを完全に解き放つ新しいAdapter Tuning法として,Mixture of Sparse Adapters(MOSA)を提案する。
まず、標準アダプタを複数の非重複モジュールに分割し、その後、スパーストレーニングのために確率的にアクティベートし、最後にそれらをマージして、チューニング後に完全なアダプタを形成する。
このようにして、MoSAは計算やストレージのオーバーヘッドを余分に必要とせずに、標準アダプタよりも大幅にパフォーマンスが向上する。
さらに,限られたトレーニングデータを活用するために,階層的なスパース戦略を提案する。
一連の27の視覚的タスクに関する大規模な実験は、MoSAが他のAdapter Tuningメソッドと他のベースラインを大きく上回っていることを示している。
さらに、MoSAは様々なモデルスケール、アーキテクチャ、異なるPEFTメソッドに一貫した改善をもたらす。
コードはリリースされる。
With the rapid growth in the scale of pre-trained foundation models, parameter-efficient fine-tuning techniques have gained significant attention, among which Adapter Tuning is the most widely used. Despite achieving efficiency, it still underperforms full fine-tuning, and the performance improves at the cost of an increase in parameters. Recent efforts have either focused on training multiple adapter experts to increase model capacity or on pruning adapters to achieve parameter efficiency. However, both approaches introduce more parameters compared to the original adapter, hence are not computationally efficient. Motivated by this, we propose Mixture of Sparse Adapters, or MoSA, as a novel Adapter Tuning method to fully unleash the potential of each parameter in the adapter. We first split the standard adapter into multiple non-overlapping modules, then stochastically activate them for sparse training, and finally merge them to form a complete adapter after tuning. In this way, MoSA can achieve significantly better performance than standard adapters without any additional computational or storage overhead. Furthermore, we propose a hierarchical sparse strategy to better leverage limited training data. Extensive experiments on a series of 27 visual tasks demonstrate that MoSA consistently outperforms other Adapter Tuning methods as well as other baselines by a large margin. Furthermore, MoSA brings consistent improvements across various model scales, architectures, and different PEFT methods. Code will be released. | 翻訳日:2024-03-27 02:15:55 公開日:2024-03-23 |
# DPoser: 人類の3Dマップに先立つロバストな拡散モデル
DPoser: Diffusion Model as Robust 3D Human Pose Prior ( http://arxiv.org/abs/2312.05541v2 ) ライセンス: Link先を確認 | Junzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Yulun Zhang, Haoqian Wang, | (参考訳) この作業は、前に堅牢な人間のポーズを構築することを目的としています。
しかし、生体機械的制約と多様な人間の動きのため、これは永続的な課題である。
VAEやNDFのような伝統的な先行は、現実主義や一般化の欠点、特に目に見えない騒々しいポーズをしばしば示している。
これらの問題に対処するために,拡散モデルに基づいて構築された,頑健で多目的な人間のポーズであるDPoserを紹介する。
DPoserは、様々なポーズ中心タスクを逆問題とみなし、効率的な解法として変分拡散サンプリングを用いる。
したがって、最適化フレームワークで設計されたDPoserは、ヒューマンメッシュリカバリ、ポーズ生成、ポーズ補完、モーションデノベーションタスクをシームレスに改善する。
さらに、合成されたポーズと構造化画像の相違により、DPoserの有効性を高めるために、切り詰められた時間ステップスケジューリングを提案する。
提案手法は、画像領域で使用される一般的な均一スケジューリングよりも大幅に改善され、それぞれ5.4%、17.2%、および3.8%の改善が達成された。
総合的な実験は、複数のタスクにまたがる既存の最先端のポーズよりもDPoserの方が優れていることを示す。
This work targets to construct a robust human pose prior. However, it remains a persistent challenge due to biomechanical constraints and diverse human movements. Traditional priors like VAEs and NDFs often exhibit shortcomings in realism and generalization, notably with unseen noisy poses. To address these issues, we introduce DPoser, a robust and versatile human pose prior built upon diffusion models. DPoser regards various pose-centric tasks as inverse problems and employs variational diffusion sampling for efficient solving. Accordingly, designed with optimization frameworks, DPoser seamlessly benefits human mesh recovery, pose generation, pose completion, and motion denoising tasks. Furthermore, due to the disparity between the articulated poses and structured images, we propose truncated timestep scheduling to enhance the effectiveness of DPoser. Our approach demonstrates considerable enhancements over common uniform scheduling used in image domains, boasting improvements of 5.4%, 17.2%, and 3.8% across human mesh recovery, pose completion, and motion denoising, respectively. Comprehensive experiments demonstrate the superiority of DPoser over existing state-of-the-art pose priors across multiple tasks. | 翻訳日:2024-03-27 02:05:37 公開日:2024-03-23 |
# 6GモバイルエッジコンピューティングネットワークにおけるAI生成コンテンツサービスの負荷と品質管理
Offloading and Quality Control for AI Generated Content Services in 6G Mobile Edge Computing Networks ( http://arxiv.org/abs/2312.06203v2 ) ライセンス: Link先を確認 | Yitong Wang, Chang Liu, Jun Zhao, | (参考訳) AI-Generated Content(AIGC)は、今後のインターネットパラダイムにおけるMetaverseサービスの提供方法として、没入要求の障害を解決することができる。
同時に、エッジコンピューティングは、通信システムにおけるコンピューティングの進化パラダイムとして、リアルタイムのインタラクティブなサービスを効果的に強化する。
AIGCサービスのアクセシビリティを高めるために、エッジサーバやローカルデバイスへのAIGCモデル(例えば拡散モデル)のデプロイが主流となっている。
それでもこのアプローチでは,タスクをローカルデバイスにオフロードする場合に,バッテリ寿命や計算リソースによって課される制約に直面する。
したがって、AIGCモデルの有用性とエッジコンピューティングパラダイムにおける決定のオフロードとの間にはトレードオフがある。
本稿では, 逆拡散段階における拡散モデルのオフロード決定, 計算時間, 拡散ステップに対する共同最適化アルゴリズムを提案する。
さらに,得られた結果の質を評価する指標として,平均誤差を考慮に入れた。
実験結果から,提案アルゴリズムはベースラインよりも優れた継手最適化性能が得られることが示された。
AI-Generated Content (AIGC), as a novel manner of providing Metaverse services in the forthcoming Internet paradigm, can resolve the obstacles of immersion requirements. Concurrently, edge computing, as an evolutionary paradigm of computing in communication systems, effectively augments real-time interactive services. In pursuit of enhancing the accessibility of AIGC services, the deployment of AIGC models (e.g., diffusion models) to edge servers and local devices has become a prevailing trend. Nevertheless, this approach faces constraints imposed by battery life and computational resources when tasks are offloaded to local devices, limiting the capacity to deliver high-quality content to users while adhering to stringent latency requirements. So there will be a tradeoff between the utility of AIGC models and offloading decisions in the edge computing paradigm. This paper proposes a joint optimization algorithm for offloading decisions, computation time, and diffusion steps of the diffusion models in the reverse diffusion stage. Moreover, we take the average error into consideration as the metric for evaluating the quality of the generated results. Experimental results conclusively demonstrate that the proposed algorithm achieves superior joint optimization performance compared to the baselines. | 翻訳日:2024-03-27 02:05:37 公開日:2024-03-23 |
# BaRDa: 事実の正確性と推論能力を分離した信念と推論データセット
BaRDa: A Belief and Reasoning Dataset that Separates Factual Accuracy and Reasoning Ability ( http://arxiv.org/abs/2312.07527v2 ) ライセンス: Link先を確認 | Peter Clark, Bhavana Dalvi Mishra, Oyvind Tafjord, | (参考訳) 現代の言語モデル(LM)のパフォーマンスを比較するベンチマークは数多くあるが、エンドタスク評価では*現実的正確性*(真実)と*推論能力*(信念の含意を正しく報告する意味での「合理性」または「正直」)の概念を説明できることが多い。
私たちの目標は、これらの2つの概念を明確に区別するデータセットです。
我々のアプローチは、人間の注釈付き *entailment tree* のコレクションを活用・拡張し、推論の良し悪しの連鎖を表現し、特に反実例を含む真偽の事実の混合を用いて、信念バイアス("content effect"とも呼ばれる)を避けることである。
BaRDaと呼ばれるデータセットには、6681の真と2319の偽の文を使用して3000のentailments(1787の有効、1213の無効)が含まれている。
GPT3(curie)/GPT3(davinici)/3.5/4の4つのGPTシリーズモデルでテストしたところ、実際の精度(真実)スコアは74.1/80.6/82.6/87.1、推論精度スコアは63.1/78.0/71.8/79.2である。
データセットは、これらの2つの概念をより明確に分離し、定量化する新しいベンチマークを提供する。
While there are numerous benchmarks comparing the performance of modern language models (LMs), end-task evaluations often conflate notions of *factual accuracy* ("truth") and *reasoning ability* ("rationality", or "honesty" in the sense of correctly reporting implications of beliefs). Our goal is a dataset that clearly distinguishes these two notions. Our approach is to leverage and extend a collection of human-annotated *entailment trees*, engineered to express both good and bad chains of reasoning, and using a mixture of true and false facts, in particular including counterfactual examples, to avoid belief bias (also known as the "content effect"). The resulting dataset, called BaRDa, contains 3000 entailments (1787 valid, 1213 invalid), using 6681 true and 2319 false statements. Testing on four GPT-series models, GPT3(curie)/GPT3(davinici)/3.5/4, we find factual accuracy (truth) scores of 74.1/80.6/82.6/87.1 and reasoning accuracy scores of 63.1/78.0/71.8/79.2. This shows the clear progression of models towards improved factual accuracy and entailment reasoning, and the dataset provides a new benchmark that more cleanly separates and quantifies these two notions. | 翻訳日:2024-03-27 02:05:37 公開日:2024-03-23 |
# 外科用機器セグメンテーションのためのパート・ツー・ホール共同プロンプト
SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation ( http://arxiv.org/abs/2312.14481v2 ) ライセンス: Link先を確認 | Wenxi Yue, Jing Zhang, Kun Hu, Qiuxia Wu, Zongyuan Ge, Yong Xia, Jiebo Luo, Zhiyong Wang, | (参考訳) Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
しかし,(1)楽器マスクを用いたストレートフォワードモデルチューニングは,それぞれの楽器を単一の実体として扱い,複雑な構造や細かな細部を無視する。(2)楽器カテゴリーに基づくプロンプトは,楽器構造を記述するのに十分な柔軟性と情報に乏しい。
本稿では,これらの課題に対処するため,有能な SIS のテキストを解析し,SAM の汎用知識と楽器構造知識を明確に統合する新しい SAM の効率的なチューニング手法であるオペレーショナル・パート・SAM (SP-SAM) を提案する。
具体的には,(1)分類レベルのテキストと部分レベルのテキストを協調して楽器構造を記述する協調プロンプト,(2)分類的な部分レベルの表現に視覚的埋め込みを伴ってテキストをエンコードするクロスモーダルプロンプトエンコーダ,(3)手術シナリオにおいて,部分レベルの表現全体を適応的に融合させるパート・ツー・ホール適応フュージョンと階層デコードを提案する。
それらに基づいてSP-SAMは、全体的な構造と部分レベルの詳細の両方の観点から、手術器具を理解するためのより良い能力を得る。
EndoVis2018とEndoVis2017の両方のデータセットに対する大規模な実験は、最小限のチューニング可能なパラメータでSP-SAMの最先端のパフォーマンスを示している。
コードはhttps://github.com/wenxi-yue/SurgicalPart-SAMで入手できる。
The Segment Anything Model (SAM) exhibits promise in generic object segmentation and offers potential for various applications. Existing methods have applied SAM to surgical instrument segmentation (SIS) by tuning SAM-based frameworks with surgical data. However, they fall short in two crucial aspects: (1) Straightforward model tuning with instrument masks treats each instrument as a single entity, neglecting their complex structures and fine-grained details; and (2) Instrument category-based prompts are not flexible and informative enough to describe instrument structures. To address these problems, in this paper, we investigate text promptable SIS and propose SurgicalPart-SAM (SP-SAM), a novel SAM efficient-tuning approach that explicitly integrates instrument structure knowledge with SAM's generic knowledge, guided by expert knowledge on instrument part compositions. Specifically, we achieve this by proposing (1) Collaborative Prompts that describe instrument structures via collaborating category-level and part-level texts; (2) Cross-Modal Prompt Encoder that encodes text prompts jointly with visual embeddings into discriminative part-level representations; and (3) Part-to-Whole Adaptive Fusion and Hierarchical Decoding that adaptively fuse the part-level representations into a whole for accurate instrument segmentation in surgical scenarios. Built upon them, SP-SAM acquires a better capability to comprehend surgical instruments in terms of both overall structure and part-level details. Extensive experiments on both the EndoVis2018 and EndoVis2017 datasets demonstrate SP-SAM's state-of-the-art performance with minimal tunable parameters. The code will be available at https://github.com/wenxi-yue/SurgicalPart-SAM. | 翻訳日:2024-03-27 02:05:37 公開日:2024-03-23 |
# TLIC: ROI重み付き歪みとビットアロケーションによる学習画像圧縮
TLIC: Learned Image Compression with ROI-Weighted Distortion and Bit Allocation ( http://arxiv.org/abs/2401.08154v3 ) ライセンス: Link先を確認 | Wei Jiang, Yongqi Zhai, Hangyu Li, Ronggang Wang, | (参考訳) 本稿では,画像圧縮の追跡手法について述べる。
より優れた知覚品質を実現するために,現実的なテクスチャを生成するために対向損失を用い,関心領域(ROI)マスクを用いて異なる領域のビット割り当てを誘導する。
私たちのチーム名はTLICです。
This short paper describes our method for the track of image compression. To achieve better perceptual quality, we use the adversarial loss to generate realistic textures, use region of interest (ROI) mask to guide the bit allocation for different regions. Our Team name is TLIC. | 翻訳日:2024-03-27 01:55:44 公開日:2024-03-23 |
# Real3D-Portrait:ワンショットリアルな3Dトーキング・ポートレート合成
Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis ( http://arxiv.org/abs/2401.08503v3 ) ライセンス: Link先を確認 | Zhenhui Ye, Tianyun Zhong, Yi Ren, Jiaqi Yang, Weichuang Li, Jiawei Huang, Ziyue Jiang, Jinzheng He, Rongjie Huang, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao, | (参考訳) ワンショットの3Dトーキングポートレート生成は、見えない画像から3Dアバターを再構成し、レファレンスビデオまたはオーディオでアニメーション化し、トーキングポートレートビデオを生成することを目的としている。
既存の手法では、正確な3次元アバター再構成と安定した会話顔アニメーションの目標を同時に達成できない。
また、既存の作品は主に頭部の合成に重点を置いているが、自然の胴体や背景のセグメントを生成してリアルな話し声のポートレートビデオを得ることも不可欠である。
これらの制約に対処するため,(1)3次元顔生成モデルから3次元事前知識を抽出する大型画像-平面モデルによるワンショット3次元再構成能力の向上,(2)高能率なモーションアダプタによる正確な動き調和アニメーションの促進,(3)ヘッド・トーソ・バックグラウンド・スーパーレゾリューションモデルによる自然な胴体運動と切り替え可能な背景の映像の合成,(4)汎用的な音声-移動モデルによるワンショット音声駆動音声合成をサポートするフレームワークであるReal3D-Potraitを提案する。
広汎な実験により、Real3D-Portraitは未確認の身元を一般化し、従来の方法と比較してよりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
ビデオサンプルとソースコードはhttps://real3dportrait.github.ioで公開されている。
One-shot 3D talking portrait generation aims to reconstruct a 3D avatar from an unseen image, and then animate it with a reference video or audio to generate a talking portrait video. The existing methods fail to simultaneously achieve the goals of accurate 3D avatar reconstruction and stable talking face animation. Besides, while the existing works mainly focus on synthesizing the head part, it is also vital to generate natural torso and background segments to obtain a realistic talking portrait video. To address these limitations, we present Real3D-Potrait, a framework that (1) improves the one-shot 3D reconstruction power with a large image-to-plane model that distills 3D prior knowledge from a 3D face generative model; (2) facilitates accurate motion-conditioned animation with an efficient motion adapter; (3) synthesizes realistic video with natural torso movement and switchable background using a head-torso-background super-resolution model; and (4) supports one-shot audio-driven talking face generation with a generalizable audio-to-motion model. Extensive experiments show that Real3D-Portrait generalizes well to unseen identities and generates more realistic talking portrait videos compared to previous methods. Video samples and source code are available at https://real3dportrait.github.io . | 翻訳日:2024-03-27 01:55:44 公開日:2024-03-23 |
# 言語モデルを用いたインコンテクスト学習 : 調査
In-context Learning with Retrieved Demonstrations for Language Models: A Survey ( http://arxiv.org/abs/2401.11624v5 ) ライセンス: Link先を確認 | Man Luo, Xin Xu, Yue Liu, Panupong Pasupat, Mehran Kazemi, | (参考訳) 言語モデル、特に訓練済みの大規模言語モデルでは、入力コンテキストでいくつかのデモを行うだけで、新しいタスクに適応できる少数のインコンテキスト学習者(ICL)として顕著な能力を発揮している。
しかし、モデルがICLを実行する能力は、数発のデモの選択に敏感である。
最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。
実演検索の実装は比較的簡単で,既存のデータベースや検索システムを活用している。
これは学習プロセスの効率性とスケーラビリティを向上するだけでなく、手作業によるサンプル選択に固有のバイアスを低減することも示されている。
実証実験によるICLの研究が活発化していることを踏まえ,本分野の研究を幅広く検討する。
本研究では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について検討し,比較する。
Language models, especially pre-trained large language models, have showcased remarkable abilities as few-shot in-context learners (ICL), adept at adapting to new tasks with just a few demonstrations in the input context. However, the model's ability to perform ICL is sensitive to the choice of the few-shot demonstrations. Instead of using a fixed set of demonstrations, one recent development is to retrieve demonstrations tailored to each input query. The implementation of demonstration retrieval is relatively straightforward, leveraging existing databases and retrieval systems. This not only improves the efficiency and scalability of the learning process but also has been shown to reduce biases inherent in manual example selection. In light of the encouraging results and growing research in ICL with retrieved demonstrations, we conduct an extensive review of studies in this area. In this survey, we discuss and compare different design choices for retrieval models, retrieval training procedures, and inference algorithms. | 翻訳日:2024-03-27 01:55:44 公開日:2024-03-23 |
# PILOT:ケース・ローによる訴訟のアウトカム予測
PILOT: Legal Case Outcome Prediction with Case Law ( http://arxiv.org/abs/2401.15770v2 ) ライセンス: Link先を確認 | Lang Cao, Zifeng Wang, Cao Xiao, Jimeng Sun, | (参考訳) 機械学習は、訴訟の結果を予測することを約束していることを示しているが、ほとんどの研究は、訴訟法システムよりも民事訴訟に集中している。
判例法を用いて判例結果の予測を行う上で,2つの特異な課題を特定した。
第一に、意思決定において裁判官の基本的な証拠となる関連する前例を特定することが重要である。
第二に、初期の事例は異なる法的文脈に従う可能性があるため、時間とともに法原則の進化を考慮する必要がある。
本稿では, PILOT (PredictIng Legal case OuTcome) という新たなフレームワークを提案する。
関連するケース検索と時間パターンハンドリングの2つのモジュールから構成される。
既存の判例結果予測モデルの性能をベンチマークするために,大規模な判例法データベースからデータセットをキュレートした。
本稿では,前例を正確に同定し,判例法の予測を行う際の時間的変化を緩和することの重要性を示す。
Machine learning shows promise in predicting the outcome of legal cases, but most research has concentrated on civil law cases rather than case law systems. We identified two unique challenges in making legal case outcome predictions with case law. First, it is crucial to identify relevant precedent cases that serve as fundamental evidence for judges during decision-making. Second, it is necessary to consider the evolution of legal principles over time, as early cases may adhere to different legal contexts. In this paper, we proposed a new framework named PILOT (PredictIng Legal case OuTcome) for case outcome prediction. It comprises two modules for relevant case retrieval and temporal pattern handling, respectively. To benchmark the performance of existing legal case outcome prediction models, we curated a dataset from a large-scale case law database. We demonstrate the importance of accurately identifying precedent cases and mitigating the temporal shift when making predictions for case law, as our method shows a significant improvement over the prior methods that focus on civil law case outcome predictions. | 翻訳日:2024-03-27 01:45:48 公開日:2024-03-23 |
# LCV2: 接地型視覚質問応答のための効果的な事前学習不要フレームワーク
LCV2: An Efficient Pretraining-Free Framework for Grounded Visual Question Answering ( http://arxiv.org/abs/2401.15842v2 ) ライセンス: Link先を確認 | Yuhan Chen, Lumei Su, Lihua Chen, Zhiwei Lin, | (参考訳) 本稿では,視覚言語マルチモーダル領域におけるグラウンドド視覚質問応答タスクに対して,LCV2モジュラー手法を提案する。
このアプローチは、既製のVQAモデルと既製のビジュアルグラウンドディング(VG)モデルの間の中間メディエータとして、凍結した大言語モデル(LLM)に依存し、LLMは設計したプロンプトに基づいて2つのモジュール間のテキスト情報を変換し伝達する。
LCV2は、事前学習プロセスを必要としない統合されたプラグイン・アンド・プレイ・フレームワークを確立する。
このフレームワークは、低計算リソース下でのVQAグラウンディングタスクにデプロイすることができる。
フレームワーク内のモジュール化されたモデルは、様々な最先端の事前訓練されたモデルを持つアプリケーションを可能にする。
GQA, CLEVR, VizWiz-VQA-Grounding などのベンチマークデータセットを用いて, 提案手法の性能評価を行った。
ベースライン法との比較分析により, LCV2の強靭な競合性を示す。
In this paper, the LCV2 modular method is proposed for the Grounded Visual Question Answering task in the vision-language multimodal domain. This approach relies on a frozen large language model (LLM) as intermediate mediator between the off-the-shelf VQA model and the off-the-shelf visual grounding (VG) model, where the LLM transforms and conveys textual information between the two modules based on a designed prompt. LCV2 establish an integrated plug-and-play framework without the need for any pre-training process. This framework can be deployed for VQA Grounding tasks under low computational resources. The modularized model within the framework allows application with various state-of-the-art pre-trained models, exhibiting significant potential to be advance with the times. Experimental implementations were conducted under constrained computational and memory resources, evaluating the proposed method's performance on benchmark datasets including GQA, CLEVR, and VizWiz-VQA-Grounding. Comparative analyses with baseline methods demonstrate the robust competitiveness of LCV2. | 翻訳日:2024-03-27 01:45:48 公開日:2024-03-23 |
# 分布一貫性構造因果モデル
Distribution-consistency Structural Causal Models ( http://arxiv.org/abs/2401.15911v3 ) ライセンス: Link先を確認 | Heyang Gong, Chaochao Lu, Yu Zhang, | (参考訳) 因果モデリングの分野では、潜在的成果(PO)と構造因果モデル(SCM)が主要なフレームワークである。
しかし、これらのフレームワークは、潜在的成果の連立分布のパラメータとして形式化された、事実上の反事実をモデル化する際、顕著な課題に直面している。
特に、(Y(0), Y(1))$の合同値に基づいてパーソナライズされたインセンティブを求めるシナリオにおいて、対実的推論は、現代の意思決定プロセスにおいて最重要となる。
本稿では,POおよびSCMフレームワークをモデルとして検討することから始める。
この分析により,両フレームワークの基盤となる一貫性ルールから生じる,'縮退反事実問題'と呼ばれる,固有のモデルキャパシティ制限を同定する。
この制限に対処するために、新しい「textit{distriion-consistency}」仮定を導入し、それに合わせて、分散一貫性構造因果モデル(DiscoSCM)を提案する。
モデルキャパシティの向上を具体化するために,DiscoSCM単独で実用上の意義を持つ新たな因果パラメータである‘textit{the probability of consistency}’を導入し,パーソナライズされたインセンティブの例を示した。
さらに,DiscoSCMフレームワーク内の '`Ladder of Causation'' に関する理論的結果の包括的セットを提供する。
最終的には因果性とその実世界の応用に対する理解を深めることが望まれます。
In the field of causal modeling, potential outcomes (PO) and structural causal models (SCMs) stand as the predominant frameworks. However, these frameworks face notable challenges in practically modeling counterfactuals, formalized as parameters of the joint distribution of potential outcomes. Counterfactual reasoning holds paramount importance in contemporary decision-making processes, especially in scenarios that demand personalized incentives based on the joint values of $(Y(0), Y(1))$. This paper begins with an investigation of the PO and SCM frameworks for modeling counterfactuals. Through the analysis, we identify an inherent model capacity limitation, termed as the ``degenerative counterfactual problem'', emerging from the consistency rule that is the cornerstone of both frameworks. To address this limitation, we introduce a novel \textit{distribution-consistency} assumption, and in alignment with it, we propose the Distribution-consistency Structural Causal Models (DiscoSCMs) offering enhanced capabilities to model counterfactuals. To concretely reveal the enhanced model capacity, we introduce a new identifiable causal parameter, \textit{the probability of consistency}, which holds practical significance within DiscoSCM alone, showcased with a personalized incentive example. Furthermore, we provide a comprehensive set of theoretical results about the ``Ladder of Causation'' within the DiscoSCM framework. We hope it opens new avenues for future research of counterfactual modeling, ultimately enhancing our understanding of causality and its real-world applications. | 翻訳日:2024-03-27 01:45:48 公開日:2024-03-23 |
# 数学的推論のための大規模言語モデル:進展と課題
Large Language Models for Mathematical Reasoning: Progresses and Challenges ( http://arxiv.org/abs/2402.00157v2 ) ライセンス: Link先を確認 | Janice Ahn, Rishu Verma, Renze Lou, Di Liu, Rui Zhang, Wenpeng Yin, | (参考訳) 数学的推論は、人間の知能の基本的な認知能力を評価するための基礎となる。
近年,数学問題の自動解法を目的とした大規模言語モデル(LLM)の開発が顕著に進んでいる。
しかし、数学的な問題の種類は様々であり、LLM指向の手法は様々なデータセットや設定で評価されている。
この多様性は、この急成長する分野における真の進歩と障害を識別することを困難にしている。
この調査は4つの重要な次元に対処する試みである。
一 調査した各種数学上の問題及びそれに対応するデータセットを総合的に調査すること。
二 数学的問題解決のために提案されたLLM指向技術のスペクトルの検討
三 数学の解法における LLM に影響する要因及び問題の概要
四 この領域内の持続的課題の解明
我々の知る限りでは、この調査は数学の領域におけるLLMの展望に関する最初の広範な調査の1つであり、この急速に発展する分野における現在の状況、成果、今後の課題に関する総合的な視点を提供するものである。
Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field. | 翻訳日:2024-03-27 01:45:48 公開日:2024-03-23 |
# 相互作用する粒子系の量子化
A quantization of interacting particle systems ( http://arxiv.org/abs/2402.00280v2 ) ライセンス: Link先を確認 | Jirô Akahori, Norio Konno, Rikuki Okamoto, Iwao Sato, | (参考訳) 本稿では,ドマニ・キンツェルモデルを含む近接相互作用を持つ確率的セルオートマトンについて検討した。
ドマニ・キンツェル模型の特別ケースは直交パーコレーションである。
相互作用する粒子系をグラフ上のマルコフ連鎖とみなす。
次に、相互作用する粒子系の新しい量子化を示す。
その後、量子化モデルのゼータ関数を導入し、その決定式を与える。
さらに,ドマニ・キンツェルモデルに対する量子化モデルの絶対ゼータ関数を計算する。
Interacting particle systems studied in this paper are probabilistic cellular automata with nearest-neighbor interaction including the Domany-Kinzel model. A special case of the Domany-Kinzel model is directed percolation. We regard the interacting particle system as a Markov chain on a graph. Then we present a new quantization of the interacting particle system. After that, we introduce a zeta function of the quantized model and give its determinant expression. Moreover, we calculate the absolute zeta function of the quantized model for the Domany-Kinzel model. | 翻訳日:2024-03-27 01:45:48 公開日:2024-03-23 |
# 推論効率の良いLLMのためのタンデム変換器
Tandem Transformers for Inference Efficient LLMs ( http://arxiv.org/abs/2402.08644v2 ) ライセンス: Link先を確認 | Aishwarya P S, Pranav Ajit Nair, Yashas Samaga, Toby Boyd, Sanjiv Kumar, Prateek Jain, Praneeth Netrapalli, | (参考訳) 従来の大規模言語モデル(LLM)の自己回帰特性は、トークンが順次生成されるため、本質的に推論速度を制限する。
投機的および並列復号法は、これを緩和しようとするが、それらには制限がある: 生成のためにより少ない精度の小さなモデルに頼るか、基礎となるLCMの表現を完全に活用しないかである。
これらの問題に対処するために,新しいアーキテクチャであるタンデム変換器を導入する。
このアーキテクチャは、(1)小さな自己回帰モデル、(2)ブロックモードで動作する大きなモデル(複数のトークンを同時に処理する)を独自に組み合わせている。
小さなモデルの予測精度は、大きなモデルのリッチな表現に注意を向けることで大幅に向上する。
PaLM2事前トレーニングデータセットでは、PaLM2-BisonとPaLM2-GeckoのタンデムがスタンドアロンのPaLM2-Geckoよりも3.3%改善され、同等のダウンストリームパフォーマンスを持つPaLM2-Otterモデルと比較して1.16倍のスピードアップを提供する。
我々はさらに、大きなモデルが小さなモデルからのトークンを検証する投機的復号化(SPEED)フレームワークにタンデムモデルを組み込む。
これにより、PaLM2-BisonとPaLM2-Geckoのタンデムは、同一の下流タスク精度を維持しながら、相当なスピードアップ(SPEEDでバニラPaLM2-Geckoを使用するよりも約1.14倍高速)を達成する。
The autoregressive nature of conventional large language models (LLMs) inherently limits inference speed, as tokens are generated sequentially. While speculative and parallel decoding techniques attempt to mitigate this, they face limitations: either relying on less accurate smaller models for generation or failing to fully leverage the base LLM's representations. We introduce a novel architecture, Tandem transformers, to address these issues. This architecture uniquely combines (1) a small autoregressive model and (2) a large model operating in block mode (processing multiple tokens simultaneously). The small model's predictive accuracy is substantially enhanced by granting it attention to the large model's richer representations. On the PaLM2 pretraining dataset, a tandem of PaLM2-Bison and PaLM2-Gecko demonstrates a 3.3% improvement in next-token prediction accuracy over a standalone PaLM2-Gecko, offering a 1.16x speedup compared to a PaLM2-Otter model with comparable downstream performance. We further incorporate the tandem model within the speculative decoding (SPEED) framework where the large model validates tokens from the small model. This ensures that the Tandem of PaLM2-Bison and PaLM2-Gecko achieves substantial speedup (around 1.14x faster than using vanilla PaLM2-Gecko in SPEED) while maintaining identical downstream task accuracy. | 翻訳日:2024-03-27 01:35:51 公開日:2024-03-23 |
# $\mathcal{PT}$-symmetric quantum Rabi model:解と例外点
The $\mathcal{PT}$-symmetric quantum Rabi model: Solutions and exceptional points ( http://arxiv.org/abs/2402.09749v2 ) ライセンス: Link先を確認 | Jiong Li, Yi-Cheng Wang, Li-Wei Duan, Qing-Hu Chen, | (参考訳) 非エルミート的な1光子と2光子量子ラビモデル(QRM)は、ボゴリューボフ作用素のアプローチによってそれぞれ解かれる。
正確な解に責任を負う超越関数は導出され、その零点は完全なスペクトルを生成する。
例外点(EP)は超越関数で識別できる。
EPは、隣り合う2つの励起エネルギー準位に形成され、より高いエネルギー準位において低い結合強度へとシフトする。
興味深いことに、非エルミート2光子 QRM の共鳴状態の下では、等光数部分空間における同じパリティ内の最低2つの励起状態は、EP で結合するが、非エルミート系における従来の EP とは対照的に、常に純粋な実エネルギーを取る。
両方の非エルミート系 QRM に対して、忠実度感受性は、非エルミート系における最近の観測と一致し、EP において負の無限大となる。
すべての固有状態は保存エネルギーとQRMパリティによってラベル付けすることができ、非エルミート QRM もヘルミート級数と同様に可積分であると主張する。
The non-Hermitian one-photon and two-photon quantum Rabi models (QRMs) with imaginary couplings are respectively solved through the Bogoliubov operators approach. Transcendental functions responsible for exact solutions are derived, whose zeros produce the complete spectra. Exceptional points (EPs) can be identified in terms of the transcendental function. The EP is formed in the two nearest-neighboring excited energy levels, and shifts towards lower coupling strength at higher energy levels. Interestingly, under the resonant condition in the non-Hermitian two-photon QRM, the lowest two excited states within the same parity in the even photonic number subspace coalesce at an EP, but take always the purely real energy, in sharp contrast to the conventional EP in the non-Hermitian systems. For both non-Hermitian QRMs, the fidelity susceptibility goes to negative infinity at the EPs, consistent with the recent observations in non-Hermitian systems. All eigenstates can be labeled by the conserved energy and the QRM parity, we argue that the non-Hermitian QRMs are also integrable, similar to their Hermitian counterparts. | 翻訳日:2024-03-27 01:35:51 公開日:2024-03-23 |
# 低資源南アジア諸語における多言語干渉分解能
Multilingual Coreference Resolution in Low-resource South Asian Languages ( http://arxiv.org/abs/2402.13571v2 ) ライセンス: Link先を確認 | Ritwik Mishra, Pooja Desur, Rajiv Ratn Shah, Ponnurangam Kumaraguru, | (参考訳) 参照解決は、同じ現実世界のエンティティに関連する会話の中でテキストスパンを識別するタスクを含む。
この課題は英語で広く研究されているが、南アジアの言語では、コア参照解決のための公開リソースやモデルが不足している。
翻訳と単語アライメントのためのオフ・ザ・シェルフツールを用いて,31の東南アジア言語で多言語照合解決のための翻訳データセット(TransMuCoRes)を導入する。
予測された翻訳のほぼ全てが正当性検査に合格し、英語の参照の75%は予測された翻訳と一致している。
マルチリンガルエンコーダを用いて、TransMuCoResとHindiコア参照解決データセットを手動アノテーションで結合した2つのオフザシェルコア参照解決モデルを訓練した。
LEA F1 と CoNLL F1 でそれぞれ 64 と 68 のスコアを得た。
本研究は,ヒンディー語黄金集合上でのエンド・ツー・エンドのコア参照分解モデルを評価する最初のものである。
さらに、この研究は、分割先行するデータセットに適用する場合の現在のコア参照評価指標の限界を強調し、より適切な評価指標の開発を提唱する。
Coreference resolution involves the task of identifying text spans within a discourse that pertain to the same real-world entity. While this task has been extensively explored in the English language, there has been a notable scarcity of publicly accessible resources and models for coreference resolution in South Asian languages. We introduce a Translated dataset for Multilingual Coreference Resolution (TransMuCoRes) in 31 South Asian languages using off-the-shelf tools for translation and word-alignment. Nearly all of the predicted translations successfully pass a sanity check, and 75% of English references align with their predicted translations. Using multilingual encoders, two off-the-shelf coreference resolution models were trained on a concatenation of TransMuCoRes and a Hindi coreference resolution dataset with manual annotations. The best performing model achieved a score of 64 and 68 for LEA F1 and CoNLL F1, respectively, on our test-split of Hindi golden set. This study is the first to evaluate an end-to-end coreference resolution model on a Hindi golden set. Furthermore, this work underscores the limitations of current coreference evaluation metrics when applied to datasets with split antecedents, advocating for the development of more suitable evaluation metrics. | 翻訳日:2024-03-27 01:25:45 公開日:2024-03-23 |
# NaVid:ビデオベースのVLMが視覚・言語ナビゲーションの次のステップを計画
NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation ( http://arxiv.org/abs/2402.15852v4 ) ライセンス: Link先を確認 | Jiazhao Zhang, Kunyu Wang, Rongtao Xu, Gengze Zhou, Yicong Hong, Xiaomeng Fang, Qi Wu, Zhizheng Zhang, He Wang, | (参考訳) VLN(Vision-and-Language Navigation)は、エージェントが言語命令に従って見えない環境でナビゲートできるようにすることを目的として、Embodied AIの重要な研究課題である。
この分野での一般化は、流通外のシーンやSimからRealまで、長年にわたる課題である。
本稿では,映像ベース大規模視覚言語モデル(VLM)であるNaVidを提案する。
NaVidは、地図、オドメーター、深さ入力を使わずに最先端のナビゲーション性能を実現するVLMの能力を示す最初の試みである。
人間の指示に従って、NaVidはロボットに搭載された単眼のRGBカメラから、次のステップのアクションを出力するオンザフライビデオストリームのみを必要とする。
我々の定式化は、オドメーターノイズによる問題と、地図や深度入力からのSim2Realギャップを人間がどのようにナビゲートし、自然に取り除くかを模倣する。
さらに,ビデオに基づくアプローチでは,ロボットの歴史的観察を,意思決定と指導の時空間的文脈として効果的にエンコードすることができる。
VLN-CEトラジェクトリから収集した550kのナビゲーションサンプルと665kの大規模Webデータを用いてNaVidをトレーニングする。
大規模な実験により、NaVidはシミュレーション環境と実世界のSOTA性能を達成し、優れたクロスデータセットとSim2Real転送を実現している。
そこで我々は,本提案のVLMアプローチが,ナビゲーションエージェントだけでなく,本研究分野の次のステップを計画していると信じている。
Vision-and-Language Navigation (VLN) stands as a key research problem of Embodied AI, aiming at enabling agents to navigate in unseen environments following linguistic instructions. In this field, generalization is a long-standing challenge, either to out-of-distribution scenes or from Sim to Real. In this paper, we propose NaVid, a video-based large vision language model (VLM), to mitigate such a generalization gap. NaVid makes the first endeavour to showcase the capability of VLMs to achieve state-of-the-art level navigation performance without any maps, odometer and depth inputs. Following human instruction, NaVid only requires an on-the-fly video stream from a monocular RGB camera equipped on the robot to output the next-step action. Our formulation mimics how humans navigate and naturally gets rid of the problems introduced by odometer noises, and the Sim2Real gaps from map or depth inputs. Moreover, our video-based approach can effectively encode the historical observations of robots as spatio-temporal contexts for decision-making and instruction following. We train NaVid with 550k navigation samples collected from VLN-CE trajectories, including action-planning and instruction-reasoning samples, along with 665k large-scale web data. Extensive experiments show that NaVid achieves SOTA performance in simulation environments and the real world, demonstrating superior cross-dataset and Sim2Real transfer. We thus believe our proposed VLM approach plans the next step for not only the navigation agents but also this research field. | 翻訳日:2024-03-27 01:25:45 公開日:2024-03-23 |
# 解釈可能な辞書分類器による辞書からの語彙特徴抽出
Extracting Lexical Features from Dialects via Interpretable Dialect Classifiers ( http://arxiv.org/abs/2402.17914v2 ) ライセンス: Link先を確認 | Roy Xie, Orevaoghene Ahia, Yulia Tsvetkov, Antonios Anastasopoulos, | (参考訳) 言語の方言間の言語的差異を特定するには、専門家の知識と巧妙な人間の分析を必要とすることが多い。
これは主に、様々な方言の研究にかかわる複雑さとニュアンスが原因である。
本稿では,人間の専門家がいなくても,解釈可能な方言分類器を用いて,方言の語彙的特徴を識別する新しい手法を提案する。
本手法が方言のバリエーションに寄与する重要な言語固有の語彙の特徴を同定できることを実験的に実証した。
Identifying linguistic differences between dialects of a language often requires expert knowledge and meticulous human analysis. This is largely due to the complexity and nuance involved in studying various dialects. We present a novel approach to extract distinguishing lexical features of dialects by utilizing interpretable dialect classifiers, even in the absence of human experts. We explore both post-hoc and intrinsic approaches to interpretability, conduct experiments on Mandarin, Italian, and Low Saxon, and experimentally demonstrate that our method successfully identifies key language-specific lexical features that contribute to dialectal variations. | 翻訳日:2024-03-27 01:25:45 公開日:2024-03-23 |
# SEED:コード生成のためのサンプル効率の良い適応による大規模言語モデルのカスタマイズ
SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation ( http://arxiv.org/abs/2403.00046v2 ) ライセンス: Link先を確認 | Xue Jiang, Yihong Dong, Zhi Jin, Ge Li, | (参考訳) 大きな言語モデル(LLM)はコード生成に大きな進歩を遂げているが、特定のシナリオでコード生成タスクに苦戦している。
これらのシナリオは、通常、特定のニーズを満たすためにLLMの適応を必要とするが、実際に利用可能な限られたトレーニングサンプルは、コード生成のパフォーマンスを低下させる。
したがって、LLMをトレーニングサンプルの少ない新しいシナリオに効果的に適応する方法は、現在のコード生成の大きな課題である。
本稿では,コード生成における誤り駆動学習を用いたサンプル効率向上のための,SEEDという新しい適応手法を提案する。
SEEDは、LLMによる誤りを学習機会として活用し、エラー修正を使用して自身の欠点を克服し、効率的な学習を実現する。
具体的には、LLMによって生成されたエラーコードを特定し、コード修正にSelf-Reviseを採用し、修正されたコードでモデルを最適化し、継続的改善のために反復的にプロセスを適用する。
実験の結果、他の主流の微調整アプローチと比較して、SEEDはトレーニングサンプルが少ないことで優れたパフォーマンスを達成しており、複数のコード生成ベンチマークでPass@1の平均相対的な改善は54.7%であることがわかった。
また、データセットのコードサンプルと比較してモデルをより効率的に最適化する修正コードを生成する自己修正の有効性を検証する。
さらに、SEEDは様々なLLMに対して高い性能を示し、その一般化可能性を強調している。
Although Large Language Models (LLMs) have made significant progress in code generation, they still struggle with code generation tasks in specific scenarios. These scenarios usually necessitate the adaptation of LLMs to fulfill specific needs, but the limited training samples available in practice lead to poor code generation performance. Therefore, how to effectively adapt LLMs to new scenarios with few training samples is a major challenge for current code generation. In this paper, we propose a novel adaptation approach named SEED, which stands for Sample-Efficient adaptation with Error-Driven learning for code generation. SEED leverages the errors made by LLMs as learning opportunities, using error revision to overcome its own shortcomings, thus achieving efficient learning. Specifically, SEED involves identifying error code generated by LLMs, employing Self-revise for code revision, optimizing the model with revised code, and iteratively adapting the process for continuous improvement. Experimental results show that, compared to other mainstream fine-tuning approaches, SEED achieves superior performance with few training samples, showing an average relative improvement of 54.7% in Pass@1 on multiple code generation benchmarks. We also validate the effectiveness of Self-revise, which generates revised code that optimizes the model more efficiently compared to the code samples from datasets. Moreover, SEED consistently demonstrates strong performance across various LLMs, underscoring its generalizability. | 翻訳日:2024-03-27 01:25:45 公開日:2024-03-23 |
# 回路QEDにおける超高品質マイクロ波空洞の制御性と記憶時間に関する戦略とトレードオフ
Strategies and trade-offs for controllability and memory time of ultra-high-quality microwave cavities in circuit QED ( http://arxiv.org/abs/2403.02278v2 ) ライセンス: Link先を確認 | Iivari Pietikäinen, Ondřej Černotík, Alec Eickbusch, Aniket Maiti, John W. O. Garmon, Radim Filip, Steven M. Girvin, | (参考訳) 3次元マイクロ波空洞共振器は、その表面に対する空洞体積を最大化し、より良い材料を使用し、表面処理を改善することで、一秒の寿命に達することが示されている。
このようなキャビティはボソニック量子ビットを用いた量子コンピューティングの理想的なプラットフォームであるが、大きなモードの体積が制御に使用される非線形要素との非効率な結合をもたらすため、その効率的な制御は際立った問題である。
さらに、この結合は、長い固有寿命の利点を容易に破壊できる逆パーセル効果を介して、付加的な空洞崩壊を引き起こす。
本稿では、これらの超高品質マイクロ波空洞を従来の超伝導量子ビットの記憶として効率的に利用するための条件とプロトコルについて論じる。
意外なことに,超高品質キャビティを用いた書き込み・読み出し操作は,量子ビットや他の非線形要素の制御に類似した品質要因を必要としないことを示す。
解析計算と数値計算を組み合わせることで,2次寿命のキャビティへの効率的な結合が,最先端のトランスモンデバイスとSNAILデバイスで実現可能であることを示し,さらに高い品質要因でキャビティを制御するための経路を概説する。
本研究は,超高品質マイクロ波空洞共振器を用いて,ボソニック量子ビットに符号化された情報を保存・処理するための潜在的ロードマップを探究する。
Three-dimensional microwave cavity resonators have been shown to reach lifetimes of the order of a second by maximizing the cavity volume relative to its surface, using better materials, and improving surface treatments. Such cavities represent an ideal platform for quantum computing with bosonic qubits, but their efficient control remains an outstanding problem since the large mode volume results in inefficient coupling to nonlinear elements used for their control. Moreover, this coupling induces additional cavity decay via the inverse Purcell effect which can easily destroy the advantage of a long intrinsic lifetime. Here, we discuss conditions on, and protocols for, efficient utilization of these ultra-high-quality microwave cavities as memories for conventional superconducting qubits. We show that, surprisingly, efficient write and read operations with ultra-high-quality cavities does not require similar quality factors for the qubits and other nonlinear elements used to control them. Through a combination of analytical and numerical calculations, we demonstrate that efficient coupling to cavities with second-scale lifetime is possible with state-of-the-art transmon and SNAIL devices and outline a route towards controlling cavities with even higher quality factors. Our work explores a potentially viable roadmap towards using ultra-high-quality microwave cavity resonators for storing and processing information encoded in bosonic qubits. | 翻訳日:2024-03-27 01:15:57 公開日:2024-03-23 |
# 厳密な指導を伴わない学習:低解像度歴史ラベルによる大規模高解像度土地被覆マップの更新
Learning without Exact Guidance: Updating Large-scale High-resolution Land Cover Maps from Low-resolution Historical Labels ( http://arxiv.org/abs/2403.02746v3 ) ライセンス: Link先を確認 | Zhuohong Li, Wei He, Jiepan Li, Fangxiao Lu, Hongyan Zhang, | (参考訳) 大規模な高解像度(HR)の土地被覆マッピングは、地球の表面を調査し、人類が直面する多くの課題を解決するための重要な課題である。
しかし、複雑な地盤の詳細、様々な地形、広範囲にわたる正確な訓練ラベルの不足に悩まされている。
本稿では,低解像度の歴史的土地被覆データ(LR)を用いた大規模人為的土地被覆地図作成のための,効率的で弱教師付きフレームワーク(Paraformer)を提案する。
具体的には、既存の土地被覆マッピング手法は、土地の細部保存におけるCNNの優位性を示しているが、それでも様々な地形のグローバルなモデリングが不十分である。
そこで我々は,Paraformer における並列 CNN-Transformer 特徴抽出器の設計を行った。
さらに、トレーニングデータの空間的ミスマッチに直面して、擬似ラベル支援トレーニング(PLAT)モジュールを用いて、HR画像の弱い教師付きセマンティックセグメンテーションのためにLRラベルを合理的に洗練する。
2つの大規模データセットの実験は、LR履歴ラベルからHRランドカバーマップを自動更新する他の最先端手法よりもParaformerの方が優れていることを示す。
Large-scale high-resolution (HR) land-cover mapping is a vital task to survey the Earth's surface and resolve many challenges facing humanity. However, it is still a non-trivial task hindered by complex ground details, various landforms, and the scarcity of accurate training labels over a wide-span geographic area. In this paper, we propose an efficient, weakly supervised framework (Paraformer) to guide large-scale HR land-cover mapping with easy-access historical land-cover data of low resolution (LR). Specifically, existing land-cover mapping approaches reveal the dominance of CNNs in preserving local ground details but still suffer from insufficient global modeling in various landforms. Therefore, we design a parallel CNN-Transformer feature extractor in Paraformer, consisting of a downsampling-free CNN branch and a Transformer branch, to jointly capture local and global contextual information. Besides, facing the spatial mismatch of training data, a pseudo-label-assisted training (PLAT) module is adopted to reasonably refine LR labels for weakly supervised semantic segmentation of HR images. Experiments on two large-scale datasets demonstrate the superiority of Paraformer over other state-of-the-art methods for automatically updating HR land-cover maps from LR historical labels. | 翻訳日:2024-03-27 01:15:57 公開日:2024-03-23 |
# 対向的対向的次元ギャップが対向的脆弱性に及ぼす影響
Effect of Ambient-Intrinsic Dimension Gap on Adversarial Vulnerability ( http://arxiv.org/abs/2403.03967v2 ) ライセンス: Link先を確認 | Rajdeep Haldar, Yue Xing, Qifan Song, | (参考訳) 人間に受け入れられない機械学習モデルに対する敵対的攻撃の存在は、理論的な観点からはまだかなりの謎である。
本研究では, 自然攻撃と対人攻撃の2つの概念, 自然攻撃と対人攻撃と非自然攻撃と対人攻撃の2つの概念を紹介する。
オフマンフォールド攻撃の存在は、データの内在次元と周囲次元の間の次元ギャップの自然な結果であると主張する。
2層ReLUネットワークの場合、次元ギャップが観測データ空間から引き出されたサンプルの一般化性能に影響を与えないにもかかわらず、クリーントレーニングされたモデルはデータ空間のオフマンフォールド方向の逆摂動に対してより脆弱であることを示す。
我々の主な結果は、on/off-manifold攻撃の攻撃強度と次元ギャップとの明確な関係を提供する。
The existence of adversarial attacks on machine learning models imperceptible to a human is still quite a mystery from a theoretical perspective. In this work, we introduce two notions of adversarial attacks: natural or on-manifold attacks, which are perceptible by a human/oracle, and unnatural or off-manifold attacks, which are not. We argue that the existence of the off-manifold attacks is a natural consequence of the dimension gap between the intrinsic and ambient dimensions of the data. For 2-layer ReLU networks, we prove that even though the dimension gap does not affect generalization performance on samples drawn from the observed data space, it makes the clean-trained model more vulnerable to adversarial perturbations in the off-manifold direction of the data space. Our main results provide an explicit relationship between the $\ell_2,\ell_{\infty}$ attack strength of the on/off-manifold attack and the dimension gap. | 翻訳日:2024-03-27 01:06:08 公開日:2024-03-23 |
# 関係量子力学、量子相対論、および相対性理論の反復
Relational Quantum Mechanics, Quantum Relativism, and the Iteration of Relativity ( http://arxiv.org/abs/2403.04069v2 ) ライセンス: Link先を確認 | Timotheus Riedel, | (参考訳) 量子系の力学的性質が他の系と常に相対的であるという考え方は、最近通貨を回復させた。
本稿では、RQM(Relational Quantum Mechanics)をケーススタディとして用いて、相対性理論が反復するかどうかという問題について、量子相対性理論に関する議論であまり理解されていない問題に注意を向ける。
ある系が特定の参照に対して持つ性質について絶対的な事実があるだろうか。
RQM(最もよく知られた形式)は、私がUnrestricted Iteration Principle (UIP)と呼ぶもので、従って相対性化の無限の回帰にコミットしている、と論じられている。
この原理は、観測者間の相互作用の結果のコミュニケーション性と一貫性を確保する上で重要な役割を担っている。
しかし、関係性の観点からはRQMの広く保守的な読影とは相容れないことが示されており、むしろ観念的事実というより非正統な概念を採用する必要がある。
より一般的には、RQMのスペクティビスト版と量子相対論(quantum relativism)における現状を考察し、さらなる概念的発展の必要性と、そのような解釈の正確なコスト・ベネフィット分析のための反復原理の重要性の両方を論じる。
The idea that the dynamical properties of quantum systems are invariably relative to other systems has recently regained currency. Using Relational Quantum Mechanics (RQM) for a case study, this paper calls attention to a question that has been underappreciated in the debate about quantum relativism: the question of whether relativity iterates. Are there absolute facts about the properties one system possesses relative to a specified reference, or is this again a relative matter, and so on? It is argued that RQM (in its best-known form) is committed to what I call the Unrestricted Iteration Principle (UIP), and thus to an infinite regress of relativisations. This principle plays a crucial role in ensuring the communicability and coherence of interaction outcomes across observers. It is, however, shown to be incompatible with the widespread, conservative reading of RQM in terms of relations, instead necessitating the adoption of the more unorthodox notion of perspectival facts. I conclude with some reflections on the current state of play in perspectivist versions of RQM and quantum relativism more generally, underscoring both the need for further conceptual development and the importance of the iteration principle for an accurate cost-benefit analysis of such interpretations. | 翻訳日:2024-03-27 01:06:08 公開日:2024-03-23 |
# 分子相空間の位相と絡み合い
Topology and entanglement of molecular phase space ( http://arxiv.org/abs/2403.04572v2 ) ライセンス: Link先を確認 | Victor V. Albert, Eric Kubischta, Mikhail Lemeshko, Lee R. Liu, | (参考訳) 分子回転状態と核スピン状態の量子位相空間を定式化する。
分子幾何学と核スピンデータを用いて、一般化フーリエ変換により許容位置と運動量状態を得る。
我々は、分子を非対称、回転対称、回転対称の3つのタイプに分類する。
我々は、ハミルトニアン非依存であり、対称性とスピン統計だけで誘導される摂動対称状態空間の2つの特徴を同定する。
第一に、多くの分子種は内在的に回転スピンが絡み合っていて、他の種に遷移したり対称性を破ったりせずには壊れない。
第二に、各分子位置状態は内部の擬似スピンあるいは「ファイバー」自由度を持ち、繊維のベリー相またはマトリックスは、位置の断熱的な変化によって自然に堅牢な作用を生じさせ、これはあらゆる準粒子をブレイディングしたり、フォールトトレラントな量子ゲートを実現するのに似る。
これらの機能を実験的に調査できるシナリオを概説する。
We formulate a quantum phase space for molecular rotational and nuclear-spin states. Taking in molecular geometry and nuclear-spin data, our framework yields admissible position and momentum states, inter-convertible via a generalized Fourier transform. We classify molecules into three types -- asymmetric, rotationally symmetric, and perrotationally symmetric -- with the last type having no macroscopic analogue due to nuclear-spin statistics constraints. We identify two features in perrotationally symmetric state spaces that are Hamiltonian-independent and induced solely by symmetry and spin statistics. First, many molecular species are intrinsically rotation-spin entangled in a way that cannot be broken without transitioning to another species or breaking symmetry. Second, each molecular position state houses an internal pseudo-spin or "fiber" degree of freedom, and the fiber's Berry phase or matrix after adiabatic changes in position yields naturally robust operations, akin to braiding anyonic quasiparticles or realizing fault-tolerant quantum gates. We outline scenarios where these features can be experimentally probed. | 翻訳日:2024-03-27 01:06:08 公開日:2024-03-23 |
# 防衛を打破する - 大規模言語モデルに対する攻撃の比較調査
Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models ( http://arxiv.org/abs/2403.04786v2 ) ライセンス: Link先を確認 | Arijit Ghosh Chowdhury, Md Mofijul Islam, Vaibhav Kumar, Faysal Hossain Shezan, Vaibhav Kumar, Vinija Jain, Aman Chadha, | (参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)の分野の基盤となり、人間のようなテキストを理解して生成する変換機能を提供する。
しかし、その人気が高まり、これらのモデルのセキュリティと脆弱性の側面は大きな注目を集めている。
本稿では、LSMを標的とした様々な攻撃形態の包括的調査を行い、これらの攻撃の性質とメカニズム、その影響の可能性、現在の防衛戦略について論じる。
モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。
また,これらの攻撃に対するLDMのレジリエンス,モデル整合性およびユーザ信頼の意義についても検討した。
最新の研究から,LLMの脆弱性と防御機構の現況について考察する。
我々の目標は、LLM攻撃の微妙な理解を提供し、AIコミュニティ内での認識を高め、将来の開発においてこれらのリスクを緩和するための堅牢なソリューションを刺激することです。
Large Language Models (LLMs) have become a cornerstone in the field of Natural Language Processing (NLP), offering transformative capabilities in understanding and generating human-like text. However, with their rising prominence, the security and vulnerability aspects of these models have garnered significant attention. This paper presents a comprehensive survey of the various forms of attacks targeting LLMs, discussing the nature and mechanisms of these attacks, their potential impacts, and current defense strategies. We delve into topics such as adversarial attacks that aim to manipulate model outputs, data poisoning that affects model training, and privacy concerns related to training data exploitation. The paper also explores the effectiveness of different attack methodologies, the resilience of LLMs against these attacks, and the implications for model integrity and user trust. By examining the latest research, we provide insights into the current landscape of LLM vulnerabilities and defense mechanisms. Our objective is to offer a nuanced understanding of LLM attacks, foster awareness within the AI community, and inspire robust solutions to mitigate these risks in future developments. | 翻訳日:2024-03-27 01:06:08 公開日:2024-03-23 |
# 制限されたベイズニューラルネットワーク
Restricted Bayesian Neural Network ( http://arxiv.org/abs/2403.04810v2 ) ライセンス: Link先を確認 | Sourav Ganguly, | (参考訳) 現代のディープラーニングツールは複雑な問題に対処するのに非常に効果的です。
しかし、ブラックボックスモデルとしての動作は予測の不確実性を増大させる。
さらに、大規模なネットワークにおける大規模なストレージスペースの必要性、過度に適合する問題、過度に適合しない問題、勾配の消滅など、さまざまな課題も抱えている。
本研究では,ベイズニューラルネットワークの概念を探求し,ネットワークの記憶空間の複雑さを大幅に軽減する新しいアーキテクチャを提案する。
さらに,不確実性を効率的に扱えるアルゴリズムを導入し,特に目的関数が完全凸性に欠ける場合には,局所最適に閉じ込められることなく,堅牢な収束値を確保する。
Modern deep learning tools are remarkably effective in addressing intricate problems. However, their operation as black-box models introduces increased uncertainty in predictions. Additionally, they contend with various challenges, including the need for substantial storage space in large networks, issues of overfitting, underfitting, vanishing gradients, and more. This study explores the concept of Bayesian Neural Networks, presenting a novel architecture designed to significantly alleviate the storage space complexity of a network. Furthermore, we introduce an algorithm adept at efficiently handling uncertainties, ensuring robust convergence values without becoming trapped in local optima, particularly when the objective function lacks perfect convexity. | 翻訳日:2024-03-27 01:06:08 公開日:2024-03-23 |
# 事前学習と重要度メカニズムの微調整による低リソース知識追跡タスクの改善
Improving Low-Resource Knowledge Tracing Tasks by Supervised Pre-training and Importance Mechanism Fine-tuning ( http://arxiv.org/abs/2403.06725v2 ) ライセンス: Link先を確認 | Hengyuan Zhang, Zitao Liu, Shuyan Huang, Chenming Shang, Bojun Zhan, Yong Jiang, | (参考訳) 知識追跡(KT)は、学生の歴史的相互作用に基づいて、学生の知識熟達度を推定することを目的としている。
近年、深層学習に基づくKT(DLKT)アプローチは、KTタスクにおいて顕著なパフォーマンスを実現している。
これらのDLKTモデルは、利用可能な多数の学生相互作用に大きく依存している。
しかしながら、予算制約やプライバシー上の懸念といった様々な理由により、観測された相互作用は、低リソースのKTデータセットなど、多くの現実のシナリオにおいて非常に限定されている。
低リソースのKTデータセットでDLKTモデルを直接トレーニングすることは、過度な適合につながる可能性があり、適切なディープニューラルネットワークアーキテクチャを選択するのは難しい。
そこで本稿では,上記の課題に対処するため,LoReKTと呼ばれる低リソースKTフレームワークを提案する。
事前学習および微調整」パラダイムにインスパイアされた我々は、事前学習段階でリッチリソースのKTデータセットから転送可能なパラメータと表現を学習し、その後、低リソースのKTデータセットへの効果的な適応を容易にすることを目的としている。
具体的には,既存のDLKTモデルアーキテクチャを,純粋にトランスフォーマーデコーダのスタックで単純化する。
我々は、複数のKTデータソースからの学生のインタラクションを組み込むエンコーディング機構を設計し、微調整段階において重要でないパラメータを制約しながら、重要度の高い更新パラメータを優先順位付けする重要なメカニズムを開発する。
6つのパブリックKTデータセット上でLoReKTを評価し,AUCと精度の観点からアプローチの優位性を実証した。
再現可能な研究を促進するため、私たちはhttps://anonymous.4open.science/r/LoReKT-C619でデータとコードを公開しています。
Knowledge tracing (KT) aims to estimate student's knowledge mastery based on their historical interactions. Recently, the deep learning based KT (DLKT) approaches have achieved impressive performance in the KT task. These DLKT models heavily rely on the large number of available student interactions. However, due to various reasons such as budget constraints and privacy concerns, observed interactions are very limited in many real-world scenarios, a.k.a, low-resource KT datasets. Directly training a DLKT model on a low-resource KT dataset may lead to overfitting and it is difficult to choose the appropriate deep neural architecture. Therefore, in this paper, we propose a low-resource KT framework called LoReKT to address above challenges. Inspired by the prevalent "pre-training and fine-tuning" paradigm, we aim to learn transferable parameters and representations from rich-resource KT datasets during the pre-training stage and subsequently facilitate effective adaptation to low-resource KT datasets. Specifically, we simplify existing sophisticated DLKT model architectures with purely a stack of transformer decoders. We design an encoding mechanism to incorporate student interactions from multiple KT data sources and develop an importance mechanism to prioritize updating parameters with high importance while constraining less important ones during the fine-tuning stage. We evaluate LoReKT on six public KT datasets and experimental results demonstrate the superiority of our approach in terms of AUC and Accuracy. To encourage reproducible research, we make our data and code publicly available at https://anonymous.4open.science/r/LoReKT-C619. | 翻訳日:2024-03-27 01:06:08 公開日:2024-03-23 |
# リンク予測のための知識グラフ大言語モデル(KG-LLM)
Knowledge Graph Large Language Model (KG-LLM) for Link Prediction ( http://arxiv.org/abs/2403.07311v5 ) ライセンス: Link先を確認 | Dong Shu, Tianle Chen, Mingyu Jin, Yiting Zhang, Chong Zhang, Mengnan Du, Yongfeng Zhang, | (参考訳) 知識グラフ(KG)内の複数のリンクを予測するタスクは、知識グラフ解析の分野における課題であり、自然言語処理(NLP)やKG埋め込み技術の進歩により、ますます解決しやすくなっている。
本稿では,知識グラフ大言語モデルフレームワーク(KG-LLM)を提案する。このフレームワークは,KGにおけるマルチホップリンク予測を強化するために,チェーン・オブ・シンクレット(CoT)やインコンテキスト学習(ICL)など,重要なNLPパラダイムを活用する。
KGをCoTプロンプトに変換することで、我々のフレームワークはエンティティの潜在表現とその相互関係を識別し、学習するように設計されている。
KG-LLM フレームワークの有効性を示すため,本フレームワークでは,ICL と ICL の2つのタスクを総合的な評価に用い,主要な3つのLarge Language Model (LLM) を微調整する。
さらに、これまで見つからなかったプロンプトを扱うため、ゼロショット機能を備えたLLMを提供するフレームワークの可能性についても検討する。
実験の結果,ICLとCoTの統合はアプローチの性能を向上するだけでなく,モデルの一般化能力を大幅に向上させ,不慣れなシナリオにおけるより正確な予測を可能にすることがわかった。
The task of predicting multiple links within knowledge graphs (KGs) stands as a challenge in the field of knowledge graph analysis, a challenge increasingly resolvable due to advancements in natural language processing (NLP) and KG embedding techniques. This paper introduces a novel methodology, the Knowledge Graph Large Language Model Framework (KG-LLM), which leverages pivotal NLP paradigms, including chain-of-thought (CoT) prompting and in-context learning (ICL), to enhance multi-hop link prediction in KGs. By converting the KG to a CoT prompt, our framework is designed to discern and learn the latent representations of entities and their interrelations. To show the efficacy of the KG-LLM Framework, we fine-tune three leading Large Language Models (LLMs) within this framework, employing both non-ICL and ICL tasks for a comprehensive evaluation. Further, we explore the framework's potential to provide LLMs with zero-shot capabilities for handling previously unseen prompts. Our experimental findings discover that integrating ICL and CoT not only augments the performance of our approach but also significantly boosts the models' generalization capacity, thereby ensuring more precise predictions in unfamiliar scenarios. | 翻訳日:2024-03-27 00:56:02 公開日:2024-03-23 |
# 地域安定化によるランダム森林の多変量ガウス近似
Multivariate Gaussian Approximation for Random Forest via Region-based Stabilization ( http://arxiv.org/abs/2403.09960v2 ) ライセンス: Link先を確認 | Zhaoyang Shi, Chinmoy Bhattacharjee, Krishnakumar Balasubramanian, Wolfgang Polonik, | (参考訳) 我々はポアソン過程によって与えられる一連のトレーニングポイントに基づいて、データ生成過程における比較的穏やかな規則性仮定に基づいて、ランダムな森林予測のためのガウス近似境界を導出する。
我々のアプローチは、ランダムな森林予測が地域ベースの安定化と呼ばれる特定の幾何学的特性を満たすという重要な観測に基づいている。
ランダム・フォレストの結果を開発する過程では,多変量ガウス近似によるポアソン過程の一般関数に対する独立な興味を持つ確率的結果も確立する。
この一般的な結果は、マリアビン=シュタイン法を利用しており、様々な関連する統計問題に適用できる可能性がある。
We derive Gaussian approximation bounds for random forest predictions based on a set of training points given by a Poisson process, under fairly mild regularity assumptions on the data generating process. Our approach is based on the key observation that the random forest predictions satisfy a certain geometric property called region-based stabilization. In the process of developing our results for the random forest, we also establish a probabilistic result, which might be of independent interest, on multivariate Gaussian approximation bounds for general functionals of Poisson process that are region-based stabilizing. This general result makes use of the Malliavin-Stein method, and is potentially applicable to various related statistical problems. | 翻訳日:2024-03-27 00:56:02 公開日:2024-03-23 |
# ギグワーカーのための監視ツールの設計
Designing Sousveillance Tools for Gig Workers ( http://arxiv.org/abs/2403.09986v2 ) ライセンス: Link先を確認 | Maya De Los Santos, Kimberly Do, Michael Muller, Saiph Savage, | (参考訳) ギグワーカーは、独立して契約した従業員として、仕事に対するプレッシャーの増加、プライバシー侵害、デジタル自律性の低下など、職場監視の結果に不釣り合いに苦しんでいる。
職場の監視の悪影響にもかかわらず、ギグワーカーはこれらの害から身を守るための道具、戦略、職場の社会的支援を欠いている。
一方、批判的な理論家の中には、このような権力の乱用に対処する潜在的手段として、監視下にある者が権力者の立場で監視することを提案した者もいる(例えば、ギグワーカーは要求者やプラットフォームに関するデータを収集するなど)。
ギグ・エコノミーにおけるサスベイランス・システムのメリットを理解するため,我々はセミ構造化インタビューを行い,ギグ・ワーカーと共同設計活動を行った。
我々は「ケア倫理」を、インタビューや共同設計データを理解するための指針概念として使用し、共感的な監視技術設計レコメンデーションにも焦点を当てている。
本研究は,ギグワーカーの便宜経験に対する態度と過去の態度を明らかにするものである。
また、労働者が想像する監視技術の種類を明らかにし、デザインレコメンデーションを提供し、ギグプラットフォーム上でエンパワーメントで共感的な空間を作る方法について議論する。
As independently-contracted employees, gig workers disproportionately suffer the consequences of workplace surveillance, which include increased pressures to work, breaches of privacy, and decreased digital autonomy. Despite the negative impacts of workplace surveillance, gig workers lack the tools, strategies, and workplace social support to protect themselves against these harms. Meanwhile, some critical theorists have proposed sousveillance as a potential means of countering such abuses of power, whereby those under surveillance monitor those in positions of authority (e.g., gig workers collect data about requesters/platforms). To understand the benefits of sousveillance systems in the gig economy, we conducted semi-structured interviews and led co-design activities with gig workers. We use "care ethics" as a guiding concept to understand our interview and co-design data, while also focusing on empathic sousveillance technology design recommendations. Through our study, we identify gig workers' attitudes towards and past experiences with sousveillance. We also uncover the type of sousveillance technologies imagined by workers, provide design recommendations, and finish by discussing how to create empowering, empathic spaces on gig platforms. | 翻訳日:2024-03-27 00:56:02 公開日:2024-03-23 |
# リレージディアンタングメントを用いた多人数応答生成
Multi-party Response Generation with Relation Disentanglement ( http://arxiv.org/abs/2403.10827v2 ) ライセンス: Link先を確認 | Tianhao Dai, Chengyu Huang, Lizi Liao, | (参考訳) 既存のニューラルレスポンス生成モデルは、発話が逐次的に組織化されていると仮定して、二者会話の印象的な改善を実現している。
しかし、現実世界の対話の多くは複数のインターロケータを伴い、会話のコンテキストの構造はずっと複雑であり、例えば異なるインターロケータからの発声は「平行に」起こる。
この課題に直面して、より明確な文脈で応答生成を促進するために、発話やインターロケータ間の関係をモデル化しようとする作業がある。
それにもかかわらず、これらの手法はそのような関係に強く依存しており、これらが事前に与えられると仮定し、これは現実的ではなく、そのような方法の一般化を妨げる。
本研究では,人間のラベルを使わずに,会話の文脈内で微妙な手がかりに基づいて,関係性を自動推論し,これらの関係を利用して神経応答生成を導くことを提案する。
具体的には、まずディープグラフのランダムな処理を適用し、会話の文脈における発話間の全ての可能性について検討する。
次に、推定関係グラフを変分自動エンコーダフレームワークに統合し、構造認識応答生成のためのGANをトレーニングする。
Ubuntu Internet Relay Chat (IRC) チャネルベンチマークと最新のMovie Dialoguesによる実験結果から,本手法はマルチパーティ応答生成のための各種ベースラインモデルより優れていることが示された。
Existing neural response generation models have achieved impressive improvements for two-party conversations, which assume that utterances are sequentially organized. However, many real-world dialogues involve multiple interlocutors and the structure of conversational context is much more complex, e.g. utterances from different interlocutors can occur "in parallel". Facing this challenge, there are works trying to model the relations among utterances or interlocutors to facilitate response generation with clearer context. Nonetheless, these methods rely heavily on such relations and all assume that these are given beforehand, which is impractical and hinders the generality of such methods. In this work, we propose to automatically infer the relations via relational thinking on subtle clues inside the conversation context without any human label, and leverage these relations to guide the neural response generation. Specifically, we first apply a deep graph random process to fully consider all possible relations among utterances in the conversational context. Then the inferred relation graphs are integrated with a variational auto-encoder framework to train a GAN for structure-aware response generation. Experimental results on the Ubuntu Internet Relay Chat (IRC) channel benchmark and the most recent Movie Dialogues show that our method outperforms various baseline models for multi-party response generation. | 翻訳日:2024-03-26 23:01:39 公開日:2024-03-23 |
# 不確実性を考慮したモバイルエッジコンピューティングにおけるアプリケーション配置問題に対する学習型解法
A learning-based solution approach to the application placement problem in mobile edge computing under uncertainty ( http://arxiv.org/abs/2403.11259v2 ) ライセンス: Link先を確認 | Taha-Hossein Hejazi, Zahra Ghadimkhani, Arezoo Borji, | (参考訳) モバイルエッジコンピューティングサーバにアプリケーションを配置することは、多くのサーバ、ユーザ、そして彼らの要求にまつわる複雑な課題を示す。
既存のアルゴリズムは、重大な不確実性のあるシナリオで高次元の問題を解決するのに長い時間がかかる。
したがって、すべての技術的制約を考慮しつつ、サービス品質を最大化するための効率的なアプローチが必要である。
これらのアプローチの1つは機械学習であり、エッジサーバにおけるアプリケーションの配置に最適なソリューションをエミュレートする。
機械学習モデルは、ユーザとサーバの空間的位置に基づいて、ユーザリクエストをサーバに割り当てる方法を学ぶことが期待される。
本研究では,この問題を2段階確率計画法として定式化する。
十分な量のトレーニングレコードは、ユーザ位置、要求率、最適化モデルの解決など、さまざまなパラメータによって生成される。
そして、利用可能なサーバから各ユーザの距離の特徴と要求率に基づいて、機械学習モデルは、ユーザ間要求割り当てである確率最適化モデルの第一段階における決定変数を生成し、その最適化モデルを確実に模倣する独立した決定エージェントとして使用される。
本研究では,SVM(Support Vector Machines)とMLP(Multi-layer Perceptron)を用いて,確率的最適化モデルから現実的な決定を行う。
各モデルの性能は80%以上の実行効率を示した。
本研究の目的は,エッジサーバへの要求割当において,機械学習モデルを利用して最適な意思決定を行うことにより,モバイルエッジコンピューティングにおける高次元問題やシナリオに不確実性を持たせるための,より効率的なアプローチを提供することである。
これらの結果から,機械学習モデルは従来の手法に比べて解時間を大幅に改善できる可能性が示唆された。
Placing applications in mobile edge computing servers presents a complex challenge involving many servers, users, and their requests. Existing algorithms take a long time to solve high-dimensional problems with significant uncertainty scenarios. Therefore, an efficient approach is required to maximize the quality of service while considering all technical constraints. One of these approaches is machine learning, which emulates optimal solutions for application placement in edge servers. Machine learning models are expected to learn how to allocate user requests to servers based on the spatial positions of users and servers. In this study, the problem is formulated as a two-stage stochastic programming. A sufficient amount of training records is generated by varying parameters such as user locations, their request rates, and solving the optimization model. Then, based on the distance features of each user from the available servers and their request rates, machine learning models generate decision variables for the first stage of the stochastic optimization model, which is the user-to-server request allocation, and are employed as independent decision agents that reliably mimic the optimization model. Support Vector Machines (SVM) and Multi-layer Perceptron (MLP) are used in this research to achieve practical decisions from the stochastic optimization models. The performance of each model has shown an execution effectiveness of over 80%. This research aims to provide a more efficient approach for tackling high-dimensional problems and scenarios with uncertainties in mobile edge computing by leveraging machine learning models for optimal decision-making in request allocation to edge servers. These results suggest that machine-learning models can significantly improve solution times compared to conventional approaches. | 翻訳日:2024-03-26 23:01:39 公開日:2024-03-23 |
# 安全と高品質のアウトプットの確保: 言語モデルに対するガイドラインライブラリアプローチ
Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models ( http://arxiv.org/abs/2403.11838v2 ) ライセンス: Link先を確認 | Yi Luo, Zhenghao Lin, Yuhao Zhang, Jiashuo Sun, Chen Lin, Chengjin Xu, Xiangdong Su, Yelong Shen, Jian Guo, Yeyun Gong, | (参考訳) 大きな言語モデル(LLM)は印象的な能力を示すだけでなく、バイアスのあるコンテンツ生成やプライバシの問題といったリスクも提示する。
現在のアライメント手法の1つは、原則駆動の統合を含んでいるが、手作業によるルールの不正確さと、安全トレーニングのないモデルにおけるリスク認識の不十分さから生じる課題に直面している。
これらの問題に対処するために,2段階のアプローチである Guide-Align を導入する。
当初、安全訓練モデルでは、潜在的なリスクを特定し、様々な入力に対して特定のガイドラインを定式化し、包括的なガイドラインライブラリと入力ガイド検索のモデルを構築した。
その後、検索モデルは、新しい入力と関連するガイドラインを関連付け、LLMを応答生成に誘導し、安全で高品質な出力を保証し、人間の値と整合させる。
追加のオプションステージでは、第2ステージで実装されたプロセスを通じて、適切に整列されたデータセットでモデルを微調整する。
本手法は,多様な入力に対応するためのガイドラインをカスタマイズし,ガイドラインライブラリのきめ細かい粒度と包括性を向上する。
さらに、軽量検索モデルにより、安全訓練されたLLMの安全性に関する専門知識を取り入れている。
当社のアプローチを3つのベンチマークで評価し,LLMのセキュリティと品質の大幅な向上を実証した。
特に、微調整されたモデルであるRaradorは、パラメータが13億であっても、GPT-3.5-turboより優れ、アライメント能力はGPT-4より優れています。
Large Language Models (LLMs) exhibit impressive capabilities but also present risks such as biased content generation and privacy issues. One of the current alignment techniques includes principle-driven integration, but it faces challenges arising from the imprecision of manually crafted rules and inadequate risk perception in models without safety training. To address these, we introduce Guide-Align, a two-stage approach. Initially, a safety-trained model identifies potential risks and formulates specific guidelines for various inputs, establishing a comprehensive library of guidelines and a model for input-guidelines retrieval. Subsequently, the retrieval model correlates new inputs with relevant guidelines, which guide LLMs in response generation to ensure safe and high-quality outputs, thereby aligning with human values. An additional optional stage involves fine-tuning a model with well-aligned datasets generated through the process implemented in the second stage. Our method customizes guidelines to accommodate diverse inputs, thereby enhancing the fine-grainedness and comprehensiveness of the guideline library. Furthermore, it incorporates safety expertise from a safety-trained LLM through a lightweight retrieval model. We evaluate our approach on three benchmarks, demonstrating significant improvements in LLM security and quality. Notably, our fine-tuned model, Labrador, even at 13 billion parameters, outperforms GPT-3.5-turbo and surpasses GPT-4 in alignment capabilities. | 翻訳日:2024-03-26 23:01:39 公開日:2024-03-23 |
# 個人化効果予測のためのウェアラブルセンサデータと自己報告日記の統合
Integrating Wearable Sensor Data and Self-reported Diaries for Personalized Affect Forecasting ( http://arxiv.org/abs/2403.13841v2 ) ライセンス: Link先を確認 | Zhongqi Yang, Yuning Wang, Ken S. Yamashita, Maryam Sabah, Elahe Khatibi, Iman Azimi, Nikil Dutt, Jessica L. Borelli, Amir M. Rahmani, | (参考訳) 感情状態は、影響の指標として、全体の健康に重要なものであり、発症前に正確な予測を行う。
現在の研究は、ウェアラブルやモバイルデバイスのデータを用いた、短期的影響の即時検出を中心にしている。
これらの研究は、典型的には客観的な感覚測定に焦点を当てており、日記やノートなど、他の形で報告された情報を無視していることが多い。
本稿では,状況予測に影響を及ぼすマルチモーダルディープラーニングモデルを提案する。
このモデルは、トランスフォーマーエンコーダと事前訓練された言語モデルを組み合わせることで、客観的なメトリクスと自己報告された日記の統合分析を容易にする。
本モデルの有効性を検証するため,大学生を登録して1年以上監視し,生理的,環境的,睡眠的,代謝的,身体活動的パラメータを含む広範囲なデータセットを,参加者が提供したオープンエンドのテキスト日記とともに収集する。
その結果, 予測精度82.50%, 負の影響82.76%, 前週の予測精度82.76%が得られた。
モデルの有効性は、その説明可能性によってさらに高められる。
Emotional states, as indicators of affect, are pivotal to overall health, making their accurate prediction before onset crucial. Current studies are primarily centered on immediate short-term affect detection using data from wearable and mobile devices. These studies typically focus on objective sensory measures, often neglecting other forms of self-reported information like diaries and notes. In this paper, we propose a multimodal deep learning model for affect status forecasting. This model combines a transformer encoder with a pre-trained language model, facilitating the integrated analysis of objective metrics and self-reported diaries. To validate our model, we conduct a longitudinal study, enrolling college students and monitoring them over a year, to collect an extensive dataset including physiological, environmental, sleep, metabolic, and physical activity parameters, alongside open-ended textual diaries provided by the participants. Our results demonstrate that the proposed model achieves predictive accuracy of 82.50% for positive affect and 82.76% for negative affect, a full week in advance. The effectiveness of our model is further elevated by its explainability. | 翻訳日:2024-03-26 23:01:39 公開日:2024-03-23 |
# データ不均一性を考慮した分散学習におけるローカル更新の有効性
The Effectiveness of Local Updates for Decentralized Learning under Data Heterogeneity ( http://arxiv.org/abs/2403.15654v1 ) ライセンス: Link先を確認 | Tongle Wu, Ying Sun, | (参考訳) 本稿では,DGT (Decentralized Gradient Tracking) とDGD (Decentralized Gradient Descent) の2つの基本的な分散最適化手法を再検討する。
2つの設定を考慮し、$K > 1$ ローカル更新手順を組み込むことで通信の複雑さを低減できることを示す。
具体的には、$\mu$-strongly convex および $L$-smooth loss function に対して、局所DGT が通信複雑性を達成できることを証明した。 $\tilde{\mathcal{O}} \Big(\frac{L}{\mu K} + \frac{\delta}{\mu (1 - \rho)} + \frac{\rho }{(1 - \rho)^2} \cdot \frac{L+ \delta}{\mu}\Big)$。
その結果、通信と計算のトレードオフを明らかにし、データ不均一性が低くネットワークが十分に接続されている場合、K$の増加は通信コストを効果的に削減できることを示した。
次に、局所的な損失が同じ最小値を共有する過度パラメータ化方式を考察し、DGDの局所的な更新を用いることで、勾配補正がなくても通信複雑性の低減にDGTと同じような効果が得られることを示した。
数値実験により理論的結果が検証された。
We revisit two fundamental decentralized optimization methods, Decentralized Gradient Tracking (DGT) and Decentralized Gradient Descent (DGD), with multiple local updates. We consider two settings and demonstrate that incorporating $K > 1$ local update steps can reduce communication complexity. Specifically, for $\mu$-strongly convex and $L$-smooth loss functions, we proved that local DGT achieves communication complexity $\tilde{\mathcal{O}} \Big(\frac{L}{\mu K} + \frac{\delta}{\mu (1 - \rho)} + \frac{\rho }{(1 - \rho)^2} \cdot \frac{L+ \delta}{\mu}\Big)$, where $\rho$ measures the network connectivity and $\delta$ measures the second-order heterogeneity of the local loss. Our result reveals the tradeoff between communication and computation and shows increasing $K$ can effectively reduce communication costs when the data heterogeneity is low and the network is well-connected. We then consider the over-parameterization regime where the local losses share the same minimums, we proved that employing local updates in DGD, even without gradient correction, can yield a similar effect as DGT in reducing communication complexity. Numerical experiments validate our theoretical results. | 翻訳日:2024-03-26 21:41:55 公開日:2024-03-23 |
# 自動車に何が見えるか? 車内視線推定のための包括的視覚解法
What Do You See in Vehicle? Comprehensive Vision Solution for In-Vehicle Gaze Estimation ( http://arxiv.org/abs/2403.15664v1 ) ライセンス: Link先を確認 | Yihua Cheng, Yaning Zhu, Zongji Wang, Hongquan Hao, Yongwei Liu, Shiqing Cheng, Xi Wang, Hyung Jin Chang, | (参考訳) ドライバーの視線は、インテリジェントな車両にとって重要な認知と意図的な手がかりの豊富なものである。
その重要性にもかかわらず、車内視線推定の研究は、現実の運転シナリオにおける包括的で注意深いデータセットの不足のため、依然として限られている。
本稿では,車内視線研究を進めるための3つの新しい要素について述べる。
まず、車内視線を捉えた先駆的なデータセットであるIVGazeを紹介し、125人の被験者から収集し、車両内の広範囲の視線と頭部ポーズをカバーする。
従来の視線収集システムは車内使用には不十分である。
本稿では,車内視線収集のための新しいビジョンベースソリューションを提案し,アノテーション問題に対処するための改良された視線目標校正手法を提案する。
第2に、IVGazeを利用した車内視線推定に焦点を当てた。
車両内の顔画像はしばしば低解像度に悩まされ、トランスフォーマーベースのマルチレベル機能統合を活用した視線ピラミッドトランスフォーマーが導入された。
これを拡張して、デュアルストリームの視線ピラミッド変換器(GazeDPTR)を導入する。
視点変換を利用すると、仮想カメラを回転させて画像を正規化し、カメラのポーズを利用して正規化とオリジナル画像をマージして正確な視線推定を行う。
GazeDPTRはIVGazeデータセット上で最先端のパフォーマンスを示す。
第3に、GazeDPTRを拡張して、視線ゾーン分類の新しい戦略を探求する。
基礎的な三面体とプロジェクトによるこれらの平面の視線が新たに定義される。
投影点からの位置特徴と画像からの視覚特性の両方を利用すれば、視線推定の利点を実証し、視覚的特徴のみに依存するよりも優れた性能が得られる。
私たちのプロジェクトはhttps://yihua.zone/work/ivgaze.comで利用可能です。
Driver's eye gaze holds a wealth of cognitive and intentional cues crucial for intelligent vehicles. Despite its significance, research on in-vehicle gaze estimation remains limited due to the scarcity of comprehensive and well-annotated datasets in real driving scenarios. In this paper, we present three novel elements to advance in-vehicle gaze research. Firstly, we introduce IVGaze, a pioneering dataset capturing in-vehicle gaze, collected from 125 subjects and covering a large range of gaze and head poses within vehicles. Conventional gaze collection systems are inadequate for in-vehicle use. In this dataset, we propose a new vision-based solution for in-vehicle gaze collection, introducing a refined gaze target calibration method to tackle annotation challenges. Second, our research focuses on in-vehicle gaze estimation leveraging the IVGaze. In-vehicle face images often suffer from low resolution, prompting our introduction of a gaze pyramid transformer that leverages transformer-based multilevel features integration. Expanding upon this, we introduce the dual-stream gaze pyramid transformer (GazeDPTR). Employing perspective transformation, we rotate virtual cameras to normalize images, utilizing camera pose to merge normalized and original images for accurate gaze estimation. GazeDPTR shows state-of-the-art performance on the IVGaze dataset. Thirdly, we explore a novel strategy for gaze zone classification by extending the GazeDPTR. A foundational tri-plane and project gaze onto these planes are newly defined. Leveraging both positional features from the projection points and visual attributes from images, we achieve superior performance compared to relying solely on visual features, substantiating the advantage of gaze estimation. Our project is available at https://yihua.zone/work/ivgaze. | 翻訳日:2024-03-26 21:41:55 公開日:2024-03-23 |
# 大規模言語モデル時代のバイオメディシンのためのAI
AI for Biomedicine in the Era of Large Language Models ( http://arxiv.org/abs/2403.15673v1 ) ライセンス: Link先を確認 | Zhenyu Bi, Sajib Acharjee Dip, Daniel Hajialigol, Sindhura Kommu, Hanwen Liu, Meng Lu, Xuan Wang, | (参考訳) バイオメディシンのためのAIの能力は、量子系の偏微分方程式を解く原子レベルから分子レベルまで幅広い範囲に及んでいる。
ChatGPTのようなモデルで実証された大規模言語モデルの最近の進歩は、翻訳言語、チャットボットの構築、質問への回答など、自然言語タスクにおいて大きな進歩を見せている。
生物医学的なデータを考えると、生物医学的な文献や健康記録をテキストとして、生物学的なシーケンスやシークエンシングデータとして、あるいは時系列として脳信号のようなセンサーデータとして、自然言語に類似しているのを観察する。
最近の大規模言語モデルの可能性を生医学的知識発見に活用できるか?
本調査では,3つの重要なバイオメディカルデータカテゴリへの大規模言語モデルの適用について検討する。
1) テキストデータ
2)生物配列,及び
3)脳信号。
さらに、信頼性の確保、パーソナライゼーションの達成、マルチモーダルデータ表現への適応など、バイオメディカル研究における大きな言語モデル課題を掘り下げる。
The capabilities of AI for biomedicine span a wide spectrum, from the atomic level, where it solves partial differential equations for quantum systems, to the molecular level, predicting chemical or protein structures, and further extending to societal predictions like infectious disease outbreaks. Recent advancements in large language models, exemplified by models like ChatGPT, have showcased significant prowess in natural language tasks, such as translating languages, constructing chatbots, and answering questions. When we consider biomedical data, we observe a resemblance to natural language in terms of sequences: biomedical literature and health records presented as text, biological sequences or sequencing data arranged in sequences, or sensor data like brain signals as time series. The question arises: Can we harness the potential of recent large language models to drive biomedical knowledge discoveries? In this survey, we will explore the application of large language models to three crucial categories of biomedical data: 1) textual data, 2) biological sequences, and 3) brain signals. Furthermore, we will delve into large language model challenges in biomedical research, including ensuring trustworthiness, achieving personalization, and adapting to multi-modal data representation | 翻訳日:2024-03-26 21:41:55 公開日:2024-03-23 |
# 香港における動物種分類のための能動的学習モデル
An active learning model to classify animal species in Hong Kong ( http://arxiv.org/abs/2403.15675v1 ) ライセンス: Link先を確認 | Gareth Lamb, Ching Hei Lo, Jin Wu, Calvin K. F. Lee, | (参考訳) カメラトラップは、動物を監視するための効率的で非侵襲的な方法として、世界中の生態学者によって使用されている。
収集した画像を手動でラベル付けするのは時間を要するが、近年のディープラーニングとコンピュータビジョンの進歩により、このプロセスの自動化が可能になった[1]。
これに対する大きな障害は、これらのイメージを世界の他の部分から独立に収集されたデータに適用する際の、これらのモデルの一般化性である([2])。
ここでは,深層学習ワークフロー[3]を用いて,香港で収集されたカメラトラップ画像に適用可能なモデルを訓練する。
Camera traps are used by ecologists globally as an efficient and non-invasive method to monitor animals. While it is time-consuming to manually label the collected images, recent advances in deep learning and computer vision has made it possible to automating this process [1]. A major obstacle to this is the generalisability of these models when applying these images to independently collected data from other parts of the world [2]. Here, we use a deep active learning workflow [3], and train a model that is applicable to camera trap images collected in Hong Kong. | 翻訳日:2024-03-26 21:41:55 公開日:2024-03-23 |
# AC4:ZKPの回路制約に対する代数計算チェッカ
AC4: Algebraic Computation Checker for Circuit Constraints in ZKPs ( http://arxiv.org/abs/2403.15676v1 ) ライセンス: Link先を確認 | Hao Chen, Minyu Chen, Ruibang Liu, Guoqiang Li, | (参考訳) ZKPシステムは注目され、現代の暗号において基本的な役割を担っている。
Zk-SNARKプロトコルはZKPの利用を支配し、しばしば演算回路プログラミングのパラダイムによって実装される。
しかし、過度に制約された回路や過度に制約された回路はバグを引き起こす可能性がある。
制約の少ない回路は、必要な制約を欠いた回路を指し、結果として回路の予期せぬ解が生まれ、検証者が悪質な証人を受け入れる。
過制約回路は過度に制約された回路を指し、結果として回路は必要な解決策が欠如し、検証者が証人を受け入れることなく回路を無意味にする。
本稿では,ZKP回路の2種類のバグをピンポイントする手法を提案する。
この方法では、算術回路の制約を多項式方程式系に符号化し、代数計算により有限体上の多項式方程式系を解く。
検証結果の分類が洗練され、システムの表現力が大幅に向上する。
我々は,この手法の実装を表現するためのツールAC4を提案した。
実験の結果、AC4は前回の作業に比べてチェック比が29%大きく向上していることがわかった。
可溶範囲内では、AC4のチェックタイムも顕著に改善され、以前の取り組みに比べて大幅に向上した。
ZKP systems have surged attention and held a fundamental role in contemporary cryptography. Zk-SNARK protocols dominate the ZKP usage, often implemented through arithmetic circuit programming paradigm. However, underconstrained or overconstrained circuits may lead to bugs. Underconstrained circuits refer to circuits that lack the necessary constraints, resulting in unexpected solutions in the circuit and causing the verifier to accept a bogus witness. Overconstrained circuits refer to circuits that are constrained excessively, resulting in the circuit lacking necessary solutions and causing the verifier to accept no witness, rendering the circuit meaningless. This paper introduces a novel approach for pinpointing two distinct types of bugs in ZKP circuits. The method involves encoding the arithmetic circuit constraints to polynomial equation systems and solving polynomial equation systems over a finite field by algebraic computation. The classification of verification results is refined, greatly enhancing the expressive power of the system. We proposed a tool, AC4, to represent the implementation of this method. Experiments demonstrate that AC4 represents a substantial 29% increase in the checked ratio compared to prior work. Within a solvable range, the checking time of AC4 has also exhibited noticeable improvement, demonstrating a magnitude increase compared to previous efforts. | 翻訳日:2024-03-26 21:41:55 公開日:2024-03-23 |
# DS-NeRV:分解された静的および動的符号を用いた暗黙的ニューラルビデオ表現
DS-NeRV: Implicit Neural Video Representation with Decomposed Static and Dynamic Codes ( http://arxiv.org/abs/2403.15679v1 ) ライセンス: Link先を確認 | Hao Yan, Zhihui Ke, Xiaobo Zhou, Tie Qiu, Xidong Shi, Dadong Jiang, | (参考訳) ビデオのための暗黙的ニューラル表現(NeRV)は、最近、高品質なビデオ表現の新しい方法となった。
しかし、既存の作業では、ビデオ全体を表現するために単一のネットワークを使用しており、静的情報と動的情報を暗黙的に混同している。
これにより、冗長な静的情報を効果的に圧縮することができず、グローバルな時間的コヒーレントな動的詳細を明示的にモデル化することができない。
上記の課題を解決するため,DS-NeRVを提案する。このDS-NeRVは,映像を学習可能な静的コードと動的コードに分割する。
2つの符号に対して異なるサンプリングレートを設定し、重み付け和と補間サンプリング法を適用することで、DS-NeRVは高頻度の詳細を維持しながら冗長な静的情報を効率的に活用する。
さらに,これらの2つの符号を効率よくフレームデコーディングするために,チャネル間アテンションベース(CCA)融合モジュールを設計する。
提案手法は,静的および動的コード表現の分離によるパラメータ0.35Mの31.2 PSNRの高精度な再構成を実現し,多くのダウンストリームタスクにおいて既存のNERVメソッドよりも優れる。
プロジェクトのWebサイトはhttps://haoyan14.github.io/DS-NeRV。
Implicit neural representations for video (NeRV) have recently become a novel way for high-quality video representation. However, existing works employ a single network to represent the entire video, which implicitly confuse static and dynamic information. This leads to an inability to effectively compress the redundant static information and lack the explicitly modeling of global temporal-coherent dynamic details. To solve above problems, we propose DS-NeRV, which decomposes videos into sparse learnable static codes and dynamic codes without the need for explicit optical flow or residual supervision. By setting different sampling rates for two codes and applying weighted sum and interpolation sampling methods, DS-NeRV efficiently utilizes redundant static information while maintaining high-frequency details. Additionally, we design a cross-channel attention-based (CCA) fusion module to efficiently fuse these two codes for frame decoding. Our approach achieves a high quality reconstruction of 31.2 PSNR with only 0.35M parameters thanks to separate static and dynamic codes representation and outperforms existing NeRV methods in many downstream tasks. Our project website is at https://haoyan14.github.io/DS-NeRV. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# 決定論的多視点クラスタリングのための微分情報基盤
Differentiable Information Bottleneck for Deterministic Multi-view Clustering ( http://arxiv.org/abs/2403.15681v1 ) ライセンス: Link先を確認 | Xiaoqiang Yan, Zhixiang Jin, Fengshou Han, Yangdong Ye, | (参考訳) 近年、情報ボトルネック(IB)の原則は、複数のビューの関連情報を保存しつつ、多視点の観測を圧縮することで、深いマルチビュークラスタリング(MVC)のための情報理論の枠組みを提供する。
既存のISBベースのディープMVC法は大きな成功を収めているが、高次元多視点空間における難解で非現実的な問題である相互情報の低境界を推定するために、変分近似と分布推定に頼っている。
本研究では,変分近似を必要とせずに相互情報を適合させることにより,決定論的かつ解析的なMVCソリューションを提供する,新たな微分可能情報ボトルネック(DIB)手法を提案する。
具体的には、まず、正規化されたカーネルグラム行列を利用して高次元空間の相互情報を直接適合させることを提案する。
そして、新たな相互情報測定に基づいて、解析勾配を持つ決定論的多視点ニューラルネットワークを明示的にトレーニングし、異なる視点から入力変数の決定論的圧縮を導出するIB原理をパラメータ化する。
最後に, 特徴整合性, クラスタ整合性, 結合整合性を決定論的かつコンパクトな表現に基づいてマイニングできる三重項整合性発見機構を考案した。
実験結果から,6ベンチマークにおけるDIB法の優位性を示した。
In recent several years, the information bottleneck (IB) principle provides an information-theoretic framework for deep multi-view clustering (MVC) by compressing multi-view observations while preserving the relevant information of multiple views. Although existing IB-based deep MVC methods have achieved huge success, they rely on variational approximation and distribution assumption to estimate the lower bound of mutual information, which is a notoriously hard and impractical problem in high-dimensional multi-view spaces. In this work, we propose a new differentiable information bottleneck (DIB) method, which provides a deterministic and analytical MVC solution by fitting the mutual information without the necessity of variational approximation. Specifically, we first propose to directly fit the mutual information of high-dimensional spaces by leveraging normalized kernel Gram matrix, which does not require any auxiliary neural estimator to estimate the lower bound of mutual information. Then, based on the new mutual information measurement, a deterministic multi-view neural network with analytical gradients is explicitly trained to parameterize IB principle, which derives a deterministic compression of input variables from different views. Finally, a triplet consistency discovery mechanism is devised, which is capable of mining the feature consistency, cluster consistency and joint consistency based on the deterministic and compact representations. Extensive experimental results show the superiority of our DIB method on 6 benchmarks compared with 13 state-of-the-art baselines. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# 知覚の限界:XAIにおける塩分マップの不整合の分析
The Limits of Perception: Analyzing Inconsistencies in Saliency Maps in XAI ( http://arxiv.org/abs/2403.15684v1 ) ライセンス: Link先を確認 | Anna Stubbin, Thompson Chyrikov, Jim Zhao, Christina Chajo, | (参考訳) 説明可能な人工知能(XAI)は、AIの意思決定プロセス、特に医療業界において、欠かせない役割を担っている。
臨床医は診断の際に詳細な推論に大きく依存しており、良性病変と悪性病変を区別する特定の特徴をCTスキャンすることが多い。
包括的診断アプローチには、画像結果の評価、患者の観察、臨床検査が含まれる。
医学診断における支援システムとしてのディープラーニングモデルの展開の急激な増加は、従来の方法ではできなかった進歩をもたらしている。
しかし、これらのモデルの複雑さと不透明さは二重刃の剣である。
ブラックボックス」として機能するので、原因があいまいでアクセスできないため、誤診のリスクが高くなり、患者に危害を与えます。
したがって、AIシステム内で透明性を育む必要性が強く、AIの診断勧告の背後にある根拠が明確で、医療従事者にとって理解可能であることを保証する。
この透明性へのシフトは、単に有益であるだけでなく、医療におけるAI統合の責任を負うための重要なステップでもある。
Explainable artificial intelligence (XAI) plays an indispensable role in demystifying the decision-making processes of AI, especially within the healthcare industry. Clinicians rely heavily on detailed reasoning when making a diagnosis, often CT scans for specific features that distinguish between benign and malignant lesions. A comprehensive diagnostic approach includes an evaluation of imaging results, patient observations, and clinical tests. The surge in deploying deep learning models as support systems in medical diagnostics has been significant, offering advances that traditional methods could not. However, the complexity and opacity of these models present a double-edged sword. As they operate as "black boxes," with their reasoning obscured and inaccessible, there's an increased risk of misdiagnosis, which can lead to patient harm. Hence, there is a pressing need to cultivate transparency within AI systems, ensuring that the rationale behind an AI's diagnostic recommendations is clear and understandable to medical practitioners. This shift towards transparency is not just beneficial -- it's a critical step towards responsible AI integration in healthcare, ensuring that AI aids rather than hinders medical professionals in their crucial work. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# EAGLE:AI生成テキスト検出のためのドメイン一般化フレームワーク
EAGLE: A Domain Generalization Framework for AI-generated Text Detection ( http://arxiv.org/abs/2403.15690v1 ) ライセンス: Link先を確認 | Amrita Bhattacharjee, Raha Moraffah, Joshua Garland, Huan Liu, | (参考訳) LLM(Large Language Models)の能力の進歩により、そのようなLLMの責任と安全な使用の1つの大きなステップは、これらのモデルによって生成されたテキストを検出することである。
教師付きAI生成テキスト検出器は、古いLLMが生成したテキスト上でよく機能するが、新しいLLMを頻繁にリリースする一方で、そのような新しいモデルからテキストを識別するための教師付き検出器を構築するには、実際には不可能な新しいラベル付きトレーニングデータが必要である。
本研究では,この課題に対処し,未知のターゲットジェネレータからAI生成テキストを検出するための領域一般化フレームワークを提案する。
提案するフレームワークであるEAGLEは,古い言語モデルから利用可能なラベル付きデータを活用し,未知のターゲットジェネレータによって生成されたテキストを検出するために,これらのジェネレータ間で不変な特徴を学習する。
EAGLEは、自己教師付きコントラスト学習の表現力とドメインの敵対的訓練を組み合わせることで、そのようなドメイン不変の特徴を学習する。
GPT-4やClaudeのような最近の最先端のテキストを含む、未確認のターゲットジェネレータが生成するテキストの検出において、EAGLEが、完全に教師された検出器の4.7%以内の検出スコアを効果的に達成する方法を実証した。
With the advancement in capabilities of Large Language Models (LLMs), one major step in the responsible and safe use of such LLMs is to be able to detect text generated by these models. While supervised AI-generated text detectors perform well on text generated by older LLMs, with the frequent release of new LLMs, building supervised detectors for identifying text from such new models would require new labeled training data, which is infeasible in practice. In this work, we tackle this problem and propose a domain generalization framework for the detection of AI-generated text from unseen target generators. Our proposed framework, EAGLE, leverages the labeled data that is available so far from older language models and learns features invariant across these generators, in order to detect text generated by an unknown target generator. EAGLE learns such domain-invariant features by combining the representational power of self-supervised contrastive learning with domain adversarial training. Through our experiments we demonstrate how EAGLE effectively achieves impressive performance in detecting text generated by unseen target generators, including recent state-of-the-art ones such as GPT-4 and Claude, reaching detection scores of within 4.7% of a fully supervised detector. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# 視覚・言語ナビゲーションのための時間空間オブジェクト関係モデリング
Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation ( http://arxiv.org/abs/2403.15691v1 ) ライセンス: Link先を確認 | Bowen Huang, Yanwei Zheng, Chuanlin Lan, Xinpeng Zhao, Dongxiao yu, Yifei Zou, | (参考訳) VLN(Vision-and-Language Navigation)は、エージェントが視覚観察を通して記述された自然言語にナビゲートする必要がある課題である。
エージェントのナビゲーション能力は、通常内部オブジェクトまたは外部データセットを使用して学習されるオブジェクト間の関係によって強化することができる。
内部オブジェクト間の関係は、従来の研究でグラフ畳み込みネットワーク(GCN)を用いてモデル化されている。
しかし、GCNは浅く、モデリング能力が制限される傾向がある。
この問題に対処するために、時間的連続性を考慮し、時間的対象関係(TOR)と呼ばれる、軌道上の物体間の接続を学習するクロスアテンション機構を利用する。
外部データセットはナビゲーション環境とギャップがあり、不正確な関係のモデリングにつながる。
この問題を回避するため,航法環境における全視点からの観測に基づいてオブジェクト接続を構築し,空間的対象関係(SOR)と呼ばれる空間的対象関係(SOR)を完全に保証し,ギャップを解消する。
さらに、エージェントがナビゲーション中に同じ場所を何度も訪れ、そのパフォーマンスを著しく損なう可能性があることも観察した。
この問題を解決するために,エージェントの反復的訪問行動にペナルティを課し,ナビゲーション距離を大幅に低減するTBP損失関数を導入する。
提案手法の有効性を示すために,REVERIE,SOON,R2Rデータセット実験を行った。
Vision-and-Language Navigation (VLN) is a challenging task where an agent is required to navigate to a natural language described location via vision observations. The navigation abilities of the agent can be enhanced by the relations between objects, which are usually learned using internal objects or external datasets. The relationships between internal objects are modeled employing graph convolutional network (GCN) in traditional studies. However, GCN tends to be shallow, limiting its modeling ability. To address this issue, we utilize a cross attention mechanism to learn the connections between objects over a trajectory, which takes temporal continuity into account, termed as Temporal Object Relations (TOR). The external datasets have a gap with the navigation environment, leading to inaccurate modeling of relations. To avoid this problem, we construct object connections based on observations from all viewpoints in the navigational environment, which ensures complete spatial coverage and eliminates the gap, called Spatial Object Relations (SOR). Additionally, we observe that agents may repeatedly visit the same location during navigation, significantly hindering their performance. For resolving this matter, we introduce the Turning Back Penalty (TBP) loss function, which penalizes the agent's repetitive visiting behavior, substantially reducing the navigational distance. Experimental results on the REVERIE, SOON, and R2R datasets demonstrate the effectiveness of the proposed method. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# 若年ゼブラフィッシュの潜伏潜伏行動学習のための仮面骨格モデル
Technical Report: Masked Skeleton Sequence Modeling for Learning Larval Zebrafish Behavior Latent Embeddings ( http://arxiv.org/abs/2403.15693v1 ) ライセンス: Link先を確認 | Lanxin Xu, Shuo Wang, | (参考訳) 本稿では,幼魚ゼブラフィッシュの行動から潜伏埋め込みを抽出する自己教師型学習手法を提案する。
Masked Autoencoders (MAE) \cite{he2022masked} による画像処理や,Generative Pre-trained Transformer (GPT) \cite{radford2018improving} による自然言語処理に応用したMasked Modeling のインスピレーションを得て,動作シーケンスを画像と言語のブレンドとして扱う。
スイミングゼブラフィッシュの骨格配列について、異なる関節のフレーム間相関を捉えるために、SSTFormer (Sequence Spatial-Temporal Transformer) という先駆的なTransformer-CNNアーキテクチャを提案する。
この相関関係は、隣接するフレームにまたがる魚体の様々な部位の協調移動を反映しているため、特に貴重である。
高フレームレートに対処するため,文中の「単語」に類似した時間スライスにスケルトン配列を分割し,各スライス内の連続フレームを符号化するために自己アテンショントランスフォーマー層を用いて,異なる関節間の空間的相関を捉える。
さらに、CNNベースのアテンションモジュールを組み込んで、変換器層によって出力される表現を強化する。
最後に、時間スライス間の時間的特徴集約操作を導入し、類似した行動の識別を改善する。
In this report, we introduce a novel self-supervised learning method for extracting latent embeddings from behaviors of larval zebrafish. Drawing inspiration from Masked Modeling techniquesutilized in image processing with Masked Autoencoders (MAE) \cite{he2022masked} and in natural language processing with Generative Pre-trained Transformer (GPT) \cite{radford2018improving}, we treat behavior sequences as a blend of images and language. For the skeletal sequences of swimming zebrafish, we propose a pioneering Transformer-CNN architecture, the Sequence Spatial-Temporal Transformer (SSTFormer), designed to capture the inter-frame correlation of different joints. This correlation is particularly valuable, as it reflects the coordinated movement of various parts of the fish body across adjacent frames. To handle the high frame rate, we segment the skeleton sequence into distinct time slices, analogous to "words" in a sentence, and employ self-attention transformer layers to encode the consecutive frames within each slice, capturing the spatial correlation among different joints. Furthermore, we incorporate a CNN-based attention module to enhance the representations outputted by the transformer layers. Lastly, we introduce a temporal feature aggregation operation between time slices to improve the discrimination of similar behaviors. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# グループの利益はデータの浄化のためのインスタンスの選択に影響を及ぼす
Group Benefits Instances Selection for Data Purification ( http://arxiv.org/abs/2403.15694v1 ) ライセンス: Link先を確認 | Zhenhuang Cai, Chuanyi Zhang, Dan Huang, Yuanbo Chen, Xiuyun Guan, Yazhou Yao, | (参考訳) ディープモデルをトレーニングするためのデータセットを手動でアノテートすることは、非常に労働集約的で時間を要する。
このような劣悪さを克服するためには、Webイメージを直接活用してトレーニングデータを実行することが自然な選択となる。
それでも、Webデータにラベルノイズがあることは、通常、モデルの性能を低下させる。
既存のラベルノイズと戦う方法は通常、合成ノイズデータセット上で設計およびテストされる。
しかし、実世界のノイズの多いデータセットで満足な結果が得られない傾向にある。
そこで本研究では,合成データセットと実世界のデータセットのノイズラベル問題を緩和するGRIPという手法を提案する。
具体的には、グループ正規化戦略を用いて、クラスソフトラベルを推定し、雑音の堅牢性を改善する。
ソフトレーベルの監督は、ノイズの多いラベルへの過度な適合を減らし、クラス間の類似性を学び、分類に役立てる。
さらに、各トレーニングサンプルとそのクラスソフトラベルの差を計測することにより、インスタンス浄化操作が世界的にノイズラベルを識別する。
グループレベルとインスタンスレベルの両方での操作を通じて、ノイズロスとノイズクリーニングの利点を統合し、ノイズラベルによる性能劣化を著しく軽減する。
合成および実世界のデータセットに関する総合的な実験結果は、既存の最先端手法よりもGRIPの方が優れていることを示す。
Manually annotating datasets for training deep models is very labor-intensive and time-consuming. To overcome such inferiority, directly leveraging web images to conduct training data becomes a natural choice. Nevertheless, the presence of label noise in web data usually degrades the model performance. Existing methods for combating label noise are typically designed and tested on synthetic noisy datasets. However, they tend to fail to achieve satisfying results on real-world noisy datasets. To this end, we propose a method named GRIP to alleviate the noisy label problem for both synthetic and real-world datasets. Specifically, GRIP utilizes a group regularization strategy that estimates class soft labels to improve noise robustness. Soft label supervision reduces overfitting on noisy labels and learns inter-class similarities to benefit classification. Furthermore, an instance purification operation globally identifies noisy labels by measuring the difference between each training sample and its class soft label. Through operations at both group and instance levels, our approach integrates the advantages of noise-robust and noise-cleaning methods and remarkably alleviates the performance degradation caused by noisy labels. Comprehensive experimental results on synthetic and real-world datasets demonstrate the superiority of GRIP over the existing state-of-the-art methods. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# MixRED: 混合言語関係抽出データセット
MixRED: A Mix-lingual Relation Extraction Dataset ( http://arxiv.org/abs/2403.15696v1 ) ライセンス: Link先を確認 | Lingxing Kong, Yougang Chu, Zheng Ma, Jianbing Zhang, Liang He, Jiajun Chen, | (参考訳) 関係抽出は、自然言語処理における多くの実世界の応用において重要な課題である。
既存の研究は、主にモノリンガル関係抽出や関係抽出のためのクロスリンガル拡張に焦点を当てている。
しかし、混合言語(またはコードスイッチング)のシナリオでは、個人が文内で異なる言語からのコンテンツを混在させ、混合言語コンテンツを生成するという、関係抽出の理解には大きなギャップが残っている。
専用のデータセットがないため、そのようなシナリオにおける既存の関係抽出モデルの有効性は明らかにされていない。
この問題に対処するために,MixREと呼ばれる混合言語シナリオにおける関係抽出を考慮した新しいタスクを導入し,そのタスクをサポートするために人間アノテーション付きデータセットMixREDを構築した。
MixREDデータセットの構築に加えて、MixRED上で最先端の教師付きモデルと大規模言語モデル(LLM)の両方を評価し、ミックス言語シナリオにおけるそれぞれの利点と限界を明らかにした。
さらに、MixREタスクにおけるモデル性能に影響を与える要因を探索し、新しいタスクにおける教師付きモデルとLLMの両方の性能向上のための有望な方向性を明らかにする。
Relation extraction is a critical task in the field of natural language processing with numerous real-world applications. Existing research primarily focuses on monolingual relation extraction or cross-lingual enhancement for relation extraction. Yet, there remains a significant gap in understanding relation extraction in the mix-lingual (or code-switching) scenario, where individuals intermix contents from different languages within sentences, generating mix-lingual content. Due to the lack of a dedicated dataset, the effectiveness of existing relation extraction models in such a scenario is largely unexplored. To address this issue, we introduce a novel task of considering relation extraction in the mix-lingual scenario called MixRE and constructing the human-annotated dataset MixRED to support this task. In addition to constructing the MixRED dataset, we evaluate both state-of-the-art supervised models and large language models (LLMs) on MixRED, revealing their respective advantages and limitations in the mix-lingual scenario. Furthermore, we delve into factors influencing model performance within the MixRE task and uncover promising directions for enhancing the performance of both supervised models and LLMs in this novel task. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# SceneX:大規模言語モデルによる手続き制御可能な大規模シーン生成
SceneX:Procedural Controllable Large-scale Scene Generation via Large-language Models ( http://arxiv.org/abs/2403.15698v1 ) ライセンス: Link先を確認 | Mengqi Zhou, Jun Hou, Chuanchen Luo, Yuxi Wang, Zhaoxiang Zhang, Junran Peng, | (参考訳) その大きな応用可能性のために、大規模なシーン生成は学術や産業で広く注目を集めている。
近年の研究では、望ましいシーンを作成し、有望な結果を得るために強力な生成モデルが採用されている。
しかし、これらの手法のほとんどは、産業パイプラインと互換性のない3Dプリミティブ(例えば、点雲や放射場)を使用してシーンを表現するため、学術研究と産業展開の間に大きなギャップが生じる。
PCG(Procedural Controllable Generation)は、スケーラブルで高品質な資産を作成するための効率的な手法であるが、ドメインの深い専門知識を必要とするため、一般ユーザにとって親しみやすいものではない。
これらの問題に対処するため,我々は,大規模言語モデル (LLM) を用いて手続き的モデリングを行う。
本稿では,デザイナーのテキスト記述に従って高品質なプロシージャモデルを自動生成する大規模シーン生成フレームワークであるSceneXを紹介し,本手法はPCGBenchとPCGPlannerの2つのコンポーネントから構成される。
前者は、アクセシブルな手続き資産と数千のハンドクラフトAPIドキュメントを含む。
後者の目的は、Blenderがユーザの指示によって誘導される制御可能で正確な3Dアセットを生成するために実行可能なアクションを生成することである。
私たちのSceneXは、繊細なレイアウトと幾何学的構造を持つ2.5km×2.5kmの都市を生成でき、プロのPCGエンジニアの数週間の時間を大幅に短縮して、普通のユーザにとっては数時間に過ぎません。
大規模なシーン生成と編集の制御が可能な手法として,資産配置や季節翻訳など,広範囲にわたる実験を行った。
Due to its great application potential, large-scale scene generation has drawn extensive attention in academia and industry. Recent research employs powerful generative models to create desired scenes and achieves promising results. However, most of these methods represent the scene using 3D primitives (e.g. point cloud or radiance field) incompatible with the industrial pipeline, which leads to a substantial gap between academic research and industrial deployment. Procedural Controllable Generation (PCG) is an efficient technique for creating scalable and high-quality assets, but it is unfriendly for ordinary users as it demands profound domain expertise. To address these issues, we resort to using the large language model (LLM) to drive the procedural modeling. In this paper, we introduce a large-scale scene generation framework, SceneX, which can automatically produce high-quality procedural models according to designers' textual descriptions.Specifically, the proposed method comprises two components, PCGBench and PCGPlanner. The former encompasses an extensive collection of accessible procedural assets and thousands of hand-craft API documents. The latter aims to generate executable actions for Blender to produce controllable and precise 3D assets guided by the user's instructions. Our SceneX can generate a city spanning 2.5 km times 2.5 km with delicate layout and geometric structures, drastically reducing the time cost from several weeks for professional PCG engineers to just a few hours for an ordinary user. Extensive experiments demonstrated the capability of our method in controllable large-scale scene generation and editing, including asset placement and season translation. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# FEEL: 大規模言語モデルによる感情支援能力評価フレームワーク
FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models ( http://arxiv.org/abs/2403.15699v1 ) ライセンス: Link先を確認 | Huaiwen Zhang, Yu Chen, Ming Wang, Shi Feng, | (参考訳) 感情支援会話(Emotional Support Conversation、ESC)は、感情的なプレッシャーを和らげる典型的な対話である。
しかし、感情の分析に関わる本質的な主観性のため、現在の非人工的方法論は、エモオプション支援能力を効果的に評価する上で困難に直面している。
これらの指標は人間の判断と相関が低い。
同時に、手作業による評価手法が極めて高いコストを発生させる。
これらの問題を解決するために,大規模言語モデル(LLM)を用いて感情支援能力を評価する新しいモデルFEEL(大規模言語モデルを用いた感情支援能力評価フレームワーク)を提案する。
このモデルは、ESCの様々な評価側面を慎重に考慮し、より包括的で正確な評価方法を適用する。
さらに、より安定した結果を得るために確率分布法を採用し、アンサンブル学習戦略を統合し、割り当てられた重み付き複数のLLMを活用して評価精度を高める。
FEELの性能を評価するため,既存のESCモデル対話について広範な実験を行った。
実験結果から,本モデルでは,ベースラインと比較して,人体評価との整合性が著しく向上していることがわかった。
ソースコードはhttps://github.com/Ansisy/FEELで公開されています。
Emotional Support Conversation (ESC) is a typical dialogue that can effec-tively assist the user in mitigating emotional pressures. However, owing to the inherent subjectivity involved in analyzing emotions, current non-artificial methodologies face challenges in effectively appraising the emo-tional support capability. These metrics exhibit a low correlation with human judgments. Concurrently, manual evaluation methods extremely will cause high costs. To solve these problems, we propose a novel model FEEL (Framework for Evaluating Emotional Support Capability with Large Lan-guage Models), employing Large Language Models (LLMs) as evaluators to assess emotional support capabilities. The model meticulously considers var-ious evaluative aspects of ESC to apply a more comprehensive and accurate evaluation method for ESC. Additionally, it employs a probability distribu-tion approach for a more stable result and integrates an ensemble learning strategy, leveraging multiple LLMs with assigned weights to enhance evalua-tion accuracy. To appraise the performance of FEEL, we conduct extensive experiments on existing ESC model dialogues. Experimental results demon-strate our model exhibits a substantial enhancement in alignment with human evaluations compared to the baselines. Our source code is available at https://github.com/Ansisy/FEEL. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# 野生のガウシアン:非拘束画像収集のための3Dガウシアンスプラッティング
Gaussian in the Wild: 3D Gaussian Splatting for Unconstrained Image Collections ( http://arxiv.org/abs/2403.15704v1 ) ライセンス: Link先を確認 | Dongbin Zhang, Chuming Wang, Weitao Wang, Peihao Li, Minghan Qin, Haoqian Wang, | (参考訳) 未制約画像からの新たなビュー合成は、有意義だが難しい課題である。
これらの制約のない画像における光度変化と過渡オクルーダは、元のシーンを正確に再構築することが困難である。
従来のアプローチでは、Neural Radiance Fields(NeRF)のグローバルな外観機能を導入して、この問題に対処していた。
しかし、現実の世界では、シーン内の各小さな点の独特の外観は、その独立した固有の材料特性と、それが受ける様々な環境影響によって決定される。
この事実に触発されて,3次元ガウス点を用いてシーンを再構成する手法であるGaussian in the wild (GS-W)を提案する。
さらに、各ガウス点が局所的および詳細な情報により効果的に集中できるように適応的なサンプリング戦略が提示される。
また,2次元視認性マップを用いて,過渡性咬合者への影響を低減した。
より多くの実験により、従来の手法と比較してGS-Wの再現性や細部が向上し、レンダリング速度が1,000\times$上昇した。
Novel view synthesis from unconstrained in-the-wild images remains a meaningful but challenging task. The photometric variation and transient occluders in those unconstrained images make it difficult to reconstruct the original scene accurately. Previous approaches tackle the problem by introducing a global appearance feature in Neural Radiance Fields (NeRF). However, in the real world, the unique appearance of each tiny point in a scene is determined by its independent intrinsic material attributes and the varying environmental impacts it receives. Inspired by this fact, we propose Gaussian in the wild (GS-W), a method that uses 3D Gaussian points to reconstruct the scene and introduces separated intrinsic and dynamic appearance feature for each point, capturing the unchanged scene appearance along with dynamic variation like illumination and weather. Additionally, an adaptive sampling strategy is presented to allow each Gaussian point to focus on the local and detailed information more effectively. We also reduce the impact of transient occluders using a 2D visibility map. More experiments have demonstrated better reconstruction quality and details of GS-W compared to previous methods, with a $1000\times$ increase in rendering speed. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# UPNeRF:モノクロ3次元オブジェクト再構成とポーズ推定のための統一フレームワーク
UPNeRF: A Unified Framework for Monocular 3D Object Reconstruction and Pose Estimation ( http://arxiv.org/abs/2403.15705v1 ) ライセンス: Link先を確認 | Yuliang Guo, Abhinav Kumar, Cheng Zhao, Ruoyu Wang, Xinyu Huang, Liu Ren, | (参考訳) 分類対象に対する単眼的な3D再構成は、各対象のポーズを正確に知覚することに大きく依存している。
NeRFフレームワーク内での勾配に基づく最適化は、最初はポーズが与えられたが、本論文では、最初のポーズが真のポーズからややずれた場合に、そのようなスキームが失敗することを強調する。
その結果、既存の手法は初期オブジェクトのポーズを提供するために第三者の3Dオブジェクトに依存することが多く、複雑さと一般化の問題が増大する。
これらの課題に対処するため,我々は Pose 推定と NeRF に基づく再構成を統合した統一フレームワークである UPNeRF を提案する。
UPNeRFはオブジェクトの次元推定を分離し、スケールと深さのあいまいさを解消するために改善を施し、異なる領域をよく横断する効果的な射影箱表現を導入している。
オブジェクト中心のNeRFに滑らかに統合される専用のポーズ推定器を使用する一方で、UPNeRFは外部の3D検出器から解放される。
UPNeRFは、nuScenesデータセットの再構築とポーズ推定の両方で最先端の結果を達成する。
さらに、UPNeRFは、KITTIとWaymoのデータセットに例外的なクロスデータセットの一般化を示し、ローテーションと翻訳エラーを最大50%削減する以前の手法を超越している。
Monocular 3D reconstruction for categorical objects heavily relies on accurately perceiving each object's pose. While gradient-based optimization within a NeRF framework updates initially given poses, this paper highlights that such a scheme fails when the initial pose even moderately deviates from the true pose. Consequently, existing methods often depend on a third-party 3D object to provide an initial object pose, leading to increased complexity and generalization issues. To address these challenges, we present UPNeRF, a Unified framework integrating Pose estimation and NeRF-based reconstruction, bringing us closer to real-time monocular 3D object reconstruction. UPNeRF decouples the object's dimension estimation and pose refinement to resolve the scale-depth ambiguity, and introduces an effective projected-box representation that generalizes well cross different domains. While using a dedicated pose estimator that smoothly integrates into an object-centric NeRF, UPNeRF is free from external 3D detectors. UPNeRF achieves state-of-the-art results in both reconstruction and pose estimation tasks on the nuScenes dataset. Furthermore, UPNeRF exhibits exceptional Cross-dataset generalization on the KITTI and Waymo datasets, surpassing prior methods with up to 50% reduction in rotation and translation error. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# G-ACIL:先進的な一般化クラスインクリメンタルラーニングのための分析学習
G-ACIL: Analytic Learning for Exemplar-Free Generalized Class Incremental Learning ( http://arxiv.org/abs/2403.15706v1 ) ライセンス: Link先を確認 | Huiping Zhuang, Yizhu Chen, Di Fang, Run He, Kai Tong, Hongxin Wei, Ziqian Zeng, Cen Chen, | (参考訳) クラスインクリメンタルラーニング(CIL)は、カテゴリーを分けたシーケンシャルなタスクでネットワークをトレーニングするが、破滅的な忘れ込みに苦しむ。
一般化されたCIL(GCIL)は、より現実的なシナリオにおいてCILの問題に対処することを目的としている。
GCILの既存の試みはパフォーマンスが劣っているか、過去の例を保存してデータのプライバシーを侵害している。
そこで本稿では,G-ACIL(Exemplar-free generalized analysis class incremental learning)を提案する。
G-ACILは解析学習(勾配のない訓練手法)を採用し、GCILのシナリオに解析的解(すなわちクローズドフォーム)を提供する。
この解は、入力データを露出クラスと露出クラスに分解することで導出され、インクリメンタルラーニングとジョイントトレーニング、すなわちウェイト不変性の間の等価性を実現する。
このような等価性は、行列解析ツールを通じて理論的に検証され、GCILの解釈可能性に寄与する。
また、様々なデータセットやGCILの設定に関する実験によって実証されている。
その結果, G-ACILは, 既存の競合GCIL法と比較して, 高い強靭性を示すことがわかった。
コードはhttps://github.com/ZHUANGHP/Analytic-Continual-learning.comで利用可能だ。
Class incremental learning (CIL) trains a network on sequential tasks with separated categories but suffers from catastrophic forgetting, where models quickly lose previously learned knowledge when acquiring new tasks. The generalized CIL (GCIL) aims to address the CIL problem in a more real-world scenario, where incoming data have mixed data categories and unknown sample size distribution, leading to intensified forgetting. Existing attempts for the GCIL either have poor performance, or invade data privacy by saving historical exemplars. To address this, in this paper, we propose an exemplar-free generalized analytic class incremental learning (G-ACIL). The G-ACIL adopts analytic learning (a gradient-free training technique), and delivers an analytical solution (i.e., closed-form) to the GCIL scenario. This solution is derived via decomposing the incoming data into exposed and unexposed classes, allowing an equivalence between the incremental learning and its joint training, i.e., the weight-invariant property. Such an equivalence is theoretically validated through matrix analysis tools, and hence contributes interpretability in GCIL. It is also empirically evidenced by experiments on various datasets and settings of GCIL. The results show that the G-ACIL exhibits leading performance with high robustness compared with existing competitive GCIL methods. Codes will be ready at https://github.com/ZHUANGHP/Analytic-continual-learning. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# 画像ベースタスクにおける局所性と重み共有の役割:CNN,LCN,FCN間のサンプル複雑度分離
Role of Locality and Weight Sharing in Image-Based Tasks: A Sample Complexity Separation between CNNs, LCNs, and FCNs ( http://arxiv.org/abs/2403.15707v1 ) ライセンス: Link先を確認 | Aakash Lahoti, Stefani Karp, Ezra Winston, Aarti Singh, Yuanzhi Li, | (参考訳) 視覚タスクは局所性と翻訳不変性の特性によって特徴づけられる。
これらのタスクにおける畳み込みニューラルネットワーク(CNN)の優れた性能は、そのアーキテクチャに埋め込まれた局所性や重み付けの帰納的バイアスに起因する。
局所連結畳み込みニューラルネットワーク(LCN)と完全連結ニューラルネットワーク(FCN)によるCNNにおけるこれらのバイアスの統計的利点の定量化の試みは、オプティマイザを無視し、下位境界を分離せずに一様収束した上界のみを提供するか、現実のビジョンタスクで見られるような局所性と翻訳不変性を真に反映しない単純なタスクを考えるかのいずれかに分類される。
これらの欠陥に対処するため,イメージを$k$のパッチでモデル化した動的信号分布(DSD)分類タスクを導入し,そのラベルは$d$のスパース信号ベクトルによって決定され,$k$のパッチのいずれかに自由に表示することができる。
このタスクでは、勾配降下のような直交同変アルゴリズムに対して、CNNが$\tilde{O}(k+d)$サンプルを必要とするのに対し、LCNは$\Omega(kd)$サンプルを必要とすることを証明し、翻訳不変タスクにおける重み共有の統計的利点を確立する。
さらに、LCNには$\tilde{O}(k(k+d))$サンプルが必要であるが、FCNの$\Omega(k^2d)$サンプルはローカルタスクの局所性の利点を示している。
さらに,確率化アルゴリズムを解析するための情報理論ツールを開発した。
Vision tasks are characterized by the properties of locality and translation invariance. The superior performance of convolutional neural networks (CNNs) on these tasks is widely attributed to the inductive bias of locality and weight sharing baked into their architecture. Existing attempts to quantify the statistical benefits of these biases in CNNs over locally connected convolutional neural networks (LCNs) and fully connected neural networks (FCNs) fall into one of the following categories: either they disregard the optimizer and only provide uniform convergence upper bounds with no separating lower bounds, or they consider simplistic tasks that do not truly mirror the locality and translation invariance as found in real-world vision tasks. To address these deficiencies, we introduce the Dynamic Signal Distribution (DSD) classification task that models an image as consisting of $k$ patches, each of dimension $d$, and the label is determined by a $d$-sparse signal vector that can freely appear in any one of the $k$ patches. On this task, for any orthogonally equivariant algorithm like gradient descent, we prove that CNNs require $\tilde{O}(k+d)$ samples, whereas LCNs require $\Omega(kd)$ samples, establishing the statistical advantages of weight sharing in translation invariant tasks. Furthermore, LCNs need $\tilde{O}(k(k+d))$ samples, compared to $\Omega(k^2d)$ samples for FCNs, showcasing the benefits of locality in local tasks. Additionally, we develop information theoretic tools for analyzing randomized algorithms, which may be of interest for statistical research. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# テキスト記述による接触認識型人間動作生成
Contact-aware Human Motion Generation from Textual Descriptions ( http://arxiv.org/abs/2403.15709v1 ) ライセンス: Link先を確認 | Sihan Ma, Qiong Cao, Jing Zhang, Dacheng Tao, | (参考訳) 本稿では,テキストから3次元対話型人間の動作を生成する問題に対処する。
物体に接触する異なる身体部位の動作を記述したテキスト記述が与えられた場合、視覚的に自然で身体的にも可視な3次元身体ポーズのシーケンスを合成する。
しかし、この課題は、運動とテキスト記述の両方における物理的接触による相互作用の不十分な考慮により、不自然で不可解なシーケンスをもたらすため、重大な課題となる。
この課題に対処するために、RICHデータセットから構築された ``Contact-Aware Texts'' を表す、RICH-CAT という新しいデータセットを作成します。
RICH-CATは、高品質なモーション、正確な人物接触ラベル、詳細なテキスト記述を含み、26の屋内/屋外アクションにまたがる8,500以上のモーションテキストペアを含んでいる。
RICH-CATを活用することで,人体接触をエビデンスとして明示的に統合するテキスト駆動対話型人体動作合成のためのCATMOという新しいアプローチを提案する。
我々は2つのVQ-VAEモデルを用いて、動きと身体の接触配列を相補的な遅延空間に符号化し、人間の動きと接触を相互に条件付きで生成する。
さらに,テキストエンコーダを導入し,テキスト埋め込みを学習し,様々な種類の接触を識別し,合成された動きや接触をより正確に制御できるようにする。
本実験は,既存のテキスト・トゥ・モーション法と比較して,本手法の優れた性能を実証し,安定した接触対応動作系列を生成する。
コードとデータは研究目的で利用できる。
This paper addresses the problem of generating 3D interactive human motion from text. Given a textual description depicting the actions of different body parts in contact with objects, we synthesize sequences of 3D body poses that are visually natural and physically plausible. Yet, this task poses a significant challenge due to the inadequate consideration of interactions by physical contacts in both motion and textual descriptions, leading to unnatural and implausible sequences. To tackle this challenge, we create a novel dataset named RICH-CAT, representing ``Contact-Aware Texts'' constructed from the RICH dataset. RICH-CAT comprises high-quality motion, accurate human-object contact labels, and detailed textual descriptions, encompassing over 8,500 motion-text pairs across 26 indoor/outdoor actions. Leveraging RICH-CAT, we propose a novel approach named CATMO for text-driven interactive human motion synthesis that explicitly integrates human body contacts as evidence. We employ two VQ-VAE models to encode motion and body contact sequences into distinct yet complementary latent spaces and an intertwined GPT for generating human motions and contacts in a mutually conditioned manner. Additionally, we introduce a pre-trained text encoder to learn textual embeddings that better discriminate among various contact types, allowing for more precise control over synthesized motions and contacts. Our experiments demonstrate the superior performance of our approach compared to existing text-to-motion methods, producing stable, contact-aware motion sequences. Code and data will be available for research purposes. | 翻訳日:2024-03-26 21:32:08 公開日:2024-03-23 |
# 潜在性神経因果モデル
Identifiable Latent Neural Causal Models ( http://arxiv.org/abs/2403.15711v1 ) ライセンス: Link先を確認 | Yuhang Liu, Zhen Zhang, Dong Gong, Mingming Gong, Biwei Huang, Anton van den Hengel, Kun Zhang, Javen Qinfeng Shi, | (参考訳) 因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
これらの変化は一般に介入の結果として解釈できるため、目に見えない分布シフトの下での予測に特に適している。
したがって、 {seen} 分布シフトを活用することは、因果表現の特定を助ける自然な戦略となり、その結果、分布が以前は {unseen} であったような予測に恩恵を与える。
因果表現の識別可能性に寄与する分布シフトの型(または条件)を決定することは重要である。
この研究は、潜在加法的雑音モデル(英語版)の文脈において、識別可能性の分布シフトのタイプを特徴付ける「十分」条件と「必要」条件を確立する。
さらに,分布シフトの一部だけが条件を満たす場合,部分的識別可能性を示す。
また,本症例は非非線形因果モデルに拡張した。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
我々のアルゴリズムは、我々の基礎となる理論で導かれ、多様な合成および実世界のデータセットで優れた性能を示してきた。
実験的な観察は理論的な結果と密接に一致し、我々のアプローチの堅牢性と有効性を確認した。
Causal representation learning seeks to uncover latent, high-level causal representations from low-level observed data. It is particularly good at predictions under unseen distribution shifts, because these shifts can generally be interpreted as consequences of interventions. Hence leveraging {seen} distribution shifts becomes a natural strategy to help identifying causal representations, which in turn benefits predictions where distributions are previously {unseen}. Determining the types (or conditions) of such distribution shifts that do contribute to the identifiability of causal representations is critical. This work establishes a {sufficient} and {necessary} condition characterizing the types of distribution shifts for identifiability in the context of latent additive noise models. Furthermore, we present partial identifiability results when only a portion of distribution shifts meets the condition. In addition, we extend our findings to latent post-nonlinear causal models. We translate our findings into a practical algorithm, allowing for the acquisition of reliable latent causal representations. Our algorithm, guided by our underlying theory, has demonstrated outstanding performance across a diverse range of synthetic and real-world datasets. The empirical observations align closely with the theoretical findings, affirming the robustness and effectiveness of our approach. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# PNAS-MOT:Pareto Neural Architecture Searchを用いたマルチモーダルオブジェクト追跡
PNAS-MOT: Multi-Modal Object Tracking with Pareto Neural Architecture Search ( http://arxiv.org/abs/2403.15712v1 ) ライセンス: Link先を確認 | Chensheng Peng, Zhaoyu Zeng, Jinling Gao, Jundong Zhou, Masayoshi Tomizuka, Xinbing Wang, Chenghu Zhou, Nanyang Ye, | (参考訳) 複数の物体追跡は、自律運転において重要な課題である。
既存の研究は主に高精度を得るためにニューラルネットワークのヒューリスティック設計に焦点を当てている。
しかし、トラッキングの精度が向上するにつれて、ニューラルネットワークはますます複雑になり、高い遅延レベルのために現実の運転シナリオにおいて実践的な応用が困難になる。
本稿では,ニューラル・アーキテクチャ・サーチ(NAS)手法を用いて追跡のための効率的なアーキテクチャを探索し,比較的高い精度を維持しつつ,低リアルタイム遅延を実現することを目的とした。
オブジェクト追跡のもう1つの課題は、単一センサの信頼性の欠如であり、ロバスト性を改善するためのマルチモーダルフレームワークを提案する。
実験により,本アルゴリズムは低レイテンシ制約下でエッジデバイス上で動作可能であることを示し,低レイテンシを維持しつつ,マルチモーダルオブジェクト追跡の計算要求を大幅に低減できることを示した。
Multiple object tracking is a critical task in autonomous driving. Existing works primarily focus on the heuristic design of neural networks to obtain high accuracy. As tracking accuracy improves, however, neural networks become increasingly complex, posing challenges for their practical application in real driving scenarios due to the high level of latency. In this paper, we explore the use of the neural architecture search (NAS) methods to search for efficient architectures for tracking, aiming for low real-time latency while maintaining relatively high accuracy. Another challenge for object tracking is the unreliability of a single sensor, therefore, we propose a multi-modal framework to improve the robustness. Experiments demonstrate that our algorithm can run on edge devices within lower latency constraints, thus greatly reducing the computational requirements for multi-modal object tracking while keeping lower latency. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# EDDA: ゼロショットスタンス検出のためのエンコーダデコーダデータ拡張フレームワーク
EDDA: A Encoder-Decoder Data Augmentation Framework for Zero-Shot Stance Detection ( http://arxiv.org/abs/2403.15715v1 ) ライセンス: Link先を確認 | Daijun Ding, Li Dong, Zhichao Huang, Guangning Xu, Xu Huang, Bo Liu, Liwen Jing, Bowen Zhang, | (参考訳) スタンス検出は、与えられたターゲットに対してテキストで表現された姿勢を決定することを目的としている。
ゼロショットスタンス検出(ZSSD)は、推論中に見えないターゲットに対するスタンスを分類するために現れた。
ZSSDの最近のデータ拡張技術は、テキストやターゲット拡張を通じて、ターゲット間の伝達可能な知識を増加させている。
しかし、これらの方法には限界がある。
ターゲット拡張は生成されたターゲットとソーステキストの間の論理的接続を欠いているが、テキスト拡張はトレーニングデータのみに依存しており、結果として一般化は不十分である。
これらの問題に対処するために,エンコーダ・デコーダデータ拡張(EDDA)フレームワークを提案する。
エンコーダは、大きな言語モデルとチェーン・オブ・思想を利用して、テキストをターゲット固有のif-then論理に要約し、論理的関係を確立する。
このデコーダは、意味的相関語置換戦略を用いて、これらの表現に基づいて新しいサンプルを生成し、構文的多様性を向上させる。
また、生成した表現を分析し、拡張データを完全に活用する有理拡張ネットワークを開発する。
ベンチマークデータセットの実験は、我々のアプローチが最先端のZSSD技術よりも大幅に改善されていることを示している。
EDDAフレームワークは,文の意味的関連性や構文的多様性を高めつつ,解釈可能な理性に基づく学習を可能にする。
Stance detection aims to determine the attitude expressed in text towards a given target. Zero-shot stance detection (ZSSD) has emerged to classify stances towards unseen targets during inference. Recent data augmentation techniques for ZSSD increase transferable knowledge between targets through text or target augmentation. However, these methods exhibit limitations. Target augmentation lacks logical connections between generated targets and source text, while text augmentation relies solely on training data, resulting in insufficient generalization. To address these issues, we propose an encoder-decoder data augmentation (EDDA) framework. The encoder leverages large language models and chain-of-thought prompting to summarize texts into target-specific if-then rationales, establishing logical relationships. The decoder generates new samples based on these expressions using a semantic correlation word replacement strategy to increase syntactic diversity. We also analyze the generated expressions to develop a rationale-enhanced network that fully utilizes the augmented data. Experiments on benchmark datasets demonstrate our approach substantially improves over state-of-the-art ZSSD techniques. The proposed EDDA framework increases semantic relevance and syntactic variety in augmented texts while enabling interpretable rationale-based learning. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# バイオインスパイアされたニューラルダイナミクスに基づく移動ロボットの分散ロバスト学習による生成制御
Distributed Robust Learning based Formation Control of Mobile Robots based on Bioinspired Neural Dynamics ( http://arxiv.org/abs/2403.15716v1 ) ライセンス: Link先を確認 | Zhe Xu, Tao Yan, Simon X. Yang, S. Andrew Gadsden, Mohammad Biglarbegian, | (参考訳) 本稿では,複数の移動ロボットにおける分散構成制御の課題に対処し,現実の実践性を高める新しいアプローチを提案する。
まず,変数構造とカスケード設計手法を用いた分散推定器を導入し,実時間性能向上のための微分情報の必要性を排除した。
そして、スムーズな制御入力を提供し、スピードジャンプ問題を効果的に解決することを目的とした、バイオインスパイアされたニューラルダイナミックベースのアプローチを用いて、キネマティックトラッキング制御法を開発した。
さらに、完全に未知の力学と乱れを持つロボットの課題に対処するために、学習に基づく頑健な動的コントローラを開発した。
このコントローラは、乱れに対する堅牢性を維持しつつ、リアルタイムパラメータ推定を提供する。
提案手法の全体的な安定性は厳密な数学的解析によって証明される。
最終的に、複数の総合シミュレーション研究により、提案手法の利点と効果が示された。
This paper addresses the challenges of distributed formation control in multiple mobile robots, introducing a novel approach that enhances real-world practicability. We first introduce a distributed estimator using a variable structure and cascaded design technique, eliminating the need for derivative information to improve the real time performance. Then, a kinematic tracking control method is developed utilizing a bioinspired neural dynamic-based approach aimed at providing smooth control inputs and effectively resolving the speed jump issue. Furthermore, to address the challenges for robots operating with completely unknown dynamics and disturbances, a learning-based robust dynamic controller is developed. This controller provides real time parameter estimates while maintaining its robustness against disturbances. The overall stability of the proposed method is proved with rigorous mathematical analysis. At last, multiple comprehensive simulation studies have shown the advantages and effectiveness of the proposed method. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# Ev-Edge:コモディティエッジプラットフォーム上でのイベントベースのビジョンアルゴリズムの効率的な実行
Ev-Edge: Efficient Execution of Event-based Vision Algorithms on Commodity Edge Platforms ( http://arxiv.org/abs/2403.15717v1 ) ライセンス: Link先を確認 | Shrihari Sridharan, Surya Selvam, Kaushik Roy, Anand Raghunathan, | (参考訳) イベントカメラは、高時間分解能、高ダイナミックレンジ、無視可能な動きのぼかしなどにより、自律的なナビゲーションシステムにとって有望なモダリティとして登場した。
このようなセンサから非同期の時間的イベントストリームを処理するために、様々な知覚タスクにおいて高い精度を達成するためには、ニューラルネットワーク(ANN)、スパイキングニューラルネットワーク(SNN)、ハイブリッドSNN-ANNアルゴリズムの混合が必要であることが最近の研究で示されている。
しかし、CPU、GPU、ニューラルアクセラレータなどの異種処理要素を特徴とするコモディティエッジプラットフォーム上でそのようなワークロードを実行すると、性能は低下する。
これは、イベントストリームの不規則な性質と、一方のアルゴリズムの多様な特性と他方のハードウェアプラットフォームとのミスマッチに起因する。
1) Event2Sparse Frame converterは、生のイベントストリームを直接スパースフレームに変換し、最小エンコーディングオーバーヘッドでスパースライブラリの使用を可能にする。 (2) Dynamic Sparse Frame Aggregatorは、イベントの時間的粒度と計算要求をトレードオフして実行時にスパースフレームをマージすることにより、ハードウェア利用を向上させる。
さまざまな自律ナビゲーションタスクのための最先端ネットワークにおいて、Ev-Edgeは、シングルタスク実行シナリオのためのNVIDIA Jetson Xavier AGXプラットフォーム上の全GPU実装に対して、レイテンシが1.28x-2.05x改善され、エネルギーが1.23x-2.15xになった。
Ev-Edgeは、マルチタスク実行シナリオにおけるラウンドロビンスケジューリングメソッドよりも1.43x-1.81xレイテンシの改善も達成している。
Event cameras have emerged as a promising sensing modality for autonomous navigation systems, owing to their high temporal resolution, high dynamic range and negligible motion blur. To process the asynchronous temporal event streams from such sensors, recent research has shown that a mix of Artificial Neural Networks (ANNs), Spiking Neural Networks (SNNs) as well as hybrid SNN-ANN algorithms are necessary to achieve high accuracies across a range of perception tasks. However, we observe that executing such workloads on commodity edge platforms which feature heterogeneous processing elements such as CPUs, GPUs and neural accelerators results in inferior performance. This is due to the mismatch between the irregular nature of event streams and diverse characteristics of algorithms on the one hand and the underlying hardware platform on the other. We propose Ev-Edge, a framework that contains three key optimizations to boost the performance of event-based vision systems on edge platforms: (1) An Event2Sparse Frame converter directly transforms raw event streams into sparse frames, enabling the use of sparse libraries with minimal encoding overheads (2) A Dynamic Sparse Frame Aggregator merges sparse frames at runtime by trading off the temporal granularity of events and computational demand thereby improving hardware utilization (3) A Network Mapper maps concurrently executing tasks to different processing elements while also selecting layer precision by considering both compute and communication overheads. On several state-of-art networks for a range of autonomous navigation tasks, Ev-Edge achieves 1.28x-2.05x improvements in latency and 1.23x-2.15x in energy over an all-GPU implementation on the NVIDIA Jetson Xavier AGX platform for single-task execution scenarios. Ev-Edge also achieves 1.43x-1.81x latency improvements over round-robin scheduling methods in multi-task execution scenarios. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# ハイブリッドLLMワークフローは,任意のサイズのプログラムにおけるユーザ権限関連変数の識別を支援する
A hybrid LLM workflow can help identify user privilege related variables in programs of any size ( http://arxiv.org/abs/2403.15723v1 ) ライセンス: Link先を確認 | Haizhou Wang, Zhilong Wang, Peng Liu, | (参考訳) 多くのプログラムは、組織のセキュリティに不可欠な、ユーザー特権を操作する操作とロジックを含んでいる。
そのため、攻撃者の悪質な目標の1つは特権の取得またはエスカレーションであり、特権の漏洩を引き起こす。
プログラムと組織を特権漏洩攻撃から保護するためには、そのような攻撃を達成するために利用される脆弱性を取り除くことが重要である。
残念なことに、メモリの脆弱性は見つけにくいが、ロジックの脆弱性はより差し迫ったものであり、有害で識別が難しい。
したがって、多くのアナリストは、まずユーザ権限関連変数(UPR)をスタートポイントとして見つけ、UPR変数が脆弱性、特にロジック変数が存在するかどうかを調べるコードを調べる。
本稿では,大規模言語モデル(LLM)ワークフローを導入し,そのようなUPR変数の同定を支援する。
具体的には、プログラム内のすべての変数を監査し、変数とユーザ特権の関係度(クローズネス)であるUPRスコアを各変数に対して出力する。
提案手法は,非常に長いコードスニペットをLLMに供給するのではなく,ステートメントレベルでLLMを活用することに集中することにより,LLMに直接UPR変数を見つけるように促すことによって導入された欠点を回避する。
高いUPRスコアを持つ変数は、基本的に潜在的UPR変数であり、手動で調べるべきである。
実験の結果,典型的なUPRスコア閾値(UPRスコア>0.8)を用いて,偽陽性率(FPR)は13.49%であり,UPR変数はヒューリスティック法よりも有意に高いことがわかった。
Many programs involves operations and logic manipulating user privileges, which is essential for the security of an organization. Therefore, one common malicious goal of attackers is to obtain or escalate the privileges, causing privilege leakage. To protect the program and the organization against privilege leakage attacks, it is important to eliminate the vulnerabilities which can be exploited to achieve such attacks. Unfortunately, while memory vulnerabilities are less challenging to find, logic vulnerabilities are much more imminent, harmful and difficult to identify. Accordingly, many analysts choose to find user privilege related (UPR) variables first as start points to investigate the code where the UPR variables may be used to see if there exists any vulnerabilities, especially the logic ones. In this paper, we introduce a large language model (LLM) workflow that can assist analysts in identifying such UPR variables, which is considered to be a very time-consuming task. Specifically, our tool will audit all the variables in a program and output a UPR score, which is the degree of relationship (closeness) between the variable and user privileges, for each variable. The proposed approach avoids the drawbacks introduced by directly prompting a LLM to find UPR variables by focusing on leverage the LLM at statement level instead of supplying LLM with very long code snippets. Those variables with high UPR scores are essentially potential UPR variables, which should be manually investigated. Our experiments show that using a typical UPR score threshold (i.e., UPR score >0.8), the false positive rate (FPR) is only 13.49%, while UPR variable found is significantly more than that of the heuristic based method. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# PEaCE:科学文書における光学的文字認識のための化学指向データセット
PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents ( http://arxiv.org/abs/2403.15724v1 ) ライセンス: Link先を確認 | Nan Zhang, Connor Heaton, Sean Timothy Okonsky, Prasenjit Mitra, Hilal Ezgi Toraman, | (参考訳) 光文字認識(OCR)は、画像に存在するテキストを識別する目的で確立されたタスクである。
多くの既製のOCRモデルが存在するが、科学的な(例:式)または一般的な英語のテキストのために訓練されることが多い。
化学出版物からテキストを抽出するには、両方の領域で実行可能なOCRモデルが必要である。
最近のツールであるNougatは、学術文書を解析する強力な能力を持っているが、学術コミュニティの重要な部分を占めており、この研究の焦点であるPubMedの記事では、表を解析できない。
このギャップを緩和するために, 合成および実世界の両方の記録を含むPEaCE(Printed English and Chemical Equations)データセットを提示し, このリソースをトレーニングした際のトランスフォーマーベースのOCRモデルの有効性を評価する。
実世界のレコードには合成記録に存在しないアーティファクトが含まれていることを考慮し、そのような性質を模倣する変換を提案する。
我々は、パッチサイズ、マルチドメイントレーニング、提案した変換の影響を調査する一連の実験を行い、最終的に、提案した変換を使用して、複数のドメインでトレーニングされた小さなパッチサイズを持つモデルが、最高のパフォーマンスをもたらすことを発見した。
データセットとコードはhttps://github.com/ZN1010/PEaCE.comで公開されています。
Optical Character Recognition (OCR) is an established task with the objective of identifying the text present in an image. While many off-the-shelf OCR models exist, they are often trained for either scientific (e.g., formulae) or generic printed English text. Extracting text from chemistry publications requires an OCR model that is capable in both realms. Nougat, a recent tool, exhibits strong ability to parse academic documents, but is unable to parse tables in PubMed articles, which comprises a significant part of the academic community and is the focus of this work. To mitigate this gap, we present the Printed English and Chemical Equations (PEaCE) dataset, containing both synthetic and real-world records, and evaluate the efficacy of transformer-based OCR models when trained on this resource. Given that real-world records contain artifacts not present in synthetic records, we propose transformations that mimic such qualities. We perform a suite of experiments to explore the impact of patch size, multi-domain training, and our proposed transformations, ultimately finding that models with a small patch size trained on multiple domains using the proposed transformations yield the best performance. Our dataset and code is available at https://github.com/ZN1010/PEaCE. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# 対流拡散方程式:ニューラルネットワークのための理論的に認定されたフレームワーク
Convection-Diffusion Equation: A Theoretically Certified Framework for Neural Networks ( http://arxiv.org/abs/2403.15726v1 ) ライセンス: Link先を確認 | Tangjun Wang, Chenglong Bao, Zuoqiang Shi, | (参考訳) 本稿では,ニューラルネットワークの偏微分方程式モデルについて検討する。
ニューラルネットワークは、単純なベースモデルから複雑な関数への写像と見なすことができる。
固体解析に基づいて、この写像は対流拡散方程式で定式化できることを示す。
この理論的に認定されたフレームワークは、ニューラルネットワークの数学的基礎と理解を深める。
さらに, 対流拡散方程式モデルに基づいて, 拡散機構をネットワークアーキテクチャに組み込んだ新しいネットワーク構造を設計する。
ベンチマークデータセットと実世界のアプリケーションの両方での大規模な実験により、提案モデルの性能が検証された。
In this paper, we study the partial differential equation models of neural networks. Neural network can be viewed as a map from a simple base model to a complicate function. Based on solid analysis, we show that this map can be formulated by a convection-diffusion equation. This theoretically certified framework gives mathematical foundation and more understanding of neural networks. Moreover, based on the convection-diffusion equation model, we design a novel network structure, which incorporates diffusion mechanism into network architecture. Extensive experiments on both benchmark datasets and real-world applications validate the performance of the proposed model. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# Evidential Collaborative Sensing Model の学習可能なWSN展開
Learnable WSN Deployment of Evidential Collaborative Sensing Model ( http://arxiv.org/abs/2403.15728v1 ) ライセンス: Link先を確認 | Ruijie Liu, Tianxiang Zhan, Zhen Li, Yong Deng, | (参考訳) 無線センサネットワーク(WSN)では、検出タスクの実行において、カバレッジとデプロイメントが最も重要な2つの問題である。
しかし、センサから収集された検出情報は、しばしば完全に活用されず、効率的に統合される。
このようなセンシングモデルと展開戦略は、特にWSN内のセンサーの量が大幅に増加すると、カバー範囲の最大品質に達することができない。
本稿では、WSNデプロイメントの最適カバレッジ品質を達成することを目的とする。
我々は,WSNの検知能力を高めるためのセンサの協調センシングモデルを開発し,エビデンス理論の枠組みの下で組み合わせルールから得られる協調情報を活用する。
本モデルでは, センサ選択の基準として, 顕在核融合システムの性能評価を採用する。
センサコントリビューションと検出機能の両方を考慮した学習可能なセンサ配置ネットワーク(LSDNet)を提案し,WSNの最適展開を実現する。
さらに,WSNの全カバレッジを実現する必要最小限のセンサ数を求めるアルゴリズムについて深く検討する。
提案手法の有効性とロバスト性を実証するために, 一連の数値例と森林地域モニタリングの適用を併用した。
In wireless sensor networks (WSNs), coverage and deployment are two most crucial issues when conducting detection tasks. However, the detection information collected from sensors is oftentimes not fully utilized and efficiently integrated. Such sensing model and deployment strategy, thereby, cannot reach the maximum quality of coverage, particularly when the amount of sensors within WSNs expands significantly. In this article, we aim at achieving the optimal coverage quality of WSN deployment. We develop a collaborative sensing model of sensors to enhance detection capabilities of WSNs, by leveraging the collaborative information derived from the combination rule under the framework of evidence theory. In this model, the performance evaluation of evidential fusion systems is adopted as the criterion of the sensor selection. A learnable sensor deployment network (LSDNet) considering both sensor contribution and detection capability, is proposed for achieving the optimal deployment of WSNs. Moreover, we deeply investigate the algorithm for finding the requisite minimum number of sensors that realizes the full coverage of WSNs. A series of numerical examples, along with an application of forest area monitoring, are employed to demonstrate the effectiveness and the robustness of the proposed algorithms. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# 電子イオン衝突型加速器におけるテキストbf{RAG}に基づく要約エージェントの実現に向けて
Towards a \textbf{RAG}-based Summarization Agent for the Electron-Ion Collider ( http://arxiv.org/abs/2403.15729v1 ) ライセンス: Link先を確認 | Karthik Suresh, Neeltje Kackar, Luke Schleck, Cristiano Fanelli, | (参考訳) 文書、論文、データ、その他大規模な実験から得られた資源を包含する複雑さと膨大な量の情報は、ナビゲートするためのかなりの時間と労力を必要としており、特に新しい協力者や初期の科学者にとって、これらの様々な情報へのアクセスと活用のタスクが要求される。
この問題に対処するため、Retrieval Augmented Generation(RAG)ベースのEIC用要約AI(RAGS4EIC)が開発中である。
このAIエージェントは情報を凝縮するだけでなく、関連する応答を効果的に参照する。
まず、関連するすべての実験情報を含む包括的ベクトルデータベースを問合せし、次に、Large Language Model(LLM)を用いて、ユーザクエリと検索データに基づく引用に富んだ簡潔な要約を生成する。
RAGアセスメント(RAGA)スコアリング機構を用いて応答の有効性を評価する評価手法について述べる。
さらに、要約の柔軟性と精度を提供するプロンプトテンプレートベースの命令チューニングについて述べる。
重要なのは、この実装がワークフロー全体の基盤となるLangChainに依存していることです。
この統合により効率性とスケーラビリティが保証され、Electron Ion Collider (EIC)コミュニティ内のさまざまなユーザグループに対して、スムーズなデプロイメントとアクセシビリティが実現される。
この革新的なAI駆動のフレームワークは、膨大なデータセットの理解を単純化するだけでなく、協力的な参加を促進し、研究者を力づける。
実演として、RAGエージェント開発の各段階を詳細に説明するために、Webアプリケーションが開発されている。
The complexity and sheer volume of information encompassing documents, papers, data, and other resources from large-scale experiments demand significant time and effort to navigate, making the task of accessing and utilizing these varied forms of information daunting, particularly for new collaborators and early-career scientists. To tackle this issue, a Retrieval Augmented Generation (RAG)--based Summarization AI for EIC (RAGS4EIC) is under development. This AI-Agent not only condenses information but also effectively references relevant responses, offering substantial advantages for collaborators. Our project involves a two-step approach: first, querying a comprehensive vector database containing all pertinent experiment information; second, utilizing a Large Language Model (LLM) to generate concise summaries enriched with citations based on user queries and retrieved data. We describe the evaluation methods that use RAG assessments (RAGAs) scoring mechanisms to assess the effectiveness of responses. Furthermore, we describe the concept of prompt template-based instruction-tuning which provides flexibility and accuracy in summarization. Importantly, the implementation relies on LangChain, which serves as the foundation of our entire workflow. This integration ensures efficiency and scalability, facilitating smooth deployment and accessibility for various user groups within the Electron Ion Collider (EIC) community. This innovative AI-driven framework not only simplifies the understanding of vast datasets but also encourages collaborative participation, thereby empowering researchers. As a demonstration, a web application has been developed to explain each stage of the RAG Agent development in detail. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# 大規模言語モデルを組み合わせた時空間グラフ畳み込みネットワーク:自転車需要予測のためのディープラーニングフレームワーク
Spatio-Temporal Graph Convolutional Network Combined Large Language Model: A Deep Learning Framework for Bike Demand Forecasting ( http://arxiv.org/abs/2403.15733v1 ) ライセンス: Link先を確認 | Peisen Li, Yizhe Pang, Junyu Ren, | (参考訳) 本研究では,自転車需要予測のために,時空間グラフ畳み込みネットワーク(STGCN)と大規模言語モデル(LLM)を組み合わせた新しいディープラーニングフレームワークを提案する。
離散データセットを変換し、構造化されていない言語データを統合する際の課題に対処するため、フレームワークはLLMを活用してPoints of Interest (POI)テキストデータから洞察を抽出する。
提案したSTGCN-Lモデルでは,既存のモデルと比較して競争性能が向上し,自転車需要予測の可能性を示している。
フィラデルフィアのデータセットを用いた実験では、ハイブリッドモデルの有効性を強調し、天気データなどの追加機能を導入して精度を向上させるなど、さらなる探索と拡張の必要性を強調している。
This study presents a new deep learning framework, combining Spatio-Temporal Graph Convolutional Network (STGCN) with a Large Language Model (LLM), for bike demand forecasting. Addressing challenges in transforming discrete datasets and integrating unstructured language data, the framework leverages LLMs to extract insights from Points of Interest (POI) text data. The proposed STGCN-L model demonstrates competitive performance compared to existing models, showcasing its potential in predicting bike demand. Experiments using Philadelphia datasets highlight the effectiveness of the hybrid model, emphasizing the need for further exploration and enhancements, such as incorporating additional features like weather data for improved accuracy. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# 結晶材料生成のための空間群インフォーム変換器
Space Group Informed Transformer for Crystalline Materials Generation ( http://arxiv.org/abs/2403.15734v1 ) ライセンス: Link先を確認 | Zhendong Cao, Xiaoshan Luo, Jian Lv, Lei Wang, | (参考訳) 本稿では, 変圧器を用いた自己回帰モデルであるCrystalFormerを紹介した。
空間群対称性は結晶空間を著しく単純化し、これは結晶材料のデータと効率的な生成モデリングの計算に不可欠である。
ワイコフ位置の顕著な離散的およびシーケンシャルな性質を利用して、CrystalFormerは単位セル内の対称性に等価な原子の種類と位置を直接予測することで結晶を生成することを学ぶ。
以上の結果から,CrystalFormerは標準ベンチマークにおいて,生成した結晶材料の正当性,新奇性,安定性の両立を図っている。
解析の結果,CrystalFormerは生成モデルデータから,高感度な固体化学情報を取り込みます。
CrystalFormerは、結晶材料の領域における対称性に基づく構造探索と生成前トレーニングを統一する。
クリスタルホルダーの単純さ、汎用性、柔軟性は、物質モデリングと発見の新たな時代を告げる、結晶材料全体の基盤モデルとして期待できるアーキテクチャとして位置づけている。
We introduce CrystalFormer, a transformer-based autoregressive model specifically designed for space group-controlled generation of crystalline materials. The space group symmetry significantly simplifies the crystal space, which is crucial for data and compute efficient generative modeling of crystalline materials. Leveraging the prominent discrete and sequential nature of the Wyckoff positions, CrystalFormer learns to generate crystals by directly predicting the species and locations of symmetry-inequivalent atoms in the unit cell. Our results demonstrate that CrystalFormer matches state-of-the-art performance on standard benchmarks for both validity, novelty, and stability of the generated crystalline materials. Our analysis also shows that CrystalFormer ingests sensible solid-state chemistry information from data for generative modeling. The CrystalFormer unifies symmetry-based structure search and generative pre-training in the realm of crystalline materials. The simplicity, generality, and flexibility of CrystalFormer position it as a promising architecture to be the foundational model of the entire crystalline materials space, heralding a new era in materials modeling and discovery. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# BraTS2023チャレンジにおける脳転移セグメンテーションのための3D-TransUNet
3D-TransUNet for Brain Metastases Segmentation in the BraTS2023 Challenge ( http://arxiv.org/abs/2403.15735v1 ) ライセンス: Link先を確認 | Siwei Yang, Xianhang Li, Jieru Mei, Jieneng Chen, Cihang Xie, Yuyin Zhou, | (参考訳) 脳腫瘍の分節は、様々な外観とスケールのために複雑である。
最も一般的なタイプの脳腫瘍である脳転移は、しばしばがんの合併症である。
そのため、脳転移の効果的な分節モデルでは、局所的な複雑さを十分に捉えて、小さな腫瘍領域を規定すると同時に、より広いスキャン特徴を理解するために、グローバルなコンテキストを統合する必要がある。
TransUNetモデルは、Transformerの自己アテンションとU-Netのローカライズされた情報を組み合わせることで、このタスクの有望な解決策として現れる。
本稿では,脳腫瘍分離(BraTS-METS)2023チャレンジデータセット上での3D-TransUNetモデルのトレーニングにより脳転移のセグメンテーションに対処する。
具体的には,エンコーダのみの3D-TransUNet,デコーダのみの3D-TransUNet,デコーダのみの3D-TransUNet,デコーダのみの3D-TransUNetの2つのアーキテクチャ構成について検討した。
Encoderのみの3D-TransUNetでは、Transformer Encoderのより優れた初期化のためにMasked-Autoencoderの事前トレーニングが必要であり、トレーニングプロセスの高速化に留意する。
Decoderのみの3D-TransUNetモデルは、トレーニングセット上の5倍のクロスバリデーションで示されるように、脳転移のセグメンテーションにおける有効性を高めるべきである。
しかし、Encoderのみの3D-TransUNetモデルの使用はすでに顕著な結果をもたらしており、平均的な病変度Diceスコアは59.8\%であり、BraTS-METS 2023チャレンジでは2位となった。
Segmenting brain tumors is complex due to their diverse appearances and scales. Brain metastases, the most common type of brain tumor, are a frequent complication of cancer. Therefore, an effective segmentation model for brain metastases must adeptly capture local intricacies to delineate small tumor regions while also integrating global context to understand broader scan features. The TransUNet model, which combines Transformer self-attention with U-Net's localized information, emerges as a promising solution for this task. In this report, we address brain metastases segmentation by training the 3D-TransUNet model on the Brain Tumor Segmentation (BraTS-METS) 2023 challenge dataset. Specifically, we explored two architectural configurations: the Encoder-only 3D-TransUNet, employing Transformers solely in the encoder, and the Decoder-only 3D-TransUNet, utilizing Transformers exclusively in the decoder. For Encoder-only 3D-TransUNet, we note that Masked-Autoencoder pre-training is required for a better initialization of the Transformer Encoder and thus accelerates the training process. We identify that the Decoder-only 3D-TransUNet model should offer enhanced efficacy in the segmentation of brain metastases, as indicated by our 5-fold cross-validation on the training set. However, our use of the Encoder-only 3D-TransUNet model already yield notable results, with an average lesion-wise Dice score of 59.8\% on the test set, securing second place in the BraTS-METS 2023 challenge. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# LLMにLLMを指示する:抽出と編集法
LLMs Instruct LLMs:An Extraction and Editing Method ( http://arxiv.org/abs/2403.15736v1 ) ライセンス: Link先を確認 | Xin Zhang, Tianjie Ju, Huijia Liang, Ying Fu, Qin Zhang, | (参考訳) 大規模な言語モデル(LLM)をスクラッチからリトレーニングすることなく更新することへの関心は大きいが、いくつかの課題が伴っている。これは特に、限られたサンプルで複雑な推論を要求する状況において当てはまる。このシナリオは、LLM(PCRA-LLM)のためのPaucity-Constrained Complex Reasoning Adaptation(英語版)と呼ばれる。
ローランド適応(LoRA)やレトリーバル拡張生成(RAG)のような従来の手法は、特にPCRA-LLMの異なるニーズを浮き彫りにする特定の医学的コンテキストの探索において、この重要な問題に不適当である。この問題に対処するために、複雑な文脈からLLMに知識を組み込むシークエンシャルフュージョン法を提案する。
この手法は2段階のフレームワークを用いており、最初は知識グラフ(KG)を構築して複雑なテキストから知識を抽出し、その後、知識編集によってドメインLLMを更新する。
提案手法では,質問応答におけるLLMの精度は71.69 %であった。
その後、経済・経営分野で開発された新しいデータセットに評価を拡大し、その手法が75%の精度を実現した。
これらの結果は,PCRA-LLMに対するアプローチの有効性と適応性を示すものである。
The interest in updating Large Language Models (LLMs) without retraining from scratch is substantial, yet it comes with some challenges.This is especially true for situations demanding complex reasoning with limited samples, a scenario we refer to as the Paucity-Constrained Complex Reasoning Adaptation for LLMs (PCRA-LLM).Traditional methods like Low-Rank Adaptation (LoRA) and Retrieval-Augmented Generation (RAG) are inadequate for this critical issue, particularly evident in our exploration of a specific medical context that epitomize the PCRA-LLM's distinct needs.To address the issue, we propose a Sequential Fusion method to incorporate knowledge from complex context into LLMs. This method employs a two-stage framework: initially, it leverages general LLMs to construct knowledge graphs (KGs) for extracting knowledge from complex texts; subsequently, it updates the domain LLMs through knowledge edit. According to our method, the domain LLM achieved a 71.69\% accuracy in question answering tasks. Subsequently, we broadened our assessment to a novel dataset we developed in the economics and management field, where our method realized a 75\% accuracy. These outcomes underline the efficacy and adaptability of our approach for PCRA-LLM across various domains. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# 帰納的推論によるモチベーション面接のための対話戦略学習
Few-shot Dialogue Strategy Learning for Motivational Interviewing via Inductive Reasoning ( http://arxiv.org/abs/2403.15737v1 ) ライセンス: Link先を確認 | Zhouhang Xie, Bodhisattwa Prasad Majumder, Mengjie Zhao, Yoshinori Maeda, Keiichi Yamada, Hiromi Wakaki, Julian McAuley, | (参考訳) 本稿では,ユーザに対して肯定的なライフスタイル変化を取り入れるための対話システム構築の課題について考察する。
そのようなタスクに対処するには、ユーザーを効果的に動機づけるために \textit{how} を推論できるシステムが必要である。
専門家によるデモンストレーションから,自然言語帰納規則の形で会話戦略を学習し,適用可能なフレームワークであるDIITを提案する。
命令追従型大規模言語モデルの自動評価により、DIIRによって発見された自然言語戦略記述は、アクティブリスニングスキルを改善し、非孤立的なアドバイスを減らし、より協調的で信頼性の低い応答を促進し、様々な実演利用方法より優れていることを示す。
We consider the task of building a dialogue system that can motivate users to adopt positive lifestyle changes: Motivational Interviewing. Addressing such a task requires a system that can infer \textit{how} to motivate a user effectively. We propose DIIT, a framework that is capable of learning and applying conversation strategies in the form of natural language inductive rules from expert demonstrations. Automatic and human evaluation on instruction-following large language models show natural language strategy descriptions discovered by DIIR can improve active listening skills, reduce unsolicited advice, and promote more collaborative and less authoritative responses, outperforming various demonstration utilization methods. | 翻訳日:2024-03-26 21:22:21 公開日:2024-03-23 |
# 需要サージ時の最適病院容量管理
Optimal Hospital Capacity Management During Demand Surges ( http://arxiv.org/abs/2403.15738v1 ) ライセンス: Link先を確認 | Felix Parker, Fardin Ganjkhanloo, Diego A. Martínez, Kimia Ghobadi, | (参考訳) 効果的な病院の容量管理は、患者のケアの質、手術の効率、医療システムのレジリエンスを高めるために、特に新型コロナウイルス(COVID-19)パンデミックに見られるような需要急増時に重要である。
しかし、最適なキャパシティ戦略の策定は、需要変動、目的の相反、多面的な実践的制約によって複雑である。
本研究では,サージイベント中の病院システム内のキャパシティ管理決定を最適化するためのデータ駆動型フレームワークを提案する。
2つの重要な決定は、患者を徴発する専用容量を割り当て、病院の救急部門(ED)間で患者を移動させ、需要を分散させるという戦術的な計画の観点で最適化されている。
最適化モデルは堅牢な混合整数線形プログラムとして定式化され、需要不確実性に対して堅牢な最適決定の効率的な計算を可能にする。
モデルには、サージキャパシティを追加するためのセットアップ時間とコスト、ED患者転送の制限、ケア品質と運用効率への影響を反映した異なる決定の相対コストなど、実用的な制約とコストが含まれている。
この手法は、新型コロナウイルスのパンデミックの最盛期に病院システムで振り返って評価され、推奨された決定の潜在的影響を示す。
その結果,2日毎に1回に満たない63日間に病床を最適に配置し,30人以上の患者を移動させることで,病院システムにおけるサージ容量を約98%削減できる可能性が示唆された。
全体として、この研究はキャパシティ管理の意思決定を変革する実践的なツールを導入し、積極的に計画し、結果を改善するためにデータ駆動のレコメンデーションを使用することを可能にした。
Effective hospital capacity management is pivotal for enhancing patient care quality, operational efficiency, and healthcare system resilience, notably during demand spikes like those seen in the COVID-19 pandemic. However, devising optimal capacity strategies is complicated by fluctuating demand, conflicting objectives, and multifaceted practical constraints. This study presents a data-driven framework to optimize capacity management decisions within hospital systems during surge events. Two key decisions are optimized over a tactical planning horizon: allocating dedicated capacity to surge patients and transferring incoming patients between emergency departments (EDs) of hospitals to better distribute demand. The optimization models are formulated as robust mixed-integer linear programs, enabling efficient computation of optimal decisions that are robust against demand uncertainty. The models incorporate practical constraints and costs, including setup times and costs for adding surge capacity, restrictions on ED patient transfers, and relative costs of different decisions that reflect impacts on care quality and operational efficiency. The methodology is evaluated retrospectively in a hospital system during the height of the COVID-19 pandemic to demonstrate the potential impact of the recommended decisions. The results show that optimally allocating beds and transferring just 30 patients over a 63 day period around the peak, less than one transfer every two days, could have reduced the need for surge capacity in the hospital system by approximately 98%. Overall, this work introduces a practical tool to transform capacity management decision-making, enabling proactive planning and the use of data-driven recommendations to improve outcomes. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# Ghost Sentence: 大規模言語モデルからデータを著作権保護するためのツール
Ghost Sentence: A Tool for Everyday Users to Copyright Data from Large Language Models ( http://arxiv.org/abs/2403.15740v1 ) ライセンス: Link先を確認 | Shuai Zhao, Linchao Zhu, Ruijie Quan, Yi Yang, | (参考訳) Webユーザデータは、事前訓練された大規模言語モデル(LLM)とその微調整されたバリエーションのエコシステムにおいて中心的な役割を果たす。
数十億のデータがWebからクロールされ、LLMに供給される。
LLMが許可なくデータを誤用しているかどうか、どうやって確認できますか?
本研究は,個人用パスフレーズを文書に繰り返し挿入し,LLMが記憶することを可能にすることを提案する。
これらの隠されたパスフレーズは、ユーザー文書で「textit{ghost sentences}」と呼ばれ、LLMの生成されたコンテンツで識別されると、ユーザーは自分のデータがトレーニングに使われていることを確認できる。
この著作権ツールの有効性と使用法を検討するため,ゴースト文を用いたtextit{user training data identification} タスクを定義した。
さまざまなスケールのソースからの複数のデータセットが作成され、異なるサイズのLLMでテストされる。
評価には、文書とユーザ識別の正確さの2つの指標とともに、最後の$k$ワードの検証方法を導入する。
3B LLaMAモデルの特定のチューニングの場合、ゴースト文を持つ16人中11人が生成内容内でデータを識別する。
これら16ユーザは、$\sim$1.8Mのトレーニングドキュメントに383のサンプルをコントリビュートしている。
1.1BのTinyLlamaモデルの事前トレーニングを継続するために、ゴースト文を持つ64人中61人がLLM出力内でデータを識別している。
これらの64ユーザは、$\sim$10Mのトレーニングドキュメントに1156のサンプルをコントリビュートしている。
Web user data plays a central role in the ecosystem of pre-trained large language models (LLMs) and their fine-tuned variants. Billions of data are crawled from the web and fed to LLMs. How can \textit{\textbf{everyday web users}} confirm if LLMs misuse their data without permission? In this work, we suggest that users repeatedly insert personal passphrases into their documents, enabling LLMs to memorize them. These concealed passphrases in user documents, referred to as \textit{ghost sentences}, once they are identified in the generated content of LLMs, users can be sure that their data is used for training. To explore the effectiveness and usage of this copyrighting tool, we define the \textit{user training data identification} task with ghost sentences. Multiple datasets from various sources at different scales are created and tested with LLMs of different sizes. For evaluation, we introduce a last $k$ words verification manner along with two metrics: document and user identification accuracy. In the specific case of instruction tuning of a 3B LLaMA model, 11 out of 16 users with ghost sentences identify their data within the generation content. These 16 users contribute 383 examples to $\sim$1.8M training documents. For continuing pre-training of a 1.1B TinyLlama model, 61 out of 64 users with ghost sentences identify their data within the LLM output. These 64 users contribute 1156 examples to $\sim$10M training documents. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# 絡み合った宇宙
An Entangled Universe ( http://arxiv.org/abs/2403.15742v1 ) ライセンス: Link先を確認 | Pablo Tejerina-Pérez, Daniele Bertacca, Raul Jimenez, | (参考訳) 我々は、インフレーション期の量子的性質の観察的なインプリントにつながる可能性がある初期の宇宙の量子署名を提案する。
インフラトンスカラー場の存在下でのグラビトンの生成は、偏光の絡み合った状態をもたらす。
これは2つのスカラー揺らぎに対する誘導体による非自明な効果のためであり、アリスとボブがパッチで測定した重力子の偏光に依存する指紋を提供する。
水平交差において、重力子とインフレートンの間の相互作用はベル実験によって決定的な測定結果をもたらす。
銀河の高次相関関数、特にハロバイアスと固有アライメントにおいて、このシグネチャがどのように測定できるかを示唆する。
We propose a possible quantum signature of the early Universe that could lead to observational imprints of the quantum nature of the inflationary period. Graviton production in the presence of an inflaton scalar field results in entangled states in polarization. This is because of a non-trivial effect due to the derivatives on two scalar fluctuations and it provides a fingerprint that depends on the polarization of the graviton that Alice and/or Bob measured in their patch. At horizon crossing, interactions between the gravitons and inflatons perform the required Bell experiments leading to a definitive measure. We hint how this signature could be measure in the high-order correlation function of galaxies, in particular on the halo bias and the intrinsic alignment. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# 人工電位場と安全フィルタの比較検討
A Comparative Study of Artificial Potential Fields and Safety Filters ( http://arxiv.org/abs/2403.15743v1 ) ライセンス: Link先を確認 | Ming Li, Zhiyong Sun, | (参考訳) 本稿では,従来の動作計画ツール,すなわち人工電位場(APF)によって設計された制御器が,最近普及した制御バリア関数2次プログラム(CBF-QP)の安全性フィルタから導出できることを実証した。
CBF-QPフレームワークにAPF情報を組み込むことで,この2つの手法の橋渡しを行う。
具体的には、制御リャプノフ関数(CLF)として魅力的なポテンシャル場を用いて名目制御器の設計を導出し、反発ポテンシャル場は逆CBF(RCBF)として機能し、CBF-QP安全フィルタを定義する。
この積分に基づいてCBF-QP安全フィルタの設計を拡張し、制御-アフィン構造を特徴とするより一般的な動的モデルに対応する。
この拡張により、特別なCBF-QP安全フィルタと、制御-アフィン力学モデルに適した一般APFソリューションが得られる。
到達回避ナビゲーションの例を通して,開発手法の有効性を示す。
In this paper, we have demonstrated that the controllers designed by a classical motion planning tool, namely artificial potential fields (APFs), can be derived from a recently prevalent approach: control barrier function quadratic program (CBF-QP) safety filters. By integrating APF information into the CBF-QP framework, we establish a bridge between these two methodologies. Specifically, this is achieved by employing the attractive potential field as a control Lyapunov function (CLF) to guide the design of the nominal controller, and then the repulsive potential field serves as a reciprocal CBF (RCBF) to define a CBF-QP safety filter. Building on this integration, we extend the design of the CBF-QP safety filter to accommodate a more general class of dynamical models featuring a control-affine structure. This extension yields a special CBF-QP safety filter and a general APF solution suitable for control-affine dynamical models. Through a reach-avoid navigation example, we showcase the efficacy of the developed approaches. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# 能動学習者の脆弱性について
On the Fragility of Active Learners ( http://arxiv.org/abs/2403.15744v1 ) ライセンス: Link先を確認 | Abhishek Ghose, Emma Nguyen, | (参考訳) アクティブラーニング(AL)技術は、予測精度を向上させる可能性が最も高いインスタンスを反復的に選択することで、ラベル付け予算を最大限に活用することを目的としている。
しかし、ランダムサンプリングと比較した場合の利点は、例えば、異なるデータセット、分類器など、さまざまな設定で一致していない。
本研究では,異なる要因の組み合わせがAL手法から得られる利益を如何に隠蔽するかを実験的に検討する。
テキスト分類に着目し,データセット,バッチサイズ,テキスト表現,分類器など,約1000の実験からAL手法を厳格に評価する。
ALは限られた状況下でのみ有効であることを示す。
また、現実世界の期待に合うようなメトリクスを使用するという問題にも対処しています。
この研究の影響は、実践者にとっての洞察にある。
(a)テキスト表現と分類器の選択はAL技術と同じくらい重要である。
b) 正しい計量の選択は後者の評価において重要であり、最後に
(c) AL結果の報告は、クエリ戦略以外の変数を考慮し、論理的に解釈されなければならない。
Active learning (AL) techniques aim to maximally utilize a labeling budget by iteratively selecting instances that are most likely to improve prediction accuracy. However, their benefit compared to random sampling has not been consistent across various setups, e.g., different datasets, classifiers. In this empirical study, we examine how a combination of different factors might obscure any gains from an AL technique. Focusing on text classification, we rigorously evaluate AL techniques over around 1000 experiments that vary wrt the dataset, batch size, text representation and the classifier. We show that AL is only effective in a narrow set of circumstances. We also address the problem of using metrics that are better aligned with real world expectations. The impact of this study is in its insights for a practitioner: (a) the choice of text representation and classifier is as important as that of an AL technique, (b) choice of the right metric is critical in assessment of the latter, and, finally, (c) reported AL results must be holistically interpreted, accounting for variables other than just the query strategy. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# CodeShellテクニカルレポート
CodeShell Technical Report ( http://arxiv.org/abs/2403.15747v1 ) ライセンス: Link先を確認 | Rui Xie, Zhengran Zeng, Zhuohao Yu, Chang Gao, Shikun Zhang, Wei Ye, | (参考訳) コード大言語モデルは、人工知能における重要なブレークスルーを示す。
プログラム言語を理解して生成するように特別に設計されており、開発ワークフローのコーディング効率を大幅に向上させる。
本稿では、8Kコンテキスト長を持つ70億パラメータ基盤モデルであるCodeShell-Baseを紹介する。
Grouped-Query Attention と Rotary Positional Embedding を GPT-2 に組み込むことで、CodeShell-Base は StarCoder と CodeLlama の構造的利点を統合し、独自のアーキテクチャ設計を形成する。
次に、類似データ重複、パープレキシティベースのデータフィルタリング、モデルベースのデータフィルタリングを含む包括的データ前処理プロセスを慎重に構築した。
このプロセスを通じて、GitHubから1000億の高品質な事前トレーニングデータをキュレートしました。
高品質のデータから見れば、CodeShell-Baseは、わずか500億トークン(5エポック)でトレーニングした後、HumanevalのCodeLlamaよりも優れています。
我々は,Python,Java,C++など,複数の言語データセットを対象とした広範な実験を行った。
Code large language models mark a pivotal breakthrough in artificial intelligence. They are specifically crafted to understand and generate programming languages, significantly boosting the efficiency of coding development workflows. In this technical report, we present CodeShell-Base, a seven billion-parameter foundation model with 8K context length, showcasing exceptional proficiency in code comprehension. By incorporating Grouped-Query Attention and Rotary Positional Embedding into GPT-2, CodeShell-Base integrates the structural merits of StarCoder and CodeLlama and forms its unique architectural design. We then carefully built a comprehensive data pre-processing process, including similar data deduplication, perplexity-based data filtering, and model-based data filtering. Through this process, We have curated 100 billion high-quality pre-training data from GitHub. Benefiting from the high-quality data, CodeShell-Base outperforms CodeLlama in Humaneval after training on just 500 billion tokens (5 epochs). We have conducted extensive experiments across multiple language datasets, including Python, Java, and C++, and the results indicate that our model possesses robust foundational capabilities in code comprehension and generation. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# ホロボールとその段階的方法
Horoballs and the subgradient method ( http://arxiv.org/abs/2403.15749v1 ) ライセンス: Link先を確認 | Adrian S. Lewis, Genaro Lopez-Acedo, Adriana Nicolae, | (参考訳) アダマール空間上の凸最適化を探索するために、段階的なアルゴリズムのスタイルの反復を考える。
伝統的に、そのような手法は、基礎となる空間は多様体であり、目的は測地的に凸である、と仮定する:これらの手法は接空間と指数写像を用いて記述される。
対照的に、我々の反復は一般のアダマール空間に適用され、基礎空間自体にフレーム化され、代わりに対象のレベル集合の球面凸性に依存する。
この制限された目的のクラスに対して、通常の形式の複雑さの結果が証明される。
特に、複雑性は空間曲率の低い境界に依存しない。
To explore convex optimization on Hadamard spaces, we consider an iteration in the style of a subgradient algorithm. Traditionally, such methods assume that the underlying spaces are manifolds and that the objectives are geodesically convex: the methods are described using tangent spaces and exponential maps. By contrast, our iteration applies in a general Hadamard space, is framed in the underlying space itself, and relies instead on horospherical convexity of the objective level sets. For this restricted class of objectives, we prove a complexity result of the usual form. Notably, the complexity does not depend on a lower bound on the space curvature. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# iDAT:逆蒸留アダプタチューニング
iDAT: inverse Distillation Adapter-Tuning ( http://arxiv.org/abs/2403.15750v1 ) ライセンス: Link先を確認 | Jiacheng Ruan, Jingsheng Gao, Mingye Xie, Daize Dong, Suncheng Xiang, Ting Liu, Yuzhuo Fu, | (参考訳) Adapter-Tuning (AT) 法は、訓練済みモデルの凍結と、下流の知識を得るためにトレーニング可能なアダプタモジュールを導入し、下流のタスクに適応するためにモデルを校正する。
本稿では, 微調整性能の向上を目的とした, 慎重に設計したアダプタモジュールを製作する代わりに, AT方式の蒸留フレームワークを提案する。
まず,AT法と知識蒸留の併用の可能性を検討する。
統計的解析により、異なるモデルのアダプタモジュール間の知識獲得における大きな違いが観察される。
これらの違いを生かして、逆蒸留適応 (iDAT) と呼ばれるシンプルで効果的なフレームワークを提案する。
具体的には、より小さなモデルを教師として、より大きなモデルを学生として指定する。
両者は共同で訓練され、オンライン知識蒸留は、異なる視点の知識を学生モデルに注入し、下流タスクにおける微調整性能を著しく向上させる。
画像分類タスク19のVTAB-1Kベンチマークの大規模な実験は、iDATの有効性を実証している。
その結果、既存のATメソッドをiDATフレームワークで使用すれば、さらに2.66%の性能向上が達成でき、さらに0.07Mのトレーニング可能なパラメータが追加で得られることがわかった。
我々のアプローチは、ベルやホイッスルのない最先端の手法と好意的に比較する。
私たちのコードはhttps://github.com/JCruan519/iDAT.comで公開されています。
Adapter-Tuning (AT) method involves freezing a pre-trained model and introducing trainable adapter modules to acquire downstream knowledge, thereby calibrating the model for better adaptation to downstream tasks. This paper proposes a distillation framework for the AT method instead of crafting a carefully designed adapter module, which aims to improve fine-tuning performance. For the first time, we explore the possibility of combining the AT method with knowledge distillation. Via statistical analysis, we observe significant differences in the knowledge acquisition between adapter modules of different models. Leveraging these differences, we propose a simple yet effective framework called inverse Distillation Adapter-Tuning (iDAT). Specifically, we designate the smaller model as the teacher and the larger model as the student. The two are jointly trained, and online knowledge distillation is applied to inject knowledge of different perspective to student model, and significantly enhance the fine-tuning performance on downstream tasks. Extensive experiments on the VTAB-1K benchmark with 19 image classification tasks demonstrate the effectiveness of iDAT. The results show that using existing AT method within our iDAT framework can further yield a 2.66% performance gain, with only an additional 0.07M trainable parameters. Our approach compares favorably with state-of-the-arts without bells and whistles. Our code is available at https://github.com/JCruan519/iDAT. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# AOCIL: 時間と資源消費の少ない非定型分析オンライン授業インクリメンタルラーニング
AOCIL: Exemplar-free Analytic Online Class Incremental Learning with Low Time and Resource Consumption ( http://arxiv.org/abs/2403.15751v1 ) ライセンス: Link先を確認 | Huiping Zhuang, Yuchen Liu, Run He, Kai Tong, Ziqian Zeng, Cen Chen, Yi Wang, Lap-Pui Chau, | (参考訳) Online Class Incremental Learning (OCIL) はタスクバイタスクでモデルをトレーニングすることを目的としている。
重要な課題は、カタストロフィック・フォージッティング(Caastrophic Forgetting)、すなわち、古いデータに関する以前の知識が失われることである。
これを解決するために、リプレイベースの手法は競合する結果を示すが、データプライバシに侵入する。
本稿では,AOCIL (Analytic Online Class Incremental Learning) を提案する。
バックプロパゲーションの代わりに、再帰最小二乗法により更新された解析分類器(AC)を凍結したバックボーンと協調して設計する。
AOCILは、高い精度、低いリソース消費、データプライバシ保護を同時に達成する。
既存の4つのベンチマークデータセットに対して大規模な実験を行い、OCILシナリオを扱う強力な能力を実証した。
コードの準備が整います。
Online Class Incremental Learning (OCIL) aims to train the model in a task-by-task manner, where data arrive in mini-batches at a time while previous data are not accessible. A significant challenge is known as Catastrophic Forgetting, i.e., loss of the previous knowledge on old data. To address this, replay-based methods show competitive results but invade data privacy, while exemplar-free methods protect data privacy but struggle for accuracy. In this paper, we proposed an exemplar-free approach -- Analytic Online Class Incremental Learning (AOCIL). Instead of back-propagation, we design the Analytic Classifier (AC) updated by recursive least square, cooperating with a frozen backbone. AOCIL simultaneously achieves high accuracy, low resource consumption and data privacy protection. We conduct massive experiments on four existing benchmark datasets, and the results demonstrate the strong capability of handling OCIL scenarios. Codes will be ready. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# 予備的セキュリティリスク分析のための大規模言語モデルの活用:ミッションクリティカルケーススタディ
Leveraging Large Language Models for Preliminary Security Risk Analysis: A Mission-Critical Case Study ( http://arxiv.org/abs/2403.15756v1 ) ライセンス: Link先を確認 | Matteo Esposito, Francesco Palagiano, | (参考訳) 予備的セキュリティリスク分析(PSRA)は、特定のシナリオにおける潜在的なリスクを識別し、評価し、対処するための迅速なアプローチを提供する。
効果的なPSRAに必要な広範な専門知識と大量のテキスト関連タスクは、ミッションクリティカルな状況において、タイムリーかつ迅速な行動が不可欠である迅速な評価を妨げる。
PSRAにおけるヒトの専門家の速度と精度は応答時間に大きく影響した。
大きな言語モデルは、人間よりも少ない時間で情報を素早く要約することができる。
我々の知る限り、PSRAにおける細調整モデル(FTM)の能力について事前の研究は行われていない。
本症例では,PSRAの実践者を支援するためのFTMの熟練度について検討した。
我々は過去5年間に50以上のミッションクリティカルな分析チームによって収集された141件のサンプルを手作業で収集し、FTMの熟練度を7人の人間専門家と比較した。
産業環境では,PSRAの誤りの低減,セキュリティリスクの検出の迅速化,偽陽性と否定の最小化に成功している。
これは、不当な対策の実施に伴う不要な費用を回避し、企業のコスト削減に繋がる。
したがって、専門家はより包括的なリスク分析に焦点を絞ることができる。
Preliminary security risk analysis (PSRA) provides a quick approach to identify, evaluate and propose remeditation to potential risks in specific scenarios. The extensive expertise required for an effective PSRA and the substantial ammount of textual-related tasks hinder quick assessments in mission-critical contexts, where timely and prompt actions are essential. The speed and accuracy of human experts in PSRA significantly impact response time. A large language model can quickly summarise information in less time than a human. To our knowledge, no prior study has explored the capabilities of fine-tuned models (FTM) in PSRA. Our case study investigates the proficiency of FTM to assist practitioners in PSRA. We manually curated 141 representative samples from over 50 mission-critical analyses archived by the industrial context team in the last five years.We compared the proficiency of the FTM versus seven human experts. Within the industrial context, our approach has proven successful in reducing errors in PSRA, hastening security risk detection, and minimizing false positives and negatives. This translates to cost savings for the company by averting unnecessary expenses associated with implementing unwarranted countermeasures. Therefore, experts can focus on more comprehensive risk analysis, leveraging LLMs for an effective preliminary assessment within a condensed timeframe. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# ユーザサイドの実現
User-Side Realization ( http://arxiv.org/abs/2403.15757v1 ) ライセンス: Link先を確認 | Ryoma Sato, | (参考訳) ユーザーはサービスに満足していない。
サービスはユーザー向けにカスタマイズされていないので、不満が生じるのは当然です。
問題は、ユーザーが満足していないとしても、不満を解決する手段がないことだ。
ユーザはサービスのソースコードを変更することはできないし、サービスプロバイダに変更を強制することもできない。
ユーザーは不満を抱いたままにするか、サービスを辞めるしかない。
ユーザ側実現は、ユーザの側で共通の問題に対処する汎用アルゴリズムを提供することによって、この問題に対する積極的な解決策を提供する。
これらのアルゴリズムはユーザの側で動作し、サービスプロバイダ自身がサービスを変更することなく問題を解決します。
Users are dissatisfied with services. Since the service is not tailor-made for a user, it is natural for dissatisfaction to arise. The problem is, that even if users are dissatisfied, they often do not have the means to resolve their dissatisfaction. The user cannot alter the source code of the service, nor can they force the service provider to change. The user has no choice but to remain dissatisfied or quit the service. User-side realization offers proactive solutions to this problem by providing general algorithms to deal with common problems on the user's side. These algorithms run on the user's side and solve the problems without having the service provider change the service itself. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# 香港の住宅団地における新型コロナウイルス感染予測への深層学習アプローチ : 環境・社会デモグラフィーの役割
Deep Learning Approach to Forecasting COVID-19 Cases in Residential Buildings of Hong Kong Public Housing Estates: The Role of Environment and Sociodemographics ( http://arxiv.org/abs/2403.15759v1 ) ライセンス: Link先を確認 | E. Leung, J. Guan, KO. Kwok, CT. Hung, CC. Ching, KC. Chong, CHK. Yam, T. Sun, WH. Tsang, EK. Yeoh, A. Lee, | (参考訳) 紹介:本研究では、新型コロナウイルスの早期流行と流行回復への貢献を定量化するために、新型コロナウイルスと研究地区の社会生態学(例えば、内部および外部構築環境、社会デマグラフィープロファイルなど)の複雑な関連について検討する。
方法: 建物の内部および外部構築環境と住民の社会デマトグラフィープロファイルをモデル入力として, 多頭部階層的畳み込みニューラルネットワークを用いて, 分析モデルのアーキテクチャと住民の社会生態の階層構造を一致させた。
HKの感染拡大前後に隣接する3つの地区にまたがる建物に蓄積した新型コロナウイルスの感染者をモデル化した。
新型コロナウイルス(COVID-19)の回復モデルが、新型コロナウイルスのパンデミック(パンデミック)の予測ニーズに合わせて構築された2カ月後の3日、7日、14日の地平線上での予測におけるモデルの性能を調べるために、前方連鎖検証を実施した。
結果: 新型コロナウイルスの流行の早期波と、パンデミックの流行の回復との違いが判明した。
就労時間、月収、就業タイプ、世帯人口の非就労大人や子供の数などの社会学的な要因は、新型コロナウイルスの感染拡大にともなって、研究対象の建物における新型コロナウイルス感染者数にとって非常に重要であった。
建物内の異なる世帯数、床当たりの異なる世帯数、床、廊下、リフト数など、内部の建築環境を構成する要因は、新型コロナウイルスの感染拡大に伴うビルレベルのケース数に最も大きな貢献をした。
Introduction: The current study investigates the complex association between COVID-19 and the studied districts' socioecology (e.g. internal and external built environment, sociodemographic profiles, etc.) to quantify their contributions to the early outbreaks and epidemic resurgence of COVID-19. Methods: We aligned the analytic model's architecture with the hierarchical structure of the resident's socioecology using a multi-headed hierarchical convolutional neural network to structure the vast array of hierarchically related predictive features representing buildings' internal and external built environments and residents' sociodemographic profiles as model input. COVID-19 cases accumulated in buildings across three adjacent districts in HK, both before and during HK's epidemic resurgence, were modeled. A forward-chaining validation was performed to examine the model's performance in forecasting COVID-19 cases over the 3-, 7-, and 14-day horizons during the two months subsequent to when the model for COVID-19 resurgence was built to align with the forecasting needs in an evolving pandemic. Results: Different sets of factors were found to be linked to the earlier waves of COVID-19 outbreaks compared to the epidemic resurgence of the pandemic. Sociodemographic factors such as work hours, monthly household income, employment types, and the number of non-working adults or children in household populations were of high importance to the studied buildings' COVID-19 case counts during the early waves of COVID-19. Factors constituting one's internal built environment, such as the number of distinct households in the buildings, the number of distinct households per floor, and the number of floors, corridors, and lifts, had the greatest unique contributions to the building-level COVID-19 case counts during epidemic resurgence. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# 不均一フェデレーション学習におけるサーバサイド事前学習発電機からクライアントへの知識伝達のための負荷効率向上手法
An Upload-Efficient Scheme for Transferring Knowledge From a Server-Side Pre-trained Generator to Clients in Heterogeneous Federated Learning ( http://arxiv.org/abs/2403.15760v1 ) ライセンス: Link先を確認 | Jianqing Zhang, Yang Liu, Yang Hua, Jian Cao, | (参考訳) 不均一フェデレートラーニング(HtFL)は、プライバシを保ちながら、異なるモデルアーキテクチャを持つ複数のクライアントでの協調学習を可能にする。
近年の研究の進展にもかかわらず、HtFLにおける知識共有はデータとモデルの不均一性のために依然として困難である。
この問題に対処するために、事前訓練された発電機に格納された知識を活用し、FedKTL(Federated Knowledge-Transfer Loop)と呼ばれる新しいアップロード効率の高い知識伝達方式を提案する。
当社のFedKTLは,サーバ上のジェネレータの推論により,クライアントタスクに関連するプロトタイプイメージベクターペアを生成することができる。
これらのペアによって、各クライアントは、既存の知識をジェネレータからそのローカルモデルに、追加の教師付きローカルタスクを通じて転送することができる。
CNN や ViT を含む14 種類のモデルを用いて,2 種類のデータ不均一性に基づく4 つのデータセットの広範な実験を行った。
その結果,FedKTLのアップロード効率は7つの最先端手法を最大7.31%の精度で上回っていることがわかった。
さらに、我々の知識伝達スキームは、1つのエッジクライアントしか持たないシナリオに適用できる。
コード:https://github.com/TsingZ0/FedKTL
Heterogeneous Federated Learning (HtFL) enables collaborative learning on multiple clients with different model architectures while preserving privacy. Despite recent research progress, knowledge sharing in HtFL is still difficult due to data and model heterogeneity. To tackle this issue, we leverage the knowledge stored in pre-trained generators and propose a new upload-efficient knowledge transfer scheme called Federated Knowledge-Transfer Loop (FedKTL). Our FedKTL can produce client-task-related prototypical image-vector pairs via the generator's inference on the server. With these pairs, each client can transfer pre-existing knowledge from the generator to its local model through an additional supervised local task. We conduct extensive experiments on four datasets under two types of data heterogeneity with 14 kinds of models including CNNs and ViTs. Results show that our upload-efficient FedKTL surpasses seven state-of-the-art methods by up to 7.31% in accuracy. Moreover, our knowledge transfer scheme is applicable in scenarios with only one edge client. Code: https://github.com/TsingZ0/FedKTL | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# コヒーレントおよび光子触媒によるスクライブ真空状態による位相推定
Phase estimation via coherent and photon-catalyzed squeezed vacuum states ( http://arxiv.org/abs/2403.15761v1 ) ライセンス: Link先を確認 | Zekun Zhao, Qingqian Kang, Huan Zhang, Teng Zhao, Cunjin Liu, Liyun Hu, | (参考訳) 非ガウス状態の使用による測定精度の向上に焦点をあてた研究は、注目を集めている。
本研究では,光子触媒による圧縮真空状態と混合したコヒーレント状態をマッハ・ゼンダー干渉計に入力し,位相測定精度を向上させる手法を提案する。
その結果,光子触媒,特に多光子触媒はパリティ検出と量子フィッシャー情報の位相感度を効果的に向上させることができることがわかった。
さらに, 実測における光子損失の実態について検討した。
その結果, 外部散逸は内部散逸よりも位相感度に強い影響があることが示唆された。
圧縮真空状態と混合された入力コヒーレント状態と比較して、コヒーレント状態混合光子触媒による圧縮真空状態、特に混合多光子触媒による圧縮真空状態を入力として利用することにより、位相感度と量子フィッシャー情報を高めることができる。
さらに、位相測定精度は標準量子限界を超え、ハイゼンベルク極限を超えることもある。
この研究は量子精度の測定に大きく貢献することが期待されている。
The research focused on enhancing the measurement accuracy through the use of non-Gaussian states has garnered increasing attention. In this study, we propose a scheme to input the coherent state mixed with photon-catalyzed squeezed vacuum state into the Mach-Zender interferometer to enhance phase measurement accuracy. The findings demonstrate that photon catalysis, particularly multi-photon catalysis, can effectively improve the phase sensitivity of parity detection and the quantum Fisher information. Moreover, the situation of photon losses in practical measurement was studied. The results indicate that external dissipation has a greater influence on phase sensitivity than the internal dissipation. Compared to input coherent state mixed with squeezed vacuum state, the utilization of coherent state mixed photon-catalyzed squeezed vacuum state, particularly the mixed multi-photon catalyzed squeezed vacuum state as input, can enhance the phase sensitivity and quantum Fisher information. Furthermore, the phase measurement accuracy can exceed the standard quantum limit, and even surpass the Heisenberg limit. This research is expected to significantly contribute to quantum precision measurement. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# ヒューマンライクな機械理解を目指して--ビジュアルリッチ文書におけるFew-Shotリレーショナルラーニング
Towards Human-Like Machine Comprehension: Few-Shot Relational Learning in Visually-Rich Documents ( http://arxiv.org/abs/2403.15765v1 ) ライセンス: Link先を確認 | Hao Wang, Tang Li, Chenhui Chu, Nengjun Zhu, Rui Wang, Pinpin Zhu, | (参考訳) キーバリュー関係は、視覚的リッチ文書(VRD)でよく見られ、しばしば特定の色やフォントスタイルを伴って異なる空間領域で表現される。
これらの非テクスト的手がかりは、人間の理解とそのような関係三重項の獲得を大幅に促進する重要な指標となる。
しかし、現在のドキュメントAIアプローチでは、視覚的特徴や空間的特徴に関連するこの貴重な事前情報を考慮することができず、特に限られた例を扱う場合、最適以下のパフォーマンスをもたらす。
この制限に対処するため,本研究では,VRDにおけるキー値関係三重項の抽出を対象とする,数発のリレーショナル学習に焦点を当てた。
このタスクに適したデータセットがないため、既存の教師付きベンチマークデータセット上に構築された2つの新しい数ショットベンチマークを導入する。
さらに,リレーショナル2次元空間先行法と原型補正手法を取り入れた変分法を提案する。
この手法は,人間の知覚に類似した方法で,空間的文脈や見えない関係をより意識した関係表現を生成することを目的としている。
実験により,提案手法が既存手法より優れていることを示すことにより,提案手法の有効性を実証した。
また,本研究は,実用化に向けた新たな可能性も開けている。
Key-value relations are prevalent in Visually-Rich Documents (VRDs), often depicted in distinct spatial regions accompanied by specific color and font styles. These non-textual cues serve as important indicators that greatly enhance human comprehension and acquisition of such relation triplets. However, current document AI approaches often fail to consider this valuable prior information related to visual and spatial features, resulting in suboptimal performance, particularly when dealing with limited examples. To address this limitation, our research focuses on few-shot relational learning, specifically targeting the extraction of key-value relation triplets in VRDs. Given the absence of a suitable dataset for this task, we introduce two new few-shot benchmarks built upon existing supervised benchmark datasets. Furthermore, we propose a variational approach that incorporates relational 2D-spatial priors and prototypical rectification techniques. This approach aims to generate relation representations that are more aware of the spatial context and unseen relation in a manner similar to human perception. Experimental results demonstrate the effectiveness of our proposed method by showcasing its ability to outperform existing methods. This study also opens up new possibilities for practical applications. | 翻訳日:2024-03-26 21:12:36 公開日:2024-03-23 |
# BEND: ニューラルネットワークの効率的な拡散に基づくディープラーニングトレーニング
BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion ( http://arxiv.org/abs/2403.15766v1 ) ライセンス: Link先を確認 | Jia Wei, Xingjun Zhang, Witold Pedrycz, | (参考訳) Baggingは、モデル分散を減らすために、複数のベース分類器を統合して単一の強力な分類器を構築することで、機械学習の分野で大きな成功を収めた。
バッジの性能改善は主に基本分類器の数と多様性に依存している。
しかし、従来のディープラーニングモデルトレーニング手法は、個人でトレーニングするのが高価であり、制限されたデータセットにおいて、類似度が低い複数のモデルをトレーニングすることが困難である。
近年、画像や視覚の分野で非常に成功した拡散モデルが、ニューラルネットワークモデルの重みと多様性によるバイアスを生成するのに有効であることが判明した。
本稿では,BEND(Efficient Neural Network Diffusion)に基づくBaging Deep Learningトレーニングアルゴリズムを創造的に提案する。
BENDの独創性は、ニューラルネットワーク拡散モデルを使用して、バッグングのためのベース分類器を効率的に構築することに由来する。
我々のアプローチは単純だが効果的であり、まず複数の訓練されたモデル重みとバイアスを入力として、ノイズから有効なニューラルネットワークパラメータへの拡散モデルを実現するためにオートエンコーダと潜時拡散モデルを訓練する。
その後、訓練された拡散モデルを用いて基底分類器を複数生成する。
最後に、これらのba se分類器をBagging法を用いて様々な推論タスクに統合する。
複数のモデルとデータセットに対する実験の結果、提案したBENDアルゴリズムは、元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して上回ることを示す。
同時に、拡散モデルを用いて拡散された新しいモデルは、従来の方法で訓練された複数のモデルよりも多様性が高く、低コストである。
BENDアプローチは、新しいディープラーニングトレーニングドメインへの拡散モデルの導入に成功し、将来のディープラーニングトレーニングと推論のための新しいパラダイムを提供する。
Bagging has achieved great success in the field of machine learning by integrating multiple base classifiers to build a single strong classifier to reduce model variance. The performance improvement of bagging mainly relies on the number and diversity of base classifiers. However, traditional deep learning model training methods are expensive to train individually and difficult to train multiple models with low similarity in a restricted dataset. Recently, diffusion models, which have been tremendously successful in the fields of imaging and vision, have been found to be effective in generating neural network model weights and biases with diversity. We creatively propose a Bagging deep learning training algorithm based on Efficient Neural network Diffusion (BEND). The originality of BEND comes from the first use of a neural network diffusion model to efficiently build base classifiers for bagging. Our approach is simple but effective, first using multiple trained model weights and biases as inputs to train autoencoder and latent diffusion model to realize a diffusion model from noise to valid neural network parameters. Subsequently, we generate several base classifiers using the trained diffusion model. Finally, we integrate these ba se classifiers for various inference tasks using the Bagging method. Resulting experiments on multiple models and datasets show that our proposed BEND algorithm can consistently outperform the mean and median accuracies of both the original trained model and the diffused model. At the same time, new models diffused using the diffusion model have higher diversity and lower cost than multiple models trained using traditional methods. The BEND approach successfully introduces diffusion models into the new deep learning training domain and provides a new paradigm for future deep learning training and inference. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# FusionINN:脳腫瘍モニタリングのための可逆画像融合
FusionINN: Invertible Image Fusion for Brain Tumor Monitoring ( http://arxiv.org/abs/2403.15769v1 ) ライセンス: Link先を確認 | Nishant Kumar, Ziyan Tao, Jaikirat Singh, Yang Li, Peiwen Sun, Binghui Zhao, Stefan Gumhold, | (参考訳) 画像融合は通常、複数のソースイメージを単一の融合イメージにマージするために、非可逆ニューラルネットワークを使用する。
しかし, 臨床専門医では, 融合機構が原像の特徴を融合させ, 基礎疾患の理解を困難にするため, 融合画像のみに頼って診断を下すには不十分である可能性がある。
融合過程の逆解を解き、融合画像を効率よく生成し、元の画像に分解することができる新しい非可逆画像融合フレームワークであるFusionINNを紹介する。
FusionINNは、通常分散された潜像と融合して分解過程の生成的モデリングを容易にすることで、損失のない1対1のピクセルマッピングを保証する。
特に,マルチフォーカスやマルチ露光画像融合といった他のタスクと比較して,医用画像融合などのライフセンシティブな応用には特に重要である。
我々の広範な実験は、既存の識別的および生成的融合法に対して、主観的および客観的にFusionINNを検証する。
さらに,近年の拡散型核融合モデルと比較すると,より高速かつ質的に優れた核融合結果が得られる。
また,本症例の臨床的有用性も明らかにした。
Image fusion typically employs non-invertible neural networks to merge multiple source images into a single fused image. However, for clinical experts, solely relying on fused images may be insufficient for making diagnostic decisions, as the fusion mechanism blends features from source images, thereby making it difficult to interpret the underlying tumor pathology. We introduce FusionINN, a novel invertible image fusion framework, capable of efficiently generating fused images and also decomposing them back to the source images by solving the inverse of the fusion process. FusionINN guarantees lossless one-to-one pixel mapping by integrating a normally distributed latent image alongside the fused image to facilitate the generative modeling of the decomposition process. To the best of our knowledge, we are the first to investigate the decomposability of fused images, which is particularly crucial for life-sensitive applications such as medical image fusion compared to other tasks like multi-focus or multi-exposure image fusion. Our extensive experimentation validates FusionINN over existing discriminative and generative fusion methods, both subjectively and objectively. Moreover, compared to a recent denoising diffusion-based fusion model, our approach offers faster and qualitatively better fusion results. We also exhibit the clinical utility of our results in aiding disease prognosis. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# 教師なし動的MRI再構成に先立つグラフ画像
Graph Image Prior for Unsupervised Dynamic MRI Reconstruction ( http://arxiv.org/abs/2403.15770v1 ) ライセンス: Link先を確認 | Zhongsen Li, Wenxuan Chen, Shuai Wang, Chuyu Liu, Rui Li, | (参考訳) 畳み込みニューラルネットワーク(CNN)の帰納バイアスは、Deep Image Prior(DIP)として知られる画像復元の強い先行として機能する。
近年、DIPは非教師なしの動的MRI再構成に利用されており、潜在空間から画像空間への生成モデルが採用されている。
しかし、既存の手法では1つのピラミッド型のCNNアーキテクチャを使ってジェネレータをパラメータ化しているため、動的データ内の時空間相関を効果的に利用することはできない。
本研究では,MRIの動的再構成に先立ってDIPを利用する新しい手法を提案し,その手法を「Graph Image Prior' (GIP)」と呼ぶ。
生成モデルは、画像回復と多様体発見の2段階に分解され、グラフ畳み込みネットワークによって橋渡しされ、時空間相関を利用する。
さらに、画像とネットワークパラメータを交互に最適化し、再構成性能をさらに向上するADMMアルゴリズムを考案した。
実験結果から, GIPは, 異なるサンプリング軌道上での圧縮センシング法や教師なし手法よりも優れており, 最先端の教師付きディープラーニング手法との性能ギャップを著しく低減することがわかった。
さらに、GIPは、追加のデータを必要とせず、異なる再構成設定に転送する際に、より優れた一般化能力を示す。
The inductive bias of the convolutional neural network (CNN) can act as a strong prior for image restoration, which is known as the Deep Image Prior (DIP). In recent years, DIP has been utilized in unsupervised dynamic MRI reconstruction, which adopts a generative model from the latent space to the image space. However, existing methods usually utilize a single pyramid-shaped CNN architecture to parameterize the generator, which cannot effectively exploit the spatio-temporal correlations within the dynamic data. In this work, we propose a novel scheme to exploit the DIP prior for dynamic MRI reconstruction, named ``Graph Image Prior'' (GIP). The generative model is decomposed into two stages: image recovery and manifold discovery, which is bridged by a graph convolutional network to exploit the spatio-temporal correlations. In addition, we devise an ADMM algorithm to alternately optimize the images and the network parameters to further improve the reconstruction performance. Experimental results demonstrate that GIP outperforms compressed sensing methods and unsupervised methods over different sampling trajectories, and significantly reduces the performance gap with the state-of-art supervised deep-learning methods. Moreover, GIP displays superior generalization ability when transferred to a different reconstruction setting, without the need for any additional data. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# 高品質ヘッドライン生成のための統一意味談話構造モデリング
Modeling Unified Semantic Discourse Structure for High-quality Headline Generation ( http://arxiv.org/abs/2403.15776v1 ) ライセンス: Link先を確認 | Minghui Xu, Hao Fei, Fei Li, Shengqiong Wu, Rui Sun, Chong Teng, Donghong Ji, | (参考訳) 見出し生成は、メインのアイデアを反映した短いキャッチーなタイトルで長いドキュメントを要約することを目的としています。
これは、テキストの長大かつバックグラウンド情報に富んだナチュアのために難しい、コアドキュメントセマンティクスを正確にキャプチャする必要がある。
本研究では、文書レベルの修辞構造理論(RST)木と文レベルの抽象的意味表現(AMR)グラフを組み合わせてS3グラフを構築することにより、文書の意味論を表現する統一意味論構造(S3)を提案する。
文、節、単語の階層的な構成は、本質的に全体文書の意味を特徴づける。
次に、S3グラフを文脈的特徴として符号化した見出し生成フレームワークを開発する。
S3グラフの有効性を強化するために、グラフ内の冗長ノードと無意味ノードを動的にスクリーニングする階層構造解析機構をさらに考案する。
2つの見出し生成データセットによる実験結果から,本手法が既存の最先端手法を一貫して上回ることを示す。
私たちの仕事は、見出しや要約生成以上の、幅広いドキュメントモデリングタスクに対してインストラクティブなものです。
Headline generation aims to summarize a long document with a short, catchy title that reflects the main idea. This requires accurately capturing the core document semantics, which is challenging due to the lengthy and background information-rich na ture of the texts. In this work, We propose using a unified semantic discourse structure (S3) to represent document semantics, achieved by combining document-level rhetorical structure theory (RST) trees with sentence-level abstract meaning representation (AMR) graphs to construct S3 graphs. The hierarchical composition of sentence, clause, and word intrinsically characterizes the semantic meaning of the overall document. We then develop a headline generation framework, in which the S3 graphs are encoded as contextual features. To consolidate the efficacy of S3 graphs, we further devise a hierarchical structure pruning mechanism to dynamically screen the redundant and nonessential nodes within the graph. Experimental results on two headline generation datasets demonstrate that our method outperforms existing state-of-art methods consistently. Our work can be instructive for a broad range of document modeling tasks, more than headline or summarization generation. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# 関数表現のアンサンブルによる教師付き学習:関数型投票分類器
Supervised Learning via Ensembles of Diverse Functional Representations: the Functional Voting Classifier ( http://arxiv.org/abs/2403.15778v1 ) ライセンス: Link先を確認 | Donato Riccio, Fabrizio Maturo, Elvira Romano, | (参考訳) 多くの従来の統計的および機械学習手法は、高次元の時間的観測に直接適用する場合、課題に直面している。
近年、機能データ分析(FDA)は、その性質上、時間領域における機能であるデータのモデリングと分析のフレームワークとして広く普及している。
近年, 食品医薬品局(FDA)の文献において, 教師付き分類が広く研究されているが, 機能分類器のアンサンブル学習は, 重要な関心事のトピックとして最近登場したばかりである。
このように、後者の主題は、様々な統計的観点から、探索されていない面と課題を提示する。
本研究の焦点は,関数型データに対するアンサンブル学習の領域にあり,アンサンブルメンバーの訓練に異なる関数型データ表現が利用できるか,多数決によってベースモデル予測が組み合わされるかを示すことである。
機能的投票分類器 (FVC) は, 多様性の向上につながる機能的表現が, 予測精度をいかに向上させるかを示すために提案される。
いくつかのドメインの実際のデータセットの多くは、FVCが個々のモデルと比較してパフォーマンスを大幅に向上できることを示すために使用される。
このフレームワークは、機能的なデータでアンサンブルを投票するための基盤を提供し、FDAの文脈で非常に奨励された研究ラインを刺激することができる。
Many conventional statistical and machine learning methods face challenges when applied directly to high dimensional temporal observations. In recent decades, Functional Data Analysis (FDA) has gained widespread popularity as a framework for modeling and analyzing data that are, by their nature, functions in the domain of time. Although supervised classification has been extensively explored in recent decades within the FDA literature, ensemble learning of functional classifiers has only recently emerged as a topic of significant interest. Thus, the latter subject presents unexplored facets and challenges from various statistical perspectives. The focal point of this paper lies in the realm of ensemble learning for functional data and aims to show how different functional data representations can be used to train ensemble members and how base model predictions can be combined through majority voting. The so-called Functional Voting Classifier (FVC) is proposed to demonstrate how different functional representations leading to augmented diversity can increase predictive accuracy. Many real-world datasets from several domains are used to display that the FVC can significantly enhance performance compared to individual models. The framework presented provides a foundation for voting ensembles with functional data and can stimulate a highly encouraging line of research in the FDA context. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# データ消去の最前線:大規模言語モデルのための機械学習
The Frontier of Data Erasure: Machine Unlearning for Large Language Models ( http://arxiv.org/abs/2403.15779v1 ) ライセンス: Link先を確認 | Youyang Qu, Ming Ding, Nan Sun, Kanchana Thilakarathna, Tianqing Zhu, Dusit Niyato, | (参考訳) 大規模言語モデル(LLM)はAIの進歩の基礎であり、予測テキスト生成のようなアプリケーションを容易にする。
それでも、巨大なデータセットから機密性、偏見、または著作権のある情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れ、LLMが特定のデータを選択的に破棄する技術を提供する。
本稿では,LLMにおける機械学習の最新動向を概観し,プライバシ,倫理的,法的問題に対処するために,完全なモデル再訓練を必要とせず,目標とする情報忘れの方法を紹介した。
既存の研究を非構造化/テキストデータと構造化/分類データからアンラーニングに分割し、モデルの有効性を維持しながら特定のデータを削除する際のこれらのアプローチの有効性を示す。
この分析は、機械学習の実践性を強調するとともに、モデルの完全性を維持する上でのハードル、過剰または不十分なデータ削除の回避、一貫性のあるアウトプットの確保を指摘した。
Large Language Models (LLMs) are foundational to AI advancements, facilitating applications like predictive text generation. Nonetheless, they pose risks by potentially memorizing and disseminating sensitive, biased, or copyrighted information from their vast datasets. Machine unlearning emerges as a cutting-edge solution to mitigate these concerns, offering techniques for LLMs to selectively discard certain data. This paper reviews the latest in machine unlearning for LLMs, introducing methods for the targeted forgetting of information to address privacy, ethical, and legal challenges without necessitating full model retraining. It divides existing research into unlearning from unstructured/textual data and structured/classification data, showcasing the effectiveness of these approaches in removing specific data while maintaining model efficacy. Highlighting the practicality of machine unlearning, this analysis also points out the hurdles in preserving model integrity, avoiding excessive or insufficient data removal, and ensuring consistent outputs, underlining the role of machine unlearning in advancing responsible, ethical AI. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# マイクロモビリティ共有サービスの運用と制御のためのフェアネス指向強化学習手法
A Fairness-Oriented Reinforcement Learning Approach for the Operation and Control of Shared Micromobility Services ( http://arxiv.org/abs/2403.15780v1 ) ライセンス: Link先を確認 | Luca Vittorio Piron, Matteo Cederle, Marina Ceccon, Federico Chiariotti, Alessandro Fabris, Marco Fabris, Gian Antonio Susto, | (参考訳) 機械学習システムが、直接人間に影響を及ぼすものを含む様々なアプリケーションドメインで人気が高まるにつれて、公平性とアルゴリズム的公正性の衝動が人工知能コミュニティで顕著になってきている。
一方、共有マイクロモビリティシステムにおいては、フェアネス指向のアプローチの探索は依然として限られている。
このギャップに対処するために、我々は、共有マイクロモビリティサービスの運用と制御における性能最適化とアルゴリズムフェアネスのバランスに関する先駆的な研究を紹介する。
本研究は強化学習におけるQ-Learningアルゴリズムを活用し,その収束保証を利用して提案手法の堅牢性を確保する。
特に,この手法は, 中央, 周辺, 遠隔の異なる駅カテゴリーにおいて, ジニ指数によって測定された等値な結果を達成できることが注目されている。
本研究は,車両流通の戦略的再バランスを通じて,利用者の公正性の原則を同時に維持しつつ,運転者のパフォーマンスを最大化することを目的とする。
理論的知見に加えて, ケーススタディやシミュレーションを用いて, 提案手法の有効性を検証した。
本稿では,都市交通システムにおけるエクイティ向上のための実用的枠組みを提供する共有マイクロモビリティ・サービスにおける公平性評価の重要性を指摘する。
As Machine Learning systems become increasingly popular across diverse application domains, including those with direct human implications, the imperative of equity and algorithmic fairness has risen to prominence in the Artificial Intelligence community. On the other hand, in the context of Shared Micromobility Systems, the exploration of fairness-oriented approaches remains limited. Addressing this gap, we introduce a pioneering investigation into the balance between performance optimization and algorithmic fairness in the operation and control of Shared Micromobility Services. Our study leverages the Q-Learning algorithm in Reinforcement Learning, benefiting from its convergence guarantees to ensure the robustness of our proposed approach. Notably, our methodology stands out for its ability to achieve equitable outcomes, as measured by the Gini index, across different station categories--central, peripheral, and remote. Through strategic rebalancing of vehicle distribution, our approach aims to maximize operator performance while simultaneously upholding fairness principles for users. In addition to theoretical insights, we substantiate our findings with a case study or simulation based on synthetic data, validating the efficacy of our approach. This paper underscores the critical importance of fairness considerations in shaping control strategies for Shared Micromobility Services, offering a pragmatic framework for enhancing equity in urban transportation systems. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# 振幅・周波数制約パルスを用いたデコヒーレンスを考慮したスピン量子の最適制御
Optimal Control of Spin Qudits Subject to Decoherence Using Amplitude-and-Frequency-Constrained Pulses ( http://arxiv.org/abs/2403.15785v1 ) ライセンス: Link先を確認 | Alonso Hernández-Antón, Fernando Luis, Alberto Castro, | (参考訳) 量子最適制御理論(QOCT)は、量子デバイス上での動作を実装する電磁パルスの形状を設計するために用いられる。
非自明な形状の波形を用いることで、ゲートは単色パルスを連結して作られるものよりもはるかに高速にできる。
近年,Schr\\odinger方程式でモデル化した分子スピンキューディットの制御に本手法を適用し,操作の高速化を図り,デコヒーレンス効果の軽減に寄与した[Phys]。
Rev. Appl。
bf 17}, 064028 (2022)]
しかし、ゲート時間が短いとパルス振幅が大きくなり、実験ではアクセスできない可能性がある。
振幅へのバウンダリの導入は必然的に長い操作時間をもたらし、デコヒーレンスを無視することができない。
本稿では, 最適化プロセスにおけるデコヒーレンスを考慮した制御パルスの設計にリンドブラッド方程式上にQOCTを適用することにより, この手順を改善する方法について検討する。
さらに、波形発生器の典型的な制限である信号の最大振幅と周波数を拘束できる定式化を導入する。
得られたパルスは、様々な目標ゲートと持続時間にわたってシュリンガー方程式を用いて達成したパルスと比較して、連続的に操作忠実性を向上し、この手法の柔軟性と堅牢性を示す。
この改善はスピンコヒーレンス時間を短くするほど大きく、T_{2}$である。
Quantum optimal control theory (QOCT) can be used to design the shape of electromagnetic pulses that implement operations on quantum devices. By using non-trivially shaped waveforms, gates can be made significantly faster than those built by concatenating monochromatic pulses. Recently, we applied this technique to the control of molecular spin qudits modelled with Schr\"odinger's equation and showed it can speed up operations, helping mitigate the effects of decoherence [Phys. Rev. Appl. {\bf 17}, 064028 (2022)]. However, short gate times result in large optimal pulse amplitudes, which may not be experimentally accessible. Introducing bounds to the amplitudes then unavoidably leads to longer operation times, for which decoherence can no longer be neglected. Here, we study how to improve this procedure by applying QOCT on top of Lindblad's equation, to design control pulses accounting for decoherence already in the optimization process. In addition, we introduce a formulation that allows us to bound the maximum amplitude and frequency of the signals, which are the typical limitations of waveform generators. The pulses we obtain consistently enhance operation fidelities compared to those achieved with Schr\"odinger's equation across various target gates and durations, demonstrating the flexibility and robustness of our method. The improvement is larger the shorter the spin coherence time $T_{2}$. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# 低視認性条件下でのクロスドメイン物体検出のための対人防御教師
Adversarial Defense Teacher for Cross-Domain Object Detection under Poor Visibility Conditions ( http://arxiv.org/abs/2403.15786v1 ) ライセンス: Link先を確認 | Kaiwen Wang, Yinzhe Shen, Martin Lauer, | (参考訳) 既存の物体検出器は、特に霧や夜のような視界の悪い条件下で、トレーニングと実世界のデータのドメインシフトを扱う際に困難に直面する。
カット・エッジ・クロスドメイン・オブジェクト検出手法では,教師が学習するフレームワークと,教師と生徒のモデルを用いて,弱体化と強体化による一貫した予測をそれぞれ生成する。
本稿では,手作業による強化が最適指導には不十分であることを明らかにするとともに,対人防御を活用して教育の質を高めるためのシンプルな枠組みであるAdversarial Defense Teacher (ADT)を提案する。
具体的には、敵攻撃を採用し、モデルを効果的に欺く微弱な摂動入力を一般化するようモデルに促す。
視認性に乏しい小物体に対処するため,ズームイン型ズームアウト方式を提案する。
以上の結果から,ADTはFogdy Cityscapesで54.5%mAPに達し,従来の2.6%mAPを上回った。
Existing object detectors encounter challenges in handling domain shifts between training and real-world data, particularly under poor visibility conditions like fog and night. Cutting-edge cross-domain object detection methods use teacher-student frameworks and compel teacher and student models to produce consistent predictions under weak and strong augmentations, respectively. In this paper, we reveal that manually crafted augmentations are insufficient for optimal teaching and present a simple yet effective framework named Adversarial Defense Teacher (ADT), leveraging adversarial defense to enhance teaching quality. Specifically, we employ adversarial attacks, encouraging the model to generalize on subtly perturbed inputs that effectively deceive the model. To address small objects under poor visibility conditions, we propose a Zoom-in Zoom-out strategy, which zooms-in images for better pseudo-labels and zooms-out images and pseudo-labels to learn refined features. Our results demonstrate that ADT achieves superior performance, reaching 54.5% mAP on Foggy Cityscapes, surpassing the previous state-of-the-art by 2.6% mAP. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# 不確実な方向による画像とレーダ計測の深さ推定
Depth Estimation fusing Image and Radar Measurements with Uncertain Directions ( http://arxiv.org/abs/2403.15787v1 ) ライセンス: Link先を確認 | Masaya Kotani, Takeru Oba, Norimichi Ukita, | (参考訳) 本稿では, スパースレーダ計測の不確実な垂直方向に対処し, レーダ画像融合を用いた深度推定手法を提案する。
従来のレーダ画像融合作業では、画像特徴は畳み込み層を通してレーダーによって測定された不確実なスパース深さとマージされる。
このアプローチは、不確実なレーダー深度で計算された特徴に邪魔される。
さらに、特徴が完全に畳み込みネットワークで計算されるので、画素に対応する各深さの不確かさが周囲の画素に広がる。
本手法は,画像のみを用いて特徴を計算し,レーダ深度を画素単位で調整することでこの問題を回避する。
さらに、おそらく正しいレーダー方向のセットは、訓練段階でのみ利用可能である信頼性の高いLiDAR測定と同一視される。
本手法は, レーダの正確な方向のみを学習することにより, トレーニングデータを改善するとともに, 従来手法では誤測定を含む生レーダの測定を訓練していた。
実験により, レーダー画像融合を用いた基礎手法と比較して, 定量的, 定性的な結果が得られた。
This paper proposes a depth estimation method using radar-image fusion by addressing the uncertain vertical directions of sparse radar measurements. In prior radar-image fusion work, image features are merged with the uncertain sparse depths measured by radar through convolutional layers. This approach is disturbed by the features computed with the uncertain radar depths. Furthermore, since the features are computed with a fully convolutional network, the uncertainty of each depth corresponding to a pixel is spread out over its surrounding pixels. Our method avoids this problem by computing features only with an image and conditioning the features pixelwise with the radar depth. Furthermore, the set of possibly correct radar directions is identified with reliable LiDAR measurements, which are available only in the training stage. Our method improves training data by learning only these possibly correct radar directions, while the previous method trains raw radar measurements, including erroneous measurements. Experimental results demonstrate that our method can improve the quantitative and qualitative results compared with its base method using radar-image fusion. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# In-Context Matting
In-Context Matting ( http://arxiv.org/abs/2403.15789v1 ) ライセンス: Link先を確認 | He Guo, Zixuan Ye, Zhiguo Cao, Hao Lu, | (参考訳) In-context matting, a novel task set of image mattingを紹介する。
特定のフォアグラウンドの参照画像とポイント、スクリブル、マスクなどのガイド付き先行画像が与えられた場合、インコンテキスト・マッティングは、追加の補助入力なしで、同じフォアグラウンドカテゴリのターゲット画像のバッチ上で自動アルファ推定を可能にする。
この設定は、補助的な入力ベースのマッティングにおける優れたパフォーマンスと、自動マッティングにおける使いやすさをマージする。
IconMattingは,事前学習したテキストから画像への拡散モデル上に構築されたコンテキスト内マッチングモデルである。
IconMattingは、相似性マッチングと相似性マッチングを条件に、参照コンテキストをフル活用して、正確なターゲットアルファマットを生成する。
タスクをベンチマークするために,57グループからなる実世界の画像を対象とした新しいテストデータセット ICM-57$ も導入した。
ICM-57テストセットの定量および定性的な結果から、IconMattingは自動化レベルを保ちながら、トリマップベースのマッティングの精度に匹敵することを示した。
コードはhttps://github.com/tiny-smart/in-context-mattingで入手できる。
We introduce in-context matting, a novel task setting of image matting. Given a reference image of a certain foreground and guided priors such as points, scribbles, and masks, in-context matting enables automatic alpha estimation on a batch of target images of the same foreground category, without additional auxiliary input. This setting marries good performance in auxiliary input-based matting and ease of use in automatic matting, which finds a good trade-off between customization and automation. To overcome the key challenge of accurate foreground matching, we introduce IconMatting, an in-context matting model built upon a pre-trained text-to-image diffusion model. Conditioned on inter- and intra-similarity matching, IconMatting can make full use of reference context to generate accurate target alpha mattes. To benchmark the task, we also introduce a novel testing dataset ICM-$57$, covering 57 groups of real-world images. Quantitative and qualitative results on the ICM-57 testing set show that IconMatting rivals the accuracy of trimap-based matting while retaining the automation level akin to automatic matting. Code is available at https://github.com/tiny-smart/in-context-matting | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# ISSのボード:不均衡な自己監視:混合タブラルデータセットのためのスケールドオートエンコーダの発見
Boarding for ISS: Imbalanced Self-Supervised: Discovery of a Scaled Autoencoder for Mixed Tabular Datasets ( http://arxiv.org/abs/2403.15790v1 ) ライセンス: Link先を確認 | Samuel Stocksieker, Denys Pommeret, Arthur Charpentier, | (参考訳) 不均衡な自己教師付き学習の分野、特に表データの文脈では、広く研究されていない。
既存の研究は主に画像データセットに焦点を当てている。
本稿では,表形式のデータ領域における自己教師型学習におけるデータ不均衡に起因する特定の課題を,主にオートエンコーダに焦点をあてることで,このギャップを埋めることを目的とする。
オートエンコーダは、特に次元削減のために、データセットの新しい表現を学習し、構築するために広く使用されている。
また、変分オートエンコーダに見られるように、生成モデル学習にもしばしば用いられる。
混合表データを扱う場合、定性的変数は標準損失関数(MSEまたはクロスエントロピー)を持つワンホットエンコーダを用いて符号化されることが多い。
本稿では,この手法の欠点,特にカテゴリー変数が不均衡である場合の解析を行う。
バランス学習のための新しい指標として,マルチスーパーバイザードバランスMSEを提案する。
このアプローチは変数の影響のバランスをとることで再構成誤差を低減する。
最後に、この新しい指標が標準のMSEと比較して実証的に証明される。
一 データセットが不均衡であるとき、特に学習過程が不十分であるとき、及び
二 反対の場合において、同様の結果を提供すること。
The field of imbalanced self-supervised learning, especially in the context of tabular data, has not been extensively studied. Existing research has predominantly focused on image datasets. This paper aims to fill this gap by examining the specific challenges posed by data imbalance in self-supervised learning in the domain of tabular data, with a primary focus on autoencoders. Autoencoders are widely employed for learning and constructing a new representation of a dataset, particularly for dimensionality reduction. They are also often used for generative model learning, as seen in variational autoencoders. When dealing with mixed tabular data, qualitative variables are often encoded using a one-hot encoder with a standard loss function (MSE or Cross Entropy). In this paper, we analyze the drawbacks of this approach, especially when categorical variables are imbalanced. We propose a novel metric to balance learning: a Multi-Supervised Balanced MSE. This approach reduces the reconstruction error by balancing the influence of variables. Finally, we empirically demonstrate that this new metric, compared to the standard MSE: i) outperforms when the dataset is imbalanced, especially when the learning process is insufficient, and ii) provides similar results in the opposite case. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# 損失から見た言語モデルの創発的能力の理解
Understanding Emergent Abilities of Language Models from the Loss Perspective ( http://arxiv.org/abs/2403.15796v1 ) ライセンス: Link先を確認 | Zhengxiao Du, Aohan Zeng, Yuxiao Dong, Jie Tang, | (参考訳) 近年の研究では、言語モデルにおける創発的能力は大規模モデルに限ったものであるという信念が疑問視されている。
この懐疑論は2つの観察から生じる。
1)小型モデルは創発能力に高い性能を示すことができる。
2)これらの能力を測定するために使用される不連続な指標には疑問がある。
本稿では,モデルサイズやトレーニング計算の代わりに,事前学習損失のレンズの創発能力について検討する。
トレーニング前の損失が同じだが、異なるモデルとデータサイズを持つモデルが、下流の様々なタスクで同じパフォーマンスを生成することを実証する。
また、トレーニング前の損失が特定のしきい値を下回ると、あるタスク(メトリクスの連続性に関係なく)において、モデルが創発的な能力を示すこともわかりました。
このしきい値に達する前に、その性能はランダムな推測のレベルに留まる。
これにより、事前学習損失の低いモデルに現れるような創発的能力を再定義し、事前学習損失の大きいモデルのパフォーマンストレンドを単に外挿するだけでは予測できないことを強調した。
Recent studies have put into question the belief that emergent abilities in language models are exclusive to large models. This skepticism arises from two observations: 1) smaller models can also exhibit high performance on emergent abilities and 2) there is doubt on the discontinuous metrics used to measure these abilities. In this paper, we propose to study emergent abilities in the lens of pre-training loss, instead of model size or training compute. We demonstrate that the models with the same pre-training loss, but different model and data sizes, generate the same performance on various downstream tasks. We also discover that a model exhibits emergent abilities on certain tasks -- regardless of the continuity of metrics -- when its pre-training loss falls below a specific threshold. Before reaching this threshold, its performance remains at the level of random guessing. This inspires us to redefine emergent abilities as those that manifest in models with lower pre-training losses, highlighting that these abilities cannot be predicted by merely extrapolating the performance trends of models with higher pre-training losses. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# MRCを用いたNested Medical NER : 協調予測と適応型事前トレーニング
MRC-based Nested Medical NER with Co-prediction and Adaptive Pre-training ( http://arxiv.org/abs/2403.15800v1 ) ライセンス: Link先を確認 | Xiaojing Du, Hanjie Zhao, Danyan Xing, Yuxiang Jia, Hongying Zan, | (参考訳) 医療情報抽出においては、医療名義認識(NER)が不可欠であり、医療知識グラフの作成、医療質問応答システムの強化、電子的医療記録の分析において重要な役割を担っている。
医学 NER の課題は、複雑なネスト構造と洗練された医療用語から生じ、伝統的なドメインのそれと区別される。
これらの複雑さに対応するために,医療分野におけるモデルの能力向上のために,タスク適応型事前学習戦略を用いたMRC(Machine Reading Comprehension)に基づく医療NERモデルを提案する。
一方,本モデルでは,複数ワードペア埋め込みと多粒度拡張畳み込みを導入し,モデル表現能力を向上し,ビファインとMLPを併用してモデル認識性能を向上させる。
中国のネスト医療NERのベンチマークであるCMeEEで行った実験的評価は、提案モデルが比較技術(SOTA)モデルよりも優れていることを示した。
In medical information extraction, medical Named Entity Recognition (NER) is indispensable, playing a crucial role in developing medical knowledge graphs, enhancing medical question-answering systems, and analyzing electronic medical records. The challenge in medical NER arises from the complex nested structures and sophisticated medical terminologies, distinguishing it from its counterparts in traditional domains. In response to these complexities, we propose a medical NER model based on Machine Reading Comprehension (MRC), which uses a task-adaptive pre-training strategy to improve the model's capability in the medical field. Meanwhile, our model introduces multiple word-pair embeddings and multi-granularity dilated convolution to enhance the model's representation ability and uses a combined predictor of Biaffine and MLP to improve the model's recognition performance. Experimental evaluations conducted on the CMeEE, a benchmark for Chinese nested medical NER, demonstrate that our proposed model outperforms the compared state-of-the-art (SOTA) models. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# 家族性脳血管奇形における疾患進展評価の革新的定量的解析
Innovative Quantitative Analysis for Disease Progression Assessment in Familial Cerebral Cavernous Malformations ( http://arxiv.org/abs/2403.15803v1 ) ライセンス: Link先を確認 | Ruige Zong, Tao Wang, Chunwang Li, Xinlin Zhang, Yuanbin Chen, Longxuan Zhao, Qixuan Li, Qinquan Gao, Dezhi Kang, Fuxin Lin, Tong Tong, | (参考訳) 家族性脳海綿状奇形 (FCCM) は中枢神経系の異常血管構造を特徴とする遺伝性疾患である。
FCCMの病変は多種多様で複雑であり、その病変を定量的に分析することは労働集約的な課題である。
その結果、臨床医は病変の重症度を定量的に評価し、病変が進行したかどうかを判断する上で困難に直面した。
この問題を軽減するために,効率的なアノテーションモジュール,FCCM病変セグメンテーションモジュール,FCCM病変定量統計モジュールからなるFCCMの定量的統計フレームワークを提案する。
本フレームワークは,効率的なデータアノテーションに基づくFCCM損傷の正確なセグメンテーションを示し,Dice係数93.22\%を達成する。
さらに, 画像登録と組み合わせて, 患者の異なる診察者間での病変の定量的比較を実現する量的統計に焦点を合わせ, 医師による病変の総合的比較・解析を行うための可視化フレームワークが確立されている。
実験の結果,本フレームワークは, 客観的, 正確, 包括的定量的な統計情報を得るだけでなく, 病状進行および薬物効用研究の定量的評価方法を提供するとともに, 手動計測, 統計的作業量を大幅に削減し, FCCMの臨床的意思決定を支援し, FCCMの臨床研究の進展を加速することを示した。
このことは、FCCM臨床研究および臨床意思決定におけるフレームワークの実践的応用の可能性を強調している。
コードはhttps://github.com/6zrg/Quantitative-Statistics-of-FCCMで公開されている。
Familial cerebral cavernous malformation (FCCM) is a hereditary disorder characterized by abnormal vascular structures within the central nervous system. The FCCM lesions are often numerous and intricate, making quantitative analysis of the lesions a labor-intensive task. Consequently, clinicians face challenges in quantitatively assessing the severity of lesions and determining whether lesions have progressed. To alleviate this problem, we propose a quantitative statistical framework for FCCM, comprising an efficient annotation module, an FCCM lesion segmentation module, and an FCCM lesion quantitative statistics module. Our framework demonstrates precise segmentation of the FCCM lesion based on efficient data annotation, achieving a Dice coefficient of 93.22\%. More importantly, we focus on quantitative statistics of lesions, which is combined with image registration to realize the quantitative comparison of lesions between different examinations of patients, and a visualization framework has been established for doctors to comprehensively compare and analyze lesions. The experimental results have demonstrated that our proposed framework not only obtains objective, accurate, and comprehensive quantitative statistical information, which provides a quantitative assessment method for disease progression and drug efficacy study, but also considerably reduces the manual measurement and statistical workload of lesions, assisting clinical decision-making for FCCM and accelerating progress in FCCM clinical research. This highlights the potential of practical application of the framework in FCCM clinical research and clinical decision-making. The codes are available at https://github.com/6zrg/Quantitative-Statistics-of-FCCM. | 翻訳日:2024-03-26 21:02:48 公開日:2024-03-23 |
# 混合ベクトル関係探索のための効率的なデータアクセスパス
Efficient Data Access Paths for Mixed Vector-Relational Search ( http://arxiv.org/abs/2403.15807v1 ) ライセンス: Link先を確認 | Viktor Sanca, Anastasia Ailamaki, | (参考訳) 機械学習能力の急速な成長とベクトル埋め込みを用いたデータ処理手法の採用は、ベクトルデータ管理システムの構築に大きな関心を喚起した。
ベクトルデータ管理の主要なアプローチは、ベクトル埋め込み全体を高速に検索するために特別なインデックス構造を使用することであるが、一度他の(メタ)データと組み合わせると、検索クエリは、分析クエリに典型的なリレーショナル属性に選択的になる。
ベクトルインデックスは従来の関係データアクセスと異なるため、効率的な混合ベクトル関係探索のための代替アクセスパスを再検討し分析する。
まず, 高精度だが網羅的なスキャンベース探索を評価し, コストを相殺するために, ハードウェア最適化と代替テンソルベースの定式化とバッチ化を提案する。
本稿では,リレーショナルセレクティビティを主体とした複雑なアクセスパス設計空間の概要と,近似インデックスベースのアプローチに対して網羅的なスキャンベース探索を選択する際の考慮すべき決定について述べる。
ベクトルインデックスは、一般的なリレーショナル知識とは対照的に、データセット全体にわたる高価な計算を主に避けるため、データ次元と同時検索クエリ数によって規定される2つのアプローチの交差点によって、より低い選択率でスキャンし、より高い探索を行う方がよい。
The rapid growth of machine learning capabilities and the adoption of data processing methods using vector embeddings sparked a great interest in creating systems for vector data management. While the predominant approach of vector data management is to use specialized index structures for fast search over the entirety of the vector embeddings, once combined with other (meta)data, the search queries can also become selective on relational attributes - typical for analytical queries. As using vector indexes differs from traditional relational data access, we revisit and analyze alternative access paths for efficient mixed vector-relational search. We first evaluate the accurate but exhaustive scan-based search and propose hardware optimizations and alternative tensor-based formulation and batching to offset the cost. We outline the complex access-path design space, primarily driven by relational selectivity, and the decisions to consider when selecting an exhaustive scan-based search against an approximate index-based approach. Since the vector index primarily avoids expensive computation across the entire dataset, contrary to the common relational knowledge, it is better to scan at lower selectivity and probe at higher, with a cross-point between the two approaches dictated by data dimensionality and the number of concurrent search queries. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# 進化的計算がロボット設計に及ぼす影響:不動手外骨格を用いたケーススタディ
The Impact of Evolutionary Computation on Robotic Design: A Case Study with an Underactuated Hand Exoskeleton ( http://arxiv.org/abs/2403.15812v1 ) ライセンス: Link先を確認 | Baris Akbas, Huseyin Taner Yuksel, Aleyna Soylemez, Mazhar Eid Zyada, Mine Sarac, Fabio Stroppa, | (参考訳) ロボット外骨格は人間の強さを高め、身体障害者を助けることができる。
しかし、安全性と最適なパフォーマンスを確保するために設計することは大きな課題となる。
エキソスケトンの開発には、最適な設計を見つけるために、特定の最適化アルゴリズムを組み込む必要がある。
本研究では, ロボット設計最適化における進化計算(EC)法の可能性について検討し, 不安定な手外骨格(U-HEx)を事例として検討した。
本稿では,遺伝的アルゴリズムやビッグバン・ビッグ・CrunchアルゴリズムなどのEC技術を統合することにより,当初は単純ブルトフォース方式で最適化されていたU-HEx設計の性能とユーザビリティの向上を提案する。
比較分析の結果、EC法はブルート力よりもはるかに短い時間で、常に正確で最適な解が得られることがわかった。
これにより、設計における変数の数を増やすことで最適化を改善することができました。
その結果, デバイスがユーザに伝達するトルクの程度が大幅に向上し, 効率が向上した。
これらの知見は、外骨格を設計しながら適切な最適化を行うことの重要性と、この特定のロボット設計に大幅な改善をもたらすことを明確に示している。
Robotic exoskeletons can enhance human strength and aid people with physical disabilities. However, designing them to ensure safety and optimal performance presents significant challenges. Developing exoskeletons should incorporate specific optimization algorithms to find the best design. This study investigates the potential of Evolutionary Computation (EC) methods in robotic design optimization, with an underactuated hand exoskeleton (U-HEx) used as a case study. We propose improving the performance and usability of the U-HEx design, which was initially optimized using a naive brute-force approach, by integrating EC techniques such as Genetic Algorithm and Big Bang-Big Crunch Algorithm. Comparative analysis revealed that EC methods consistently yield more precise and optimal solutions than brute force in a significantly shorter time. This allowed us to improve the optimization by increasing the number of variables in the design, which was impossible with naive methods. The results show significant improvements in terms of the torque magnitude the device transfers to the user, enhancing its efficiency. These findings underline the importance of performing proper optimization while designing exoskeletons, as well as providing a significant improvement to this specific robotic design. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# ローカル機能: ソフトウェア製品ラインにおける変数モデリングの強化
Local Features: Enhancing Variability Modeling in Software Product Lines ( http://arxiv.org/abs/2403.15821v1 ) ライセンス: Link先を確認 | David de Castro, Alejandro Cortiñas, Miguel R. Luaces, Oscar Pedreira, Ángeles Saavedra Places, | (参考訳) コンテキストとモチベーション:SPL(Software Product Lines)は、機能モデルを使用して可変性をモデル化する、共有コアコンポーネントを備えたソフトウェア製品ファミリの作成を可能にする。
機能モデルから製品を生成する機能を選択することは、ある状況では十分ではないかもしれない。なぜなら、アプリケーションエンジニアは、ある機能を適用するシステムの要素の設定時間を決定する必要があるからだ。
したがって、どの機能を製品に含めなければならないか、どの要素を適用する必要があるかを選択する必要がある。
目的: 製品構成中にシステムの特定の部分に選択的に適用されるローカル機能を導入する。
結果: 局所特徴とシステムモデルの他の要素との関係を確立するために, マルチモデルを用いて局所特徴を定式化する。
本稿では,局所的な特徴のモチベーション,形式的定義,仕様と実装のためのドメイン固有言語を例に挙げる。
最後に、実シナリオにおけるケーススタディとして、局所的な特徴の概念が複雑なシステムの変数を定義するのにどう役立つかを示す。
サンプルとアプリケーションケースは、アプリケーションエンジニアリングフェーズにおいて、提案がより高いカスタマイズレベルを達成することを示している。
Context and motivation: Software Product Lines (SPL) enable the creation of software product families with shared core components using feature models to model variability. Choosing features from a feature model to generate a product may not be sufficient in certain situations because the application engineer may need to be able to decide on configuration time the system's elements to which a certain feature will be applied. Therefore, there is a need to select which features have to be included in the product but also to which of its elements they have to be applied. Objective: We introduce local features that are selectively applied to specific parts of the system during product configuration. Results: We formalize local features using multimodels to establish relationships between local features and other elements of the system models. The paper includes examples illustrating the motivation for local features, a formal definition, and a domain-specific language for specification and implementation. Finally, we present a case study in a real scenario that shows how the concept of local features allowed us to define the variability of a complex system. The examples and the application case show that the proposal achieves higher customization levels at the application engineering phase. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# 人間の文理解を予測する計算文レベルメトリクス
Computational Sentence-level Metrics Predicting Human Sentence Comprehension ( http://arxiv.org/abs/2403.15822v1 ) ライセンス: Link先を確認 | Kun Sun, Rong Wang, | (参考訳) 計算心理言語学の研究の大部分は、単語の処理に集中している。
本研究では,多言語大言語モデルを用いた文レベルメトリクスの計算手法を提案する。
それらの指標は、文章の前提と文の関連性を発達させ、それを比較して、人間が言語全体にわたって文章をどのように理解しているかを予測できるかどうかを検証した。
これらの指標は,人文読解速度の予測において高い精度と高い解釈性を提供する。
以上の結果から,これらの計算文レベルの指標は,様々な言語での文章の理解において,読者が直面する処理困難を予測・解明するのに極めて有効であることが示唆された。
それらの優れた性能と一般化能力は、LLMと認知科学の統合における将来の研究に有望な道のりを提供する。
The majority of research in computational psycholinguistics has concentrated on the processing of words. This study introduces innovative methods for computing sentence-level metrics using multilingual large language models. The metrics developed sentence surprisal and sentence relevance and then are tested and compared to validate whether they can predict how humans comprehend sentences as a whole across languages. These metrics offer significant interpretability and achieve high accuracy in predicting human sentence reading speeds. Our results indicate that these computational sentence-level metrics are exceptionally effective at predicting and elucidating the processing difficulties encountered by readers in comprehending sentences as a whole across a variety of languages. Their impressive performance and generalization capabilities provide a promising avenue for future research in integrating LLMs and cognitive science. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# 炭素強度を考慮したDNNの適応推論
Carbon Intensity-Aware Adaptive Inference of DNNs ( http://arxiv.org/abs/2403.15824v1 ) ライセンス: Link先を確認 | Jiwan Jung, | (参考訳) DNN推論は、そのかなりのエネルギー消費と結果として生じる高い炭素フットプリントで知られており、モデルのサイズと精度を1日を通して異なる炭素強度に適応させることにより、より持続可能なものにすることができる。
我々のヒューリスティックアルゴリズムは、低強度期間における大規模で高精度なモデルと、高強度期間における小型で低精度なモデルを用いる。
また, 炭素フットプリントの観点から, 適応モデル選択の有効性を定量的に測定する指標である炭素放出効率も導入した。
評価の結果, 提案手法は, 視覚認識サービスの精度を最大80%向上させることで, 二酸化炭素排出効率を向上する可能性が示唆された。
DNN inference, known for its significant energy consumption and the resulting high carbon footprint, can be made more sustainable by adapting model size and accuracy to the varying carbon intensity throughout the day. Our heuristic algorithm uses larger, high-accuracy models during low-intensity periods and smaller, lower-accuracy ones during high-intensity periods. We also introduce a metric, carbon-emission efficiency, which quantitatively measures the efficacy of adaptive model selection in terms of carbon footprint. The evaluation showed that the proposed approach could improve the carbon emission efficiency in improving the accuracy of vision recognition services by up to 80%. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# 量子非線形射影作用素の相対論的確率流体力学
Relativistic stochastic hydrodynamics from quantum nonlinear projection operator ( http://arxiv.org/abs/2403.15825v1 ) ライセンス: Link先を確認 | Jin Hu, | (参考訳) 我々は、量子非線形射影作用素の手法に基づいて、相対論的確率的流体力学を体系的に導出した。
モロゾフの非線形射影作用素はよく知られた線形モリ・ズワンジグ射影作用素法の一般化であり、そこからマクロ的モード間の非線形相互作用を説明できる。
量子一般化されたフォッカー・プランク方程式やランゲヴィン方程式も、この定式化法を用いて得られる。
応用として、ガウス雑音を伴う相対論的確率的流体力学方程式が導出され、臨界点付近の異常輸送現象の研究に応用できる。
乗法雑音を含む拡張の可能性についても論じる。
We systematically derive relativistic stochastic hydrodynamics based on the method of quantum nonlinear projection operator. Morozov's nonlinear projection operator is a generalization of the well-known linear Mori-Zwanzig projection operator method, from which one can account for the nonlinear interaction between macroscopic modes. The quantum generalized Fokker-Planck and Langevin equations are also obtained using this formalism, which are fundamentally important in non-equilibrium statistical physics. As an application, the relativistic stochastic hydrodynamic equations with Gaussian noises are derived, which are applicable in studying anomalous transport phenomena near critical points. The possible extension to include multiplicative noises is also discussed. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# ドロップアウトによる時間課題のスケーリング学習に基づくポリシー最適化
Scaling Learning based Policy Optimization for Temporal Tasks via Dropout ( http://arxiv.org/abs/2403.15826v1 ) ライセンス: Link先を確認 | Navid Hashemi, Bardh Hoxha, Danil Prokhorov, Georgios Fainekos, Jyotirmoy Deshmukh, | (参考訳) 本稿では,高非線形環境下で動作する自律エージェントに対するフィードバックコントローラのトレーニングのためのモデルに基づくアプローチを提案する。
我々は、エージェントが個別時間信号時間論理(DT-STL)で表される特定のタスク目標を満たすことを保証するために、訓練されたポリシーを望んでいる。
DT-STLのような形式的なフレームワークによるタスクの再構成の利点の1つは、定量的なセマンティクスを可能にすることである。
言い換えれば、軌跡とDT-STL式が与えられた場合、ロバスト性を計算することができ、これはこの式を満たす軌跡と軌跡の集合との近似符号距離として解釈できる。
フィードバックコントローラを利用し、フィードバックコントローラを学習するためにフィードフォワードニューラルネットワークを仮定する。
この学習問題は、エージェントのタスク目標の時間的地平線に比例して繰り返し単位の数が比例する、リカレントニューラルネットワーク(RNN)のトレーニングとどのように似ているかを示す。
このことは、RNNは勾配の消滅と爆発に感受性があり、na\"{i}ve 勾配降下に基づく戦略は、長い水平タスクの目的を解決するため、同じ問題に悩まされる。
この課題に対処するために、ドロップアウトや勾配サンプリングのアイデアに基づいた、新しい勾配近似アルゴリズムを導入する。
仕様が複雑になったとき, 従来のスムーズなロバスト性のセマンティクスは勾配計算の非効率性を示す。
この課題に対処するために,DT-STLのスムーズなセマンティクスを提案する。
制御合成手法は,より少ない数値問題に収束する確率勾配降下に非常に役立ち,長期間の地平線上でのスケーラブルなバックプロパゲーションと高次元状態空間上でのトラジェクトリを実現することができることを示す。
This paper introduces a model-based approach for training feedback controllers for an autonomous agent operating in a highly nonlinear environment. We desire the trained policy to ensure that the agent satisfies specific task objectives, expressed in discrete-time Signal Temporal Logic (DT-STL). One advantage for reformulation of a task via formal frameworks, like DT-STL, is that it permits quantitative satisfaction semantics. In other words, given a trajectory and a DT-STL formula, we can compute the robustness, which can be interpreted as an approximate signed distance between the trajectory and the set of trajectories satisfying the formula. We utilize feedback controllers, and we assume a feed forward neural network for learning these feedback controllers. We show how this learning problem is similar to training recurrent neural networks (RNNs), where the number of recurrent units is proportional to the temporal horizon of the agent's task objectives. This poses a challenge: RNNs are susceptible to vanishing and exploding gradients, and na\"{i}ve gradient descent-based strategies to solve long-horizon task objectives thus suffer from the same problems. To tackle this challenge, we introduce a novel gradient approximation algorithm based on the idea of dropout or gradient sampling. We show that, the existing smooth semantics for robustness are inefficient regarding gradient computation when the specification becomes complex. To address this challenge, we propose a new smooth semantics for DT-STL that under-approximates the robustness value and scales well for backpropagation over a complex specification. We show that our control synthesis methodology, can be quite helpful for stochastic gradient descent to converge with less numerical issues, enabling scalable backpropagation over long time horizons and trajectories over high dimensional state spaces. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# ポイントクラウド単一物体追跡のための分散器フィルタのための時空間双方向クロスフレームメモリ
Spatio-Temporal Bi-directional Cross-frame Memory for Distractor Filtering Point Cloud Single Object Tracking ( http://arxiv.org/abs/2403.15831v1 ) ライセンス: Link先を確認 | Shaoyu Sun, Chunyang Wang, Xuelian Liu, Chunhao Shi, Yueyang Ding, Guan Xi, | (参考訳) LIDARポイントクラウド内の3Dオブジェクト追跡は、コンピュータビジョンにおける重要なタスクであり、自律走行とロボット工学に深く影響している。
しかし、シームズネットワーク経由の外観マッチングのみに依存したり、連続するフレームからの動作情報を利用する既存の手法は、重大な課題に直面している。
類似した物体や閉塞などの問題はトラッカーのドリフトを引き起こす。
これらの課題を軽減するため,STMD-Tracker という,革新的な時空間双方向分散フィルタトラッカーを設計した。
最初のステップは、4次元多フレームの時空間グラフ畳み込みバックボーンの作成です。
この設計は、KNNグラフの空間埋め込みを分離し、1次元の時間的畳み込みを取り入れ、時間的変動と時空間情報を効果的にキャプチャする。
その後,新しい双方向クロスフレームメモリ手法を考案した。
これにより、未来記憶と合成過去のメモリを統合し、現在のメモリを強化し、イテレーションベースのトラッキングの精度を向上させる。
この反復的なメモリ更新機構により、トラッカーは現在のフレーム内の情報を動的に補償することができ、トラッカーのドリフトを効果的に低減できる。
最後に,空間的に信頼性の高いガウスマスクを融合した形状上に構築し,乱れ点を除去する。
さらに、オブジェクトローカライゼーションの効率と精度を向上し、イントラクタによるトラッキングエラーを減らすオブジェクト認識サンプリング戦略によって、これを補足する。
KITTI、NuScenes、Waymoのデータセットに関する広範な実験は、我々のアプローチが現在の最先端手法を大きく上回っていることを示している。
3D single object tracking within LIDAR point clouds is a pivotal task in computer vision, with profound implications for autonomous driving and robotics. However, existing methods, which depend solely on appearance matching via Siamese networks or utilize motion information from successive frames, encounter significant challenges. Issues such as similar objects nearby or occlusions can result in tracker drift. To mitigate these challenges, we design an innovative spatio-temporal bi-directional cross-frame distractor filtering tracker, named STMD-Tracker. Our first step involves the creation of a 4D multi-frame spatio-temporal graph convolution backbone. This design separates KNN graph spatial embedding and incorporates 1D temporal convolution, effectively capturing temporal fluctuations and spatio-temporal information. Subsequently, we devise a novel bi-directional cross-frame memory procedure. This integrates future and synthetic past frame memory to enhance the current memory, thereby improving the accuracy of iteration-based tracking. This iterative memory update mechanism allows our tracker to dynamically compensate for information in the current frame, effectively reducing tracker drift. Lastly, we construct spatially reliable Gaussian masks on the fused features to eliminate distractor points. This is further supplemented by an object-aware sampling strategy, which bolsters the efficiency and precision of object localization, thereby reducing tracking errors caused by distractors. Our extensive experiments on KITTI, NuScenes and Waymo datasets demonstrate that our approach significantly surpasses the current state-of-the-art methods. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# リカレントネットワークを用いたビデオ超解像の時間系列初期化とビデオ非依存安定化のための条件付け
Time-series Initialization and Conditioning for Video-agnostic Stabilization of Video Super-Resolution using Recurrent Networks ( http://arxiv.org/abs/2403.15832v1 ) ライセンス: Link先を確認 | Hiroshi Mori, Norimichi Ukita, | (参考訳) ビデオスーパーレゾリューション(VSR)のためのリカレントニューラルネットワーク(RNN)は、RNNを学習する際のさまざまな課題により、オリジナルのトレーニングビデオからランダムにクリップされ、トリミングされたショートビデオで訓練される。
しかし、このRNNは超解像ショートビデオに最適化されているため、長いビデオのVSRはドメインギャップのために劣化する。
予備実験により,映像長やダイナミックスなどの映像特性によって劣化が変化することが明らかとなった。
この劣化を回避するため,ビデオ長とダイナミックスとは独立して効率的に安定に動作可能なVSR用RNNのトレーニング戦略を提案する。
提案したトレーニング戦略は、ビデオ特性に応じて様々なRNN隠れ状態を変化させたVSRネットワークをトレーニングすることで、VSRを安定化させる。
このような隠蔽状態の計算には時間を要するため、効率的な訓練のために隠蔽状態を再利用することで、この計算コストを削減できる。
さらに、フレームナンバー条件付けにより、トレーニング安定性がさらに向上する。
実験により,提案手法は,様々な長さとダイナミックスを持つビデオにおいて,ベース手法よりも優れた性能を示した。
A Recurrent Neural Network (RNN) for Video Super Resolution (VSR) is generally trained with randomly clipped and cropped short videos extracted from original training videos due to various challenges in learning RNNs. However, since this RNN is optimized to super-resolve short videos, VSR of long videos is degraded due to the domain gap. Our preliminary experiments reveal that such degradation changes depending on the video properties, such as the video length and dynamics. To avoid this degradation, this paper proposes the training strategy of RNN for VSR that can work efficiently and stably independently of the video length and dynamics. The proposed training strategy stabilizes VSR by training a VSR network with various RNN hidden states changed depending on the video properties. Since computing such a variety of hidden states is time-consuming, this computational cost is reduced by reusing the hidden states for efficient training. In addition, training stability is further improved with frame-number conditioning. Our experimental results demonstrate that the proposed method performed better than base methods in videos with various lengths and dynamics. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# ARO:ロボットのテキスト2スキルの自律学習を監督する大規模言語モデル
ARO: Large Language Model Supervised Robotics Text2Skill Autonomous Learning ( http://arxiv.org/abs/2403.15834v1 ) ライセンス: Link先を確認 | Yiwen Chen, Yuyao Ye, Ziyi Chen, Chuheng Zhang, Marcelo H. Ang, | (参考訳) ロボット学習は、デモ、強化学習における報酬関数の設計、人間のフィードバックを用いたパフォーマンス評価など、人間の専門知識や努力に大きく依存している。
しかし、人的援助への依存は、高い学習コストをもたらし、スキル学習のスケールを難しくする。
本研究では,ロボットスキル学習プロセスにおける人間の参加を,報酬関数の設計と性能評価を取り入れた大規模言語モデルに置き換えることを目的とした,大規模言語モデルスーパービジョンロボティクステキスト2スキル自律学習(ARO)フレームワークを紹介する。
本稿では,人間の介入なしに部分的なタスクを完了できる完全自律型ロボットスキル学習の実現を実証する。
さらに、タスク理解と最適化安定性におけるこのアプローチの限界についても分析する。
Robotics learning highly relies on human expertise and efforts, such as demonstrations, design of reward functions in reinforcement learning, performance evaluation using human feedback, etc. However, reliance on human assistance can lead to expensive learning costs and make skill learning difficult to scale. In this work, we introduce the Large Language Model Supervised Robotics Text2Skill Autonomous Learning (ARO) framework, which aims to replace human participation in the robot skill learning process with large-scale language models that incorporate reward function design and performance evaluation. We provide evidence that our approach enables fully autonomous robot skill learning, capable of completing partial tasks without human intervention. Furthermore, we also analyze the limitations of this approach in task understanding and optimization stability. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# once for both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression (英語)
Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression ( http://arxiv.org/abs/2403.15835v1 ) ライセンス: Link先を確認 | Hancheng Ye, Chong Yu, Peng Ye, Renqiu Xia, Yansong Tang, Jiwen Lu, Tao Chen, Bo Zhang, | (参考訳) 近年のVision Transformer Compression (VTC) は主に2段階のスキームに従っており、各モデルユニットの重要度を各サブモジュールでまず評価またはプリセットし、続いてターゲットのスパーシリティ制約に従ってスパーシティスコアの評価を行う。
このような個別な評価プロセスは、重要度と疎度スコアの分布のギャップを生じさせ、それによってVTCの検索コストが高くなる。
本研究では,まず,重要度と疎度スコアの評価を単一ステージに統合し,最適なサブネットを効率的に探索する方法を検討する。
具体的には、VTCにおけるOFB(One for Both)と呼ばれる、重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。
まず、重要度スコアと微分可能な疎度スコアを絞ってバイマスクスキームを開発し、各ユニットのプルーニング電位(プルーナビリティ)を共同で決定する。
このようなバイマスク探索戦略と適応的な1ホットロスを併用して、最も重要なサブネットのプログレッシブ・アンド・エフェクト探索を実現する。
最後に,PMIM (Progressive Masked Image Modeling) を提案する。
大規模な実験により、OFBは様々なVision Transformerアーキテクチャの下での最先端の検索ベースおよびプルーニングベースの手法よりも優れた圧縮性能を実現し、一方、ImageNet-1K上でのDeiT-Sの圧縮に1つのGPUサーチ日を要した。
Recent Vision Transformer Compression (VTC) works mainly follow a two-stage scheme, where the importance score of each model unit is first evaluated or preset in each submodule, followed by the sparsity score evaluation according to the target sparsity constraint. Such a separate evaluation process induces the gap between importance and sparsity score distributions, thus causing high search costs for VTC. In this work, for the first time, we investigate how to integrate the evaluations of importance and sparsity scores into a single stage, searching the optimal subnets in an efficient manner. Specifically, we present OFB, a cost-efficient approach that simultaneously evaluates both importance and sparsity scores, termed Once for Both (OFB), for VTC. First, a bi-mask scheme is developed by entangling the importance score and the differentiable sparsity score to jointly determine the pruning potential (prunability) of each unit. Such a bi-mask search strategy is further used together with a proposed adaptive one-hot loss to realize the progressive-and-efficient search for the most important subnet. Finally, Progressive Masked Image Modeling (PMIM) is proposed to regularize the feature space to be more representative during the search process, which may be degraded by the dimension reduction. Extensive experiments demonstrate that OFB can achieve superior compression performance over state-of-the-art searching-based and pruning-based methods under various Vision Transformer architectures, meanwhile promoting search efficiency significantly, e.g., costing one GPU search day for the compression of DeiT-S on ImageNet-1K. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# VLM-CPL:人間のアノテーションのない病理画像分類のための視覚言語モデルからの擬似ラベル
VLM-CPL: Consensus Pseudo Labels from Vision-Language Models for Human Annotation-Free Pathological Image Classification ( http://arxiv.org/abs/2403.15836v1 ) ライセンス: Link先を確認 | Lanfeng Zhong, Xin Liao, Shaoting Zhang, Xiaofan Zhang, Guotai Wang, | (参考訳) ディープラーニング手法は画像分類において顕著な性能を達成したが、ラベル付きデータに強く依存しており、広範囲な人的アノテーションの努力を必要としている。
本研究では,VLM(Venture-Language Models)を利用した画像分類法を提案する。
人間のアノテーションがなければ、事前学習データと対象データセットとのドメインシフトによるノイズの多いVLMのゼロショット推論機能を利用して、トレーニングセットの擬似ラベルを得る。
この問題に対処するために,2つのノイズラベルフィルタリング技術と半教師付き学習戦略を統合する,コンセンサス擬似ラベルに基づく新しいアプローチであるVLM-CPLを導入する。
具体的には、入力の複数の拡張ビューを用いて、VLMによるゼロショット推論による不確実性を推定したプロンプトベースの擬似ラベルを得る。
そして,VLMの特徴表現能力を活用することで,特徴空間のサンプルクラスタリングにより特徴に基づく擬似ラベルを得る。
2種類の擬似ラベル間のコンセンサスに基づいて、信頼度の高いサンプルを選択するために、プロンプト・フィーチャー・コンセンサスを導入する。
低品質な擬似ラベルを拒絶することにより、信頼性の高い擬似ラベルと残りの未ラベルのサンプルから学ぶための高信頼クロススーパービジョン(HCS)をさらに提案する。
実験の結果,HPHデータセットとLC25Kデータセットで87.1%,95.1%の精度が得られた。
コードはhttps://github.com/lanfz2000/VLM-CPLで公開されている。
Despite that deep learning methods have achieved remarkable performance in pathology image classification, they heavily rely on labeled data, demanding extensive human annotation efforts. In this study, we present a novel human annotation-free method for pathology image classification by leveraging pre-trained Vision-Language Models (VLMs). Without human annotation, pseudo labels of the training set are obtained by utilizing the zero-shot inference capabilities of VLM, which may contain a lot of noise due to the domain shift between the pre-training data and the target dataset. To address this issue, we introduce VLM-CPL, a novel approach based on consensus pseudo labels that integrates two noisy label filtering techniques with a semi-supervised learning strategy. Specifically, we first obtain prompt-based pseudo labels with uncertainty estimation by zero-shot inference with the VLM using multiple augmented views of an input. Then, by leveraging the feature representation ability of VLM, we obtain feature-based pseudo labels via sample clustering in the feature space. Prompt-feature consensus is introduced to select reliable samples based on the consensus between the two types of pseudo labels. By rejecting low-quality pseudo labels, we further propose High-confidence Cross Supervision (HCS) to learn from samples with reliable pseudo labels and the remaining unlabeled samples. Experimental results showed that our method obtained an accuracy of 87.1% and 95.1% on the HPH and LC25K datasets, respectively, and it largely outperformed existing zero-shot classification and noisy label learning methods. The code is available at https://github.com/lanfz2000/VLM-CPL. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# 言語画像事前学習のための中心型マスキング
Centered Masking for Language-Image Pre-Training ( http://arxiv.org/abs/2403.15837v1 ) ライセンス: Link先を確認 | Mingliang Liang, Martha Larson, | (参考訳) 言語画像事前学習のためのガウスマスキング(GLIP)について,視覚言語モデルの事前学習中に画像パッチをマスキングするための,新しい,単純かつ効果的な手法を提案する。
GLIPはFast Language- Image Pre-Training (FLIP)上に構築されており、CLIPモデルのトレーニング中に画像パッチをランダムにマスクする。
GLIPは、画像の中心にある画像パッチの重要性にインスパイアされたガウス分布を用いた、ランダムマスキングを中心マスキングに置き換える。
実験結果から示すように,GLIPはFLIPと同じ計算コストを保ちながら,下流のデータセットやタスクにまたがるパフォーマンスを改善している。
GLIPの利点は容易に得ることができ、ガウスの微妙なチューニングを必要とせず、また画像を含むデータセットに適用できることを示す。
We introduce Gaussian masking for Language-Image Pre-Training (GLIP) a novel, straightforward, and effective technique for masking image patches during pre-training of a vision-language model. GLIP builds on Fast Language-Image Pre-Training (FLIP), which randomly masks image patches while training a CLIP model. GLIP replaces random masking with centered masking, that uses a Gaussian distribution and is inspired by the importance of image patches at the center of the image. GLIP retains the same computational savings as FLIP, while improving performance across a range of downstream datasets and tasks, as demonstrated by our experimental results. We show the benefits of GLIP to be easy to obtain, requiring no delicate tuning of the Gaussian, and also applicable to data sets containing images without an obvious center focus. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# TablePuppet:リレーショナルフェデレーションラーニングのためのジェネリックフレームワーク
TablePuppet: A Generic Framework for Relational Federated Learning ( http://arxiv.org/abs/2403.15839v1 ) ライセンス: Link先を確認 | Lijie Xu, Chulin Xie, Yiran Guo, Gustavo Alonso, Bo Li, Guoliang Li, Wei Wang, Wentao Wu, Ce Zhang, | (参考訳) 現在のフェデレーションラーニング(FL)では、分散トレーニングデータを単一のテーブルとして、水平(行)または垂直(列)に分割する。
しかし、これらのアプローチはデータベース間の分散リレーショナルテーブルを扱うのに不十分である。
このシナリオでは、トレーニングデータを取得するには、結合や結合のような複雑なSQL操作が必要になる。
FLを直接分散リレーショナルテーブル上で実行できますか?
本稿では,この問題をリレーショナル・フェデレーション・ラーニング(RFL)として定式化する。
本研究では,学習プロセスを2つのステップに分解するRFLの汎用フレームワークであるTablePuppetを提案し,(1)結合(LoJ)の学習,(2)結合(LoU)の学習を提案する。
簡単に言うと、LoJは学習を結合する垂直テーブルに押し下げ、LoUはさらに学習を各垂直テーブルの水平パーティションに押し上げる。
TablePuppetには、ジョインによって導入された重複タプルに対処するための計算/通信最適化と、機能とラベルのリークから保護するための差分プライバシー(DP)が含まれている。
そこで本稿では,TablePuppetとSGD(確率勾配勾配降下法)と乗算器の交互方向法(ADMM)を併用し,計算・通信の複雑さを比較した。
各種MLモデルの学習により,TablePuppet上に開発したSGD/ADMMアルゴリズムの評価を行った。
実験の結果,TablePuppet はSQL 結果を直接実行した集中型ベースラインに匹敵するモデル精度を達成できた。
さらに、ADMMはSGDよりも通信時間が少なく、類似したモデルの精度に収束する。
Current federated learning (FL) approaches view decentralized training data as a single table, divided among participants either horizontally (by rows) or vertically (by columns). However, these approaches are inadequate for handling distributed relational tables across databases. This scenario requires intricate SQL operations like joins and unions to obtain the training data, which is either costly or restricted by privacy concerns. This raises the question: can we directly run FL on distributed relational tables? In this paper, we formalize this problem as relational federated learning (RFL). We propose TablePuppet, a generic framework for RFL that decomposes the learning process into two steps: (1) learning over join (LoJ) followed by (2) learning over union (LoU). In a nutshell, LoJ pushes learning down onto the vertical tables being joined, and LoU further pushes learning down onto the horizontal partitions of each vertical table. TablePuppet incorporates computation/communication optimizations to deal with the duplicate tuples introduced by joins, as well as differential privacy (DP) to protect against both feature and label leakages. We demonstrate the efficiency of TablePuppet in combination with two widely-used ML training algorithms, stochastic gradient descent (SGD) and alternating direction method of multipliers (ADMM), and compare their computation/communication complexity. We evaluate the SGD/ADMM algorithms developed atop TablePuppet by training diverse ML models. Our experimental results show that TablePuppet achieves model accuracy comparable to the centralized baselines running directly atop the SQL results. Moreover, ADMM takes less communication time than SGD to converge to similar model accuracy. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# 周期ポテンシャルにおけるイオン鎖のフラクタル基底状態
Fractal ground state of ion chains in periodic potentials ( http://arxiv.org/abs/2403.15843v1 ) ライセンス: Link先を確認 | Raphaël Menu, Jorge Yago Malo, Vladan Vuletić, Maria Luisa Chiofalo, Giovanna Morigi, | (参考訳) 周期ポテンシャルにおけるトラップイオンはフラストレーションされたウィグナー結晶のパラダイムである。
力学は長距離フレンケル・コントロワモデルによって捉えられる。
古典的な基底状態は、磁場中の長距離相互作用を持つ反強磁性スピン鎖の1つにマッピングすることができ、その強度は鎖と基板格子の周期性のミスマッチによって決定される。
このマッピングは、基板電位が断片的に調和ポテンシャルであるときに正確であり、距離$r$で1/r^\alpha$の2体相互作用が崩壊する。
基底状態は、不一致の関数としての正則周期構造の悪魔の階段であり、その安定性の範囲は係数$\alpha$にも依存する。
階段はクーロン相互作用に対する$\alpha>1$の熱力学的極限においてよく定義されているが、$\alpha=1$は消滅し、スライディング・トゥ・ピン付き遷移はクロスオーバーとなる。
しかし、クーロンポテンシャルの熱力学的極限特性への対数収束により、階段は任意の有限個のイオンに対して見つかる。
実験プラットフォーム上での予測を観察・明らかにする機能だけでなく,実験パラメータについても論じる。
これらのダイナミクスは、フラストレーションと相互作用の間の相互作用を探索するためのトラップされたイオンプラットフォームの有用性を示すものである。
Trapped ions in a periodic potential are a paradigm of a frustrated Wigner crystal. The dynamics is captured by a long-range Frenkel-Kontorova model. The classical ground state can be mapped to the one of an antiferromagnetic spin chain with long-range interactions in a magnetic field, whose strength is determined by the mismatch between chain's and substrate lattice's periodicity. The mapping is exact when the substrate potential is a piecewise harmonic potential and holds for any two-body interaction decaying as $1/r^\alpha$ with the distance $r$. The ground state is a devil's staircase of regular, periodic structures as a function of the mismatch, whose range of stability depends also on the coefficient $\alpha$. While the staircase is well defined in the thermodynamic limit for $\alpha>1$, for Coulomb interactions, $\alpha=1$, it disappears and the sliding-to-pinned transitions becomes crossovers. However, due to the logarithmic convergence to the thermodynamic limit characteristic of the Coulomb potential, the staircase is found for any finite number of ions. We discuss the experimental parameters as well as the features that allow one to observe and reveal our predictions in experimental platforms. These dynamics are a showcase of the versatility of trapped ion platforms for exploring the interplay between frustration and interactions. | 翻訳日:2024-03-26 20:52:58 公開日:2024-03-23 |
# 物体除去のための塗装駆動型マスク最適化
Inpainting-Driven Mask Optimization for Object Removal ( http://arxiv.org/abs/2403.15849v1 ) ライセンス: Link先を確認 | Kodai Shimosato, Norimichi Ukita, | (参考訳) 本稿では,画像塗布による物体除去の品質向上のためのマスク最適化手法を提案する。
多くの塗布法はランダムマスクのセットで訓練されているが、塗布の対象は、多くの現実的なシナリオにおいて、人のような物体である可能性がある。
トレーニングにおけるマスクと推論画像の間の領域ギャップは、塗装作業の難しさを増大させる。
本手法では, この領域ギャップを, セグメンテーションによって抽出された被写体マスクを用いて塗装ネットワークを訓練することにより解決する。
さらに, 被塗布用マスクを最適化するために, セグメンテーションネットワークを塗工ネットワークに接続し, 塗工性能を向上させるためのエンドツーエンド訓練を行う。
このエンド・ツー・エンドトレーニングの効果は,大型マスクと小型マスクのトレードオフを達成するためのマスク拡張損失によってさらに強化される。
画像塗布による物体除去法の有効性を実験的に検証した。
This paper proposes a mask optimization method for improving the quality of object removal using image inpainting. While many inpainting methods are trained with a set of random masks, a target for inpainting may be an object, such as a person, in many realistic scenarios. This domain gap between masks in training and inference images increases the difficulty of the inpainting task. In our method, this domain gap is resolved by training the inpainting network with object masks extracted by segmentation, and such object masks are also used in the inference step. Furthermore, to optimize the object masks for inpainting, the segmentation network is connected to the inpainting network and end-to-end trained to improve the inpainting performance. The effect of this end-to-end training is further enhanced by our mask expansion loss for achieving the trade-off between large and small masks. Experimental results demonstrate the effectiveness of our method for better object removal using image inpainting. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# 二次元不均質及び均質CFTハミルトニアンによる局所作用素クエンチ
Local operator quench induced by two-dimensional inhomogeneous and homogeneous CFT Hamiltonians ( http://arxiv.org/abs/2403.15851v1 ) ライセンス: Link先を確認 | Weibo Mao, Masahiro Nozaki, Kotaro Tamaoka, Mao Tian Tan, | (参考訳) 我々は、分割関数、エネルギー密度、絡み合いエントロピーの時間依存性を調べることにより、不均質および均質ハミルトニアンによって誘導される作用素の成長による二次元共形場理論(2d CFTs)の非平衡過程を探索する。
この論文で考慮された非平衡過程は、異なるハミルトン人が支配するローレンツ時間とユークリッド時間から構成される。
自由ボソン CFT と RCFT では,この時間順序が絡み合いエントロピーに影響を与えないが,ホログラフィック CFT ではそうである。
我々の主な発見は、ホログラフ CFT において、不均一ハミルトニアンによって誘導される非単元時間進化は、単元時間進化よりも長い状態情報を保持することができるということである。
We explore non-equilibrium processes in two-dimensional conformal field theories (2d CFTs) due to the growth of operators induced by inhomogeneous and homogeneous Hamiltonians by investigating the time dependence of the partition function, energy density, and entanglement entropy. The non-equilibrium processes considered in this paper are constructed out of the Lorentzian and Euclidean time evolution governed by different Hamiltonians. We explore the effect of the time ordering on entanglement dynamics so that we find that in a free boson CFT and RCFTs, this time ordering does not affect the entanglement entropy, while in the holographic CFTs, it does. Our main finding is that in the holographic CFTs, the non-unitary time evolution induced by the inhomogeneous Hamiltonian can retain the initial state information longer than in the unitary time evolution. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# LLMベースのコード生成がソフトウェア開発プロセスと出会うとき
When LLM-based Code Generation Meets the Software Development Process ( http://arxiv.org/abs/2403.15852v1 ) ライセンス: Link先を確認 | Feng Lin, Dong Jae Kim, Tse-Husn, Chen, | (参考訳) ソフトウェアプロセスモデルは、ソフトウェアチーム内のコラボレーションとコミュニケーションを促進する上で重要な役割を担います。
本稿では,ソフトウェア工学の確立した実践に触発されたコード生成フレームワークであるLCGを紹介する。
LCGは複数のLarge Language Model (LLM)エージェントを利用して、LCGWaterfall、LCGTDD、LCGScrumといった様々なソフトウェアプロセスモデルをエミュレートする。
各モデルは、要件エンジニア、アーキテクト、開発者、テスタ、スクラムマスターといった特定の役割をLLMエージェントに割り当て、典型的な開発活動やコミュニケーションパターンを反映します。
チェーン・オブ・シンクとプロンプト・コンポジション技術を活用した共同作業を通じて、エージェントはコード品質を向上させるために継続的に洗練される。
GPT3.5を基盤となるLCMとベースライン(GPT)として,HumanEval,HumanEval-ET,MBPP,MBPP-ETの4つのコード生成ベンチマークでLCGを評価する。
結果はLCGScrumが他のモデルより優れており、HumanEval、HumanEval-ET、MBPP、MBPP-ETでPass@1スコアが75.2、65.5、82.5、56.7に達していることを示している。
設計とコードレビューは例外処理の強化に寄与する一方で、設計、テスト、コードレビューはコードの臭いを軽減する。
さらに、すべてのモデルでPass@1に無視できる影響を示す。
しかし、Pass@1のバリエーションは、HumanEvalの5から60以上のGPT3.5モデルバージョンで顕著であり、モデルバージョン間のLCGの安定性を強調している。
この安定性は、LLM生成コードの品質と一貫性を高めるために、ソフトウェアプロセスモデルを採用することの重要性を浮き彫りにしている。
Software process models play a pivotal role in fostering collaboration and communication within software teams, enabling them to tackle intricate development tasks effectively. This paper introduces LCG, a code generation framework inspired by established software engineering practices. LCG leverages multiple Large Language Model (LLM) agents to emulate various software process models, namely LCGWaterfall, LCGTDD, and LCGScrum. Each model assigns LLM agents specific roles such as requirement engineer, architect, developer, tester, and scrum master, mirroring typical development activities and communication patterns. Through collaborative efforts utilizing chain-of-thought and prompt composition techniques, the agents continuously refine themselves to enhance code quality. Utilizing GPT3.5 as the underlying LLM and baseline (GPT), we evaluate LCG across four code generation benchmarks: HumanEval, HumanEval-ET, MBPP, and MBPP-ET. Results indicate LCGScrum outperforms other models, achieving Pass@1 scores of 75.2, 65.5, 82.5, and 56.7 in HumanEval, HumanEval-ET, MBPP, and MBPP-ET, respectively - an average 15% improvement over GPT. Analysis reveals distinct impacts of development activities on generated code, with design and code reviews contributing to enhanced exception handling, while design, testing, and code reviews mitigate code smells. Furthermore, temperature values exhibit negligible influence on Pass@1 across all models. However, variations in Pass@1 are notable for different GPT3.5 model versions, ranging from 5 to over 60 in HumanEval, highlighting the stability of LCG across model versions. This stability underscores the importance of adopting software process models to bolster the quality and consistency of LLM-generated code. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# エッジ検出に基づく深層学習による涙孔高さ測定
An edge detection-based deep learning approach for tear meniscus height measurement ( http://arxiv.org/abs/2403.15853v1 ) ライセンス: Link先を確認 | Kesheng Wang, Kunhui Xu, Xiaoyu Chen, Chunlei He, Jianfeng Zhang, Dexing Kong, Qi Dai, Shoujun Huang, | (参考訳) 深層学習技術を用いて, 涙孔高さの自動測定を行ったが, アノテーションは主観的要因に大きく影響し, 時間と労力の双方が重くなっている。
本稿では,深層学習フレームワークにおけるエッジ検出支援アノテーションに基づく自動TMH計測手法を提案する。
従来のアノテーション手法に比べて効率が良く、主観的要因の影響を受けにくいマスクラベルを生成する。
瞳孔領域と涙孔領域のセグメンテーションを改善するために、畳み込みニューラルネットワークInceptionv3が最初に画像品質評価モデルとして実装され、98.224%の精度で高品質な画像を効果的に識別した。
その後、生成されたラベルを使用することで、Unet、ResUnet、Deeplabv3+FcnResnet101、Deeplabv3+FcnResnet50、FcnResnet50、FcnResnet101といった様々なアルゴリズムが訓練され、Unetは最高のパフォーマンスを示した。
最後に、Unetは自動瞳孔と裂孔間隙のセグメンテーションに使われ、瞳孔の中心の位置を特定してTMHを計算する。
Unetが予測したマスクの質の評価では、平均は0.9362、リコールは0.9261、精度は0.9423、F1スコアは0.9326であった。
さらに、モデルにより予測されたTMHを評価し、適合曲線を y=0.982x-0.862、r^2=0.961、精度94.80%(237/250)とした。
要約すると、アルゴリズムはその品質に基づいて画像を自動的にスクリーニングし、瞳孔と涙孔領域を分離し、TMHを自動的に測定することができる。
AIアルゴリズムを用いた測定結果は、手動測定と高レベルの整合性を示し、ドライアイ病の診断における臨床医師に重要な支援を提供する。
Automatic measurements of tear meniscus height (TMH) have been achieved by using deep learning techniques; however, annotation is significantly influenced by subjective factors and is both time-consuming and labor-intensive. In this paper, we introduce an automatic TMH measurement technique based on edge detection-assisted annotation within a deep learning framework. This method generates mask labels less affected by subjective factors with enhanced efficiency compared to previous annotation approaches. For improved segmentation of the pupil and tear meniscus areas, the convolutional neural network Inceptionv3 was first implemented as an image quality assessment model, effectively identifying higher-quality images with an accuracy of 98.224%. Subsequently, by using the generated labels, various algorithms, including Unet, ResUnet, Deeplabv3+FcnResnet101, Deeplabv3+FcnResnet50, FcnResnet50, and FcnResnet101 were trained, with Unet demonstrating the best performance. Finally, Unet was used for automatic pupil and tear meniscus segmentation to locate the center of the pupil and calculate TMH,respectively. An evaluation of the mask quality predicted by Unet indicated a Mean Intersection over Union of 0.9362, a recall of 0.9261, a precision of 0.9423, and an F1-Score of 0.9326. Additionally, the TMH predicted by the model was assessed, with the fitting curve represented as y= 0.982x-0.862, an overall correlation coefficient of r^2=0.961 , and an accuracy of 94.80% (237/250). In summary, the algorithm can automatically screen images based on their quality,segment the pupil and tear meniscus areas, and automatically measure TMH. Measurement results using the AI algorithm demonstrate a high level of consistency with manual measurements, offering significant support to clinical doctors in diagnosing dry eye disease. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# 分散化フェデレーション学習における初期化とトポロジー効果
Initialisation and Topology Effects in Decentralised Federated Learning ( http://arxiv.org/abs/2403.15855v1 ) ライセンス: Link先を確認 | Arash Badie-Modiri, Chiara Boldrini, Lorenzo Valerio, János Kertész, Márton Karsai, | (参考訳) 完全に分散化されたフェデレーション学習は、トレーニングデータをローカライズしながら、ネットワーク上の分散デバイス上の個々の機械学習モデルの協調トレーニングを可能にする。
このアプローチはデータのプライバシを高め、単一障害点と集中的な調整の必要性を排除します。
本研究は,分散化フェデレーション学習の有効性が,コネクテッドデバイスのネットワークトポロジに大きく影響していることを明らかにする。
これらのシステムの初期の動作を研究するための単純化された数値モデルにより、基礎となるネットワークノードの固有ベクトル集中度分布を活用する改良されたニューラルネットワーク初期化戦略が実現され、学習効率が劇的に向上する。
さらに,提案した初期化戦略に基づき,環境パラメータのスケーリング行動と選択について検討した。
この研究は、分散された非協調的な環境でのより効率的でスケーラブルな人工知能ニューラルネットワークトレーニングの道を開き、ネットワーク構造と学習ダイナミクスの相互の役割についてより深く理解する。
Fully decentralised federated learning enables collaborative training of individual machine learning models on distributed devices on a network while keeping the training data localised. This approach enhances data privacy and eliminates both the single point of failure and the necessity for central coordination. Our research highlights that the effectiveness of decentralised federated learning is significantly influenced by the network topology of connected devices. A simplified numerical model for studying the early behaviour of these systems leads us to an improved artificial neural network initialisation strategy, which leverages the distribution of eigenvector centralities of the nodes of the underlying network, leading to a radically improved training efficiency. Additionally, our study explores the scaling behaviour and choice of environmental parameters under our proposed initialisation strategy. This work paves the way for more efficient and scalable artificial neural network training in a distributed and uncoordinated environment, offering a deeper understanding of the intertwining roles of network structure and learning dynamics. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# 無人航空システムのシステムレベル自動試験
Automated System-level Testing of Unmanned Aerial Systems ( http://arxiv.org/abs/2403.15857v1 ) ライセンス: Link先を確認 | Hassan Sartaj, Asmar Muqeet, Muhammad Zohaib Iqbal, Muhammad Uzair Khan, | (参考訳) 無人航空システム(UAS)は、安全クリティカルでミッションクリティカルな様々なアビオニクスシステムに依存している。
国際安全基準の主な要件は、アビオニクスソフトウェアシステムの厳格なシステムレベルのテストを実行することである。
現在の産業的なプラクティスは、手動でテストシナリオを作成し、シミュレータを使ってこれらのシナリオを手動/自動で実行し、成果を手動で評価することです。
テストシナリオは一般的に、特定の飛行条件や環境条件を設定し、これらの設定でテスト中のシステムをテストする。
この目的のための最先端のアプローチは、手動のテストシナリオの開発と評価も必要である。
本稿では,UASのシステムレベルのテストを自動化する新しい手法を提案する。
提案したアプローチ(AITester)は、モデルベースのテストと人工知能(AI)技術を使用して、さまざまなテストシナリオを自動生成、実行、評価する。
テストシナリオは、実行時の環境コンテキストに基づいてテスト実行中に、即時に生成される。
このアプローチはツールセットによってサポートされます。
地上管制局(GCS)の無人航空機(UAV)のオートパイロットシステムとコックピット表示システム(CDS)の2つのコアコンポーネントに対する提案手法を実証的に評価した。
その結果,AITesterはUAVオートパイロットの期待される動作から逸脱するテストシナリオを効果的に生成し,GCS-CDSの潜在的な欠陥を明らかにすることができた。
Unmanned aerial systems (UAS) rely on various avionics systems that are safety-critical and mission-critical. A major requirement of international safety standards is to perform rigorous system-level testing of avionics software systems. The current industrial practice is to manually create test scenarios, manually/automatically execute these scenarios using simulators, and manually evaluate outcomes. The test scenarios typically consist of setting certain flight or environment conditions and testing the system under test in these settings. The state-of-the-art approaches for this purpose also require manual test scenario development and evaluation. In this paper, we propose a novel approach to automate the system-level testing of the UAS. The proposed approach (AITester) utilizes model-based testing and artificial intelligence (AI) techniques to automatically generate, execute, and evaluate various test scenarios. The test scenarios are generated on the fly, i.e., during test execution based on the environmental context at runtime. The approach is supported by a toolset. We empirically evaluate the proposed approach on two core components of UAS, an autopilot system of an unmanned aerial vehicle (UAV) and cockpit display systems (CDS) of the ground control station (GCS). The results show that the AITester effectively generates test scenarios causing deviations from the expected behavior of the UAV autopilot and reveals potential flaws in the GCS-CDS. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# オントクリーン型オントロジー再構成における大規模言語モデルの利用
Using Large Language Models for OntoClean-based Ontology Refinement ( http://arxiv.org/abs/2403.15864v1 ) ライセンス: Link先を確認 | Yihang Zhao, Neil Vetter, Kaveh Aryan, | (参考訳) 本稿では,GPT-3.5 や GPT-4 などの大規模言語モデル (LLM) をオントロジー改善プロセスに統合する。
OntoCleanは、オントロジのメタ物理的品質を評価するために重要であり、クラスにメタプロパティを割り当て、一連の制約を検証する2段階のプロセスを含んでいる。
手作業による最初のステップの実行は、哲学的な専門知識の必要性と、オントロジストの間での合意の欠如により、実践上の困難さを証明している。
2つのプロンプト戦略を持つLSMを用いることで、ラベル付けプロセスにおける高い精度を実現することができることを示す。
この結果から,LDMがオントロジーの洗練を促進し,オントロジーツール用プラグインソフトウェアの開発が促進される可能性が示唆された。
This paper explores the integration of Large Language Models (LLMs) such as GPT-3.5 and GPT-4 into the ontology refinement process, specifically focusing on the OntoClean methodology. OntoClean, critical for assessing the metaphysical quality of ontologies, involves a two-step process of assigning meta-properties to classes and verifying a set of constraints. Manually conducting the first step proves difficult in practice, due to the need for philosophical expertise and lack of consensus among ontologists. By employing LLMs with two prompting strategies, the study demonstrates that high accuracy in the labelling process can be achieved. The findings suggest the potential for LLMs to enhance ontology refinement, proposing the development of plugin software for ontology tools to facilitate this integration. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# RAAMove:研究論文要約におけるモブの分析コーパス
RAAMove: A Corpus for Analyzing Moves in Research Article Abstracts ( http://arxiv.org/abs/2403.15872v1 ) ライセンス: Link先を確認 | Hongzheng Li, Ruojin Wang, Ge Shi, Xing Lv, Lei Lei, Chong Feng, Fang Liu, Jinkun Lin, Yangguang Mei, Lingnan Xu, | (参考訳) 特定の目的のための英語(ESP)と学術目的のための英語(EAP)では、何十年にもわたってモブ構造が研究されてきた。
しかし、研究論文(RA)要約の移動注釈コーパスはほとんどない。
本稿では,RA抽象における移動構造アノテーション専用の総合的マルチドメインコーパスであるRAAMoveを紹介する。
RAAMoveの主な目的は、移動解析と自動移動識別を容易にすることである。
本稿では, コーパス構築プロセスについて, 提案手法, データ収集, アノテーションガイドライン, アノテーション手順など, 徹底的な議論を行う。
コーパスは、最初は専門家アノテータが手動で高品質なデータをアノテートし、その後、人間のアノテートデータに基づいて、BERTベースのモデルが専門家の修正の助けを借りて自動アノテーションに使用される。
その結果、33,988の注釈付きインスタンスからなる大規模で高品質なコーパスが得られた。
また,提案したコーパスとモデルの有効性を検証するため,BERTモデルを用いた事前動作同定実験を行った。
注釈付きコーパスは学術的な研究目的に利用でき、移動分析、英語の教育と執筆、および自然言語処理(NLP)における移動/談話関連のタスクに不可欠なリソースとして機能する。
Move structures have been studied in English for Specific Purposes (ESP) and English for Academic Purposes (EAP) for decades. However, there are few move annotation corpora for Research Article (RA) abstracts. In this paper, we introduce RAAMove, a comprehensive multi-domain corpus dedicated to the annotation of move structures in RA abstracts. The primary objective of RAAMove is to facilitate move analysis and automatic move identification. This paper provides a thorough discussion of the corpus construction process, including the scheme, data collection, annotation guidelines, and annotation procedures. The corpus is constructed through two stages: initially, expert annotators manually annotate high-quality data; subsequently, based on the human-annotated data, a BERT-based model is employed for automatic annotation with the help of experts' modification. The result is a large-scale and high-quality corpus comprising 33,988 annotated instances. We also conduct preliminary move identification experiments using the BERT-based model to verify the effectiveness of the proposed corpus and model. The annotated corpus is available for academic research purposes and can serve as essential resources for move analysis, English language teaching and writing, as well as move/discourse-related tasks in Natural Language Processing (NLP). | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# LAMPER: ゼロショット時系列分類のためのLanguAge ModelとPrompt EngineeRing
LAMPER: LanguAge Model and Prompt EngineeRing for zero-shot time series classification ( http://arxiv.org/abs/2403.15875v1 ) ライセンス: Link先を確認 | Zhicheng Du, Zhaotian Xie, Yan Tong, Peiwu Qin, | (参考訳) 本研究では,事前学習型言語モデル(PLM)の適応性の評価と,ゼロショット時系列(TS)分類への統合を目的とした,LAMPER(Prompt EngineeRing)フレームワークを用いたLanguAgeモデルの構築を行った。
UCRアーカイブから得られた128個の一変量TSデータセットを用いて実験評価にLAMPERをデプロイする。
以上の結果から, LAMPERの特徴表現能力は, PLMが課す最大入力トークン閾値の影響を受けていることが示唆された。
This study constructs the LanguAge Model with Prompt EngineeRing (LAMPER) framework, designed to systematically evaluate the adaptability of pre-trained language models (PLMs) in accommodating diverse prompts and their integration in zero-shot time series (TS) classification. We deploy LAMPER in experimental assessments using 128 univariate TS datasets sourced from the UCR archive. Our findings indicate that the feature representation capacity of LAMPER is influenced by the maximum input token threshold imposed by PLMs. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# 認知的レジリエンス : イメージキャプションモデルの有効性の解明とマスク付き視覚内容の解釈
Cognitive resilience: Unraveling the proficiency of image-captioning models to interpret masked visual content ( http://arxiv.org/abs/2403.15876v1 ) ライセンス: Link先を確認 | Zhicheng Du, Zhaotian Xie, Huazhang Ying, Likun Zhang, Peiwu Qin, | (参考訳) 本研究では,多様なデータセットから得られたマスク付き視覚コンテンツをデコードする画像キャプション(IC)モデルについて検討する。
本研究により, マスク画像からキャプションを生成できるICモデルの能力が, オリジナルとよく似ていることが明らかとなった。
特に、仮面が存在する場合でも、モデルはオリジナルの画像生成キャプションで観察可能なものを超える記述的なテキスト情報を巧みに作り出す。
ICモデルの復号性能は、マスキング領域の増加とともに低下するが、画像の重要な領域をハイカバレッジで隠蔽しない場合には、モデルが良好に機能する。
This study explores the ability of Image Captioning (IC) models to decode masked visual content sourced from diverse datasets. Our findings reveal the IC model's capability to generate captions from masked images, closely resembling the original content. Notably, even in the presence of masks, the model adeptly crafts descriptive textual information that goes beyond what is observable in the original image-generated captions. While the decoding performance of the IC model experiences a decline with an increase in the masked region's area, the model still performs well when important regions of the image are not masked at high coverage. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# 統合的経路安定性選択
Integrated path stability selection ( http://arxiv.org/abs/2403.15877v1 ) ライセンス: Link先を確認 | Omar Melikechi, Jeffrey W. Miller, | (参考訳) 安定性の選択は特徴選択アルゴリズムの性能を向上させるために広く用いられている手法である。
しかし、安定性の選択は非常に保守的で、感度が低いことが判明した。
さらに、期待される偽陽性数 E(FP) に関する理論的境界は比較的緩く、実際に期待される偽陽性数を知ることは困難である。
本稿では,安定性を最大化するのではなく,安定経路の統合に基づく新しい安定性選択法を提案する。
これにより、E(FP) 上のより厳密なバウンドが得られ、結果として、実際の感度が高く、目標 E(FP) との整合性も良い特徴選択基準が得られる。
提案手法では,元の安定性選択アルゴリズムと同じ計算量が必要であり,E(FP)の目標値である1つの入力パラメータを指定するだけでよい。
本研究は,がん遺伝子発現研究のシミュレーションと実データに関する理論的バウンダリを提示し,その有効性を実証する。
Stability selection is a widely used method for improving the performance of feature selection algorithms. However, stability selection has been found to be highly conservative, resulting in low sensitivity. Further, the theoretical bound on the expected number of false positives, E(FP), is relatively loose, making it difficult to know how many false positives to expect in practice. In this paper, we introduce a novel method for stability selection based on integrating the stability paths rather than maximizing over them. This yields a tighter bound on E(FP), resulting in a feature selection criterion that has higher sensitivity in practice and is better calibrated in terms of matching the target E(FP). Our proposed method requires the same amount of computation as the original stability selection algorithm, and only requires the user to specify one input parameter, a target value for E(FP). We provide theoretical bounds on performance, and demonstrate the method on simulations and real data from cancer gene expression studies. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# 走査ロバスト知覚誘導による拡散型審美QRコード生成
Diffusion-based Aesthetic QR Code Generation via Scanning-Robust Perceptual Guidance ( http://arxiv.org/abs/2403.15878v1 ) ライセンス: Link先を確認 | Jia-Wei Liao, Winston Wang, Tzu-Sian Wang, Li-Xuan Peng, Cheng-Fu Chou, Jun-Cheng Chen, | (参考訳) 日々のアプリケーションで広く使われているQRコードは、従来の白黒デザインのために視覚的な魅力を欠いている。
審美性を維持しながら審美性を統合することは、課題である。
本稿では,QRコード機構を組み込んだScanning-Robust Loss (SRL) に基づく新しい分類器ガイダンス (SRG) を用いて,事前学習した制御ネットを活用する,新しい拡散モデルに基づくQRコード生成パイプラインを提案する。
審美性を維持しながらスキャン性をさらに向上するため,SRPG(Scanning-Robust Perceptual Guidance)を用いた2段階パイプラインを提案する。
さらに,SRLに基づくSRPGD(Scanning-Robust Projected Gradient Descent)後処理技術により,生成QRコードのスキャン性をさらに向上させることができる。
定量的、質的、主観的な実験により、提案手法は様々な審美的なQRコードを詳細に生成できることを示した。
さらに、SSR(Scanning Success Rate)の86.67%(+40%)と同等の美的スコアで既存のモデルを上回っています。
SRPGDと組み合わせたパイプラインはさらに96.67%(+50%)を達成した。
私たちのコードはhttps://github.com/jwliao1209/DiffQRCode.comで利用可能です。
QR codes, prevalent in daily applications, lack visual appeal due to their conventional black-and-white design. Integrating aesthetics while maintaining scannability poses a challenge. In this paper, we introduce a novel diffusion-model-based aesthetic QR code generation pipeline, utilizing pre-trained ControlNet and guided iterative refinement via a novel classifier guidance (SRG) based on the proposed Scanning-Robust Loss (SRL) tailored with QR code mechanisms, which ensures both aesthetics and scannability. To further improve the scannability while preserving aesthetics, we propose a two-stage pipeline with Scanning-Robust Perceptual Guidance (SRPG). Moreover, we can further enhance the scannability of the generated QR code by post-processing it through the proposed Scanning-Robust Projected Gradient Descent (SRPGD) post-processing technique based on SRL with proven convergence. With extensive quantitative, qualitative, and subjective experiments, the results demonstrate that the proposed approach can generate diverse aesthetic QR codes with flexibility in detail. In addition, our pipelines outperforming existing models in terms of Scanning Success Rate (SSR) 86.67% (+40%) with comparable aesthetic scores. The pipeline combined with SRPGD further achieves 96.67% (+50%). Our code will be available https://github.com/jwliao1209/DiffQRCode. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# TrustSQL: さまざまな疑問のあるテキストからSQLモデルに対する信頼性ベンチマーク
TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions ( http://arxiv.org/abs/2403.15879v1 ) ライセンス: Link先を確認 | Gyubok Lee, Woosog Chay, Seonhee Cho, Edward Choi, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語の質問をSQLクエリに翻訳する際の大幅な改善につながっている。
SQL生成において高い精度を達成することは重要であるが、これらのテキスト-SQLモデルが現実世界のデプロイで遭遇するさまざまな種類の問題に確実に対処できる範囲についてはほとんど分かっていない。
この側面を探るため、TrustSQLは、シングルデータベースとクロスデータベースの両方の設定において、テキスト-SQLモデルの信頼性を評価するために設計された新しいベンチマークである。
ベンチマークは、以下の2つの結果のうちの1つを提供するように、モデルをタスクする。
1) SQL予測,又は
2) 生成されたSQLに潜在的なエラーがある場合や、解決不可能な質問に直面した場合、予測を控える。
モデル評価のために,本課題に特化して設計された様々なモデリング手法について検討する。
以下を含む。
1) 応答可能性検出、SQL生成、エラー検出のための別々のモデルを最適化し、単一のパイプラインに統合する。
2) 提案した課題に対処する単一モデルを最適化する統一的なアプローチを開発する。
我々の新しい信頼性スコアを用いた実験結果から、この課題に対処するには様々な研究領域が関与し、モデル開発のための新たな道を開くことが示されている。
それにもかかわらず、どの手法もすべての質問に答えることを禁じるナイーブベースラインの信頼性性能を超えるものはない。
Recent advances in large language models (LLMs) have led to significant improvements in translating natural language questions into SQL queries. While achieving high accuracy in SQL generation is crucial, little is known about the extent to which these text-to-SQL models can reliably handle diverse types of questions encountered during real-world deployment, including unanswerable ones. To explore this aspect, we present TrustSQL, a new benchmark designed to assess the reliability of text-to-SQL models in both single-database and cross-database settings. The benchmark tasks models with providing one of two outcomes: 1) SQL prediction; or 2) abstention from making a prediction, either when there is a potential error in the generated SQL or when faced with unanswerable questions. For model evaluation, we explore various modeling approaches specifically designed for this task. These include: 1) optimizing separate models for answerability detection, SQL generation, and error detection, which are then integrated into a single pipeline; and 2) developing a unified approach that optimizes a single model to address the proposed task. Experimental results using our new reliability score show that addressing this challenge involves many different areas of research and opens new avenues for model development. Nonetheless, none of the methods surpass the reliability performance of the naive baseline, which abstains from answering all questions. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# Bogoliubov-de Gennes方程式の半古典的極限
Semiclassical Limit of the Bogoliubov-de Gennes Equation ( http://arxiv.org/abs/2403.15880v1 ) ライセンス: Link先を確認 | Jacky J. Chong, Laurent Lafleche, Chiara Saffirio, | (参考訳) 本稿では,時間依存型Bogoliubov$\unicode{x2013}$de Gennes方程式を適切な半古典形式で書き直し,その半古典的極限を,一粒子ブラソフ方程式を満たす有効平均場背景ポテンシャルを持つ2粒子運動輸送方程式に設定する。
さらに、いくつかの半古典的状態に対して、非自明な2体相互作用効果を捕捉し、2粒子の運動的輸送方程式の高次補正を得る。
この収束は、半古典的最適輸送擬-メトリックの観点から、$C^2$相互作用ポテンシャルに対して証明される。
さらに、我々の現在の結果とMarcantoni et al [arXiv:2310.15280] の結果を組み合わせることで、スピン-$$\frac{1}{2}$フェルミオン系の何らかの負次ソボレフ位相による半古典的および平均場近似を確立する。
In this paper, we rewrite the time-dependent Bogoliubov$\unicode{x2013}$de Gennes equation in an appropriate semiclassical form and establish its semiclassical limit to a two-particle kinetic transport equation with an effective mean-field background potential satisfying the one-particle Vlasov equation. Moreover, for some semiclassical regimes, we obtain a higher-order correction to the two-particle kinetic transport equation, capturing a nontrivial two-body interaction effect. The convergence is proven for $C^2$ interaction potentials in terms of a semiclassical optimal transport pseudo-metric. Furthermore, combining our current results with the results of Marcantoni et al. [arXiv:2310.15280], we establish a joint semiclassical and mean-field approximation of the dynamics of a system of spin-$\frac{1}{2}$ Fermions by the Vlasov equation in some negative order Sobolev topology. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# 流れの正規化のための高速・統一経路勾配推定器
Fast and Unified Path Gradient Estimators for Normalizing Flows ( http://arxiv.org/abs/2403.15881v1 ) ライセンス: Link先を確認 | Lorenz Vaitl, Ludwig Winkler, Lorenz Richter, Pan Kessel, | (参考訳) 近年の研究では, 流れの正規化のための経路勾配推定器は, 変分推定のための標準推定器に比べてばらつきが低く, 訓練精度が向上した。
しかし、計算的な観点からは、しばしば禁止的に高価であり、拡張性のある最大限のトレーニングには適用できないため、広く普及するのを著しく妨げている。
この作業では、これらの決定的な制限を克服します。
具体的には,計算効率を大幅に向上させる高速経路勾配推定器を提案する。
この推定器は、与えられた目標エネルギー関数の形式を考慮し、正規化効果を有する最大極大訓練にも適用可能であることを示す。
我々は、いくつかの自然科学応用において、その優れた性能と分散を実証的に確立する。
Recent work shows that path gradient estimators for normalizing flows have lower variance compared to standard estimators for variational inference, resulting in improved training. However, they are often prohibitively more expensive from a computational point of view and cannot be applied to maximum likelihood training in a scalable manner, which severely hinders their widespread adoption. In this work, we overcome these crucial limitations. Specifically, we propose a fast path gradient estimator which improves computational efficiency significantly and works for all normalizing flow architectures of practical relevance. We then show that this estimator can also be applied to maximum likelihood training for which it has a regularizing effect as it can take the form of a given target energy function into account. We empirically establish its superior performance and reduced variance for several natural sciences applications. | 翻訳日:2024-03-26 20:42:03 公開日:2024-03-23 |
# VLUE:ベトナムの自然言語理解のための新しいベンチマークとマルチタスク知識伝達学習
VLUE: A New Benchmark and Multi-task Knowledge Transfer Learning for Vietnamese Natural Language Understanding ( http://arxiv.org/abs/2403.15882v1 ) ライセンス: Link先を確認 | Phong Nguyen-Thuan Do, Son Quoc Tran, Phu Gia Hoang, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen, | (参考訳) 英語のGLUE、中国語のCLUE、韓国語のKLUE、インドネシア語のIndoNLUなど、さまざまな言語における自然言語理解(NLU)ベンチマークの成功により、幅広いタスクで新しいNLUモデルの評価が容易になった。
ベトナム語NLUのための標準化されたベンチマークセットを確立するため,ベトナム語理解評価(VLUE)ベンチマークを導入した。
VLUEベンチマークは、テキスト分類、スパン抽出、自然言語理解など、異なるNLUタスクをカバーする5つのデータセットを含んでいる。
ベトナムのNLUの現状を概観するために,提案したVLUEベンチマークを用いて,マルチリンガルモデルとベトナム語単言語モデルを含む,最先端の事前訓練モデル7つを評価した。
さらに、VLUEベンチマークにおいて、全てのタスクにおいて優れた結果が得られる、最先端の事前訓練モデルであるCafeBERTを提案する。
本モデルは,多言語事前学習モデルの習熟度とベトナム語の知識を組み合わせたモデルである。
CafeBERTはXLM-RoBERTaモデルに基づいて開発され、ベトナム語への適応性を高めるために大量のベトナム語のテキストデータを活用するための予備訓練が加えられている。
将来の研究のために、CafeBERTは研究目的で公開されている。
The success of Natural Language Understanding (NLU) benchmarks in various languages, such as GLUE for English, CLUE for Chinese, KLUE for Korean, and IndoNLU for Indonesian, has facilitated the evaluation of new NLU models across a wide range of tasks. To establish a standardized set of benchmarks for Vietnamese NLU, we introduce the first Vietnamese Language Understanding Evaluation (VLUE) benchmark. The VLUE benchmark encompasses five datasets covering different NLU tasks, including text classification, span extraction, and natural language understanding. To provide an insightful overview of the current state of Vietnamese NLU, we then evaluate seven state-of-the-art pre-trained models, including both multilingual and Vietnamese monolingual models, on our proposed VLUE benchmark. Furthermore, we present CafeBERT, a new state-of-the-art pre-trained model that achieves superior results across all tasks in the VLUE benchmark. Our model combines the proficiency of a multilingual pre-trained model with Vietnamese linguistic knowledge. CafeBERT is developed based on the XLM-RoBERTa model, with an additional pretraining step utilizing a significant amount of Vietnamese textual data to enhance its adaptation to the Vietnamese language. For the purpose of future research, CafeBERT is made publicly available for research purposes. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# UPSS: ユーザ中心のプライベートストレージシステムとそのアプリケーション
UPSS: a User-centric Private Storage System with its applications ( http://arxiv.org/abs/2403.15884v1 ) ライセンス: Link先を確認 | Arastoo Bozorgi, Mahya Soleimani Jadidi, Jonathan Anderson, | (参考訳) 機密性、完全性、ユーザコントロール、信頼性、パフォーマンスは、プライバシに敏感なアプリケーションにおいて重要な要件である。
このようなアプリケーションは、信頼できないストレージバックエンドを備えた分散トポロジであっても、これらのプロパティを提供するデータストレージと共有インフラストラクチャの恩恵を受けるだろう。
この現状の代替として、ユーザ中心のプライベート共有システム、従来のファイルシステムやセキュリティに敏感なアプリケーションの基盤として使用できる暗号化ストレージシステム、例えば、整合性やプライベートリビジョン制御など、UPSSを紹介します。
UPSSのセキュリティ特性と性能特性が既存の暗号ファイルシステムよりも優れており、その性能は成熟した従来のファイルシステムに匹敵するものであることを実証する。
Rust API経由で直接使用されるか、あるいは従来のファイルシステムとして使用されるかに関わらず、UPSSは信頼性のないストレージ上で強力なセキュリティと実用的なパフォーマンスを提供する。
Strong confidentiality, integrity, user control, reliability and performance are critical requirements in privacy-sensitive applications. Such applications would benefit from a data storage and sharing infrastructure that provides these properties even in decentralized topologies with untrusted storage backends, but users today are forced to choose between systemic security properties and system reliability or performance. As an alternative to this status quo we present UPSS: the user-centric private sharing system, a cryptographic storage system that can be used as a conventional filesystem or as the foundation for security-sensitive applications such as redaction with integrity and private revision control. We demonstrate that both the security and performance properties of UPSS exceed that of existing cryptographic filesystems and that its performance is comparable to mature conventional filesystems - in some cases, even superior. Whether used directly via its Rust API or as a conventional filesystem, UPSS provides strong security and practical performance on untrusted storage. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# STEntConv: スタンス検出による診断予測とグラフ畳み込みネットワーク
STEntConv: Predicting Disagreement with Stance Detection and a Signed Graph Convolutional Network ( http://arxiv.org/abs/2403.15885v1 ) ライセンス: Link先を確認 | Isabelle Lorge, Li Zhang, Xiaowen Dong, Janet B. Pierrehumbert, | (参考訳) ソーシャルメディアプラットフォームの普及は、特に選挙や気候変動といった政治的・社会文化的話題について、オンライン上での議論の分極化に繋がった。
本稿では,2つの投稿の著者が同意するか否かを予測し,その投稿から得られる名前付きエンティティに関するユーザのスタンスを活用するための,シンプルで新しい教師なしの手法を提案する。
本稿では,ユーザと名前を重み付けしたエンティティのグラフを構築するモデルであるSTEntConvを紹介し,コメントと返信の相違を検出するために,SGCN (Signed Graph Convolutional Network) を訓練する。
プラットフォーム固有の機能やユーザ履歴を必要とせずに、さまざまな議論を呼んでいるサブレディットトピックについて、Reddit投稿のデータセットにおける不一致検出性能を改善することを示します。
The rise of social media platforms has led to an increase in polarised online discussions, especially on political and socio-cultural topics such as elections and climate change. We propose a simple and novel unsupervised method to predict whether the authors of two posts agree or disagree, leveraging user stances about named entities obtained from their posts. We present STEntConv, a model which builds a graph of users and named entities weighted by stance and trains a Signed Graph Convolutional Network (SGCN) to detect disagreement between comment and reply posts. We run experiments and ablation studies and show that including this information improves disagreement detection performance on a dataset of Reddit posts for a range of controversial subreddit topics, without the need for platform-specific features or user history. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# 効率的な言語モデル蒸留のためのゼロショットプロンプトの活用
Leveraging Zero-Shot Prompting for Efficient Language Model Distillation ( http://arxiv.org/abs/2403.15886v1 ) ライセンス: Link先を確認 | Lukas Vöge, Vincent Gurgul, Stefan Lessmann, | (参考訳) 本稿では, LLMをより小さく, アプリケーション固有のモデルに効率よく蒸留し, 作業コストと手作業量を大幅に削減する手法を提案する。
特定のアプリケーションやエッジデバイスに計算集約的なLLMをデプロイするという課題に対処するため、この技術はラベルとラベルなしデータに対する自然言語の有理性を生成するためにLLMの推論能力を利用する。
提案手法は,教師の予測とともに,学生モデルがこれらの有理を模倣するマルチタスク学習フレームワークを利用することで,微細化と蒸留の両面を強化する。
主な貢献は、教師モデルの合理性を引き出すよう促すゼロショットの採用、手作りの少数ショットのサンプルの必要性を減らし、全体的なトークン数を減らすことであり、これは大手テック企業のLLM APIの有料請求モデルを考えると、直接的にコスト削減に繋がる。
さらに, 蒸留効率に及ぼす説明特性の影響について検討し, 合理的な拡張がデータセット全体に適用されない場合でも, 最小性能の損失が生じることを実証し, トークンのさらなる削減を図った。
この研究は、人間の介入を最小限に抑えたタスク固有のモデルの効率的なトレーニングへの一歩であり、パフォーマンスを維持したり、強化したりしながら、かなりのコスト削減を提供する。
This paper introduces a novel approach for efficiently distilling LLMs into smaller, application-specific models, significantly reducing operational costs and manual labor. Addressing the challenge of deploying computationally intensive LLMs in specific applications or edge devices, this technique utilizes LLMs' reasoning capabilities to generate labels and natural language rationales for unlabeled data. Our approach enhances both finetuning and distillation by employing a multi-task training framework where student models mimic these rationales alongside teacher predictions. Key contributions include the employment of zero-shot prompting to elicit teacher model rationales, reducing the necessity for handcrafted few-shot examples and lowering the overall token count required, which directly translates to cost savings given the pay-per-token billing model of major tech companies' LLM APIs. Additionally, the paper investigates the impact of explanation properties on distillation efficiency, demonstrating that minimal performance loss occurs even when rationale augmentation is not applied across the entire dataset, facilitating further reductions of tokens. This research marks a step toward the efficient training of task-specific models with minimal human intervention, offering substantial cost-savings while maintaining, or even enhancing, performance. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# 予期せぬ摂動下における人間の動作予測
Human Motion Prediction under Unexpected Perturbation ( http://arxiv.org/abs/2403.15891v1 ) ライセンス: Link先を確認 | Jiangbei Yue, Baiyi Li, Julien Pettré, Armin Seyfried, He Wang, | (参考訳) 複数の人に関わる可能性のある予期せぬ身体的摂動下での動作を予測している人間の動作予測における新しい課題について検討する。
既存の研究と比較すると、このタスクは、外部からの衝撃に反応して、制御されていない、未治療で純粋な反応運動を予測し、その動きが人を通してどのように伝播するかを予測する。
データ不足や複雑なインタラクションの予測といった,新たな課題をもたらします。
この目的のために、微分物理学とディープニューラルネットワークを大まかに活用する新しい手法を提案し、明示的な潜在微分物理学モデル(LDP)を導出する。
実験により, LDPは高いデータ効率, 優れた予測精度, 強い一般化性, 優れた説明性を有することを示した。
類似した研究が存在しないため、いくつかの領域から適用された11のベースラインとの総合的な比較を行い、LCPは既存の研究を量的にも質的にも上回り、予測精度を70%向上させ、より強力な一般化を示した。
We investigate a new task in human motion prediction, which is predicting motions under unexpected physical perturbation potentially involving multiple people. Compared with existing research, this task involves predicting less controlled, unpremeditated and pure reactive motions in response to external impact and how such motions can propagate through people. It brings new challenges such as data scarcity and predicting complex interactions. To this end, we propose a new method capitalizing differential physics and deep neural networks, leading to an explicit Latent Differential Physics (LDP) model. Through experiments, we demonstrate that LDP has high data efficiency, outstanding prediction accuracy, strong generalizability and good explainability. Since there is no similar research, a comprehensive comparison with 11 adapted baselines from several relevant domains is conducted, showing LDP outperforming existing research both quantitatively and qualitatively, improving prediction accuracy by as much as 70%, and demonstrating significantly stronger generalization. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# MatchSeg: 参照画像マッチングによるセグメンテーションの改善を目指す
MatchSeg: Towards Better Segmentation via Reference Image Matching ( http://arxiv.org/abs/2403.15901v1 ) ライセンス: Link先を確認 | Ruiqiang Xiao, Jiayu Huo, Haotian Zheng, Yang Liu, Sebastien Ourselin, Rachel Sparks, | (参考訳) 近年,深層学習に基づく医用画像の自動分割法は大きな成功を収めている。
しかし、彼らは大きな注釈付きデータセットに大きく依存しており、取得にはコストと時間を要する。
Few-shot Learningは、サポートセットとして知られる小さなラベル付きデータセットを使用して、クエリセットとして知られる新しいラベル付きイメージの予測ラベルをガイドすることで、注釈付きデータの必要性を克服することを目的としている。
このパラダイムに着想を得たMatchSegは,戦略的基準画像マッチングによる医用画像のセグメンテーションを強化する新しいフレームワークである。
我々は,言語画像事前学習(CLIP)を利用して,サポートセットを定義する際に,関連性の高いサンプルを選択する。
さらに,サポート機能とクエリ機能とのインタラクションを強化し,サポート機能とクエリセット間のより効果的な知識伝達を容易にするために,共同注目モジュールを設計する。
提案手法を4つの公開データセットで検証した。
実験の結果,MatchSegの領域分割性能とドメイン一般化能力は,ドメイン固有およびクロスドメインセグメンテーションタスクの既存手法と比較して優れていることが示された。
私たちのコードはhttps://github.com/keeplearning-again/MatchSegで利用可能です。
Recently, automated medical image segmentation methods based on deep learning have achieved great success. However, they heavily rely on large annotated datasets, which are costly and time-consuming to acquire. Few-shot learning aims to overcome the need for annotated data by using a small labeled dataset, known as a support set, to guide predicting labels for new, unlabeled images, known as the query set. Inspired by this paradigm, we introduce MatchSeg, a novel framework that enhances medical image segmentation through strategic reference image matching. We leverage contrastive language-image pre-training (CLIP) to select highly relevant samples when defining the support set. Additionally, we design a joint attention module to strengthen the interaction between support and query features, facilitating a more effective knowledge transfer between support and query sets. We validated our method across four public datasets. Experimental results demonstrate superior segmentation performance and powerful domain generalization ability of MatchSeg against existing methods for domain-specific and cross-domain segmentation tasks. Our code is made available at https://github.com/keeplearning-again/MatchSeg | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# 資源制約デバイスのための低エネルギー適応型パーソナライズに向けて
Towards Low-Energy Adaptive Personalization for Resource-Constrained Devices ( http://arxiv.org/abs/2403.15905v1 ) ライセンス: Link先を確認 | Yushan Huang, Josh Millar, Yuxuan Long, Yuchen Zhao, Hamed Hadaddi, | (参考訳) データドリフトに対処するための機械学習(ML)モデルのパーソナライズは、IoT(Internet of Things)アプリケーションにおける重要な課題である。
現在、ほとんどのアプローチは、エネルギーコストを無視しながら、新しいデータに適応するために、完全なベースモデルまたは最後の数層を微調整することに焦点を当てている。
しかし、様々な種類のデータドリフトが存在し、完全なベースモデルや最後の数層を微調整しても、特定のシナリオでは最適なパフォーマンスが得られない。
資源制約のあるデバイス向けに設計された低エネルギー適応型パーソナライズフレームワークであるTarget Block Fine-Tuning (TBFT)を提案する。
データのドリフトとパーソナライゼーションを,入力レベル,特徴レベル,出力レベルという3つのタイプに分類する。
各タイプに対して、エネルギーコストを削減して最適な性能を達成するために、モデルの異なるブロックを微調整する。
具体的には、入力レベル、特徴レベル、出力レベルは、モデルのフロント、ミドル、リアブロックの微調整に対応する。
TBFTをResNetモデル,3つのデータセット,3つのトレーニングサイズ,Raspberry Piで評価した。
Block Avg$と比較すると、各ブロックは個別に微調整され、その性能は平均で15.30%向上し、フル微調整と比較して41.57%のエネルギー消費を節約している。
The personalization of machine learning (ML) models to address data drift is a significant challenge in the context of Internet of Things (IoT) applications. Presently, most approaches focus on fine-tuning either the full base model or its last few layers to adapt to new data, while often neglecting energy costs. However, various types of data drift exist, and fine-tuning the full base model or the last few layers may not result in optimal performance in certain scenarios. We propose Target Block Fine-Tuning (TBFT), a low-energy adaptive personalization framework designed for resource-constrained devices. We categorize data drift and personalization into three types: input-level, feature-level, and output-level. For each type, we fine-tune different blocks of the model to achieve optimal performance with reduced energy costs. Specifically, input-, feature-, and output-level correspond to fine-tuning the front, middle, and rear blocks of the model. We evaluate TBFT on a ResNet model, three datasets, three different training sizes, and a Raspberry Pi. Compared with the $Block Avg$, where each block is fine-tuned individually and their performance improvements are averaged, TBFT exhibits an improvement in model accuracy by an average of 15.30% whilst saving 41.57% energy consumption on average compared with full fine-tuning. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# データ効率の良い政策探索のための軌道サンプリングを用いた深いガウス的共分散ネットワーク
Deep Gaussian Covariance Network with Trajectory Sampling for Data-Efficient Policy Search ( http://arxiv.org/abs/2403.15908v1 ) ライセンス: Link先を確認 | Can Bogoclu, Robert Vosshall, Kevin Cremanns, Dirk Roos, | (参考訳) 確率的世界モデルは、モデルベース強化学習(MBRL)のデータ効率を向上させるために、その政策をエピステマティック不確実性で導き、探索を改善し、新しいサンプルを取得する。
さらに、確率論的アプローチにおける不確実性を考慮した学習手順は、不確実性のない解に比べてノイズの多い観測に敏感でない堅牢なポリシーをもたらす。
本稿では,MBRL問題に対するデータ効率のよい解として,トラジェクトリサンプリングとディープガウス共分散ネットワーク(DGCN)を組み合わせることを提案する。
本研究では,3つの確率的世界モデル(ガウス過程,ベイズニューラルネットワーク,DGCN)を用いて,軌道サンプリングと密度に基づく不確実性伝播の近似を比較した。
本研究では,4つのよく知られた実験環境を用いて,不確実性伝播法と確率モデルの組み合わせによるサンプル効率を向上する実験的なエビデンスを提案する。
私たちのテストでは、ノイズの多い初期状態に関して、学習したポリシーの堅牢性に特に重点を置いています。
Probabilistic world models increase data efficiency of model-based reinforcement learning (MBRL) by guiding the policy with their epistemic uncertainty to improve exploration and acquire new samples. Moreover, the uncertainty-aware learning procedures in probabilistic approaches lead to robust policies that are less sensitive to noisy observations compared to uncertainty unaware solutions. We propose to combine trajectory sampling and deep Gaussian covariance network (DGCN) for a data-efficient solution to MBRL problems in an optimal control setting. We compare trajectory sampling with density-based approximation for uncertainty propagation using three different probabilistic world models; Gaussian processes, Bayesian neural networks, and DGCNs. We provide empirical evidence using four different well-known test environments, that our method improves the sample-efficiency over other combinations of uncertainty propagation methods and probabilistic models. During our tests, we place particular emphasis on the robustness of the learned policies with respect to noisy initial states. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# 遺伝的アルゴリズムを用いたサイト依存相互作用を持つハイゼンベルクスピン鎖の量子状態伝達特性
Quantum state transfer performance of Heisenberg spin chains with site-dependent interactions designed using a generic genetic algorithm ( http://arxiv.org/abs/2403.15909v1 ) ライセンス: Link先を確認 | Sofía Perón Santana, Martín Domíguez, Omar Osenda, | (参考訳) スピン鎖における任意の量子状態のための良い転送チャネルを設計することは、コスト関数の最適化を意味する。
転送の忠実度は、転送プロトコルの開始時に準備された状態にどれだけ近いかを測定する。
可能な初期状態のすべてを平均化すると、メリットの図形はプロトコルの品質を定量化する。
与えられたハミルトニアンを特定のタスクを達成するために最適化する提案がある。
量子状態の移動はその1つである。
特に,遺伝的アルゴリズムを用いたハイゼンベルクスピン鎖の設計について考察する。
この非常に効率的なアルゴリズムにより、ハミルトンの異なる性質を優れた伝達能力で研究することができる。
ランダム探索法を用いることの明らかな欠点の一つは、サイトからサイトへ突然変化する交換係数強度が生じることである。
コスト関数を改良し、チェーン長に沿ってスムーズに変化する交換係数を持つハミルトニアンを得る。
以上の結果から,スムーズなハミルトニアンの移動能力は粗いハミルトニアンと同じかそれ以下であることが判明した。
伝達能力の異なるハミルトンの固有値の統計的性質を研究することにより、スペクトルが属するランダム行列のアンサンブルを決定する。
Designing a good transfer channel for arbitrary quantum states in spin chains implies optimizing a cost function, usually the averaged fidelity of transmission. The fidelity of transmission measures how much the transferred state resembles the state prepared at the beginning of the transfer protocol. When averaged over all the possible initial states, the figure of merit quantifies the quality of the protocol. There are proposals for optimizing a given Hamiltonian to accomplish a particular task. The transfer of quantum states is one of them. In particular, we consider the design of Heisenberg spin chains using a genetic algorithm. This very efficient algorithm allows us to study different properties of Hamiltonians with good to excellent transfer ability. One apparent drawback of using a random search method is that it results in exchange coefficient strengths that change abruptly from site to site. Modifying the cost function, we obtain Hamiltonians with exchange coefficients varying smoothly along the chain length. Our results show that the smoothed Hamiltonians have the same, or less, transfer ability than the rough ones, and both kinds show similar robustness against static disorder. By studying the statistical properties of the eigenvalues of Hamiltonians with varying transfer abilities, we determine the ensemble of random matrices to which the spectra belong. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# 高コントラスト超高速パワーリミットと光スイッチングのためのサブバンド間分極準曲面
Intersubband polaritonic metasurfaces for high-contrast ultra-fast power limiting and optical switching ( http://arxiv.org/abs/2403.15911v1 ) ライセンス: Link先を確認 | Michele Cotrufo, Jonas Krakofsky, Sander A. Mann, Gerhard Böhm, Mikhail A. Belkin, Andrea Alù, | (参考訳) 非線形サブバンド偏光性準曲面は、すべての凝縮物質系における中赤外周波数域における最も強力な超高速非線形応答の1つである。
これらの非線形性は、高調波発生と周波数混合の他に、強い極性結合から弱い極性結合への調整された遷移に基づく超高速光スイッチングと電力制限に利用することができる。
ここでは,超高速偏光性準曲面リミッタにおいて,大きな反射コントラストを実現するために材料とフォトニックナノ構造の相乗的最適化を示す。
デバイスは、サブバンド間遷移線幅を最小化し、光学飽和ナノ共振器の吸収を低減する最適化された半導体ヘテロ構造材料に基づいており、記録的な54%の反射コントラストを実現している。
また,この超高速リミッタの性能指標をさらに向上させる機会についても論じ,全誘電体サブバンド・ポーラトニック変成層を用いて,最大94%の反射コントラストを現実的に達成できることが示されている。
Nonlinear intersubband polaritonic metasurfaces support one of the strongest known ultrafast nonlinear responses in the mid-infrared frequency range across all condensed matter systems. Beyond harmonic generation and frequency mixing, these nonlinearities can be leveraged for ultrafast optical switching and power limiting, based on tailored transitions from strong to weak polaritonic coupling. Here, we demonstrate synergistic optimization of materials and photonic nanostructures to achieve large reflection contrast in ultrafast polaritonic metasurface limiters. The devices are based on optimized semiconductor heterostructure materials that minimize the intersubband transition linewidth and reduce absorption in optically saturated nanoresonators, achieving a record-high reflection contrast of 54% experimentally. We also discuss opportunities to further boost the metrics of performance of this class of ultrafast limiters, showing that reflection contrast as high as 94% may be realistically achieved using all-dielectric intersubband polaritonic metasurfaces. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# STL仕様を満たすマルチエージェントトランス高速化RL
Multi-agent transformer-accelerated RL for satisfaction of STL specifications ( http://arxiv.org/abs/2403.15916v1 ) ライセンス: Link先を確認 | Albin Larsson Forsberg, Alexandros Nikou, Aneta Vulgarakis Feljan, Jana Tumova, | (参考訳) マルチエージェント強化学習における大きな課題の1つは、エージェントの数が増えるにつれてスケーラビリティである。
この問題は、検討された問題が時間的依存である場合、さらに悪化する。
現在最先端のソリューションは、スケーラビリティの懸念に対処するため、主に分散実行パラダイムによる集中的なトレーニングに従っています。
本稿では,時間依存型マルチエージェント変換器を提案する。
本稿では,この手法が2つの問題に対して有効であることを示すとともに,その条件下で発生した軌道がタスクを満足する確率を検証するための統計ツールを使用する。
両事例において,本手法は文献ベースラインアルゴリズムよりも優れた性能を示した。
One of the main challenges in multi-agent reinforcement learning is scalability as the number of agents increases. This issue is further exacerbated if the problem considered is temporally dependent. State-of-the-art solutions today mainly follow centralized training with decentralized execution paradigm in order to handle the scalability concerns. In this paper, we propose time-dependent multi-agent transformers which can solve the temporally dependent multi-agent problem efficiently with a centralized approach via the use of transformers that proficiently handle the large input. We highlight the efficacy of this method on two problems and use tools from statistics to verify the probability that the trajectories generated under the policy satisfy the task. The experiments show that our approach has superior performance against the literature baseline algorithms in both cases. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# 要求工学におけるペルソナの活用 : 実践者の視点
Who Uses Personas in Requirements Engineering: The Practitioners' Perspective ( http://arxiv.org/abs/2403.15917v1 ) ライセンス: Link先を確認 | Yi Wang, Chetan Arora, Xiao Liu, Thuong Hoang, Vasudha Malhotra, Ben Cheng, John Grundy, | (参考訳) ソフトウェアプロジェクトでは通常、エンドユーザのニーズをよりよく理解するためにペルソナが使われます。
しかし、実際の使用法や有効性については限定的な理解がある。
本稿では,26人のソフトウェア開発者,UI/UXデザイナ,ビジネスアナリスト,プロダクトマネージャ,そして203人の実践者を対象に,ソフトウェア開発におけるペルソナの現在の実践,方法,課題について調査を行った。
その結果,さまざまなソフトウェアプロジェクトやIT企業におけるペルソナの頻度と有効性,ペルソナ使用時の課題,まったく使用しない理由などが明らかになった。
さらに,ペルソナ記述の重要な特徴であると考えられるペルソナの人間的側面のカバレッジについて検討した。
一般認識とは対照的に,人的側面は一般的にペルソナや要求工学の様々な理由から無視されることが多い。
本研究は,要件工学段階におけるペルソナの活用における課題を克服する上で,実践者にとって有効な知見を提供し,今後の研究分野を特定する。
Personas are commonly used in software projects to gain a better understanding of end-users' needs. However, there is a limited understanding of their usage and effectiveness in practice. This paper presents the results of a two-step investigation, comprising interviews with 26 software developers, UI/UX designers, business analysts and product managers and a survey of 203 practitioners, aimed at shedding light on the current practices, methods and challenges of using personas in software development. Our findings reveal variations in the frequency and effectiveness of personas across different software projects and IT companies, the challenges practitioners face when using personas and the reasons for not using them at all. Furthermore, we investigate the coverage of human aspects in personas, often assumed to be a key feature of persona descriptions. Contrary to the general perception, our study shows that human aspects are often ignored for various reasons in personas or requirements engineering in general. Our study provides actionable insights for practitioners to overcome challenges in using personas during requirements engineering stages, and we identify areas for future research. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# SSLのバックドア攻撃に対する、とても単純な防御策
An Embarrassingly Simple Defense Against Backdoor Attacks On SSL ( http://arxiv.org/abs/2403.15918v1 ) ライセンス: Link先を確認 | Aryan Satpathy, Nilaksh, Dhruva Rajwade, | (参考訳) 自己監視学習(SSL)は、人間の監督なしにデータランドスケープに取り組むための強力なパラダイムとして登場した。
ラベル付きデータを使わずに意味のあるタスクを学習できるため、SSLはラベルなしで大量のデータを管理できる一般的な方法である。
しかし、最近の研究はSSLがバックドア攻撃に対して脆弱であることを示している。
Li et.al (2022)は、新しい周波数ベースのバックドアアタックCTRLを導入した。
彼らは、CTRLがSSLを使って訓練された被害者のモデルの制御を効率よく、ひそかに得ることができることを示した。
本研究では、SSLにおける周波数ベースの攻撃に対する2つの防御戦略を考案する。
最初のコントリビューションは、ダウンストリームタスクの不変性を利用して、一般化可能な方法でバックドアアタックを防御する。
ASR(Attack Success Rate)を観察し、実験全体で60%以上削減した。
我々の推論時防御は攻撃の回避に頼っており、攻撃から防御するために輝度チャネルを使用している。
オブジェクト分類をSSLの下流タスクとして使用し、モデルの再訓練を必要としない防衛戦略を成功させる。
コードはhttps://github.com/Aryan-Satpathy/Backdoor.comで入手できる。
Self Supervised Learning (SSL) has emerged as a powerful paradigm to tackle data landscapes with absence of human supervision. The ability to learn meaningful tasks without the use of labeled data makes SSL a popular method to manage large chunks of data in the absence of labels. However, recent work indicates SSL to be vulnerable to backdoor attacks, wherein models can be controlled, possibly maliciously, to suit an adversary's motives. Li et.al (2022) introduce a novel frequency-based backdoor attack: CTRL. They show that CTRL can be used to efficiently and stealthily gain control over a victim's model trained using SSL. In this work, we devise two defense strategies against frequency-based attacks in SSL: One applicable before model training and the second to be applied during model inference. Our first contribution utilizes the invariance property of the downstream task to defend against backdoor attacks in a generalizable fashion. We observe the ASR (Attack Success Rate) to reduce by over 60% across experiments. Our Inference-time defense relies on evasiveness of the attack and uses the luminance channel to defend against attacks. Using object classification as the downstream task for SSL, we demonstrate successful defense strategies that do not require re-training of the model. Code is available at https://github.com/Aryan-Satpathy/Backdoor. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# 推薦システムにおける人間とAIの共有機関の交渉
Negotiating the Shared Agency between Humans & AI in the Recommender System ( http://arxiv.org/abs/2403.15919v1 ) ライセンス: Link先を確認 | Mengke Wu, Weizi Liu, Yanyun, Wang, Mike Zhengyu Yao, | (参考訳) スマートレコメンデーションアルゴリズムは、情報の普及、効率の向上、さまざまな領域にわたるコンテンツ配信の再構築に革命をもたらした。
しかし、ユーザエージェンシーに対する懸念は、アルゴリズムにおける固有の不透明性(情報非対称性)と一方的な出力(パワー非対称性)の性質に起因する。
どちらの問題も、説明可能なAI(XAI)と人間とAIの協調的意思決定(HACD)を提唱する学者によって批判されているが、ユーザに対する統合的な影響を評価する研究はほとんどなく、結果の改善とフィルタリング以上のレコメンデーションシステムにおけるHACDの議論もほとんどない。
本研究では,AIが推奨するコンテンツの度合いをユーザが制御できるHACDに欠けているステップとして,インキュベーションのアイデアを提案する。
そして,既存のXAIと統合し,ユーザエージェンシーの強化を評価するためのフロープロトタイプを構築する。
我々は,エージェントの種類がユーザの知覚や経験にどのように影響するかを理解し,人間とAIの対話システムのためのガイドラインや設計を洗練するための実証的な証拠を提供する。
Smart recommendation algorithms have revolutionized information dissemination, enhancing efficiency and reshaping content delivery across various domains. However, concerns about user agency have arisen due to the inherent opacity (information asymmetry) and the nature of one-way output (power asymmetry) on algorithms. While both issues have been criticized by scholars via advocating explainable AI (XAI) and human-AI collaborative decision-making (HACD), few research evaluates their integrated effects on users, and few HACD discussions in recommender systems beyond improving and filtering the results. This study proposes an incubating idea as a missing step in HACD that allows users to control the degrees of AI-recommended content. Then, we integrate it with existing XAI to a flow prototype aimed at assessing the enhancement of user agency. We seek to understand how types of agency impact user perception and experience, and bring empirical evidence to refine the guidelines and designs for human-AI interactive systems. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# 確率的停止時間を有するマルコフ決定過程の安全強化学習
Safe Reinforcement Learning for Constrained Markov Decision Processes with Stochastic Stopping Time ( http://arxiv.org/abs/2403.15928v1 ) ライセンス: Link先を確認 | Abhijit Mazumdar, Rafal Wisniewski, Manuela L. Bujorianu, | (参考訳) 本稿では,安全制約付きマルコフ決定過程に対するオンライン強化学習アルゴリズムを提案する。
科学界の注意が必要であるが、確率的な停止時間を考えると、学習期間中の安全制約に違反することなく最適な政策を学ぶという問題は未解決である。
そこで本研究では,プロセスモデルを必要としない線形プログラミングに基づくアルゴリズムを提案する。
学習方針は高い信頼を持って安全であることを示す。
また,安全制約に違反しないアルゴリズム開発の中心となる,安全な基本方針を計算する手法を提案する。
最後に,提案アルゴリズムの有効性を示すシミュレーション結果を提案する。
さらに,プロキシ集合と呼ばれる状態空間のサブセットを定義することで,効率的な探索が可能であることを示す。
In this paper, we present an online reinforcement learning algorithm for constrained Markov decision processes with a safety constraint. Despite the necessary attention of the scientific community, considering stochastic stopping time, the problem of learning optimal policy without violating safety constraints during the learning phase is yet to be addressed. To this end, we propose an algorithm based on linear programming that does not require a process model. We show that the learned policy is safe with high confidence. We also propose a method to compute a safe baseline policy, which is central in developing algorithms that do not violate the safety constraints. Finally, we provide simulation results to show the efficacy of the proposed algorithm. Further, we demonstrate that efficient exploration can be achieved by defining a subset of the state-space called proxy set. | 翻訳日:2024-03-26 20:32:18 公開日:2024-03-23 |
# X-ポートレート:階層的な動きを意図した表現的ポートレートアニメーション
X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention ( http://arxiv.org/abs/2403.15931v1 ) ライセンス: Link先を確認 | You Xie, Hongyi Xu, Guoxian Song, Chao Wang, Yichun Shi, Linjie Luo, | (参考訳) 本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。
具体的には、外観基準として1つのポートレートを考慮し、動画像から得られる動きをアニメーション化し、非常にダイナミックで微妙な表情と広角な頭部の動きをキャプチャすることを目的としている。
その中核として、予め訓練された拡散モデルの生成前をレンダリングバックボーンとして利用し、制御ネットのフレームワーク内で新しい制御信号による微粒な頭部ポーズと表現制御を実現した。
顔のランドマークのような従来の粗い明示的な制御とは対照的に、動作制御モジュールは、元の駆動RGB入力から直接ダイナミクスを解釈する。
さらに、眼球位置のような小さなニュアンスに対する動きの注意を効果的に高めるパッチベースの局所制御モジュールにより、動きの精度をさらに向上する。
特に、駆動信号からのIDリークを軽減するため、我々は、拡張されたクロスアイデンティティ画像を用いてモーションコントロールモジュールを訓練し、外観基準モジュールからの最大のゆがみを確保する。
実験により,多様な顔画像と表現的運転シーケンスにまたがるX-ポートレートの普遍的有効性を示し,一貫したアイデンティティ特性を持つキャプティベーション・ポートレート・アニメーションの生成能力を示した。
We propose X-Portrait, an innovative conditional diffusion model tailored for generating expressive and temporally coherent portrait animation. Specifically, given a single portrait as appearance reference, we aim to animate it with motion derived from a driving video, capturing both highly dynamic and subtle facial expressions along with wide-range head movements. As its core, we leverage the generative prior of a pre-trained diffusion model as the rendering backbone, while achieve fine-grained head pose and expression control with novel controlling signals within the framework of ControlNet. In contrast to conventional coarse explicit controls such as facial landmarks, our motion control module is learned to interpret the dynamics directly from the original driving RGB inputs. The motion accuracy is further enhanced with a patch-based local control module that effectively enhance the motion attention to small-scale nuances like eyeball positions. Notably, to mitigate the identity leakage from the driving signals, we train our motion control modules with scaling-augmented cross-identity images, ensuring maximized disentanglement from the appearance reference modules. Experimental results demonstrate the universal effectiveness of X-Portrait across a diverse range of facial portraits and expressive driving sequences, and showcase its proficiency in generating captivating portrait animations with consistently maintained identity characteristics. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# マルコフ論理ネットワークにおけるドメインサイズ一般化の理解
Understanding Domain-Size Generalization in Markov Logic Networks ( http://arxiv.org/abs/2403.15933v1 ) ライセンス: Link先を確認 | Florian Chen, Felix Weitkämper, Sagar Malhotra, | (参考訳) マルコフ論理ネットワーク(MLN)の一般化挙動を,大きさの異なる関係構造にまたがって検討する。
複数の研究が、あるドメインで学んだMLNが、異なるサイズのドメイン間でうまく一般化しないことに気付いた。
この振る舞いは、異なるドメインサイズで使用する場合、MLNの内部一貫性の欠如から生じます。
本稿では,この不整合を定量化し,MLNパラメータの分散を考慮に入れた。
パラメータの分散は、異なる領域サイズから取られたMLNの辺分布間のKL分散も有界である。
これらの境界を用いて、パラメータの分散を最小化しながらデータをログライクな状態に最大化することは、ドメインサイズをまたいだ一般化という2つの自然な概念に対応することを示す。
我々の理論的結果は、指数ランダムグラフや他のマルコフネットワークに基づく関係モデルに適用できる。
最後に、正規化やドメインサイズ認識MLNなどのMLNパラメータの分散を減少させることで知られている解が、MLNの内部整合性を高めることを観察する。
我々は,パラメータ分散を制御する異なる手法を用いて,4つの異なるデータセット上で実験により結果を検証することにより,パラメータ分散の制御がより良い一般化をもたらすことを示す。
We study the generalization behavior of Markov Logic Networks (MLNs) across relational structures of different sizes. Multiple works have noticed that MLNs learned on a given domain generalize poorly across domains of different sizes. This behavior emerges from a lack of internal consistency within an MLN when used across different domain sizes. In this paper, we quantify this inconsistency and bound it in terms of the variance of the MLN parameters. The parameter variance also bounds the KL divergence between an MLN's marginal distributions taken from different domain sizes. We use these bounds to show that maximizing the data log-likelihood while simultaneously minimizing the parameter variance corresponds to two natural notions of generalization across domain sizes. Our theoretical results apply to Exponential Random Graphs and other Markov network based relational models. Finally, we observe that solutions known to decrease the variance of the MLN parameters, like regularization and Domain-Size Aware MLNs, increase the internal consistency of the MLNs. We empirically verify our results on four different datasets, with different methods to control parameter variance, showing that controlling parameter variance leads to better generalization. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# 新しいアプローチによる完全分散型MARL政策評価 : ローカルTD更新
Sample and Communication Efficient Fully Decentralized MARL Policy Evaluation via a New Approach: Local TD update ( http://arxiv.org/abs/2403.15935v1 ) ライセンス: Link先を確認 | Fnu Hairi, Zifan Zhang, Jia Liu, | (参考訳) 完全に分散化されたマルチエージェント強化学習(MARL)のためのアクター批判フレームワークでは、MARLポリシー評価(PE)問題が鍵となる。
MARL-PEにおいて重要な課題は、サンプルと通信の複雑さを下げることであり、これは、ある$\epsilon$-stationaryポイントに収束するのに必要な訓練サンプルと通信ラウンドの数として定義される。
MARL-PEにおける「自然な」アイデアは、通信周波数を減少させるために、連続する通信ラウンド間で複数の局所的なTD更新ステップを実行することであるが、エージェント間の不均一な報酬から生じる「エージェントドリフト」現象が原因で、局所的なTD更新アプローチの有効性は明らかになっていない。
局所的なTD更新アプローチは、低いサンプルと通信の複雑さを伴いますか?
本稿では,この根本的な疑問に答える最初の試みを行う。
我々は,多くのマルチエージェントネットワーク最適化問題に動機づけられた,平均報酬を伴うMARL-PEの設定に焦点をあてる。
理論的および実験的結果から,複数の局所的なTD更新ステップが可能であることは,MARL-PEアルゴリズムと比較して,MARL-PEのサンプルと通信の複雑さを低下させる上で有効なアプローチであることが明らかとなった。
具体的には、2つの連続する通信ラウンド間の局所的なTD更新ステップは、MARL-PEの$\epsilon$-stationaryポイントに収束するために$\mathcal{O}(1/\epsilon^{1/2}\log{(1/\epsilon)})$にできる。
さらに、最適なサンプル複雑性に到達するために、局所的なTD更新アプローチの通信複雑性は$\mathcal{O}(1/\epsilon^{1/2}\log{(1/\epsilon)})$であることを示す。
In actor-critic framework for fully decentralized multi-agent reinforcement learning (MARL), one of the key components is the MARL policy evaluation (PE) problem, where a set of $N$ agents work cooperatively to evaluate the value function of the global states for a given policy through communicating with their neighbors. In MARL-PE, a critical challenge is how to lower the sample and communication complexities, which are defined as the number of training samples and communication rounds needed to converge to some $\epsilon$-stationary point. To lower communication complexity in MARL-PE, a "natural'' idea is to perform multiple local TD-update steps between each consecutive rounds of communication to reduce the communication frequency. However, the validity of the local TD-update approach remains unclear due to the potential "agent-drift'' phenomenon resulting from heterogeneous rewards across agents in general. This leads to an interesting open question: Can the local TD-update approach entail low sample and communication complexities? In this paper, we make the first attempt to answer this fundamental question. We focus on the setting of MARL-PE with average reward, which is motivated by many multi-agent network optimization problems. Our theoretical and experimental results confirm that allowing multiple local TD-update steps is indeed an effective approach in lowering the sample and communication complexities of MARL-PE compared to consensus-based MARL-PE algorithms. Specifically, the local TD-update steps between two consecutive communication rounds can be as large as $\mathcal{O}(1/\epsilon^{1/2}\log{(1/\epsilon)})$ in order to converge to an $\epsilon$-stationary point of MARL-PE. Moreover, we show theoretically that in order to reach the optimal sample complexity, the communication complexity of local TD-update approach is $\mathcal{O}(1/\epsilon^{1/2}\log{(1/\epsilon)})$. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# LlamBERT: NLPにおける大規模低コストデータアノテーション
LlamBERT: Large-scale low-cost data annotation in NLP ( http://arxiv.org/abs/2403.15938v1 ) ライセンス: Link先を確認 | Bálint Csanády, Lajos Muzsai, Péter Vedres, Zoltán Nádasdy, András Lukács, | (参考訳) GPT-4 や Llama 2 のような大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて顕著な習熟性を示している。
有効性にもかかわらず、それらの使用に関連する高いコストが課題となる。
LlamBERTはLLMを利用してラベルのない大規模データベースの小さなサブセットをアノテートし、その結果をBERTやRoBERTaのような微調整トランスフォーマーエンコーダに利用するハイブリッドアプローチである。
この戦略は、IMDbレビューデータセットとUMLS Meta-Thesaurusの2つの多様なデータセットで評価されている。
以上の結果から,LlamBERTアプローチはコスト効率を向上しつつ,精度をわずかに損なうことが示唆された。
Large Language Models (LLMs), such as GPT-4 and Llama 2, show remarkable proficiency in a wide range of natural language processing (NLP) tasks. Despite their effectiveness, the high costs associated with their use pose a challenge. We present LlamBERT, a hybrid approach that leverages LLMs to annotate a small subset of large, unlabeled databases and uses the results for fine-tuning transformer encoders like BERT and RoBERTa. This strategy is evaluated on two diverse datasets: the IMDb review dataset and the UMLS Meta-Thesaurus. Our results indicate that the LlamBERT approach slightly compromises on accuracy while offering much greater cost-effectiveness. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# ジオトケンとジオトランス
Geotokens and Geotransformers ( http://arxiv.org/abs/2403.15940v1 ) ライセンス: Link先を確認 | Eren Unlu, | (参考訳) トランスアーキテクチャでは、位置符号化は主に入力トークンのシーケンスの感覚を提供する。
ロータリー位置埋め込み (Rotary Position Embedding, RoPE) などの改良案が提案されている。
本稿では, 変圧器の入力成分であるジオトケンについて述べる。
典型的な言語列とは異なり、これらのトークンの場合、順序は地理的座標そのものほど重要ではない。
この文脈で相対的な位置を表現し、埋め込み空間における実世界距離と距離のバランスを保つために、球面座標用に調整されたRoPE構造から描画された位置符号化アプローチを設計する。
In transformer architectures, position encoding primarily provides a sense of sequence for input tokens. While the original transformer paper's method has shown satisfactory results in general language processing tasks, there have been new proposals, such as Rotary Position Embedding (RoPE), for further improvement. This paper presents geotokens, input components for transformers, each linked to a specific geological location. Unlike typical language sequences, for these tokens, the order is not as vital as the geographical coordinates themselves. To represent the relative position in this context and to keep a balance between the real world distance and the distance in the embedding space, we design a position encoding approach drawing from the RoPE structure but tailored for spherical coordinates. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# 確信するまでの探索: 身体的質問回答の効率的な探索
Explore until Confident: Efficient Exploration for Embodied Question Answering ( http://arxiv.org/abs/2403.15941v1 ) ライセンス: Link先を確認 | Allen Z. Ren, Jaden Clark, Anushri Dixit, Masha Itkina, Anirudha Majumdar, Dorsa Sadigh, | (参考訳) 本研究では,ロボットなどの具体的エージェントが,質問に対する回答に自信を持つまで情報収集を行う環境を積極的に探究する必要がある場合の,身体的質問回答(EQA)の問題について考察する。
本研究では,大規模視覚言語モデル(VLM)の強い意味論的推論機能を活用し,これらの質問を効率的に探索し,回答する。
しかし、EQAでVLMを使用する場合の主な課題は2つある: 時間とともに探索する方法を計画できるようにシーンをマッピングするための内部記憶がなく、その信頼性が誤って評価され、ロボットが早期に探索や過度に探索を停止させる可能性がある。
深度情報とVLMの視覚的プロンプトに基づいてシーンのセマンティックマップを最初に構築する手法を提案する。
次に、コンフォメーション予測を用いて、自信に答えるVLMの質問をキャリブレーションし、ロボットがいつ探索をやめるかを知ることができるようにし、よりキャリブレーションされ効率的な探索戦略をもたらす。
シミュレーションでフレームワークをテストするために,Habitat-Matterport 3D Research Dataset (HM3D)上に構築された,多種多様なリアルなロボットシナリオとシーンを備えた新しいEQAデータセットも提供します。
シミュレーションと実際のロボット実験の両方で、提案手法は、VLMを探索に利用せず、信頼性を調整しないベースラインよりも性能と効率を向上することを示す。
webpage with experiment video and code: https://explore-eqa.github.io/
We consider the problem of Embodied Question Answering (EQA), which refers to settings where an embodied agent such as a robot needs to actively explore an environment to gather information until it is confident about the answer to a question. In this work, we leverage the strong semantic reasoning capabilities of large vision-language models (VLMs) to efficiently explore and answer such questions. However, there are two main challenges when using VLMs in EQA: they do not have an internal memory for mapping the scene to be able to plan how to explore over time, and their confidence can be miscalibrated and can cause the robot to prematurely stop exploration or over-explore. We propose a method that first builds a semantic map of the scene based on depth information and via visual prompting of a VLM - leveraging its vast knowledge of relevant regions of the scene for exploration. Next, we use conformal prediction to calibrate the VLM's question answering confidence, allowing the robot to know when to stop exploration - leading to a more calibrated and efficient exploration strategy. To test our framework in simulation, we also contribute a new EQA dataset with diverse, realistic human-robot scenarios and scenes built upon the Habitat-Matterport 3D Research Dataset (HM3D). Both simulated and real robot experiments show our proposed approach improves the performance and efficiency over baselines that do no leverage VLM for exploration or do not calibrate its confidence. Webpage with experiment videos and code: https://explore-eqa.github.io/ | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# DDPMに基づく変化検出のための特徴操作
Feature Manipulation for DDPM based Change Detection ( http://arxiv.org/abs/2403.15943v1 ) ライセンス: Link先を確認 | Zhenglin Li, Yangchen Huang, Mengran Zhu, Jingyu Zhang, JingHao Chang, Houze Liu, | (参考訳) 変化検出はコンピュータビジョンの古典的なタスクであり、両時間画像ペアを入力として受け取り、意味的に変化し、変化しない領域を分離する。
拡散モデルは画像合成や特徴抽出機として使われ、下流の様々なタスクに適用されている。
これを用いて、大規模データセットから事前学習した拡散モデルから特徴マップを抽出し、追加ネットワークを介して変化を検出する。
一方、現在の拡散に基づく変化検出手法は、拡散モデルを用いて良い特徴写像を抽出することのみに焦点を当てている。
生成した特徴写像にさらなる調整を加えることなく、差分を取得し、利用する。
本手法は,拡散モデルから抽出した特徴マップを意味的に有用に操作することに焦点を当て,本手法では特徴注意とFDAFの2つの手法を提案する。
LEVIR-CDデータセットのF1スコア(90.18)とIoU(83.86)が得られた。
Change Detection is a classic task of computer vision that receives a bi-temporal image pair as input and separates the semantically changed and unchanged regions of it. The diffusion model is used in image synthesis and as a feature extractor and has been applied to various downstream tasks. Using this, a feature map is extracted from the pre-trained diffusion model from the large-scale data set, and changes are detected through the additional network. On the one hand, the current diffusion-based change detection approach focuses only on extracting a good feature map using the diffusion model. It obtains and uses differences without further adjustment to the created feature map. Our method focuses on manipulating the feature map extracted from the Diffusion Model to be more semantically useful, and for this, we propose two methods: Feature Attention and FDAF. Our model with Feature Attention achieved a state-of-the-art F1 score (90.18) and IoU (83.86) on the LEVIR-CD dataset. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# ワンショットトーキングヘッドジェネレーションのための適応型スーパーレゾリューション
Adaptive Super Resolution For One-Shot Talking-Head Generation ( http://arxiv.org/abs/2403.15944v1 ) ライセンス: Link先を確認 | Luchuan Song, Pinxin Liu, Guojun Yin, Chenliang Xu, | (参考訳) ワンショットのトーキングヘッド生成は、同一または異なるアイデンティティビデオの駆動下で、1つのソースポートレートイメージでトーキングヘッドビデオを合成することを学ぶ。
通常これらの方法は、新しいポーズ生成のために、ヤコビ行列や顔画像ワープを介して平面ベースのピクセル変換を必要とする。
単一の画像ソースと画素変位を使用するという制約は、しばしば合成画像の明瞭さを損なう。
一部の方法は、追加の超解像モジュールを導入することで、合成ビデオの品質向上を図っているが、これは明らかに計算消費を増大させ、元のデータ分布を破壊するだろう。
そこで本研究では,追加の事前学習モジュールを使わずに高精細度映像を合成する,適応的な高品質なトーキングヘッドビデオ生成手法を提案する。
具体的には、既存の超解像法にインスパイアされ、ワンショットソースイメージをダウンサンプルし、エンコーダデコーダモジュールを介して高周波の詳細を適応的に再構成し、その結果、ビデオの明瞭度が向上する。
提案手法は,定量的かつ定性的な評価を基礎として,直接的かつ効果的な戦略によって生成ビデオの品質を継続的に向上する。
コードとデモビデオは以下の通りである。
The one-shot talking-head generation learns to synthesize a talking-head video with one source portrait image under the driving of same or different identity video. Usually these methods require plane-based pixel transformations via Jacobin matrices or facial image warps for novel poses generation. The constraints of using a single image source and pixel displacements often compromise the clarity of the synthesized images. Some methods try to improve the quality of synthesized videos by introducing additional super-resolution modules, but this will undoubtedly increase computational consumption and destroy the original data distribution. In this work, we propose an adaptive high-quality talking-head video generation method, which synthesizes high-resolution video without additional pre-trained modules. Specifically, inspired by existing super-resolution methods, we down-sample the one-shot source image, and then adaptively reconstruct high-frequency details via an encoder-decoder module, resulting in enhanced video clarity. Our method consistently improves the quality of generated videos through a straightforward yet effective strategy, substantiated by quantitative and qualitative evaluations. The code and demo video are available on: \url{https://github.com/Songluchuan/AdaSR-TalkingHead/}. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# Deep Domain Adaptation: 視線追跡システム改善のためのSim2Real Neural Approach
Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems ( http://arxiv.org/abs/2403.15947v1 ) ライセンス: Link先を確認 | Viet Dung Nguyen, Reynold Bailey, Gabriel J. Diaz, Chengyi Ma, Alexander Fix, Alexander Ororbia, | (参考訳) 眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
教師付き機械学習を用いてトレーニングされたセグメンテーションモデルは、このタスクにおいて優れており、それらの効果は、ターゲットデータセットによって定義された画像特性の狭い分布と、非常に特定のトレーニングデータセットの重複度によって決定される。
合成眼画像を含め、既存の眼画像データセットの分布を広げようとする試みは、合成眼画像に基づいて訓練されたモデルが現実世界の眼画像への一般化に失敗することが多いことを発見した。
治療では,対象の眼画像と合成訓練データとの重なりを計測し,分布の重なりを最大化する方法でトレーニングデータセットを訓練する。
シミュレーションと実世界のデータサンプルの相違に対処する際,本手法は頑健で,性能が向上することを示した。
Eye image segmentation is a critical step in eye tracking that has great influence over the final gaze estimate. Segmentation models trained using supervised machine learning can excel at this task, their effectiveness is determined by the degree of overlap between the narrow distributions of image properties defined by the target dataset and highly specific training datasets, of which there are few. Attempts to broaden the distribution of existing eye image datasets through the inclusion of synthetic eye images have found that a model trained on synthetic images will often fail to generalize back to real-world eye images. In remedy, we use dimensionality-reduction techniques to measure the overlap between the target eye images and synthetic training data, and to prune the training dataset in a manner that maximizes distribution overlap. We demonstrate that our methods result in robust, improved performance when tackling the discrepancy between simulation and real-world data samples. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# MapTracker: 連続ベクトルHDマッピングのためのストリッドメモリフュージョンによるトラッキング
MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping ( http://arxiv.org/abs/2403.15951v1 ) ライセンス: Link先を確認 | Jiacheng Chen, Yuefan Wu, Jiaqi Tan, Hang Ma, Yasutaka Furukawa, | (参考訳) 本稿では,マッピングをトラッキングタスクとして定式化し,メモリラテント履歴を用いて時間とともに一貫した再構成を確実にするベクトルHDマッピングアルゴリズムを提案する。
我々の方法であるMapTrackerは、センサストリームを2つの潜在表現のメモリバッファに蓄積する。
1)バードアイビュー(BEV)空間におけるラスター潜伏剤とその利用
2)道路要素(歩行者交叉、車線除線、道路境界線など)に潜入するベクトル
この手法は、追跡された道路要素を前フレームから電流に明示的に関連付けるトラッキング文献からクエリの伝搬パラダイムを借用し、また、時間的整合性を高めるために、距離を絞った選択されたメモリ潜水器のサブセットを融合させる。
ベクトル潜水器を復号して道路要素の形状を再構成する。
この論文はさらにベンチマークによるコントリビューションを行っている。
1)既存のデータセットの処理コードの改善による、時間的アライメントと一貫性のある基底真理の生成
2) 既存のmAPメトリクスを一貫性チェックで強化する。
MapTrackerは、nuScenesとAgroverse2の両方のデータセットの既存のメソッドを、従来のメトリクスと新しい一貫性を意識したメトリクスでそれぞれ8%と19%以上上回っている。
コードはプロジェクトのページで公開されます。
This paper presents a vector HD-mapping algorithm that formulates the mapping as a tracking task and uses a history of memory latents to ensure consistent reconstructions over time. Our method, MapTracker, accumulates a sensor stream into memory buffers of two latent representations: 1) Raster latents in the bird's-eye-view (BEV) space and 2) Vector latents over the road elements (i.e., pedestrian-crossings, lane-dividers, and road-boundaries). The approach borrows the query propagation paradigm from the tracking literature that explicitly associates tracked road elements from the previous frame to the current, while fusing a subset of memory latents selected with distance strides to further enhance temporal consistency. A vector latent is decoded to reconstruct the geometry of a road element. The paper further makes benchmark contributions by 1) Improving processing code for existing datasets to produce consistent ground truth with temporal alignments and 2) Augmenting existing mAP metrics with consistency checks. MapTracker significantly outperforms existing methods on both nuScenes and Agroverse2 datasets by over 8% and 19% on the conventional and the new consistency-aware metrics, respectively. The code will be available on our project page: https://map-tracker.github.io. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# IllusionVQA:視覚言語モデルのための干渉光学Illusionデータセット
IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models ( http://arxiv.org/abs/2403.15952v1 ) ライセンス: Link先を確認 | Haz Sameen Shahgir, Khondker Salman Sayeed, Abhik Bhattacharjee, Wasi Uddin Ahmad, Yue Dong, Rifat Shahriyar, | (参考訳) 視覚言語モデル(VLM)の出現により、研究者は自然言語を用いたニューラルネットワークの視覚的理解を調査できるようになった。
オブジェクトの分類と検出以外にも、VLMは視覚的理解と常識的推論が可能である。
イメージ自体が本質的に不合理な場合、VLMはどのように反応しますか?
この目的のために、IllusionVQA: 難解な光学錯視と難解なシーンの多様なデータセットを示し、VLMの能力を2つの異なる多重選択VQAタスク(理解とソフトローカライゼーション)で検証する。
最高性能のVLMであるGPT4Vは、理解タスクで62.99%の精度(4ショット)、ローカライゼーションタスクで49.7%(4ショットとChain-of-Thought)を達成している。
人間の評価は、人間が理解と局在において91.03%と100%の精度を達成することを明らかにしている。
In-Context Learning (ICL) と Chain-of-Thought は,ローカライゼーションタスクにおけるGeminiPro の性能を著しく低下させる。
直感的には、VLMのICL能力の潜在的な弱点は、正しい答えがコンテキストウィンドウにあるとしても、光学的錯覚を見つけることができないことである。
The advent of Vision Language Models (VLM) has allowed researchers to investigate the visual understanding of a neural network using natural language. Beyond object classification and detection, VLMs are capable of visual comprehension and common-sense reasoning. This naturally led to the question: How do VLMs respond when the image itself is inherently unreasonable? To this end, we present IllusionVQA: a diverse dataset of challenging optical illusions and hard-to-interpret scenes to test the capability of VLMs in two distinct multiple-choice VQA tasks - comprehension and soft localization. GPT4V, the best-performing VLM, achieves 62.99% accuracy (4-shot) on the comprehension task and 49.7% on the localization task (4-shot and Chain-of-Thought). Human evaluation reveals that humans achieve 91.03% and 100% accuracy in comprehension and localization. We discover that In-Context Learning (ICL) and Chain-of-Thought reasoning substantially degrade the performance of GeminiPro on the localization task. Tangentially, we discover a potential weakness in the ICL capabilities of VLMs: they fail to locate optical illusions even when the correct answer is in the context window as a few-shot example. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# 機械学習学習セットにおけるロッシー圧縮の有効性の理解
Understanding The Effectiveness of Lossy Compression in Machine Learning Training Sets ( http://arxiv.org/abs/2403.15953v1 ) ライセンス: Link先を確認 | Robert Underwood, Jon C. Calhoun, Sheng Di, Franck Cappello, | (参考訳) 機械学習と人工知能(ML/AI)技術は、ハイパフォーマンスコンピューティング(HPC)でますます普及している。
しかし、これらの手法は、広域ネットワーク(WAN)上でデータを共有したり、エッジデバイスからデータセンターに転送するための方法を必要とする、訓練と検証のための大量の浮動小数点データに依存する。
データ圧縮はこれらの問題の解決策となり得るが、損失圧縮がモデル品質にどのように影響するかを深く理解する必要がある。
以前の作業では、主に単一のアプリケーションや圧縮方法が検討されていた。
我々はML/AIにおけるデータ削減手法を評価するための体系的な手法を設計し、7つのML/AIアプリケーション上で17個のデータ削減手法を用いて非常に包括的な評価を行い、現代の損失圧縮手法が品質の1%以下で50-100倍の圧縮比改善を達成できることを示す。
ML/AIの損失圧縮機の将来的利用と設計を導く重要な知見を同定する。
Learning and Artificial Intelligence (ML/AI) techniques have become increasingly prevalent in high performance computing (HPC). However, these methods depend on vast volumes of floating point data for training and validation which need methods to share the data on a wide area network (WAN) or to transfer it from edge devices to data centers. Data compression can be a solution to these problems, but an in-depth understanding of how lossy compression affects model quality is needed. Prior work largely considers a single application or compression method. We designed a systematic methodology for evaluating data reduction techniques for ML/AI, and we use it to perform a very comprehensive evaluation with 17 data reduction methods on 7 ML/AI applications to show modern lossy compression methods can achieve a 50-100x compression ratio improvement for a 1% or less loss in quality. We identify critical insights that guide the future use and design of lossy compressors for ML/AI. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# 干し草における針の発見--見えない透かし検出のためのブラックボックスアプローチ
Finding needles in a haystack: A Black-Box Approach to Invisible Watermark Detection ( http://arxiv.org/abs/2403.15955v1 ) ライセンス: Link先を確認 | Minzhou Pan, Zhengting Wang, Xin Dong, Vikash Sehwag, Lingjuan Lyu, Xue Lin, | (参考訳) 本稿では,ブラックボックスとアノテーションを含まない環境下で,初めて目に見えない透かし検出手法であるWaterMark Detection (WMD)を提案する。
WMDは、特定の復号法や透かし技法の事前知識に頼ることなく、クリーンな非透かしデータセットを基準として、所定の参照データセット内の任意の透かしを検出することができる。
我々はオフセット学習の基礎を用いてWMDを開発し、クリーンな非透かしデータセットにより参照データセットにおける透かしサンプルのみの影響を分離することができる。
包括的評価では,AUCスコアが0.5程度しか得られない難易度検出法よりも有意に優れ,WMDの有効性が示された。
対照的にWMDは、多くのシングルウォーターマークデータセットでは0.9を超え、多様なデータセットやウォーターマーク手法でより困難なマルチウォーターマークシナリオでは0.7を超えている。
目に見えない透かしがますます普及する一方、特定の復号法は開示されていないが、我々のアプローチは汎用的なソリューションを提供し、私たちのデジタルビジュアルコンテンツに対する説明責任、透明性、信頼を高めるための道筋を確立する。
In this paper, we propose WaterMark Detection (WMD), the first invisible watermark detection method under a black-box and annotation-free setting. WMD is capable of detecting arbitrary watermarks within a given reference dataset using a clean non-watermarked dataset as a reference, without relying on specific decoding methods or prior knowledge of the watermarking techniques. We develop WMD using foundations of offset learning, where a clean non-watermarked dataset enables us to isolate the influence of only watermarked samples in the reference dataset. Our comprehensive evaluations demonstrate the effectiveness of WMD, significantly outperforming naive detection methods, which only yield AUC scores around 0.5. In contrast, WMD consistently achieves impressive detection AUC scores, surpassing 0.9 in most single-watermark datasets and exceeding 0.7 in more challenging multi-watermark scenarios across diverse datasets and watermarking methods. As invisible watermarks become increasingly prevalent, while specific decoding techniques remain undisclosed, our approach provides a versatile solution and establishes a path toward increasing accountability, transparency, and trust in our digital visual content. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# グラフ色問題に対する部分順序付けモデルのSAT符号化
SAT Encoding of Partial Ordering Models for Graph Coloring Problems ( http://arxiv.org/abs/2403.15961v1 ) ライセンス: Link先を確認 | Daniel Faber, Adalat Jabrayilov, Petra Mutzel, | (参考訳) 本稿では,グラフ着色問題 (GCP) と帯域幅着色問題 (BCP) に対する部分順序付けベースLPモデルの新たなSAT符号化を提案する。
GCPは、与えられたグラフの頂点に割り当てられる最小の色数を求め、隣接する2つの頂点はそれぞれ異なる色を得る。
BCPは一般化であり、各エッジは、割り当てられた色の間に最小の「距離」を強制する重みを持ち、その目標は、使用される「最大の」色を最小化することである。
広く研究されているGCPでは、新しいSATエンコーディングとDIMACSベンチマークセットの最先端アプローチを実験的に比較する。
評価の結果、このSAT符号化はスパースグラフに有効であり、DIMACSインスタンスの最先端よりも優れていたことが確認された。
BCP では,部分順序付きSAT と ILP の定式化が古典的代入ベースモデルよりも漸近的に小さいことを示す。
実際の評価では,代入ベースの符号化よりも,ベンチマークインスタンスの集合に対する最先端のアプローチの方が優位であることが確認されている。
私たちの知る限り、BCPのいくつかのオープンな事例を文献から初めて解決しました。
In this paper, we suggest new SAT encodings of the partial-ordering based ILP model for the graph coloring problem (GCP) and the bandwidth coloring problem (BCP). The GCP asks for the minimum number of colors that can be assigned to the vertices of a given graph such that each two adjacent vertices get different colors. The BCP is a generalization, where each edge has a weight that enforces a minimal "distance" between the assigned colors, and the goal is to minimize the "largest" color used. For the widely studied GCP, we experimentally compare our new SAT encoding to the state-of-the-art approaches on the DIMACS benchmark set. Our evaluation confirms that this SAT encoding is effective for sparse graphs and even outperforms the state-of-the-art on some DIMACS instances. For the BCP, our theoretical analysis shows that the partial-ordering based SAT and ILP formulations have an asymptotically smaller size than that of the classical assignment-based model. Our practical evaluation confirms not only a dominance compared to the assignment-based encodings but also to the state-of-the-art approaches on a set of benchmark instances. Up to our knowledge, we have solved several open instances of the BCP from the literature for the first time. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# 機械学習を用いた特徴量の少ない問題ギャンブルの検出
Detection of Problem Gambling with Less Features Using Machine Learning Methods ( http://arxiv.org/abs/2403.15962v1 ) ライセンス: Link先を確認 | Yang Jiao, Gloria Wong-Padoongpatt, Mei Yang, | (参考訳) ギャンブル研究における分析機能は,ユーザの日常行動に関するデータ監視量に基づいて行われる。
問題ギャンブルの検出を行う一方で、既存のデータセットは機械学習ベースのモデルを構築するための比較的リッチな分析機能を提供する。
しかし、実際のアプリケーションにおける分析機能収集の複雑さとコストを考慮すると、より少ない機能で正確な検出を行うことで、データ収集のコストを大幅に削減できる。
本研究では,限られた解析的特徴を用いたディープニューラルネットワークPGN4を提案する。
2つのデータセットの実験を通して、PGN4は102の機能を5つの機能にカットする際にのみ、単なるパフォーマンス低下を経験することを発見した。
さらに、2つのデータセットから上位5つの機能の中で共通点を見つけます。
Analytic features in gambling study are performed based on the amount of data monitoring on user daily actions. While performing the detection of problem gambling, existing datasets provide relatively rich analytic features for building machine learning based model. However, considering the complexity and cost of collecting the analytic features in real applications, conducting precise detection with less features will tremendously reduce the cost of data collection. In this study, we propose a deep neural networks PGN4 that performs well when using limited analytic features. Through the experiment on two datasets, we discover that PGN4 only experiences a mere performance drop when cutting 102 features to 5 features. Besides, we find the commonality within the top 5 features from two datasets. | 翻訳日:2024-03-26 20:22:33 公開日:2024-03-23 |
# 量子オンサガー関係
Quantum Onsager relations ( http://arxiv.org/abs/2403.12896v2 ) ライセンス: Link先を確認 | Mankei Tsang, | (参考訳) 量子情報幾何学を用いて、定常状態に近い系の不可逆ダイナミクスをモデル化するオンサーガー速度方程式の量子一般化を導出する。
電流を再定義することにより、詳細なバランスを仮定することなく対称輸送テンソルを持つ方程式のバージョンを提案する。
より伝統的な電流の定義で、輸送テンソルが対称でないかもしれない別のバージョンを提案し、その対称性について正確な条件を与える。
量子詳細バランスの合理的な定義は、必要ではないが、条件として十分であることが示されている。
2つのバージョンの関係と相対的なメリット、および物理システムとの関係について論じる。
Using quantum information geometry, I derive quantum generalizations of the Onsager rate equations, which model the irreversible dynamics of a system near a steady state. By redefining the currents, I propose a version of the equations with a symmetric transport tensor without assuming any detailed balance. With a more conventional definition of the currents, I propose another version where the transport tensor may not be symmetric, and I give the precise condition for its symmetry. A reasonable definition of quantum detailed balance is shown to be a sufficient, though not necessary, condition. The relations and relative merits of the two versions, as well as their connection to physical systems, are discussed. | 翻訳日:2024-03-26 10:58:39 公開日:2024-03-23 |
# もはや最適化ルールはない: LLM対応ポリシーベースのマルチモーダルクエリオプティマイザ
No more optimization rules: LLM-enabled policy-based multi-modal query optimizer ( http://arxiv.org/abs/2403.13597v2 ) ライセンス: Link先を確認 | Yifan Wang, Haodi Ma, Daisy Zhe Wang, | (参考訳) 大規模言語モデル(LLM)は、機械学習とディープラーニングの分野で重要な瞬間となっている。
近年,単一モーダルクエリとマルチモーダルクエリの両方を含むクエリプランニング機能について検討されている。
しかし,LLMのクエリ最適化機能については検討されていない。
クエリプランの実行パフォーマンスに大きな影響を与える重要な(あるいは最も重要な)ステップとして、そのような分析や試行は見逃すべきではない。
別の側面では、既存のクエリオプティマイザは通常、ルールベースまたはルールベース+コストベースである。
現代のオプティマイザには数百から数千のルールが含まれており、同様の方法でマルチモーダルクエリオプティマイザを設計するのは、可能な限り多くのマルチモーダル最適化ルールを列挙する必要があるため、非常に時間がかかる。
本稿では,LLMのクエリ最適化能力について検討し,新しいLLMおよびポリシーベースのマルチモーダルクエリオプティマイザであるLaPudaを設計する。
具体的なルールと詳細なルールを列挙する代わりに、LaPudaは最適化においてLLMを導くための抽象的なポリシーを少しだけ必要とします。
さらに,LSMの誤りや負の最適化を防止するため,勾配降下の考え方を取り入れ,最適化を行うための誘導コスト降下(GCD)アルゴリズムを提案する。
評価において,本手法は,ほとんどの場合,基準線を一貫して上回っている。
例えば、我々のメソッドによって生成される最適化されたプランは、ベースラインよりも1~3倍高速に実行されます。
Large language model (LLM) has marked a pivotal moment in the field of machine learning and deep learning. Recently its capability for query planning has been investigated, including both single-modal and multi-modal queries. However, there is no work on the query optimization capability of LLM. As a critical (or could even be the most important) step that significantly impacts the execution performance of the query plan, such analysis and attempts should not be missed. From another aspect, existing query optimizers are usually rule-based or rule-based + cost-based, i.e., they are dependent on manually created rules to complete the query plan rewrite/transformation. Given the fact that modern optimizers include hundreds to thousands of rules, designing a multi-modal query optimizer following a similar way is significantly time-consuming since we will have to enumerate as many multi-modal optimization rules as possible, which has not been well addressed today. In this paper, we investigate the query optimization ability of LLM and use LLM to design LaPuda, a novel LLM and Policy based multi-modal query optimizer. Instead of enumerating specific and detailed rules, LaPuda only needs a few abstract policies to guide LLM in the optimization, by which much time and human effort are saved. Furthermore, to prevent LLM from making mistakes or negative optimization, we borrow the idea of gradient descent and propose a guided cost descent (GCD) algorithm to perform the optimization, such that the optimization can be kept in the correct direction. In our evaluation, our methods consistently outperform the baselines in most cases. For example, the optimized plans generated by our methods result in 1~3x higher execution speed than those by the baselines. | 翻訳日:2024-03-26 10:58:39 公開日:2024-03-23 |
# マスケッド学習を用いたトランスフォーマを用いた感情認識
Emotion Recognition Using Transformers with Masked Learning ( http://arxiv.org/abs/2403.13731v2 ) ライセンス: Link先を確認 | Seongjae Min, Junseok Yang, Sangjun Lim, Junyong Lee, Sangwon Lee, Sejoon Lim, | (参考訳) 近年、深層学習は、人間の感情や行動の分析など、様々な分野で革新的な進歩を遂げている。
ABAW(Affective Behavior Analysis in-the-Wild)コンペティションのようなイニシアチブは、複雑な感情状態の正確な評価を可能にする多様で挑戦的なデータセットを提供することによって、この分野の研究を促進する上で特に役立っている。
本研究では、視覚変換器(ViT)とトランスフォーマー(Transformer)モデルを用いて、感情の肯定性と強さ、様々な表情の認識、基本的な筋運動を表すアクションユニット(AU)の検出に焦点をあてる。
このアプローチは従来の畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)ベースの手法を超越し、時間的および空間的特徴の理解を最大化する新しいTransformerベースのフレームワークを提案する。
本研究のコアコントリビューションは,ランダムフレームマスキングによる学習手法の導入と,不均衡なデータに適応した焦点損失の適用,実世界の環境における感情と行動分析の正確性と適用性の向上である。
このアプローチは、感情コンピューティングとディープラーニング方法論の進歩に寄与することが期待されている。
In recent years, deep learning has achieved innovative advancements in various fields, including the analysis of human emotions and behaviors. Initiatives such as the Affective Behavior Analysis in-the-wild (ABAW) competition have been particularly instrumental in driving research in this area by providing diverse and challenging datasets that enable precise evaluation of complex emotional states. This study leverages the Vision Transformer (ViT) and Transformer models to focus on the estimation of Valence-Arousal (VA), which signifies the positivity and intensity of emotions, recognition of various facial expressions, and detection of Action Units (AU) representing fundamental muscle movements. This approach transcends traditional Convolutional Neural Networks (CNNs) and Long Short-Term Memory (LSTM) based methods, proposing a new Transformer-based framework that maximizes the understanding of temporal and spatial features. The core contributions of this research include the introduction of a learning technique through random frame masking and the application of Focal loss adapted for imbalanced data, enhancing the accuracy and applicability of emotion and behavior analysis in real-world settings. This approach is expected to contribute to the advancement of emotional computing and deep learning methodologies. | 翻訳日:2024-03-26 10:51:37 公開日:2024-03-23 |
# Chain-of-Interaction:Dyadic Contexts による精神行動理解のための大規模言語モデルの構築
Chain-of-Interaction: Enhancing Large Language Models for Psychiatric Behavior Understanding by Dyadic Contexts ( http://arxiv.org/abs/2403.13786v2 ) ライセンス: Link先を確認 | Guangzeng Han, Weisi Liu, Xiaolei Huang, Brian Borsari, | (参考訳) 自動コーディング患者行動は、アルコールや薬物依存症といった精神医学的な問題に対処するための協調的なコミュニケーション介入アプローチであるモチベーション面接(MI)において、精神療法士の意思決定を支援するために不可欠である。
行動コーディングタスクは、MIセッション中に患者の状態を予測するために、機械学習を急速に適用してきたが、ドメイン固有の知識の欠如と、患者とセラピストの相互作用を見渡すことは、これらのモデルを実際に開発、デプロイする上で大きな課題である。
これらの課題に対処するために,我々は,大規模言語モデル (LLM) を,ダイアド相互作用による精神科的意思決定支援の文脈化を目的とした,CoI(Chain-of-Interaction)プロンプト手法を導入する。
CoIプロンプトアプローチは、コーディングタスクを3つの重要な推論ステップに体系的に分解し、患者のエンゲージメントを抽出し、セラピストの質問戦略を学習し、患者とセラピストの間のダイアド的相互作用を統合する。
このアプローチにより、大規模言語モデルは、患者の行動コーディングのためのコーディングスキーム、患者状態、およびドメイン知識を活用することができる。
実世界のデータセットに対する実験は、既存のプロンプトベースラインよりも複数の最先端LCMを用いたプロンプト手法の有効性と柔軟性を証明できる。
心理療法の行動理解にLLMを適用する際には,広範囲にわたるアブレーション分析を行い,ダイアディック相互作用が重要な役割を担っていることを実証した。
Automatic coding patient behaviors is essential to support decision making for psychotherapists during the motivational interviewing (MI), a collaborative communication intervention approach to address psychiatric issues, such as alcohol and drug addiction. While the behavior coding task has rapidly adapted machine learning to predict patient states during the MI sessions, lacking of domain-specific knowledge and overlooking patient-therapist interactions are major challenges in developing and deploying those models in real practice. To encounter those challenges, we introduce the Chain-of-Interaction (CoI) prompting method aiming to contextualize large language models (LLMs) for psychiatric decision support by the dyadic interactions. The CoI prompting approach systematically breaks down the coding task into three key reasoning steps, extract patient engagement, learn therapist question strategies, and integrates dyadic interactions between patients and therapists. This approach enables large language models to leverage the coding scheme, patient state, and domain knowledge for patient behavioral coding. Experiments on real-world datasets can prove the effectiveness and flexibility of our prompting method with multiple state-of-the-art LLMs over existing prompting baselines. We have conducted extensive ablation analysis and demonstrate the critical role of dyadic interactions in applying LLMs for psychotherapy behavior understanding. | 翻訳日:2024-03-26 10:51:37 公開日:2024-03-23 |
# BARTを用いたつぶやきからの感情句の抽出
Extracting Emotion Phrases from Tweets using BART ( http://arxiv.org/abs/2403.14050v2 ) ライセンス: Link先を確認 | Mahdi Rezapour, | (参考訳) 感性分析は、テキストの感情的側面を特定し、抽出することを目的とした自然言語処理タスクである。
しかし、既存の感情分析手法の多くは、感情を伝える特定のフレーズを見渡すことによって、テキストの全体極性を主に分類している。
本稿では,質問応答の枠組みに基づく感情分析にアプローチを適用した。
提案手法は、事前訓練されたシーケンス・ツー・シーケンスモデルである双方向自己回帰変換器(BART)のパワーを利用して、与えられた感情極性を増幅する与えられたテキストからフレーズを抽出する。
我々は、抽出する特定の感情を識別する自然言語質問を作成し、BARTにテキスト中の関連する感情的手がかりに注意を払うよう誘導する。
BART内の分類器を用いて、テキスト内の回答の開始位置と終了位置を予測し、抽出した感情句の正確な境界を識別する。
我々のアプローチは、テキストの完全な文脈と意味を捉え、意図された感情を強調する正確なトークンスパンを抽出するなど、ほとんどの感情分析研究に対していくつかの利点を提供している。
最終損失は87%、Jaccardスコアは0.61でした。
Sentiment analysis is a natural language processing task that aims to identify and extract the emotional aspects of a text. However, many existing sentiment analysis methods primarily classify the overall polarity of a text, overlooking the specific phrases that convey sentiment. In this paper, we applied an approach to sentiment analysis based on a question-answering framework. Our approach leverages the power of Bidirectional Autoregressive Transformer (BART), a pre-trained sequence-to-sequence model, to extract a phrase from a given text that amplifies a given sentiment polarity. We create a natural language question that identifies the specific emotion to extract and then guide BART to pay attention to the relevant emotional cues in the text. We use a classifier within BART to predict the start and end positions of the answer span within the text, which helps to identify the precise boundaries of the extracted emotion phrase. Our approach offers several advantages over most sentiment analysis studies, including capturing the complete context and meaning of the text and extracting precise token spans that highlight the intended sentiment. We achieved an end loss of 87% and Jaccard score of 0.61. | 翻訳日:2024-03-26 10:51:37 公開日:2024-03-23 |
# K-Act2Emo: 間接感情表現のための韓国のコモンセンス知識グラフ
K-Act2Emo: Korean Commonsense Knowledge Graph for Indirect Emotional Expression ( http://arxiv.org/abs/2403.14253v2 ) ライセンス: Link先を確認 | Kyuhee Kim, Surin Lee, Sangah Lee, | (参考訳) 多くの文献では、感情は行動、表情、外見の記述を通じて間接的に伝達され、物語理解のために感情推論を必要とする。
本稿では,K-Act2Emoについて紹介する。K-Act2Emoは韓国のコモンセンス知識グラフ(CSKG)で,1,900の間接的感情表現とそれらから推測可能な感情を含む。
我々は,肯定的な状況における推論,否定的な状況における推論,感情的な手がかりとして表現が役に立たない場合の推論に,推論型を分類する。
既存のCSKGとは異なり、K-Act2Emoは感情の文脈を専門とし、実験結果は感情推論モデルのトレーニングに有効である。
重要なことに、K-Act2Emoで微調整されたBARTベースのナレッジモデルは、GPT-4 Turboに匹敵するパフォーマンスレベルを達成し、韓国の様々な大規模言語モデルより優れている。
In many literary texts, emotions are indirectly conveyed through descriptions of actions, facial expressions, and appearances, necessitating emotion inference for narrative understanding. In this paper, we introduce K-Act2Emo, a Korean commonsense knowledge graph (CSKG) comprising 1,900 indirect emotional expressions and the emotions inferable from them. We categorize reasoning types into inferences in positive situations, inferences in negative situations, and inferences when expressions do not serve as emotional cues. Unlike existing CSKGs, K-Act2Emo specializes in emotional contexts, and experimental results validate its effectiveness for training emotion inference models. Significantly, the BART-based knowledge model fine-tuned with K-Act2Emo outperforms various existing Korean large language models, achieving performance levels comparable to GPT-4 Turbo. | 翻訳日:2024-03-26 10:51:37 公開日:2024-03-23 |
# ロボットの視点からの3次元人物位置推定と予測:HARPERデータセット
Exploring 3D Human Pose Estimation and Forecasting from the Robot's Perspective: The HARPER Dataset ( http://arxiv.org/abs/2403.14447v2 ) ライセンス: Link先を確認 | Andrea Avogaro, Andrea Toaiari, Federico Cunico, Xiangmin Xu, Haralambos Dafas, Alessandro Vinciarelli, Emma Li, Marco Cristani, | (参考訳) 我々は,ボストン・ダイナミクスが製造する四足歩行ロボットSpotとユーザ間のダイアドインタラクションにおける3Dボディポーズ推定と予測のための新しいデータセットであるHARPERを紹介した。
キーノーベルティは、ロボットの視点、すなわちロボットのセンサーが捉えたデータに焦点を当てることである。
これらの3Dボディのポーズ分析は、地面の近くにいると部分的にしか人間を捕えることができないため、難しい。
HARPERの基盤となるシナリオには15のアクションが含まれており、そのうち10つはロボットとユーザの間の物理的接触を含んでいる。
コーパスはSpotの内蔵ステレオカメラの録音だけでなく、6カメラのOptiTrackシステム(すべての録音は同期)の録音も含んでいる。
これにより、1ミリ未満の精度で骨格の地上構造が表現される。
さらに、コーパスには、公開ベースラインアプローチに基づいた、3Dヒューマンポース推定、ヒューマンポース予測、コリジョン予測の再現可能なベンチマークが含まれている。
これにより、将来のHARPERユーザは、この作業で提供する結果と厳格に比較することができます。
We introduce HARPER, a novel dataset for 3D body pose estimation and forecast in dyadic interactions between users and Spot, the quadruped robot manufactured by Boston Dynamics. The key-novelty is the focus on the robot's perspective, i.e., on the data captured by the robot's sensors. These make 3D body pose analysis challenging because being close to the ground captures humans only partially. The scenario underlying HARPER includes 15 actions, of which 10 involve physical contact between the robot and users. The Corpus contains not only the recordings of the built-in stereo cameras of Spot, but also those of a 6-camera OptiTrack system (all recordings are synchronized). This leads to ground-truth skeletal representations with a precision lower than a millimeter. In addition, the Corpus includes reproducible benchmarks on 3D Human Pose Estimation, Human Pose Forecasting, and Collision Prediction, all based on publicly available baseline approaches. This enables future HARPER users to rigorously compare their results with those we provide in this work. | 翻訳日:2024-03-26 10:51:37 公開日:2024-03-23 |
# モデル改善のための概念ベースアプローチに関する調査研究
A survey on Concept-based Approaches For Model Improvement ( http://arxiv.org/abs/2403.14566v2 ) ライセンス: Link先を確認 | Avani Gupta, P J Narayanan, | (参考訳) 最近の研究の焦点は、Deep Neural Networks(DNN)のメトリクスベースのパフォーマンスを単に改善することから、人間により解釈可能なDNNへと移行した。
eXplainable Artificial Intelligence(XAI)の分野は、サリエンシベースのアプローチやコンセプトベースのアプローチなど、さまざまなテクニックを観測してきた。
これらのアプローチは、コンセプトと呼ばれる単純な人間の理解可能な用語でモデルの決定を説明する。
概念は人間の思考基盤として知られている。
概念的な説明は、刺激的な相関、固有のバイアス、または賢いハンの検出を可能にする。
概念に基づく説明の出現に伴い、概念表現法や自動概念発見アルゴリズムが導入された。
いくつかの最近の研究は、解釈可能性や一般化の観点からモデルの改善の概念も用いている。
様々な概念表現の体系的なレビューと分類と,その発見アルゴリズムをDNNで,特に視覚において提供する。
また,これらの手法を総合的に調査した最初の論文として,概念に基づくモデル改善文献について詳述する。
The focus of recent research has shifted from merely improving the metrics based performance of Deep Neural Networks (DNNs) to DNNs which are more interpretable to humans. The field of eXplainable Artificial Intelligence (XAI) has observed various techniques, including saliency-based and concept-based approaches. These approaches explain the model's decisions in simple human understandable terms called Concepts. Concepts are known to be the thinking ground of humans}. Explanations in terms of concepts enable detecting spurious correlations, inherent biases, or clever-hans. With the advent of concept-based explanations, a range of concept representation methods and automatic concept discovery algorithms have been introduced. Some recent works also use concepts for model improvement in terms of interpretability and generalization. We provide a systematic review and taxonomy of various concept representations and their discovery algorithms in DNNs, specifically in vision. We also provide details on concept-based model improvement literature marking the first comprehensive survey of these methods. | 翻訳日:2024-03-26 10:51:37 公開日:2024-03-23 |